Дефицит данных для обучения ИИ — не та проблема, за которую его выдают
Коротко Растет обеспокоенность по поводу нехватки данных для обучения моделей ИИ, однако общедоступный Интернет предлагает обширные, постоянно расширяющиеся источники данных, поэтому маловероятно, что ИИ когда-либо столкнется с реальной нехваткой данных.
Сегодняшние модели искусственного интеллекта способны на удивительные вещи. Это почти как если бы у них были магические силы, но, конечно, это не так. Вместо того, чтобы использовать магические трюки, модели ИИ на самом деле работают с данными — огромными и огромными данными.
Но растут опасения, что нехватка этих данных может привести к тому, что быстрые темпы инноваций ИИ иссякнут. В последние месяцы были несколько предупреждений от экспертов, утверждающих, что в мире исчерпывается запас свежих данных для обучения следующего поколения моделей.
Нехватка данных будет особенно сложной для разработки больших языковых моделей, которые являются двигателями, питающими генеративные ИИ-чатботы и генераторы изображений. Они обучаются на огромных объемах данных, и с каждым новым скачком производительности требуется все больше и больше для их продвижения.
Эти проблемы с нехваткой данных для обучения ИИ уже заставили некоторые компании искать альтернативные решения, такие как использование ИИ для создания синтетических данных для обучения ИИ. партнерство с медиакомпаниями использовать их контент и внедрять устройства «интернета вещей», которые предоставляют информацию о поведении потребителей в режиме реального времени.
Однако есть убедительные причины полагать, что эти страхи преувеличены. Скорее всего, индустрия ИИ никогда не будет испытывать нехватку данных, поскольку разработчики всегда могут обратиться к единственному крупнейшему источнику информации, который когда-либо знал мир, — общедоступному Интернету.
Горы данных
Большинство разработчиков ИИ уже берут данные для обучения из общедоступного интернета. Говорят, что OpenAIАвтора GPT-3 модель, двигатель вирусного ChatGPT Чат-бот, который первым представил генеративный ИИ массам, был обучен на данных из Common Crawl, архива контента, полученного из публичного интернета. Около 410 миллиардов токенов или информации, основанной практически на всем, что было опубликовано в сети до этого момента, были введены в ChatGPT, давая ему знания, необходимые для ответа практически на любой вопрос, который мы могли бы ему задать.
Веб-данные — это широкий термин, который охватывает практически все, что публикуется в сети, включая правительственные отчеты, научные исследования, новостные статьи и контент социальных сетей. Это удивительно богатый и разнообразный набор данных, отражающий все: от общественных настроений до потребительских тенденций, состояния мировой экономики и обучающего контента DIY.
Интернет — идеальная среда для моделей ИИ, не только потому, что он такой огромный, но и потому, что он такой доступный. Использование специализированных инструментов, таких как Bright Data Браузер очистки , можно в режиме реального времени получать информацию с миллионов веб-сайтов для своих данных, включая многие из тех, которые активно пытаются помешать ботам делать это.
Благодаря таким функциям, как решатели Captcha, автоматизированные повторные попытки, API и обширная сеть прокси-IP, разработчики могут легко обойти самые надежные механизмы блокировки ботов, используемые на таких сайтах, как eBay и Facebook, и получить доступ к огромным массивам информации. Платформа Bright Data также интегрируется с рабочими процессами обработки данных, что позволяет выполнять бесшовную структуризацию, очистку и обучение в масштабе.
На самом деле не ясно, сколько данных доступно в Интернете сегодня. В 2018 году International Data Corp. подсчитала, что общий объем данных, размещенных в Интернете, составит достичь 175 зеттабайт к концу 2025 года, в то время как более поздние данные Statista предполагают, что 181 зетабайт Достаточно сказать, что это гора информации, и со временем она становится все больше и больше.
Проблемы и этические вопросы
Разработчики по-прежнему сталкиваются с серьезными проблемами, когда дело доходит до ввода этой информации в свои модели ИИ. Веб-данные, как известно, беспорядочны и неструктурированы, и в них часто есть противоречия и отсутствуют значения. Они требуют интенсивной обработки и «очистки», прежде чем их смогут понять алгоритмы. Кроме того, веб-данные часто содержат множество неточных и нерелевантных деталей, которые могут исказить выходные данные моделей ИИ и подпитывать так называемые «галлюцинации».
Существуют также этические вопросы, связанные со сбором интернет-данных, особенно в отношении материалов, защищенных авторским правом, и того, что представляет собой «добросовестное использование». В то время как такие компании, как OpenAI утверждают, что им должно быть разрешено извлекать любую информацию, которая свободно доступна для потребления в Интернете, многие создатели контента говорят, что это далеко не честно, поскольку эти компании в конечном итоге получают прибыль от их работы, а сами потенциально остаются без работы.
Несмотря на сохраняющуюся двусмысленность относительно того, какие веб-данные можно и нельзя использовать для обучения ИИ, их важность нельзя отрицать. В недавнем отчете Bright Data State of Public Web Data Report 88% опрошенных разработчиков согласилась что общедоступные веб-данные «критически важны» для разработки моделей ИИ из-за их доступности и невероятного разнообразия.
Это объясняет, почему 72% разработчиков обеспокоены тем, что в ближайшие пять лет доступ к этим данным может стать все более затруднительным из-за усилий таких крупных технологических компаний, как Meta, Amazon и Google, которые предпочли бы продавать свои данные исключительно дорогостоящим корпоративным партнерам.
Аргументы в пользу использования веб-данных
Вышеуказанные проблемы объясняют, почему было много разговоров об использовании синтетических данных в качестве альтернативы тому, что доступно в сети. Фактически, возникают дебаты относительно преимуществ синтетических данных по сравнению с интернет-скрапингом, с некоторыми вескими аргументами в пользу первого.
Сторонники синтетических данных указывают на такие преимущества, как повышение конфиденциальности, снижение предвзятости и большую точность, которые они предлагают. Более того, они идеально структурированы для моделей ИИ с самого начала, что означает, что разработчикам не нужно вкладывать ресурсы в их переформатирование и правильную маркировку для чтения моделями ИИ.
С другой стороны, чрезмерная зависимость от синтетических наборов данных может привести к краху модели, и независимо от этого мы можем привести столь же веские доводы в пользу превосходства общедоступных веб-данных. Во-первых, трудно превзойти чистое разнообразие и богатство веб-данных, которые бесценны для обучения моделей ИИ, которым необходимо справляться со сложностью и неопределенностью реальных сценариев. Это также может помочь создать более надежные модели ИИ из-за сочетания человеческих перспектив и своей свежести, особенно когда модели могут получать к ним доступ в реальном времени.
В одной недавнего интервью Генеральный директор Bright Data Ор Ленчнер подчеркнул, что лучший способ обеспечить точность результатов ИИ — это получать данные из различных общедоступных источников с установленной надежностью. Когда модель ИИ использует только один или несколько источников, ее знания, скорее всего, будут неполными, утверждал он. «Наличие нескольких источников дает возможность перекрестно ссылаться на данные и создавать более сбалансированный и хорошо представленный набор данных», — сказал Ленчнер.
Более того, разработчики больше уверены в том, что допустимо использовать данные, импортированные из Интернета. В судебном решении прошлой зимой федеральный судья вынес решение в пользу Bright Data, на которую Meta подала в суд за ее деятельность по веб-скрейпингу. В этом случае он обнаружил, что хотя условия обслуживания Facebook и Instagram запрещают пользователям с учетной записью выполнять парсинг их веб-сайтов, нет никаких правовых оснований, запрещающих неавторизированным пользователям получать доступ к общедоступным данным на этих платформах.
Публичные данные также имеют преимущество в том, что они органичны. В синтетических наборах данных более мелкие культуры и тонкости их поведения, скорее всего, будут опущены. С другой стороны, публичные данные, созданные реальными людьми, являются настолько аутентичными, насколько это возможно, и, следовательно, транслируются в более информированные модели ИИ для превосходной производительности.
Нет будущего без Интернета
Наконец, важно отметить, что природа ИИ тоже меняется. Как отметил Ленчнер, агенты ИИ играют гораздо большую роль в использовании ИИ, помогая собирать и обрабатывать данные для использования в обучении ИИ. Преимущество этого выходит за рамки устранения обременительной ручной работы для разработчиков, сказал он, поскольку скорость, с которой работают агенты ИИ, означает, что модели ИИ могут расширять свои знания в режиме реального времени.
«ИИ-агенты могут трансформировать отрасли, поскольку они позволяют ИИ-системам получать доступ и учиться на постоянно меняющихся наборах данных в Интернете вместо того, чтобы полагаться на статические и вручную обработанные данные», — сказал Ленчнер. «Это может привести к появлению ИИ-чатботов, например, в банковской сфере или в сфере кибербезопасности, которые способны принимать решения, отражающие самые последние реалии».
В наши дни почти все привыкли постоянно пользоваться интернетом. Он стал критически важным ресурсом, предоставляя нам доступ к тысячам основных услуг и позволяя работать, общаться и многое другое. Если системы ИИ когда-либо превзойдут возможности человека, им понадобится доступ к тем же ресурсам, и самым важным из них является Интернет.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Мужчина приговорен к 30 годам за финансирование ИГИЛ с помощью криптовалюты
Краткий обзор: Житель Вирджинии был приговорен к более чем 30 годам федеральной тюрьмы за сбор средств для Исламского государства Ирака и Шама (ИГИЛ) с использованием банковских переводов, социальных сетей и криптовалюты. Расследование возглавило Вашингтонское полевое управление ФБР.

Министр финансов США Бессент критикует Сенат за блокировку законопроекта о стейблкоинах, называя это «упущенной возможностью» для американского лидерства
Краткий обзор: В четверг сенаторы США проголосовали за приостановку продвижения законопроекта о регулировании стейблкоинов на фоне обостряющихся напряжений из-за участия президента Дональда Трампа в криптовалюте. Министр финансов Скотт Бессент заявил, что американское лидерство необходимо для глобального процветания стейблкоинов и других цифровых активов, раскритиковав Сенат за "упущенную возможность".

Демократы Сената требуют ответов о связях Трампа с криптовалютой и сделках с Binance
Краткий обзор Демократы выразили обеспокоенность по поводу сочетания необходимости Binance соблюдать условия урегулирования и участия Трампа в иностранных компаниях Некоторые демократы все больше выражают обеспокоенность по поводу связей Трампа с цифровыми активами, что, в свою очередь, усложнило законодательные усилия

Вице-президент Вэнс выступит на Bitcoin 2025 в Лас-Вегасе
Краткий обзор Вице-президент Дж. Д. Вэнс выступит на предстоящей конференции Bitcoin 2025 в Лас-Вегасе, штат Невада, согласно объявлению в пятницу. В прошлом году Дональд Трамп выступил на ежегодной конференции BTC Inc. в Нэшвилле, штат Теннесси, во время предвыборной кампании.

Популярное
ДалееЦены на крипто
Далее








