Как технологические гиганты сокращают сбор данных для искусственного интеллекта, - The New York Times

Tazabek — OpenAI, Google и Meta игнорировали корпоративную политику, изменили свои собственные правила и обсуждали обход закона об авторском праве, когда искали онлайн-информацию для обучения своих новейших систем искусственного интеллекта.

Исследователи из офиса OpenAI в Сан-Франциско разработали инструмент для расшифровки видео с YouTube, чтобы собрать диалоговый текст для ИИ. разработка. Об этом пишет Джейсон Генри для The New York Times.

В конце 2021 года OpenAI столкнулась с проблемой поставок.

Лаборатория искусственного интеллекта исчерпала все запасы авторитетных англоязычных текстов в Интернете, разрабатывая свою новейшую версию искусственного интеллекта. система. Для обучения следующей версии технологии требовалось больше данных — намного больше.

Поэтому исследователи OpenAI создали инструмент распознавания речи под названием Whisper. Он мог бы расшифровывать аудио из видеороликов YouTube, получая новый диалоговый текст, который мог бы сделать ИИ. система умнее.

Некоторые сотрудники OpenAI обсуждали, как такой шаг может противоречить правилам YouTube, рассказали три человека, знакомых с ходом разговора. YouTube, принадлежащий Google, запрещает использовать свои видео для приложений, «независимых» от видеоплатформы.

По словам источников, в конечном итоге команда OpenAI расшифровала более миллиона часов видео с YouTube. По словам двух человек, в команду входил Грег Брокман, президент OpenAI, который лично помогал собирать видео. Затем тексты были переданы в систему под названием GPT-4, которая считалась одной из самых мощных в мире систем искусственного интеллекта. модели и лег в основу последней версии чат-бота ChatGPT.

Гонка за лидерство ИИ превратилась в отчаянную охоту за цифровыми данными, необходимыми для развития технологий. Согласно исследованию The New York Times, чтобы получить эти данные, технологические компании, в том числе OpenAI, Google и Meta, пошли на уступки, игнорировали корпоративную политику и пытались обойти закон.

В компании Meta, которой принадлежат Facebook и Instagram, менеджеры, юристы и инженеры в прошлом году обсуждали покупку издательского дома Simon & Schuster для закупки объемных работ, согласно записям внутренних встреч, полученным The Times. Они также договорились о сборе данных, защищенных авторским правом, со всего Интернета, даже если это означало бы судебные иски. По их словам, переговоры о лицензиях с издателями, художниками, музыкантами и представителями новостной индустрии займут слишком много времени.

Как и OpenAI, Google транскрибировал видео с YouTube, чтобы собрать текст для своего искусственного интеллекта. модели, рассказали пять человек, знакомых с практикой компании. Это потенциально нарушило авторские права на видеоролики, принадлежащие их создателям.

В прошлом году Google также расширил условия обслуживания. По словам членов команды по обеспечению конфиденциальности компании и внутреннего сообщения, просмотренного The Times, одной из причин изменения было предоставление Google возможности использовать общедоступные документы Google, обзоры ресторанов на Картах Google и другие онлайн-материалы для получения дополнительных сведений. А.И. продукты.

Действия компаний иллюстрируют, как онлайн-информация — новости, художественные произведения, сообщения на досках объявлений, статьи в Википедии, компьютерные программы, фотографии, подкасты и видеоролики — все чаще становится источником жизненной силы процветающего искусственного интеллекта. промышленность. Создание инновационных систем зависит от наличия достаточного количества данных, чтобы научить технологии мгновенно создавать текст, изображения, звуки и видео, напоминающие то, что создает человек.

Объем данных имеет решающее значение. Ведущие системы чат-ботов извлекают уроки из пулов цифрового текста, охватывающих целых три триллиона слов, что примерно в два раза больше слов, хранящихся в Бодлианской библиотеке Оксфордского университета, которая собирает рукописи с 1602 года. По мнению исследователей, это высококачественная информация, такая как опубликованные книги и статьи, которые были тщательно написаны и отредактированы профессионалами.

В течение многих лет Интернет с такими сайтами, как Википедия и Reddit, казался бесконечным источником данных. Но как А.И. передовые технологические компании искали больше хранилищ. Google и Meta, у которых есть миллиарды пользователей, которые ежедневно создают поисковые запросы и публикуют сообщения в социальных сетях, были в значительной степени ограничены законами о конфиденциальности и их собственной политикой в использовании большей части этого контента для ИИ.

Их ситуация неотложная. По данным исследовательского института Epoch, технологические компании смогут публиковать высококачественные данные в Интернете уже в 2026 году. Компании используют данные быстрее, чем они производятся.

«Единственный практический способ существования этих инструментов — это если их можно будет обучить на огромных объемах данных без необходимости лицензировать эти данные», — сказал Сай Дэмл, юрист, представляющий компанию Andreessen Horowitz, венчурную компанию Кремниевой долины, об искусственном интеллекте. моделей в прошлом году в публичной дискуссии по поводу закона об авторском праве. «Необходимые данные настолько огромны, что даже коллективное лицензирование действительно не может работать».

Технологические компании настолько жаждут новых данных, что некоторые из них разрабатывают «синтетическую» информацию. Это не органические данные, созданные людьми, а текст, изображения и код, которые создал ИИ. модели производят — другими словами, системы учатся на том, что они сами генерируют.

OpenAI заявила, что каждый из ее ИИ. models «имеет уникальный набор данных, который мы курируем, чтобы помочь им понять мир и оставаться конкурентоспособными на мировом уровне в исследованиях». Google заявил, что это искусственный интеллект. модели «обучаются на некотором контенте YouTube», что было разрешено соглашениями с создателями YouTube, и что компания не использовала данные из офисных приложений за пределами экспериментальной программы. Meta заявила, что «сделала агрессивные инвестиции» в интеграцию искусственного интеллекта. в свои сервисы и располагала миллиардами общедоступных изображений и видео из Instagram и Facebook для обучения своих моделей.

Для авторов растущее использование их произведений А.И. компаний вызвало судебные иски по поводу авторских прав и лицензирования. В прошлом году The Times подала в суд на OpenAI и Microsoft за использование новостных статей, защищенных авторским правом, без разрешения для обучения искусственного интеллекта. чат-боты. OpenAI и Microsoft заявили, что использование статей является «добросовестным использованием» или разрешено законом об авторском праве, поскольку они преобразовали произведения для другой цели.

Более 10 000 торговых групп, авторов, компаний и других лиц подали в прошлом году комментарии по поводу использования творческих произведений А.И. модели в Бюро регистрации авторских прав, федеральное агентство, которое готовит руководство о том, как закон об авторском праве применяется в сфере ИИ. эпоха.

Жюстин Бейтман, кинорежиссер, бывшая актриса и автор двух книг, рассказала Бюро регистрации авторских прав, что А.И. модели брали контент, включая ее произведения и фильмы, без разрешения и оплаты.

«Это крупнейшая кража в Соединенных Штатах», — сказала она в интервью.

«Масштаб – это все, что вам нужно»

В январе 2020 года Джаред Каплан, физик-теоретик из Университета Джонса Хопкинса, опубликовал новаторскую статью об искусственном интеллекте. это подогрело аппетит к онлайн-данным.

Его вывод был однозначным: чем больше данных будет для обучения большой языковой модели — технологии, которая управляет онлайн-чат-ботами, — тем лучше она будет работать. Точно так же, как учащийся учится больше, читая больше книг, большие языковые модели могут лучше выявлять закономерности в тексте и быть более точными при обработке большего количества информации.

«Все были очень удивлены тем, что эти тенденции — эти законы масштабирования, как мы их называем — были в основном такими же точными, как то, что вы видите в астрономии или физике», — сказал доктор Каплан, опубликовавший статью вместе с девятью исследователями OpenAI. (Сейчас он работает в стартапе Anthropic, занимающемся искусственным интеллектом.)

«Масштаб – это все, что вам нужно» вскоре стало объединяющим лозунгом для ИИ.

Исследователи уже давно используют большие общедоступные базы данных цифровой информации для разработки ИИ, включая Wikipedia и Common Crawl, базу данных, содержащую более 250 миллиардов веб-страниц, собранных с 2007 года. Исследователи часто «очищали» данные, удаляя разжигание ненависти и другой нежелательный текст перед использованием. это для обучения ИИ. модели.

В 2020 году наборы данных были крошечными по сегодняшним меркам. Одна база данных, содержащая 30 000 фотографий с фотосайта Flickr, в то время считалась жизненно важным ресурсом.

После статьи доктора Каплана такого объема данных стало недостаточно. Все сводилось к тому, чтобы «просто сделать что-то по-настоящему большим», — сказал Брэндон Дудерштадт, исполнительный директор Nomic, компании, занимающейся искусственным интеллектом. компания в Нью-Йорке.

Когда OpenAI представила GPT-3 в ноябре 2020 года, она была обучена на самом большом на сегодняшний день объёме данных — около 300 миллиардов «токенов», которые по сути представляют собой слова или фрагменты слов. Изучив эти данные, система генерировала текст с поразительной точностью, писала сообщения в блогах, стихи и собственные компьютерные программы.

В 2022 году DeepMind, система искусственного интеллекта. лаборатория, принадлежащая Google, пошла дальше. Он протестировал 400 ИИ. модели и варьировали объем обучающих данных и другие факторы. Наиболее эффективные модели использовали даже больше данных, чем предсказал доктор Каплан в своей статье. Одна модель, Chinchilla, была обучена на 1,4 триллионах токенов.

Вскоре его обогнали. В прошлом году исследователи из Китая опубликовали исследование искусственного интеллекта. модель Skywork, обученная на 3,2 триллионах токенов из английских и китайских текстов. Google также представила систему искусственного интеллекта. система PaLM 2, объем которой превысил 3,6 триллиона токенов.

Транскрипция YouTube

В мае Сэм Альтман, исполнительный директор OpenAI, признал, что ИИ. компании будут использовать все возможные данные в Интернете.

«Эти ресурсы закончатся», — сказал он в своем выступлении на технологической конференции.

Г-н Альтман видел это явление вблизи. В OpenAI исследователи годами собирали данные, очищали их и помещали в огромный массив текста для обучения языковых моделей компании. Они изучили репозиторий компьютерного кода GitHub, очистили базы данных шахматных ходов и использовали данные, описывающие школьные тесты и домашние задания, с веб-сайта Quizlet.

К концу 2021 года эти запасы были исчерпаны, рассказали восемь человек, знакомых с компанией, но не уполномоченных выступать публично.

OpenAI отчаянно нуждалась в дополнительных данных для разработки своего искусственного интеллекта следующего поколения. модель ГПТ-4. По словам людей, сотрудники обсуждали расшифровку подкастов, аудиокниг и видеороликов на YouTube. Они рассказали о создании данных с нуля с помощью ИИ. системы. Они также рассматривали возможность покупки стартапов, которые собрали большие объемы цифровых данных.

По словам шести человек, OpenAI в конечном итоге создала Whisper, инструмент распознавания речи, для расшифровки видео и подкастов на YouTube. Но YouTube запрещает людям не только использовать его видео для «независимых» приложений, но и получать доступ к его видео «любыми автоматизированными средствами (такими как роботы, ботнеты или парсеры)».

По словам людей, сотрудники OpenAI знали, что они вступают в серую зону закона, но считали, что обучение ИИ использование видео было добросовестным. Г-н Брокман, президент OpenAI, был указан в исследовательской работе как создатель Whisper. По словам двух человек, он лично помогал собирать видео на YouTube и использовать их в технологии.

Г-н Брокман направил запросы на комментарии в OpenAI, которая заявила, что использует «многочисленные источники» данных.

В прошлом году OpenAI выпустила GPT-4, основанную на более чем миллионе часов видео YouTube, расшифрованных Whisper. Г-н Брокман возглавлял команду, разработавшую GPT-4.

По словам двух человек, знакомых с компаниями, некоторые сотрудники Google знали, что OpenAI собирала видео с YouTube для сбора данных. Но они не остановили OpenAI, потому что Google также использовал расшифровки видеороликов YouTube для обучения своего ИИ. модели, говорили люди. Такая практика могла нарушать авторские права авторов YouTube. Поэтому, если Google поднимет шум вокруг OpenAI, может возникнуть общественный резонанс против ее собственных методов, говорят люди.

Мэтт Брайант, представитель Google, заявил, что компания ничего не знает о методах OpenAI и запретил «несанкционированное сканирование или загрузку контента YouTube». По его словам, Google принимает меры, когда у нее есть для этого четкая юридическая или техническая основа.

Правила Google разрешали использовать данные пользователей YouTube для разработки новых функций для видеоплатформы. Но было неясно, сможет ли Google использовать данные YouTube для создания коммерческого сервиса за пределами видеоплатформы, такого как чат-бот.

Джеффри Лоттенберг, юрист по интеллектуальной собственности юридической фирмы Berger Singerman, сказал, что формулировки Google о том, что она может и не может делать с расшифровками видео YouTube, являются расплывчатыми.

«Могут ли данные быть использованы для новой коммерческой услуги, остается открытым для интерпретации и может быть оспорено в судебном порядке», — сказал он.

В конце 2022 года, после того как OpenAI выпустила ChatGPT и начала общеотраслевую гонку за догоняющим, исследователи и инженеры Google обсудили возможность использования других пользовательских данных. Миллиарды слов хранятся в Google Docs и других бесплатных приложениях Google. Но ограничения конфиденциальности компании ограничивают возможности использования данных, рассказали три человека, знакомых с практикой Google.

В июне юридический отдел Google обратился к команде по конфиденциальности с просьбой разработать формулировку, чтобы расширить сферу использования данных потребителей, согласно словам двух членов команды по конфиденциальности и внутреннему сообщению, просмотренному The Times.

Сотрудникам сказали, что Google хочет использовать общедоступный контент людей в Google Docs, Google Sheets и связанных приложениях для множества задач искусственного интеллекта. продукты. Сотрудники заявили, что не знают, обучала ли компания ранее ИИ. по таким данным.

В то время в политике конфиденциальности Google говорилось, что компания может использовать общедоступную информацию только для «помощи в обучении языковых моделей Google и создании таких функций, как Google Translate».

Команда по обеспечению конфиденциальности написала новые условия, чтобы Google мог использовать данные для своего проекта «A.I. модели и создавать продукты и функции, такие как Google Translate, Bard и Cloud AI», который представлял собой более обширную коллекцию технологий искусственного интеллекта. технологии.

«Какова здесь конечная цель?» — спросил один из членов команды по обеспечению конфиденциальности во внутреннем сообщении. «Насколько широко мы идем?»

По словам сотрудников, команде было приказано опубликовать новые условия в выходные четвертого июля, когда люди обычно сосредоточены на праздниках. Пересмотренная политика дебютировала 1 июля, в начале длинных выходных.

Как Google может использовать ваши данные

В августе два члена группы по обеспечению конфиденциальности заявили, что они давили на менеджеров, может ли Google начать использовать данные из бесплатных потребительских версий Google Docs, Google Sheets и Google Slides. По их словам, им не дали четких ответов.

Г-н Брайант сказал, что изменения в политике конфиденциальности были внесены для ясности и что Google не использует информацию из Google Docs или связанных приложений для обучения языковых моделей «без явного разрешения» пользователей, имея в виду добровольную программу, которая позволяет пользователям тестировать экспериментальные модели. функции.

«Мы не начали обучение дополнительным типам данных на основе этого изменения языка», — сказал он.

Дебаты в Мете

Марк Цукерберг, исполнительный директор Meta, инвестировал в AI. в течение многих лет — но внезапно оказался позади, когда OpenAI выпустила ChatGPT в 2022 году. Он немедленно начал стремиться соответствовать ChatGPT и превзойти его, звоня руководителям и инженерам в любое время ночи, чтобы подтолкнуть их к разработке конкурирующего чат-бота, рассказали трое нынешних и бывших сотрудников: которые не были уполномочены обсуждать конфиденциальные разговоры.

Но к началу прошлого года Meta столкнулась с тем же препятствием, что и ее конкуренты: недостаточно данных.

Ахмад Аль-Дахле, вице-президент Meta по генеративному искусственному интеллекту, рассказал руководителям, что его команда использовала почти все доступные англоязычные книги, эссе, стихотворения и новостные статьи в Интернете для разработки модели, согласно записям внутренних встреч, которые были поделился сотрудник.

Meta не сможет сравниться с ChatGPT, пока не получит больше данных, сказал коллегам г-н Аль-Дахле. В марте и апреле 2023 года некоторые руководители компании по развитию бизнеса, инженеры и юристы почти ежедневно встречались, чтобы решить эту проблему.

Некоторые обсуждали возможность платить 10 долларов за книгу за полные лицензионные права на новые названия. Они обсуждали покупку Simon & Schuster, которая, судя по записям, издает таких авторов, как Стивен Кинг.

Они также рассказали о том, как без разрешения собирали книги, эссе и другие работы из Интернета, и обсуждали возможность подлизываться, даже если это означало судебные иски. Один адвокат предупредил об «этических» опасениях по поводу изъятия интеллектуальной собственности у артистов, но, согласно записям, был встречен молчанием.

По словам сотрудников, Цукерберг потребовал решения.

«Возможности, которые Марк ищет в продукте, — это просто то, что мы в настоящее время не можем обеспечить», — сказал один инженер.

Хотя Meta управляет гигантскими социальными сетями, в ее распоряжении не было большого количества пользовательских постов, рассказали два сотрудника. По их словам, многие пользователи Facebook удалили свои предыдущие публикации, и на этой платформе люди не писали контент в стиле эссе.

Meta также была ограничена изменениями конфиденциальности, которые она ввела после скандала 2018 года, связанного с передачей данных своих пользователей компании Cambridge Analytica, занимающейся профилированием избирателей.

Г-н Цукерберг заявил в недавнем разговоре с инвесторами, что миллиарды общедоступных видео и фотографий в Facebook и Instagram «больше, чем набор данных Common Crawl».

Во время записанных обсуждений руководители Meta рассказали о том, как они наняли подрядчиков в Африке для объединения обзоров художественной и документальной литературы. В сводках содержался контент, защищенный авторским правом, «потому что у нас нет возможности не собирать его», сказал менеджер на одной из встреч.

Руководители Meta заявили, что OpenAI, судя по всему, использовала материалы, защищенные авторским правом, без разрешения. Судя по записям, Meta потребовалось бы слишком много времени, чтобы договориться о лицензиях с издателями, артистами, музыкантами и новостной индустрией.

«Единственное, что мешает нам быть такими же хорошими, как ChatGPT, — это буквально объем данных», — сказал на одной из встреч Ник Грудин, вице-президент по глобальному партнерству и контенту.

OpenAI, похоже, использует материалы, защищенные авторским правом, и Meta может последовать этому «рыночному прецеденту», добавил он.

Согласно записям, руководители Meta согласились опираться на решение суда 2015 года по делу Гильдии авторов против Google. В этом случае компании Google было разрешено сканировать, оцифровывать и каталогизировать книги в онлайн-базе данных после того, как она заявила, что воспроизвела в Интернете только фрагменты произведений и преобразовала оригиналы, что сделало их добросовестным использованием.

Использование данных для обучения ИИ Системы, как заявили на своих встречах юристы Меты, также должны использоваться добросовестно.

Судя по записям, как минимум два сотрудника выразили обеспокоенность по поводу использования интеллектуальной собственности и несправедливой или вообще неплатежей авторам и другим артистам. Один из сотрудников рассказал об отдельном обсуждении данных, защищенных авторским правом, с высшими руководителями, включая Криса Кокса, директора по продуктам Meta, и сказал, что никто на этой встрече не рассматривал этику использования творческих работ людей.

«Синтетические» данные

У г-на Альтмана из OpenAI был план борьбы с надвигающейся нехваткой данных.

Компании, подобные его, сказал он на майской конференции, в конечном итоге будут обучать свой ИИ. на тексте, сгенерированном А.И. — иначе известные как синтетические данные.

Поскольку ИИ. Модель может создавать человекоподобный текст, утверждают г-н Альтман и другие, системы могут создавать дополнительные данные для разработки лучших версий самих себя. Это поможет разработчикам создавать более мощные технологии и уменьшить их зависимость от данных, защищенных авторским правом.

«Пока вы сможете преодолеть горизонт событий синтетических данных, где модель достаточно умна, чтобы создавать хорошие синтетические данные, все будет хорошо», — сказал г-н Альтман.

А.И. исследователи годами изучали синтетические данные. Но создать систему искусственного интеллекта, способную самообучаться, легче сказать, чем сделать. А.И. модели, которые учатся на собственных результатах, могут попасть в петлю, в которой они усиливают свои собственные причуды, ошибки и ограничения.

«Данные, необходимые этим системам, подобны тропе через джунгли», — сказал Джефф Клун, бывший исследователь OpenAI, который сейчас преподает информатику в Университете Британской Колумбии. «Если они будут тренироваться только на синтетических данных, они могут заблудиться в джунглях».

Чтобы бороться с этим, OpenAI и другие исследуют, как два разных ИИ. модели могут работать вместе для создания синтетических данных, которые будут более полезными и надежными. Одна система производит данные, а вторая оценивает информацию, чтобы отличить хорошую от плохой. Мнения исследователей относительно того, будет ли этот метод работать, разделились.

А.И. Тем не менее, руководители стремительно продвигаются вперед.

«Все должно быть в порядке», — заявил г-н Альтман на конференции.

За последними событиями следите через наш Твиттер @tazabek

По сообщению сайта Tazabek

Как технологические гиганты сокращают сбор данных для искусственного интеллекта, — The New York Times

Дата: 08 апреля 2024 в 11:54 Категория: Новости высоких технологий