Google Bard AI — какие сайты использовались для его обучения?

Google Bard основан на языковой модели LaMDA, обученной на наборах данных, основанных на интернет-контенте под названием Infiniset, о котором очень мало известно о том, откуда пришли данные и как они их получили.

В исследовательском документе LaMDA 2022 года указано процентное соотношение различных типов данных, используемых для обучения LaMDA, но только 12,5% взяты из общедоступного набора данных просканированного контента из Интернета, а еще 12,5% взяты из Википедии.

Google намеренно не раскрывает, откуда берутся остальные извлеченные данные, но есть намеки на то, какие сайты входят в эти наборы данных.

Содержание

1 Набор данных Google Infiniset
2 Набор данных C4
- 2.1 О стандартном сканировании
- 2.2 Как C4 развивается из Common Crawl
3 Какими могут быть данные диалогов с публичных форумов?
4 Остальные 37,5%
5 Должен ли Google быть прозрачным в отношении наборов данных, используемых для Bard?

Набор данных Google Infiniset

Google Bard основан на языковой модели под названием LaMDA, которая является аббревиатурой от Языковая модель для диалоговых приложений.

LaMDA обучался на наборе данных под названием Infiniset.

Infiniset представляет собой смесь интернет-контента, которая была специально выбрана для повышения способности модели участвовать в диалоге.

Исследовательский документ LaMDA (PDF) объясняет, почему они выбрали такой состав контента:

«…эта композиция была выбрана для достижения более высокой производительности в диалоговых задачах… при сохранении способности выполнять другие задачи, такие как генерация кода.

В качестве будущей работы мы можем изучить, как выбор этой композиции может повлиять на качество некоторых других задач НЛП, выполняемых моделью».

В исследовательской работе делается ссылка на диалог и диалогичто является правописанием слов, используемых в этом контексте, в сфере компьютерных наук.

В общей сложности LaMDA был предварительно обучен на 1,56 трлн слов «общедоступные диалоговые данные и веб-текст».

Набор данных состоит из следующего сочетания:

12,5% данных на основе C4
12,5% англоязычная Википедия
12,5% документов с кодом из веб-сайтов вопросов и ответов по программированию, руководств и т. д.
6,25% веб-документов на английском языке
6,25% веб-документов не на английском языке
50% диалогов данные с публичных форумов

Первые две части Infiniset (C4 и Википедия) состоят из известных данных.

Набор данных C4, который будет рассмотрен в ближайшее время, представляет собой специально отфильтрованную версию набора данных Common Crawl.

Только 25% данных поступает из именованного источника (т. С4 набор данных и Википедия).

Остальные данные, составляющие основную часть набора данных Infiniset, 75%, состоят из слов, взятых из Интернета.

В исследовательской работе не говорится, как данные были получены с веб-сайтов, с каких веб-сайтов они были получены или какие-либо другие подробности об извлеченном контенте.

ЧИТАТЬ Страны с бесплатным образованием для иностранных студентов 2023: 14 лучших

Google использует только обобщенные описания, такие как «веб-документы не на английском языке».

Слово «мутный» означает, что что-то не объяснено и в основном скрыто.

Мутность — лучшее слово для описания 75% данных, которые Google использовал для обучения LaMDA.

Есть некоторые подсказки, которые может дать общее представление какие сайты входят в 75% веб-контента, но мы не можем знать наверняка.

Набор данных C4

C4 — это набор данных, разработанный Google в 2020 году. C4 означает «Колоссальный чистый просканированный корпус».

Этот набор данных основан на данных Common Crawl, который является набором данных с открытым исходным кодом.

О стандартном сканировании

Общий обход — зарегистрированная некоммерческая организация, которая ежемесячно просматривает Интернет для создания бесплатных наборов данных, которые может использовать каждый.

Организация Common Crawl в настоящее время управляется людьми, которые работали в Фонде Викимедиа, бывшими сотрудниками Google, основателем Blekko и считаются советниками, такими как Питер Норвиг, директор по исследованиям в Google, и Дэнни Салливан (также из Google).

Как C4 развивается из Common Crawl

Необработанные данные Common Crawl очищаются путем удаления таких вещей, как неполный контент, нецензурные слова, lorem ipsum, навигационные меню, дедупликация и т. д., чтобы ограничить набор данных основным контентом.

Цель фильтрации ненужных данных заключалась в том, чтобы удалить тарабарщину и сохранить примеры естественного английского языка.

Вот что пишут исследователи, создавшие C4:

«Чтобы собрать наш базовый набор данных, мы загрузили извлеченный из Интернета текст за апрель 2019 года и применили вышеупомянутую фильтрацию.

Это создает набор текста, который не только на порядки больше, чем большинство наборов данных, используемых для предварительного обучения (около 750 ГБ), но также содержит достаточно чистый и естественный текст на английском языке.

Мы назвали этот набор данных «Колоссальный чистый просканированный корпус» (или сокращенно C4) и выпустили его как часть наборов данных TensorFlow…»

Существуют и другие нефильтрованные версии C4.

Исследовательская работа, описывающая набор данных C4, называется Изучение ограничений трансферного обучения с помощью унифицированного преобразователя текста в текст (PDF).

Еще одна исследовательская работа от 2021 года (Документирование больших веб-текстовых корпусов: пример колоссального чистого просканированного корпуса — PDF) изучил состав участков, включенных в набор данных C4.

Интересно, что вторая исследовательская работа обнаружила аномалии в исходном наборе данных C4, которые привели к удалению веб-страниц, ориентированных на латиноамериканцев и афроамериканцев.

Веб-страницы, ориентированные на латиноамериканцев, были удалены фильтром черного списка (ругательства и т. д.) в размере 32% страниц.

Веб-страницы, ориентированные на афроамериканцев, были удалены в размере 42%.

ЧИТАТЬ Как Android и Google Play способствуют глобальному росту

Вероятно, эти недостатки были устранены…

Другой вывод заключался в том, что 51,3% набора данных C4 состояло из веб-страниц, размещенных в США.

Наконец, анализ исходного набора данных C4 2021 года подтверждает, что набор данных представляет собой лишь часть всего Интернета.

В анализе указано:

«Наш анализ показывает, что, хотя этот набор данных представляет собой значительную часть фрагментов общедоступного Интернета, он ни в коем случае не является репрезентативным для англоязычного мира и охватывает широкий диапазон лет.

При создании набора данных из веб-скрапа отчетность о доменах, из которых взят текст, является неотъемлемой частью понимания набора данных; процесс сбора данных может привести к значительно другому распределению интернет-доменов, чем можно было бы ожидать».

Следующие статистические данные о наборе данных C4 взяты из второй исследовательской работы, ссылка на которую приведена выше.

Топ-25 сайтов (по количеству токенов) в C4:

Patents.google.com
en.wikipedia.org
en.m.wikipedia.org
www.nytimes.com
www.latimes.com
www.theguardian.com
Journals.plos.org
www.forbes.com
www.huffpost.com
Patents.com
www.scribd.com
www.washingtonpost.com
www.fool.com
ipfs.io
www.frontiersin.org
www.businessinsider.com
www.chicagotribune.com
www.booking.com
www.theatlantic.com
link.springer.com
www.aljazeera.com
www.kickstarter.com
caselaw.findlaw.com
www.ncbi.nlm.nih.gov
www.npr.org

Это 25 самых популярных доменов верхнего уровня в наборе данных C4:

Скриншот из Документирование больших веб-текстовых корпусов: пример колоссального чистого просканированного корпуса

Если вам интересно узнать больше о наборе данных C4, я рекомендую прочитать Документирование больших веб-текстовых корпусов: пример колоссального чистого просканированного корпуса (PDF) а также оригинальную исследовательскую работу 2020 года (PDF), для которого был создан C4.

Какими могут быть данные диалогов с публичных форумов?

50% обучающих данных поступает из «данные диалогов с публичных форумов».

Это все, что говорится в исследовательской работе Google LaMDA об этих обучающих данных.

Если кто-то угадает, Reddit и другие ведущие сообщества, такие как StackOverflow, являются безопасными ставками.

Reddit используется во многих важных наборах данных, таких как разработан OpenAI под названием WebText2 (PDF)аппроксимация WebText2 с открытым исходным кодом под названием OpenWebText2 и собственная разработка Google. Как WebText (PDF) набор данных с 2020 года.

Google также опубликовал информацию о другом наборе данных общедоступных диалоговых сайтов за месяц до публикации документа LaMDA.

Этот набор данных, содержащий общедоступные диалоговые сайты, называется MassiveWeb.

Мы не предполагаем, что набор данных MassiveWeb использовался для обучения LaMDA.

Но он содержит хороший пример того, что Google выбрал для другой языковой модели, ориентированной на диалог.

MassiveWeb был создан компанией DeepMind, принадлежащей Google.

Он был разработан для использования большой языковой моделью под названием Gopher (ссылка на PDF научной статьи).

MassiveWeb использует диалоговые веб-источники, выходящие за рамки Reddit, чтобы избежать предвзятости в отношении данных, на которые повлиял Reddit.

ЧИТАТЬ PPC Lead Gen Blueprint: стратегия Google Рекламы, которая увеличивает количество потенциальных клиентов

Он по-прежнему использует Reddit. Но он также содержит данные, полученные со многих других сайтов.

Сайты общедоступных диалогов, включенные в MassiveWeb:

Реддит
Фейсбук
Куора
YouTube
Середина
Переполнение стека

Опять же, это не означает, что LaMDA обучалась на вышеуказанных сайтах.

Это просто предназначено для того, чтобы показать, что Google мог бы использовать, показав набор данных, над которым Google работал примерно в то же время, что и LaMDA, который содержит сайты типа форумов.

Остальные 37,5%

Последняя группа источников данных:

12,5% кодовых документов с сайтов, связанных с программированием, таких как сайты вопросов и ответов, учебные пособия и т. д.;
12,5% Википедия (англ.)
6,25% веб-документов на английском языке
6,25% веб-документов не на английском языке.

Google не указывает, какие сайты находятся в Сайты вопросов и ответов по программированию категория, которая составляет 12,5% набора данных, на котором обучалась LaMDA.

Так что мы можем только догадываться.

Stack Overflow и Reddit кажутся очевидными вариантами, тем более что они были включены в набор данных MassiveWeb.

Что «учебники» сайты просканированы? Мы можем только догадываться, что это за «учебные» сайты.

Остаются последние три категории контента, две из которых крайне расплывчаты.

Англоязычная Википедия не нуждается в обсуждении, мы все знаем Википедию.

Но следующие два не объясняются:

Английский и не английский языковые веб-страницы представляют собой общее описание 13% сайтов, включенных в базу данных.

Вот и вся информация, которую Google дает об этой части обучающих данных.

Должен ли Google быть прозрачным в отношении наборов данных, используемых для Bard?

Некоторым издателям неудобно, что их сайты используются для обучения систем ИИ, потому что, по их мнению, эти системы могут в будущем сделать их сайты устаревшими и исчезнуть.

Правда это или нет, еще предстоит выяснить, но издатели и члены сообщества поискового маркетинга выражают искреннюю озабоченность.

Google досадно расплывчато говорит о веб-сайтах, которые использовались для обучения LaMDA, а также о том, какая технология использовалась для сбора данных с веб-сайтов.

Как видно из анализа набора данных C4, методология выбора контента веб-сайта для обучения больших языковых моделей может повлиять на качество языковой модели, исключая определенные группы населения.

Должен ли Google быть более прозрачным в отношении того, какие сайты используются для обучения их ИИ, или, по крайней мере, опубликовать легкодоступный отчет о прозрачности используемых данных?

Избранное изображение Shutterstock/Asier Romero

Source link