Google опубликовал исследовательскую работу о наборе данных нового типа для обучения языковой модели извлечению предложений, которые точно отвечают на вопрос в открытом диалоге.
Мы не знаем, использует ли Google этот набор данных. Но исследователи утверждают, что он превосходит модели, обученные на других наборах данных.
Во многих исследовательских работах, таких как опубликованная для LaMDA, не упоминаются конкретные контексты того, как его можно использовать.
Например, исследовательская работа LaMDA (PDF) смутно заключает:
«LaMDA на шаг ближе к практичным и безопасным открытым диалоговым системам, которые, в свою очередь, могут открыть широкий спектр полезных приложений».
В этом исследовательском документе говорится, что проблема, которую они решают, заключается в том, как создать набор данных для обучения машины открытому диалогу путем выбора предложения на веб-странице.
Содержание
Почему этот набор данных важен
Что делает эту исследовательскую работу интересной, так это то, что исследователи пришли к выводу, что ее можно использовать для фактического обоснования генеративного вывода ИИ, подобного тому, что видно в новом опыте генерации поиска Google.
Учитывая, что исследовательская работа была представлена на конференции по поиску информации (Proceedings of the 45th International ACM SIGIR Conference on Research and Development), можно с уверенностью предположить, что этот алгоритм связан с поиском информации, то есть поиском.
И последнее, что следует отметить, это то, что исследование этого нового типа набора данных было представлено в прошлом году, в 2022 году, но оно, по-видимому, осталось незамеченным… До сих пор.
Чего Google намеревался достичь с помощью нового набора данных
Исследователи объясняют, на чем они сосредоточены:
«В данной работе мы ориентируемся на открытые диалоги: две стороны по очереди беседуют на любое количество тем без ограничений на смену темы и тип обсуждения по каждой теме.
Кроме того, диалог не привязан к конкретному документу, в отличие от настройки, использованной в некоторых предыдущих работах…
Задача, которую мы решаем, состоит в извлечении предложений из некоторого корпуса документов, которые содержат информацию, полезную для создания (либо автоматически, либо людьми) следующего хода в диалоге.
Отметим, что диалоговые обороты могут быть вопросами, запросами, аргументами, утверждениями и т. д.».
Новый тип набора данных для обучения языковой модели
Проблема, которую решают исследователи, заключается в том, как получить предложение с веб-страницы в качестве ответа на открытый вопрос, тип вопроса, который требует большего, чем ответ «да» или «нет».
В исследовательской работе объясняется, что для реализации этой способности в машине не хватает соответствующего набора данных для разговоров.
Они объясняют, что существующие наборы данных используются по двум причинам:
- Для оценки ответов диалога с помощью генеративного ИИ, но не для использования в обучении его фактическому извлечению соответствующей информации для этого ответа.
- Наборы данных для использования поисковой системой или ответом на вопрос, ориентированные на один проход вопроса и ответа.
Они объясняют недостатки существующих наборов данных:
«…в большинстве этих наборов данных возвращенные результаты поиска не рассматриваются как часть диалога.
…как в диалоговом поиске отрывков, так и в диалоговых наборах данных QA пользователь задает вопросы или запросы, которые отражают явные намерения с информационными потребностями, в отличие от естественных диалогов, где намерения могут быть представлены только неявно, например, в утвердительных утверждениях.
Подводя итог, существующие наборы разговорных данных не сочетают в себе естественные разговоры между людьми с аннотациями релевантности для предложений, извлеченных из большого корпуса документов.
Поэтому мы создали такой набор данных…»
Как был создан новый набор данных
Исследователи создали набор данных, который можно использовать для обучения алгоритма, способного извлекать предложение, являющееся правильным ответом в открытом диалоге.
Набор данных состоит из разговоров Reddit, которые были сопоставлены с ответами из Википедии, а также человеческими аннотациями (рейтингами релевантности) этих пар вопросов и ответов.
Данные Reddit были загружены с Pushshift.io, архива разговоров Reddit (Часто задаваемые вопросы о пушшифте).
В исследовательской работе поясняется:
«Чтобы решить более широкую задачу, в которой можно использовать любой тип диалога, мы создали набор данных, который включает открытые диалоги из Reddit, предложения-кандидаты из Википедии для каждого диалога и человеческие аннотации к предложениям.
Набор данных включает 846 диалогов, созданных из тредов Reddit.
Для каждого диалога из Википедии было извлечено 50 предложений с использованием неконтролируемого метода начального поиска.
Работники толпы оценивали эти предложения на предмет релевантности, то есть содержали ли они информацию, полезную для создания следующего хода диалога».
Набор данных, который они создали доступно на GitHub.
Пример вопроса в диалоге:
«Что появилось раньше, курица или яйцо?»
Пример неуместного ответа:
«Одомашненные куры существуют уже около 10 000 лет. Яйца существуют уже сотни миллионов лет».
Пример правильного предложения веб-страницы, которое можно использовать для ответа:
«Проще говоря, Нил де Грасс Тайсон:
«Что появилось раньше: курица или яйцо? Яйцо, снесенное птицей, которая не была курицей».
Методология поиска
Что касается поисковой части, они ссылаются на предшествующие исследования языковых моделей и других методов и останавливаются на подходе со слабым контролем.
Они объясняют:
«Точная настройка моделей поиска требует меток релевантности для обучающих примеров в целевой задаче.
Иногда их мало или они недоступны.
Один из способов обойти это — автоматически генерировать метки и обучать слабо контролируемую модель на этих аннотациях.
… Мы следуем парадигме слабого контроля в обучении нашей модели с новым слабым аннотатором Reddit для поиска в контексте диалога».
Является ли набор данных успешным?
Google и другие организации публикуют множество исследовательских работ, демонстрирующих разный уровень успеха.
Некоторые исследования завершаются с ограниченным успехом, лишь немного двигая уровень техники, если вообще меняют его.
Исследовательские работы, которые представляют интерес (для меня), — это те, которые явно успешны и превосходят текущий уровень техники.
Так обстоит дело с разработкой этого набора данных для обучения языковой модели для извлечения предложений, которые точно служат поворотом в открытом диалоге.
Они заявляют, как модель BERT, обученная с помощью этого набора данных, становится еще более мощной.
Они пишут:
«Действительно, в то время как RANKBERTMS превосходит все модели без тонкой настройки, модель RANKBERTMS→R, которая была дополнительно настроена с использованием нашего слабо контролируемого обучающего набора, улучшает производительность.
Этот метод обеспечивает наивысшую производительность, при этом все приросты производительности по сравнению с другими методами являются статистически значимыми.
Это открытие также демонстрирует эффективность нашего слабого аннотатора и слабо контролируемого обучающего набора, показывая, что производительность может быть улучшена без ручного аннотирования для обучения».
В другом месте исследователи сообщают:
«Мы показываем, что нейронный ранкер, который был точно настроен с использованием нашего слабо контролируемого обучающего набора, превосходит все другие протестированные модели, включая нейронный ранкер, точно настроенный на наборе данных поиска проходов MS Marco».
Они также пишут, что каким бы успешным ни был этот подход, они заинтересованы в продвижении современного уровня техники даже больше, чем уже есть.
В исследовательской работе делается вывод:
«В будущей работе мы хотели бы разработать модели поиска на основе BERT, которые обучаются только на основе слабого контроля, используя предварительно обученный BERT, без необходимости использования больших аннотированных обучающих наборов, таких как MS Marco.
Мы также хотели бы обосновать генеративные языковые модели нашими моделями поиска и изучить диалоги, возникающие в результате такого заземления».
Можно ли использовать этот подход?
Google редко подтверждает, когда используются конкретные исследования. В некоторых случаях, например с BERT, Google подтверждает, что они его используют.
Но в целом стандартный ответ таков: то, что Google публикует исследовательскую работу или патент, не означает, что они используют это в своем алгоритме поиска..
Тем не менее, в исследовательской работе, датированной серединой 2022 года, указано, что будущим направлением было изучение того, как с его помощью можно обосновать генеративные языковые модели (похожие на Bard и Google Search Generative Experience).
Генеративный чат с ИИ может привести к тому, что вывод ИИ будет придумывать вещи, что технически называется галлюцинациями.
Заземление означает привязку выходных данных чата ИИ к фактам, как правило, из онлайн-источников, чтобы помочь предотвратить галлюцинации.
Bing использует систему под названием Bing Orchestrator, которая проверяет веб-страницы, чтобы обосновать вывод GPT в фактах.
Заземление вывода ИИ помогает поддерживать его связь с фактами, на что может быть способен этот набор данных, в дополнение к выбору предложений с веб-страниц как части ответа.
Прочитайте исследовательскую работу:
Абстрактная веб-страница: Набор данных для поиска предложений для открытых диалогов
Актуальная исследовательская работа: Набор данных для поиска предложений для открытых диалогов
Избранное изображение Shutterstock/Camilo Concha