Microsoft анонсировала новую модель разговорного ответа на вопросы, которая превосходит другие методы, отвечая на вопросы быстрее и точнее, используя при этом значительно меньше ресурсов.

Предлагается новый способ ранжирования отрывков из контента с использованием так называемого генеративного поиска для ответов на разговорные вопросы, который они назвали GCoQA.

Исследователи пишут, что следующим направлением является изучение того, как использовать его для общего веб-поиска.

Генеративный поиск для ответа на разговорный вопрос

Авторегрессионная языковая модель предсказывает, какое будет следующее слово или фраза.

В этой модели используются авторегрессионные модели, в которых используются «строки идентификаторов», которые на простом английском языке являются представлением отрывков в документе.

В этой реализации они используют заголовок страницы (чтобы определить, о чем эта страница) и заголовки разделов (чтобы определить, о чем идет речь в тексте).

Эксперимент проводился на данных Википедии, где заголовки страниц и разделов можно считать описательными.

Они используются для обозначения темы документа и темы отрывков, содержащихся в разделе документа.

Так что, если использовать его в реальном мире, это похоже на использование элемента заголовка, чтобы узнать, о чем веб-страница, и заголовков, чтобы понять, о чем идет речь в разделах веб-страницы.

«Идентификаторы» — это способ закодировать все эти знания в виде представления, которое отображается в отрывках на веб-странице и в заголовках.

Полученные отрывки позже помещаются в другую авторегрессионную модель, чтобы получить ответы на вопросы.

Генеративный поиск

В исследовательской работе говорится, что в поисковой части модель использует метод, называемый «лучевым поиском», для генерации идентификаторов (представлений отрывков с веб-страницы), которые затем ранжируются в порядке вероятности того, что они будут ответом.

ЧИТАТЬ  278 праздников в социальных сетях для вашего календаря контента на 2023 год [+Template]

Исследователи пишут:

«…мы используем лучевой поиск… широко используемый метод для генерации нескольких идентификаторов вместо одного.

Каждому сгенерированному идентификатору присваивается оценка языковой модели, что позволяет нам получить рейтинговый список сгенерированных идентификаторов на основе этих оценок.

Идентификаторы ранжирования, естественно, могут соответствовать ранжированному списку отрывков».

Далее в исследовательской статье говорится, что этот процесс можно рассматривать как «иерархический поиск».

Иерархический подход в этом сценарии означает упорядочивание результатов сначала по теме страницы, а затем по отрывкам на странице (с использованием заголовков разделов).

Как только эти отрывки будут извлечены, другая авторегрессионная модель генерирует ответ на основе полученных отрывков.

Сравнение с другими методами

Исследователи обнаружили, что GCoQA превзошел многие другие широко используемые методы, с которыми они его сравнивали.

Это было полезно для преодоления ограничений (узких мест) в других методах.

Во многих отношениях эта новая модель обещает внести глубокие изменения в разговорный ответ на вопросы.

Например, он использует в 10 раз меньше ресурсов памяти, чем текущие модели, что является огромным скачком в эффективности, плюс он работает быстрее.

Исследователи пишут:

«…применять наш метод на практике становится удобнее и эффективнее».

Позже исследователи Microsoft приходят к выводу:

«Благодаря детальному перекрестному взаимодействию в модуле декодера GCoQA может более эффективно обрабатывать контекст разговора.

Кроме того, GCoQA на практике имеет меньшее потребление памяти и более высокую эффективность вывода».

Ограничения GCoQA

Однако существует несколько ограничений, которые необходимо устранить, прежде чем эту модель можно будет применять.

Они обнаружили, что GCoQA имеет ограничения из-за использования техники «лучевого поиска», которая ограничивала способность GCoQA вспоминать «крупномасштабные отрывки».

Увеличение размера луча также не помогло, поскольку замедлило работу модели.

Еще одним ограничением является то, что Википедия надежно использует заголовки осмысленным образом.

ЧИТАТЬ  Этот день в истории поискового маркетинга: 16 февраля.

Но использование его на веб-страницах за пределами Википедии может привести к тому, что модель столкнется с камнем преткновения.

Многие веб-страницы в Интернете плохо используют заголовки разделов, чтобы точно обозначить, о чем идет речь (именно это и должны делать оптимизаторы и издатели).

В исследовательской работе отмечается:

«Обобщаемость GCoQA является законной проблемой.

GCoQA в значительной степени полагается на семантическую связь между вопросом и идентификаторами отрывков для извлечения соответствующих отрывков.

Хотя GCoQA оценивался с использованием трех наборов академических данных, его эффективность в реальных сценариях, где вопросы часто неоднозначны и их сложно сопоставить с идентификаторами, остается неопределенной и требует дальнейшего изучения».

GCoQA — новая многообещающая технология

В конечном итоге исследователи заявили, что прирост производительности — это серьезная победа. Ограничения – это то, над чем нужно работать.

В исследовательской статье делается вывод о том, что есть два перспективных направления для продолжения изучения:

«(1) исследование использования генеративного поиска в более общих сценариях веб-поиска, где идентификаторы не доступны напрямую из заголовков; и (2) изучение интеграции поиска отрывков и прогнозирования ответов в рамках единой генеративной модели, чтобы лучше понять их внутренние взаимосвязи».

Ценность GCoQA

Научно-исследовательская работа (Генераторный поиск для ответов на разговорные вопросы) была опубликовано на GitHub одним из ученых-исследователей.

Посетите эту страницу GitHub, чтобы найти ссылку на PDF-файл.

Как это иногда случается, исследовательские работы имеют свойство исчезать за платным доступом, поэтому нет никакой гарантии, что они все еще будут доступны в будущем.

GCoQA, возможно, не скоро появится в поисковой системе.

Ценность GCoQA заключается в том, что он показывает, как исследователи работают над поиском способов использования генеративных моделей для преобразования веб-поиска в том виде, в котором мы его знаем сегодня.

ЧИТАТЬ  Генеративный поиск Google с Google Cards

Это может быть предварительным просмотром того, как могут выглядеть поисковые системы относительно недалекого будущего.

Прочтите анонс и аннотацию научной статьи:

Генеративный поиск для ответов на разговорные вопросы

Рекомендованное изображение: Shutterstock/Sundry Photography



Source link