Google объявил об обновлении голосового поиска, которое меняет способ обработки и последующего ранжирования голосовых поисковых запросов. Новая модель искусственного интеллекта использует речь в качестве входных данных для процесса поиска и ранжирования, полностью минуя этап преобразования голоса в текст.
Старая система называлась Cascade ASR, где голосовой запрос преобразуется в текст, а затем проходит обычный процесс ранжирования. Проблема этого метода в том, что он подвержен ошибкам. В процессе преобразования аудио в текст могут быть потеряны некоторые контекстные подсказки, что может привести к ошибке.
Новая система называется «Речь-поиск» (S2R). Это модель машинного обучения на основе нейронной сети, обученная на больших наборах данных парных аудиозапросов и документов. Такое обучение позволяет ему обрабатывать устные поисковые запросы (без преобразования их в текст) и сопоставлять их непосредственно с соответствующими документами.
Содержание
Модель с двойным кодировщиком: две нейронные сети
В системе используются две нейронные сети:
- Одна из нейронных сетей, называемая аудиокодером, преобразует устные запросы в представление их смысла в векторном пространстве.
- Вторая сеть, кодировщик документов, представляет письменную информацию в том же векторном формате.
Два кодировщика учатся отображать речевые запросы и текстовые документы в общее семантическое пространство, так что связанные аудио и текстовые документы оказываются близко друг к другу в соответствии с их семантическим сходством.
Аудио кодер
Функция распознавания речи (S2R) берет звук чьего-либо голосового запроса и преобразует его в вектор (числа), который представляет семантическое значение того, о чем человек спрашивает.
В анонсе использован пример знаменитой картины Эдварда Мунка «Крик». В этом примере произнесенная фраза «картина крика» становится точкой в векторном пространстве рядом с информацией о картине Эдварда Мунка «Крик» (например, музеем, в котором она находится, и т. д.).
Кодировщик документов
Кодировщик документов делает то же самое с текстовыми документами, такими как веб-страницы, превращая их в собственные векторы, которые представляют содержание этих документов.
Во время обучения модели оба кодировщика обучаются вместе, так что векторы для сопоставления аудиозапросов и документов оказываются рядом друг с другом, а несвязанные — далеко друг от друга в векторном пространстве.
Богатое векторное представление
В заявлении Google говорится, что кодировщики преобразуют аудио и текст в «богатые векторные представления». Богатое векторное представление — это встраивание, которое кодирует смысл и контекст аудио и текста. Его называют «богатым», потому что он содержит намерение и контекст.
Для S2R это означает, что система не полагается на сопоставление ключевых слов; концептуально он «понимает», о чем просит пользователь. Таким образом, даже если кто-то скажет: «Покажите мне кричащее лицо Мунка», векторное представление этого запроса все равно окажется рядом с документами о «Крике».
Согласно объявлению Google:
«Ключом к этой модели является то, как она обучается. Используя большой набор данных парных аудиозапросов и соответствующих документов, система учится настраивать параметры обоих кодеров одновременно.
Цель обучения гарантирует, что вектор аудиозапроса геометрически близок к векторам соответствующих ему документов в пространстве представления. Эта архитектура позволяет модели узнать что-то близкое к основному замыслу, необходимому для извлечения непосредственно из аудио, минуя хрупкий промежуточный этап расшифровки каждого слова, что является основной слабостью каскадной конструкции».
Уровень ранжирования
В S2R используется процесс ранжирования, как и в обычном текстовом поиске. Когда кто-то произносит запрос, звук сначала обрабатывается предварительно обученным аудиокодером, который преобразует его в числовую форму (вектор), которая передает то, что имеет в виду человек. Затем этот вектор сравнивается с индексом Google, чтобы найти страницы, значения которых наиболее похожи на устный запрос.
Например, если кто-то говорит «картина крика», модель превращает эту фразу в вектор, отражающий ее значение. Затем система просматривает индекс документов и находит страницы с близкими векторами, например, информацию о «Крике» Эдварда Мунка.
Как только эти вероятные совпадения идентифицированы, вступает в силу отдельный этап ранжирования. Эта часть системы объединяет оценки сходства, полученные на первом этапе, с сотнями других сигналов ранжирования по релевантности и качеству, чтобы решить, какие страницы должны ранжироваться первыми.
Бенчмаркинг
Google протестировал новую систему с Cascade ASR и с версией Cascade ASR с отличными оценками под названием Cascade Groundtruth. S2R победил Cascade ASR и почти сравнялся с Cascade Groundtruth. Google пришел к выводу, что производительность многообещающая, но есть возможности для дальнейшего улучшения.
Голосовой поиск работает
Хотя сравнительный анализ показал, что есть возможности для улучшения, Google объявил, что новая система работает и используется на нескольких языках, назвав это новой эрой поиска. Предположительно система используется на английском языке.
Гугл объясняет:
«Голосовой поиск теперь основан на нашей новой системе преобразования речи в поиск, которая получает ответы прямо на ваш устный запрос без необходимости предварительного преобразования его в текст, что обеспечивает более быстрый и надежный поиск для всех».
Читать далее:
Речь-поиск (S2R): новый подход к голосовому поиску
Рекомендованное изображение: Shutterstock/ViDI Studio