Срок действия Google Search Generative Experience (SGE) должен был истечь в качестве эксперимента Google Labs в конце 2023 года, но время его эксперимента было незаметно продлено, что дало понять, что SGE не будет заниматься поиском в ближайшем будущем. Удивительно, но позволить Microsoft взять на себя инициативу, возможно, было лучшим, возможно, непреднамеренным подходом для Google.
Содержание
- 1 Стратегия Google в области поиска с использованием искусственного интеллекта
- 2 Зачем хранить SGE в лабораториях Google?
- 3 Почему ИИ нельзя использовать в качестве поисковой системы
- 4 LLM не могут сами проверять факты
- 5 Опыт Bing в области искусственного интеллекта на переднем плане
- 6 Стратегия Google проверена задним числом
- 7 Будущее искусственного интеллекта в поиске
Стратегия Google в области поиска с использованием искусственного интеллекта
Решение Google сохранить SGE в качестве проекта Google Labs вписывается в более широкую тенденцию истории Google, предпочитающей интегрировать ИИ в фоновом режиме.
Присутствие искусственного интеллекта не всегда очевидно, но он был фоновой частью поиска Google дольше, чем думает большинство людей.
Самое первое использование ИИ в поиске было частью алгоритма ранжирования Google, системы, известной как RankBrain. RankBrain помог алгоритмам ранжирования понять, как слова в поисковых запросах соотносятся с понятиями в реальном мире.
«Когда мы запустили RankBrain в 2015 году, это была первая система глубокого обучения, развернутая в поиске. В то время это был новаторский подход… RankBrain (как следует из названия) используется для ранжирования (или определения наилучшего порядка) лучших результатов поиска».
Следующей реализацией стало Neural Matching, которое помогло алгоритмам Google понять более широкие концепции поисковых запросов и веб-страниц.
И одна из самых известных систем искусственного интеллекта, внедренная Google, — это унифицированная многозадачная модель, также известная как Google MUM. MUM — это мультимодальная система искусственного интеллекта, которая включает в себя понимание изображений и текста и способна размещать их в контекстах, написанных в предложении или поисковом запросе.
SpamBrain, искусственный интеллект Google для борьбы со спамом, вполне вероятно, является одной из наиболее важных реализаций искусственного интеллекта как части поискового алгоритма Google, поскольку он помогает отсеивать сайты низкого качества.
Все это примеры подхода Google к использованию ИИ в фоновом режиме для решения различных проблем поиска в рамках более крупного основного алгоритма.
Вполне вероятно, что Google продолжал бы использовать ИИ в фоновом режиме до тех пор, пока модели большого языка на основе преобразователей (LLM) не смогли выйти на передний план.
Но интеграция Microsoft ChatGPT в Bing вынудила Google предпринять шаги по более активному добавлению ИИ с помощью Search Generative Experience (SGE).
Зачем хранить SGE в лабораториях Google?
Учитывая, что Microsoft интегрировала ChatGPT в Bing, может показаться любопытным, что Google не предпринял аналогичного шага и вместо этого оставил SGE в Google Labs. Для такого подхода Google есть веские причины.
Один из руководящих принципов Google по использованию ИИ заключается в том, чтобы использовать его только в том случае, если технология окажется успешной и будет внедрена таким образом, чтобы можно было доверять ее ответственности, и это две вещи, на которые сегодня генеративный ИИ не способен.
Есть как минимум три большие проблемы, которые необходимо решить, прежде чем ИИ сможет успешно интегрироваться на передний план поиска:
- LLM нельзя использовать в качестве системы поиска информации, поскольку для добавления новых данных ее необходимо полностью переобучить. .
- Трансформаторная архитектура неэффективна и дорогостояща.
- Генеративный ИИ имеет тенденцию создавать неверные факты — явление, известное как галлюцинации.
Почему ИИ нельзя использовать в качестве поисковой системы
Одна из наиболее важных проблем, которую необходимо решить, прежде чем ИИ можно будет использовать в качестве серверной и внешней части поисковой системы, заключается в том, что LLM не могут функционировать в качестве поискового индекса, в который постоянно добавляются новые данные.
Проще говоря, в обычной поисковой системе добавление новых веб-страниц — это процесс, в котором поисковая система вычисляет семантическое значение слов и фраз в тексте (процесс, называемый «встраиванием»), что делает их доступными для поиска и готов к интеграции в индекс.
После этого поисковая система должна обновить весь индекс, чтобы понять (так сказать), какое место новые веб-страницы занимают в общем поисковом индексе.
Добавление новых веб-страниц может изменить то, как поисковая система понимает и связывает все другие веб-страницы, о которых она знает, поэтому она просматривает все веб-страницы в своем индексе и при необходимости обновляет их связи друг с другом. Это упрощение ради передачи общего смысла того, что означает добавление новых веб-страниц в поисковый индекс.
В отличие от современной технологии поиска, LLM не может добавлять новые веб-страницы в индекс, поскольку добавление новых данных требует полной переобучения всего LLM.
Google исследует, как решить эту проблему, чтобы создать поисковую систему LLM на основе трансформатора, но проблема не решена, даже близко.
Чтобы понять, почему это происходит, полезно взглянуть на недавнюю исследовательскую работу Google, соавторами которой являются Марк Найорк и Дональд Метцлер (и несколько других соавторов). Я упоминаю их имена, потому что оба этих исследователя почти всегда связаны с наиболее важными исследованиями, проводимыми Google. Так что, если на нем есть какое-либо из их имен, то исследование, вероятно, очень важно.
В следующем объяснении индекс поиска называется памятью, поскольку индекс поиска представляет собой память о том, что было проиндексировано.
Исследовательская работа называется: «DSI++: Обновление памяти трансформатора новыми документами» (PDF)
Использование LLM в качестве поисковых систем — это процесс, в котором используется технология, называемая дифференцируемыми поисковыми индексами (DSI). Текущая технология поискового индекса называется двойным кодировщиком.
В исследовательской работе объясняется:
«…построение индекса с использованием DSI включает обучение модели Transformer. Следовательно, модель необходимо переобучать с нуля каждый раз, когда обновляется базовый корпус, что приводит к непомерно высоким вычислительным затратам по сравнению с двойными кодировщиками».
Далее в статье рассматриваются способы решения проблемы студентов-магистров права, которые «забывают», но в конце исследования они заявляют, что добились прогресса только в направлении лучшего понимания того, что необходимо решить в будущих исследованиях.
Они заключают:
«В этом исследовании мы изучаем феномен забывания в связи с добавлением в индексатор новых и отдельных документов. Важно отметить, что когда новый документ опровергает или изменяет ранее проиндексированный документ, поведение модели становится непредсказуемым, требующим дальнейшего анализа.
Кроме того, мы проверяем эффективность предложенного нами метода на более крупном наборе данных, таком как полный набор данных MS MARCO. Однако стоит отметить, что при использовании этого большего набора данных метод демонстрирует значительную забывчивость. В результате необходимы дополнительные исследования для повышения производительности модели, особенно при работе с наборами данных более крупных масштабов».
LLM не могут сами проверять факты
Google и многие другие также исследуют различные способы проверки фактов ИИ, чтобы избежать предоставления ложной информации (называемой галлюцинациями). Но пока что эти исследования не добились значительного прогресса.
Опыт Bing в области искусственного интеллекта на переднем плане
Bing пошел другим путем, включив ИИ непосредственно в свой поисковый интерфейс, используя гибридный подход, объединяющий традиционную поисковую систему с интерфейсом ИИ. Этот новый тип поисковой системы обновил возможности поиска и выделил Bing среди пользователей поисковых систем.
Интеграция Bing с искусственным интеллектом изначально вызвала значительный ажиотаж, привлекая пользователей, заинтригованных новинкой поискового интерфейса, управляемого искусственным интеллектом. Это привело к увеличению вовлеченности пользователей Bing.
Но после почти года ажиотажа рыночная доля Bing увеличилась лишь незначительно. Последние отчеты, в том числе один из Бостон Глоубуказывают на рост доли рынка менее 1% с момента внедрения Bing Chat.
Стратегия Google проверена задним числом
Опыт Bing показывает, что ИИ на переднем плане поисковой системы может оказаться не таким эффективным, как хотелось бы. Скромное увеличение доли рынка поднимает вопросы о долгосрочной жизнеспособности поисковой системы на основе чата и подтверждает осторожный подход Google к использованию ИИ в фоновом режиме.
Акцент Google на искусственном интеллекте в поиске подтверждается в свете неспособности Bing заставить пользователей отказаться от Google в пользу Bing.
Стратегия сохранения ИИ в фоновом режиме, где на данный момент он работает лучше всего, позволила Google сохранить пользователей, пока технология поиска ИИ совершенствуется в лабораториях Google, где ей и место.
Подход Bing к использованию ИИ на переднем плане теперь служит почти предостережением о подводных камнях, связанных с внедрением технологии до того, как ее преимущества будут полностью поняты, и дает представление об ограничениях этого подхода.
По иронии судьбы, Microsoft находит лучшие способы интеграции искусственного интеллекта в качестве фоновой технологии в виде полезных функций, добавляемых в их облачные офисные продукты.
Будущее искусственного интеллекта в поиске
Текущее состояние технологии искусственного интеллекта предполагает, что он более эффективен как инструмент, поддерживающий функции поисковой системы, а не как вся внутренняя и внешняя часть поисковой системы или даже как гибридный подход, который пользователи отказались принять.
Стратегия Google по выпуску новых технологий только после их полного тестирования объясняет, почему Search Generative Experience принадлежит Google Labs.
Конечно, ИИ будет играть более смелую роль в поиске, но этот день определенно не сегодня. Ожидайте, что Google добавит больше функций на основе искусственного интеллекта в большее количество своих продуктов, и неудивительно, что Microsoft также продолжит идти по этому пути.
Рекомендованное изображение: Shutterstock/ProStockStudio