Google опубликовал исследовательскую работу о создании сложного набора данных для подготовки агентов ИИ к глубоким исследованиям. В документе предлагается понимание того, как работают глубокие исследования агентного ИИ, что подразумевает понимание оптимизации контента.
Аббревиатура SAGE расшифровывается как «Управляемая агентская генерация данных для глубокого поиска с обратной связью по выполнению».
Содержание
Синтетические пары вопросов и ответов
Исследователи отметили, что предыдущие современные наборы данных для обучения ИИ (такие как Musique и HotpotQA) требовали не более четырех шагов рассуждения, чтобы ответить на вопросы. Что касается количества поисков, необходимых для ответа на вопрос, Musique в среднем составляет 2,7 поиска на вопрос, а HotpotQA — 2,1 поиска. Другой широко используемый набор данных под названием «Естественные вопросы» (NQ) требовал в среднем всего 1,3 поиска на вопрос.
Эти наборы данных, которые используются для обучения агентов ИИ, создали пробел в обучении для задач глубокого поиска, которые требовали большего количества шагов рассуждения и большего количества поисков. Как вы можете обучить агента ИИ решению сложных реальных задач глубокого поиска, если агенты ИИ не обучены решать действительно сложные вопросы.
Исследователи создали систему под названием SAGE, которая автоматически генерирует высококачественные сложные пары вопросов и ответов для обучения поисковых агентов с искусственным интеллектом. SAGE — это система «двойного агента», в которой один ИИ пишет вопрос, а второй ИИ «поискового агента» пытается его решить, предоставляя обратную связь о сложности вопроса.
- Цель первого ИИ — написать вопрос, на который сложно ответить и который требует множества рассуждений и множества поисков для решения.
- Цель второго ИИ — попытаться определить, можно ли ответить на вопрос, и рассчитать, насколько он сложен (требуется минимальное количество шагов поиска).
Ключом к SAGE является то, что если второй ИИ решает вопрос слишком легко или ошибается, конкретные шаги и документы, которые он нашел (след выполнения), передаются обратно первому ИИ. Эта обратная связь позволяет первому ИИ определить один из четырех ярлыков, которые позволяют второму ИИ решить вопрос за меньшее количество шагов.
Именно эти ярлыки дают представление о том, как повысить рейтинг при выполнении глубоких исследовательских задач.
Четыре способа избежать глубоких исследований
Целью статьи было создание набора пар вопросов и ответов, которые были настолько сложными, что для их решения ИИ-агенту потребовалось несколько шагов. В отзывах было указано четыре способа, благодаря которым агенту ИИ стало меньше необходимости выполнять дополнительные поиски для поиска ответа.
Четыре причины, по которым глубокие исследования оказались ненужными
- Информация
Это наиболее распространенный способ, на который приходится 35% случаев, когда глубокие исследования не требуются. Это происходит, когда две или более части информации, необходимые для ответа на вопрос, расположены в одном документе. Вместо того, чтобы искать дважды, ИИ находит оба ответа за один «переход». - Свернуть несколько запросов
Это произошло в 21% случаев. Причина в том, что один умный поисковый запрос извлекает достаточно информации из разных документов, чтобы решить несколько частей проблемы одновременно. Это «сворачивает» то, что должно было быть многоэтапным процессом, в один этап. - Поверхностная сложность
На это приходится 13% случаев, когда глубокие исследования не были необходимы. Человеку вопрос кажется длинным и сложным, но поисковая система (которую использует агент ИИ) может сразу перейти к ответу, не прибегая к промежуточным рассуждениям. - Слишком конкретные вопросы
31% неудачных ответов — это вопросы, содержащие настолько много деталей, что ответ становится очевидным при первом же поиске, что устраняет необходимость в каком-либо «глубоком» расследовании.
Исследователи обнаружили, что некоторые вопросы кажутся сложными, но на самом деле они относительно просты, поскольку информация «совмещена» в одном документе. Если агент может ответить на вопрос с четырьмя переходами за один переход, поскольку один веб-сайт был достаточно полным, чтобы иметь все ответы, эта точка данных считается неудачной для обучения агента рассуждениям, но это все равно может произойти в реальной жизни, и агент воспользуется преимуществом поиска всей информации на одной странице.
SEO-выводы
Можно получить некоторое представление о том, какой контент удовлетворяет требованиям глубокого исследования. Хотя это не обязательно тактика для повышения рейтинга в глубоком поиске агентов ИИ, эти данные показывают, какие сценарии заставили агентов ИИ найти все или большую часть ответов на одной веб-странице.
«Совместное размещение информации» может стать победой в SEO
Исследователи обнаружили, что когда в одном документе содержится несколько фрагментов информации, необходимых для ответа на вопрос, количество необходимых шагов поиска сокращается. Для издателя это означает, что объединение «разбросанных» фактов на одной странице избавляет агента ИИ от необходимости «перепрыгивать» на сайт конкурента, чтобы найти остальную часть ответа.
Запуск «Схлопывания нескольких запросов»
Авторы выявили феномен, когда информацию из разных документов можно получить с помощью одного запроса. Структурируя контент так, чтобы отвечать на несколько подвопросов одновременно, вы позволяете агенту быстрее найти полное решение на вашей странице, эффективно «замыкая» длинную цепочку рассуждений, которую агент был готов предпринять.
Устранение «ярлыков» (пробел в рассуждениях)
В исследовательской статье отмечается, что генератор данных дает сбой, когда случайно создает «ярлык» для ответа. Ваша цель как SEO-специалиста — стать таким ярлыком, предоставляя конкретные точки данных, такие как расчеты, даты или имена, которые позволят агенту прийти к окончательному ответу без дальнейшего изучения.
Цель по-прежнему состоит в том, чтобы занять место в классическом поиске.
Для оптимизатора и издателя эти ярлыки подчеркивают ценность создания всеобъемлющего документа, поскольку это избавит агента ИИ от необходимости переходить куда-то еще. Это не означает, что будет полезно разместить всю информацию на одной странице. Если это имеет смысл для пользователя, может быть полезно создать ссылку с одной страницы на другую для получения соответствующей информации.
Причина, по которой я это говорю, заключается в том, что агент ИИ выполняет классический поиск в поисках ответов, поэтому целью остается оптимизация веб-страницы для классического поиска. Кроме того, в этом исследовании агент ИИ извлекает данные из трех веб-страниц с самым высоким рейтингом для каждого выполняемого им запроса. Я не знаю, работает ли именно так агентный поиск ИИ в реальной среде, но это стоит учитывать.
Фактически, один из тестов, проведенных исследователями, проводился с использованием Serper API для извлечения результатов поиска из Google.
Итак, когда дело доходит до ранжирования в поиске агентов ИИ, примите во внимание следующие выводы:
- Возможно, было бы полезно рассмотреть важность попадания в тройку лидеров.
- Оптимизируйте веб-страницы для классического поиска.
- Не оптимизируйте веб-страницы для поиска ИИ
- Если есть возможность быть всеобъемлющим, оставаться в курсе темы и войти в тройку лучших, сделайте это.
- Ссылайтесь на соответствующие страницы, чтобы помочь им занять место в классическом поиске, желательно в тройке лучших (на всякий случай).
Вполне возможно, что агентный поиск ИИ рассмотрит возможность привлечения более чем трех лучших результатов в классическом поиске. Но может быть полезно поставить цель попасть в тройку лучших в классическом поиске и сосредоточиться на ранжировании других страниц, которые могут быть частью многоступенчатого глубокого исследования.
Исследовательская статья была опубликована Google 26 января 2026 года. Она доступна в формате PDF: SAGE: управляемая агентская генерация данных для глубокого поиска с обратной связью по выполнению.
Рекомендованное изображение от Shutterstock/Shutterstock AI Generator

