Исследователи Google представили метод улучшения поиска и помощников ИИ, улучшив способность моделей поколения поиска-августа (RAG) при распознавании при получении информации, не хватает достаточного контекста, чтобы ответить на запрос. В случае реализации эти выводы могут помочь сгенерированным AI ответам избежать полагаться на неполную информацию и повысить надежность ответов. Этот сдвиг может также побудить издателей создавать контент с достаточным контекстом, что делает их страницы более полезными для ответов, сгенерированных AI.
Их исследование показывает, что такие модели, как Gemini и GPT, часто пытаются ответить на вопросы, когда полученные данные содержит недостаточный контекст, что приводит к галлюцинациям, а не воздержанию. Чтобы решить эту проблему, они разработали систему, чтобы уменьшить галлюцинации, помогая LLMS определить, когда извлекаемый контент содержит достаточно информации для поддержки ответа.
Системы извлечения в поисках генерации (RAG) расширяют LLMS с внешним контекстом для повышения точности ответа вопросам, но галлюцинации все еще происходят. Не было четко понятно, связаны ли эти галлюцинации от неверного толкования LLM или из -за недостаточного извлеченного контекста. Исследовательская статья вводит концепцию достаточного контекста и описывает метод определения, когда доступно достаточно информации, чтобы ответить на вопрос.
Их анализ обнаружил, что проприетарные модели, такие как Близнецы, GPT и Claude, имеют тенденцию предоставлять правильные ответы, когда дают достаточный контекст. Однако, когда контекста недостаточно, они иногда галлюцинируют вместо того, чтобы воздержаться, но они также отвечают правильно 35–65% времени. Это последнее открытие добавляет еще одну проблему: зная, когда вмешиваться, чтобы заставить воздержание (не отвечать) и когда доверять модели, чтобы сделать это правильно.
Содержание
Определение достаточного контекста
Исследователи определяют достаточный контекст как означает, что полученная информация (из RAG) содержит все необходимые детали, чтобы получить правильный ответ. Классификация того, что что -то содержит достаточный контекст, не требует, чтобы он был проверенным ответом. Это только оценивает, может ли ответ быть правдоподобно получен из предоставленного контента.
Это означает, что классификация не проверяет правильность. Он оценивает, предоставляет ли полученная информация разумную основу для ответа на запрос.
Недостаточный контекст означает, что извлеченная информация неполна, вводит в заблуждение или отсутствует критические детали, необходимые для создания ответа.
Достаточный контекст авторащика
Достаточный контекст авторащика-это система на основе LLM, которая классифицирует пары-контекст запросов как имеющая достаточный или недостаточный контекст. Наиболее эффективной моделью авторитета была Gemini 1.5 Pro (1-выстрел), достигнув уровня точности 93%, опережая другие модели и методы.
Уменьшение галлюцинаций с помощью селективной генерации
Исследователи обнаружили, что ответы LLM на основе RAG могут правильно ответить на вопросы в 35–62% случаев, когда полученные данные имели недостаточный контекст. Это означало, что достаточный контекст не всегда был необходим для повышения точности, потому что модели смогли вернуть правильный ответ без него в 35-62% случаев.
Они использовали свое открытие об этом поведении, чтобы создать метод выборочной генерации, который использует доверительные показатели и достаточные контексты, чтобы решить, когда генерировать ответ и когда воздерживаться (чтобы не делать неправильных утверждений и галлюцинации).
Оценки доверия являются самооценкой вероятности, что ответ правильный. Это достигает баланса между разрешением LLM отвечать на вопрос, когда существует сильная уверенность, это правильно, а также получение вмешательства, когда существует достаточный или недостаточный контекст для ответа на вопрос, для дальнейшего повышения точности.
Исследователи описывают, как это работает:
«… Мы используем эти сигналы для обучения простой линейной модели для прогнозирования галлюцинаций, а затем используем ее для установления порогов компромиссов охвата и точности.
Этот механизм отличается от других стратегий для улучшения воздержания двумя ключевыми способами. Во -первых, поскольку он работает независимо от генерации, он смягчает непреднамеренные последующие эффекты… во -вторых, он предлагает управляемый механизм для настройки воздержания, который позволяет различным операционным настройкам в различных приложениях, таких как строгая точность в медицинских областях или максимальное покрытие по задачам творческого генерации ».
Вынос
Прежде чем кто-либо начнет утверждать, что достаточность контекста является фактором ранжирования, важно отметить, что в исследовательской работе не указывается, что ИИ всегда будет расставлять приоритеты в хорошо структурированных страницах. Достаточность контекста является одним из факторов, но с помощью этого конкретного метода оценки доверия также влияют на реакцию, сгенерированные AI, вмешались в воздержание решений. Пороги воздержания динамически приспосабливаются на основе этих сигналов, что означает, что модель может не ответить, если уверенность и достаточность являются низкими.
В то время как страницы с полной и хорошо структурированной информацией с большей вероятностью будут содержать достаточный контекст, другие факторы, такие как то, насколько хорошо ИИ выбирает и оценивает соответствующую информацию, систему, которая определяет, какие источники извлекаются, и как обучается LLM, также играет роль. Вы не можете изолировать один фактор, не рассматривая более широкую систему, которая определяет, как ИИ извлекает и генерирует ответы.
Если эти методы внедряются в помощника ИИ или чат-бота, это может привести к сгенерированным AI ответам, которые все чаще полагаются на веб-страницы, которые предоставляют полную, хорошо структурированную информацию, поскольку они с большей вероятностью будут содержать достаточный контекст для ответа на запрос. Ключ является предоставление достаточно информации в одном источнике, так что ответ имеет смысл, не требуя дополнительных исследований.
Какие страницы с недостаточным контекстом?
- Не хватает деталей, чтобы ответить на запрос
- Вводя в заблуждение
- Неполный
- Противоречиво
- Неполная информация
- Контент требует предварительных знаний
Необходимая информация для выполнения ответа разбросана по разным разделам, а не представлена в едином ответе.
Сторонние руководящие принципы Google по оценке качества (QRG) имеют концепции, которые похожи на достаточность контекста. Например, QRG определяет страницы низкого качества как те, которые плохо достигают своей цели, потому что они не предоставляют необходимую справочную информацию, детали или соответствующую информацию для этой темы.
Отрывки из Руководства по оценке качества:
«Страницы низкого качества плохо достигают своей цели, потому что им не хватает важного измерения или имеют проблемный аспект»
«Страница под названием« Сколько сантиметров в метре? » С большим количеством вне по теме и бесполезного контента, так что очень небольшое количество полезной информации трудно найти ».
«Страница учебного пособия с инструкциями о том, как сделать основное ремесло и много бесполезного« наполнителя »наверху, таких как широко известные факты о необходимых материалах или другой не создающей информации».
«… Большое количество« наполнителя »или бессмысленного содержания…»
Даже если обзоры Gemini или AI от Google не реализуют изобретения в этом исследовательском документе, многие из описанных в нем концепций имеют аналоги в руководящих принципах Google по качеству Rater, которые сами описывают концепции о высококачественных веб -страницах, которые SEO и издатели, которые хотят ранжировать, должны быть интернализуются.
Прочитайте исследовательскую работу:
Достаточный контекст: новый объектив по системам получения дополнительной генерации
Избранное изображение от Shutterstock/Chris Wm Willemsen