Хранитель опубликовал расследование утверждая, что эксперты в области здравоохранения обнаружили неточные или вводящие в заблуждение рекомендации в некоторых ответах AI Review на медицинские запросы. Google оспаривает эту информацию и утверждает, что многие примеры основаны на неполных скриншотах.
The Guardian сообщила, что протестировала поисковые запросы, связанные со здоровьем, и поделилась ответами AI Review с благотворительными организациями, медицинскими экспертами и информационными группами для пациентов. Google сообщил The Guardian, что «подавляющее большинство» обзоров ИИ основаны на фактах и полезны.
Содержание
Что сообщила газета The Guardian
The Guardian сообщила, что проверила ряд запросов о здоровье и попросила организации здравоохранения просмотреть сводки, созданные ИИ. Некоторые рецензенты заявили, что резюме содержат вводящие в заблуждение или неправильные рекомендации.
Один из примеров связан с раком поджелудочной железы. Анна Джуэлл, директор по поддержке, исследованиям и оказанию влияния в Великобритании по борьбе с раком поджелудочной железы, сказала, что советовать пациентам избегать продуктов с высоким содержанием жиров «совершенно неправильно». Она добавила, что следование этим указаниям «может быть действительно опасным и поставить под угрозу шансы человека выздороветь настолько, чтобы пройти лечение».
В отчете также освещены вопросы психического здоровья. Стивен Бакли, руководитель информационного отдела компании Mind, сказал, что некоторые обзоры ИИ для таких состояний, как психоз и расстройства пищевого поведения, предлагают «очень опасные советы» и являются «неправильными, вредными или могут заставить людей избегать обращения за помощью».
The Guardian также привела пример скрининга рака. Афина Ламнисос, исполнительный директор благотворительной организации по борьбе с раком Eve Appeal, заявила, что пап-тест, указанный как тест на рак влагалища, является «совершенно неверной информацией».
Софи Рэндалл, директор Информационного форума для пациентов, сказала, что примеры показывают, что «Обзоры искусственного интеллекта Google могут помещать неточную информацию о здоровье в верхние строчки онлайн-поиска, представляя риск для здоровья людей».
The Guardian также сообщила, что повторение одного и того же поиска может привести к получению разных сводок ИИ в разное время, полученных из разных источников.
Ответ Google
Google оспорил как примеры, так и выводы.
Представитель сообщил The Guardian, что многие из приведенных примеров здравоохранения были «неполными скриншотами», но, судя по тому, что компания смогла оценить, они ссылались на «хорошо известные, авторитетные источники и рекомендовали обратиться за советом к эксперту».
В Google сообщили The Guardian, что «подавляющее большинство» обзоров ИИ «фактичны и полезны» и что они «постоянно» улучшают качество. Компания также утверждает, что точность обзоров AI находится «на одном уровне» с другими функциями поиска, включая избранные фрагменты.
Google добавил, что, если обзоры искусственного интеллекта неправильно интерпретируют веб-контент или упускают контекст, они будут принимать меры в соответствии со своей политикой.
Более широкий контекст точности
Это расследование оказывается в центре дебатов, которые идут с момента расширения AI Reviews в 2024 году.
Во время первоначального внедрения AI Обзоры привлекли внимание к странным результатам, включая предложения, связанные с нанесением клея на пиццу и поеданием камней. Позже Google заявил, что так и будет уменьшить объем запросов которые запускают составление сводок, написанных ИИ, и уточняют работу этой функции.
Я освещал этот запуск, и ранние проблемы с точностью быстро стали частью публичного повествования об ИИ. Тогда вопрос заключался в том, были ли эти проблемы крайними случаями или чем-то более структурным.
Совсем недавно, данные от Ahrefs предполагает, что медицинские YMYL-запросы с большей вероятностью, чем в среднем, вызывают обзоры ИИ. В своем анализе 146 миллионов результатов поиска компания Ahrefs сообщила, что 44,1% медицинских запросов YMYL вызывали обзор AI. Это более чем вдвое превышает общий базовый показатель в наборе данных.
Отдельные исследования медицинских вопросов и ответов на программах LLM указали на пробелы в цитировании ответов, генерируемых ИИ. Одна система оценки, Исходная проверкаобнаружили, что многие ответы не были полностью подтверждены цитируемыми источниками, даже если системы предоставляли ссылки.
Почему это важно
Обзоры ИИ отображаются над ранжированными результатами. Когда речь идет о здоровье, ошибки имеют больший вес.
Издатели потратили годы на то, чтобы инвестировать в документально подтвержденную медицинскую экспертизу. Это расследование также привлекает внимание к собственным сводкам Google, когда они появляются в верхней части результатов.
Отчет The Guardian также подчеркивает практическую проблему. Один и тот же запрос может выдавать разные сводки в разное время, что затрудняет проверку увиденного при повторном запуске поиска.
Заглядывая в будущее
Google ранее скорректировал обзоры ИИ после вирусной критики. В ответе The Guardian говорится, что компания ожидает, что обзоры ИИ будут оцениваться так же, как и другие функции поиска, а не будут соответствовать отдельному стандарту.

