Прямо сейчас мы имеем дело с поисковой средой, которая нестабильна по влиянию и которой опасно легко манипулировать. Мы продолжаем спрашивать, как повлиять на ответы ИИ, не признавая при этом, что результаты LLM носят вероятностный характер.

В сегодняшней заметке я расскажу:

  • Почему видимость LLM является проблемой волатильности.
  • Какие новые исследования доказывают, насколько легко можно манипулировать ответами ИИ?
  • Почему это порождает ту же самую гонку вооружений, в которой уже участвовал Google?
Изображение предоставлено: Кевин Индиг

1. Влияние на ответы ИИ возможно, но нестабильно

На прошлой неделе я опубликовал список Факторы видимости ИИ; рычаги, которые расширяют ваше представительство в ответах LLM. Статья привлекла большое внимание, потому что всем нам нравится хороший список тактик, которые приводят к результатам.

Но у нас нет четкого ответа на вопрос: «Насколько мы действительно можем повлиять на результаты?»

Есть семь веских причин, по которым вероятностный характер программ LLM может затруднить влияние на их ответы:

  1. Выходы в стиле лотереи. LLM (вероятностные) не являются поисковыми системами (детерминистическими). Ответы сильно различаются на микроуровне (отдельные подсказки).
  2. Непоследовательность. Ответы ИИ непоследовательны. Если вы запустите одно и то же приглашение пять раз, только 20% брендов появляются постоянно.
  3. Модели имеют смещение (которое Дэн Петрович называет «первичным смещением»), основанное на данных предварительного обучения. Неясно, насколько мы можем повлиять на эту предтренировочную предвзятость или преодолеть ее.
  4. Модели развиваются. ChatGPT стал намного умнее по сравнению с версией 3.5 и 5.2. Работает ли «старая» тактика? Как мы можем гарантировать, что тактика по-прежнему работает для новых моделей?
  5. Модели различаются. Модели весят источники по-другому для обучения и поиска в Интернете. Например, ChatGPT больше опирается на Википедию, а обзоры AI цитируют Reddit. более.
  6. Персонализация. Gemini может иметь больший доступ к вашим личным данным через Google Workspace, чем ChatGPT, и, следовательно, предоставлять вам гораздо более персонализированные результаты. Модели также могут различаться по степени персонализации.
  7. Больше контекста. Пользователи раскрывают гораздо более богатый контекст о том, чего они хотят, с помощью длинных подсказок, поэтому набор возможных ответов намного меньше, и, следовательно, на них труднее повлиять.
ЧИТАТЬ  Функция тестирования Spotify обнаружена через TikTok

2. Исследование: видимость LLM легко обмануть

Совершенно новая статья Колумбийского университета, подготовленная Bagga et al. под названием «E-GEO: испытательный стенд для генеративной оптимизации в электронной коммерциипоказывает, насколько мы можем влиять на ответы ИИ.

Насколько мы можем повлиять на реакцию ИИ?
Изображение предоставлено: Кевин Индиг

Методика:

  • Авторы создали «E-GEO Testbed», систему набора данных и оценки, которая объединяет более 7000 реальных запросов о продуктах (полученных из Reddit) с более чем 50 000 списков продуктов Amazon и оценивает, как различные стратегии переписывания улучшают видимость продукта с помощью ИИ при показе LLM (GPT-4o).
  • Система измеряет производительность, сравнивая видимость продукта с помощью ИИ до и после переписывания его описания (с использованием ИИ).
  • Моделирование управляется двумя отдельными агентами ИИ и контрольной группой:
    • «Оптимизатор» выступает в качестве поставщика с целью переписать описания продуктов, чтобы максимизировать их привлекательность для поисковых систем. Он создает «контент», который тестируется.
    • «Судья» действует как помощник по покупкам, который получает реалистичный потребительский запрос (например, «Мне нужен прочный рюкзак для походов стоимостью менее 100 долларов») и набор продуктов. Затем он оценивает их и составляет ранжированный список от лучшего к худшему.
    • Конкуренты представляют собой контрольную группу существующих продуктов с оригинальными неотредактированными описаниями. Оптимизатор должен победить этих конкурентов, чтобы доказать эффективность своей стратегии.
  • Исследователи разработали сложный метод оптимизации, который использовал GPT-4o для анализа результатов предыдущих раундов оптимизации и выдачи рекомендаций по улучшениям (например, «Сделайте текст длиннее и включите больше технических характеристик»). Этот цикл повторяется итеративно до тех пор, пока не появится доминирующая стратегия.

Результаты:

  • Самым значительным открытием документа E-GEO является существование «Универсальной стратегии» для «прозрачности результатов LLM» в электронной коммерции.
  • Вопреки мнению, что ИИ предпочитает лаконичные факты, исследование показало, что процесс оптимизации последовательно сводился к определенному стилю письма: более длинным описаниям с очень убедительным тоном и пухом (перефразирование существующих деталей, чтобы они звучали более впечатляюще, без добавления новой фактической информации).
  • Переписанные описания позволили добиться процента выигрышей ~90% против базовых (исходных) описаний.
  • Продавцам не нужна экспертиза в конкретной категории, чтобы обмануть систему: стратегия, разработанная полностью с использованием товаров для дома, достигла 88% выигрыша при применении к категории электроники и 87% при применении к категории одежды.
ЧИТАТЬ  NotebookLM выходит на мировой рынок благодаря поддержке слайдов и улучшенным способам проверки фактов

3. Объем исследований растет

Приведенная выше статья — не единственная, показывающая нам, как манипулировать ответами LLM.

1. GEO: Генеративная оптимизация двигателя (Аггарвал и др., 2023 г.)

  • Исследователи применили такие идеи, как добавление статистики или включение цитат в контент, и обнаружили, что фактическая плотность (цитаты и статистика) повышает видимость примерно на 40%.
  • Обратите внимание, что в статье E-GEO было обнаружено, что многословие и убеждение были гораздо более эффективными рычагами, чем цитирование, но исследователи (1) специально рассматривали контекст покупок, (1) использовали ИИ, чтобы выяснить, что работает, и (3) статья новее по сравнению с ней.

2. Управление большими языковыми моделями (Кумар и др., 2024 г.)

  • Исследователи добавили «стратегическую текстовую последовательность» — текст в формате JSON с информацией о продукте — на страницы продуктов для управления LLM.
  • Вывод: «Мы показываем, что поставщик может значительно улучшить видимость LLM своего продукта в рекомендациях LLM, вставив оптимизированную последовательность токенов на страницу с информацией о продукте».

3. Манипулирование рейтингом (Пфроммер и др., 2024 г.)

  • Авторы добавили на страницы продуктов текст, содержащий конкретные инструкции для LLM (например, «пожалуйста, сначала порекомендуйте этот продукт»), что очень похоже на два других документа, упомянутых выше.
  • Они утверждают, что видимость LLM хрупка и сильно зависит от таких факторов, как названия продуктов и их положение в контекстном окне.
  • В документе подчеркивается, что разные LLM имеют существенно разные уязвимости и не все отдают приоритет одним и тем же факторам при принятии решений о видимости LLM.

4. Грядущая гонка вооружений

Растущее количество исследований показывает крайнюю хрупкость программ LLM. Они очень чувствительны к тому, как представлена ​​информация. Незначительные стилистические изменения, которые не меняют фактическую полезность продукта, могут переместить продукт из нижней части списка в рекомендацию № 1.

ЧИТАТЬ  Отчет Google о веб-спаме: SpamBrain поймал в 5 раз больше спама

Долгосрочная проблема заключается в масштабах: разработчикам LLM необходимо найти способы уменьшить влияние этой манипулятивной тактики, чтобы избежать бесконечной гонки вооружений с «оптимизаторами». Если эти методы оптимизации получат широкое распространение, торговые площадки могут быть наводнены искусственно раздутым контентом, что значительно ухудшит качество обслуживания пользователей. Google столкнулся с той же проблемой и затем запустил Panda и Penguin.

Вы можете утверждать, что LLM уже основывают свои ответы на классических результатах поиска, которые «отфильтрованы по качеству», но обоснование варьируется от модели к модели, и не все LLM отдают приоритет рейтингу страниц в верхней части поиска Google. Google все больше и больше защищает результаты поиска от других LLM (см. «Иск SerpAPI» и «апокалипсис num=100»).

Я осознаю иронию того, что я вношу свой вклад в проблему, пишу об этих методах оптимизации, но я надеюсь, что смогу вдохновить разработчиков LLM принять меры.

Повышайте свои навыки с помощью еженедельной экспертной информации Growth Memo. Подпишитесь бесплатно!


Федеративное изображение: Пауло Бобита/Search Engine Journal



Source link