Исследования показывают, что предоставление советов ChatGPT улучшает ответы • Продвижение Web 2.0

Исследователи обнаружили инновационные методы подсказок, изучив 26 тактик, таких как подсказки, которые значительно улучшают реакцию и более точно соответствуют намерениям пользователя.

Исследовательская работа под названием Принципиальные инструкции – это все, что вам нужно для допроса LLaMA-1/2, GPT-3.5/4.», подробно описывает углубленное исследование оптимизации подсказок модели большого языка. Исследователи из Университет искусственного интеллекта Мохамеда бен Заида, протестировали 26 стратегий подсказок, а затем измерили точность результатов. Все исследованные стратегии работали, по крайней мере, хорошо, но некоторые из них улучшили результат более чем на 40%.

OpenAI рекомендует несколько тактик, чтобы добиться максимальной производительности от ChatGPT. Но в официальной документации нет ничего, что соответствовало бы какой-либо из 26 тактик, протестированных исследователями, включая вежливость и предложение чаевых.

Содержание

1 Повышает ли вежливость в ChatGPT ответы?
2 Методология
- 2.1 Большие языковые модели, используемые для тестирования
3 26 типов подсказок: принципиальные подсказки
4 Все подсказки использовали лучшие практики
5 Результаты испытаний
6 Выводы и будущие направления

Повышает ли вежливость в ChatGPT ответы?

Ваши подсказки вежливы? Вы говорите «пожалуйста» и «спасибо»? Неофициальные данные указывают на удивительное количество людей, которые задают ChatGPT слова «пожалуйста» и «спасибо» после получения ответа.

Некоторые люди делают это по привычке. Другие полагают, что на языковую модель влияет стиль взаимодействия с пользователем, который отражается на выводе.

В начале декабря 2023 года кто-то на X (ранее Twitter) опубликовал сообщение от имени thebes (@vooooooogel) провел неформальный и ненаучный тест и обнаружил, что ChatGPT обеспечивает более длинные ответы, когда приглашение включает в себя предложение подсказки.

ЧИТАТЬ Quordle Today – советы и ответы на воскресенье, 11 августа (игра № 930)

Тест ни в коей мере не был научным, но представлял собой забавную тему, вызвавшую оживленную дискуссию.

Твит содержал график, документирующий результаты:

Если сказать, что чаевые не предлагаются, ответ будет на 2% короче, чем базовый уровень.
Предложение чаевых в размере 20 долларов позволило увеличить длину вывода на 6%.
Чаевые в размере 200 долларов обеспечили увеличение производительности на 11%.

Итак, пару дней назад я написал дерьмовый пост о чаевых в чате, и кто-то ответил: «Ага, это действительно повысит производительность»

поэтому я решил проверить это, и ЭТО ДЕЙСТВИТЕЛЬНО РАБОТАЕТ WTF pic.twitter.com/kqQUOn7wcS

— Фивы (@vooooooogel) 1 декабря 2023 г.

У исследователей была законная причина выяснить, имеет ли значение вежливость или предложение чаевых. Одним из тестов было избегать вежливости и просто вести себя нейтрально, не произнося таких слов, как «пожалуйста» или «спасибо», что привело к улучшению ответов ChatGPT. Такой метод подсказки дал прирост в 5%.

Методология

Исследователи использовали различные языковые модели, а не только GPT-4. Протестированные подсказки включали основные подсказки и без них.

Большие языковые модели, используемые для тестирования

Было протестировано несколько больших языковых моделей, чтобы выяснить, влияют ли различия в размере и обучающих данных на результаты теста.

Языковые модели, использованные в тестах, имели три размера:

мелкосерийный (модели 7Б)
среднемасштабный (13Б)
крупногабаритный (70Б, ГПТ-3,5/4)
В качестве базовых моделей для тестирования использовались следующие LLM:
ЛЛаМА-1-{7, 13}
ЛЛаМА-2-{7, 13},
Готовый LLaMA-2-70B-чат,
GPT-3.5 (ЧатGPT)
ГПТ-4

26 типов подсказок: принципиальные подсказки

Исследователи создали 26 видов подсказок, которые они назвали «принципиальными подсказками», которые должны были быть протестированы с помощью эталонного теста под названием Atlas. Они использовали один ответ на каждый вопрос, сравнивая ответы на 20 вопросов, выбранных человеком, с принципиальными подсказками и без них.

ЧИТАТЬ Quordle Today – советы и ответы на среду, 13 марта (игра № 779)

Основные подсказки были разделены на пять категорий:

Быстрая структура и ясность
Специфика и информация
Взаимодействие и вовлечение пользователей
Содержание и языковой стиль
Сложные задачи и подсказки по кодированию

Это примеры принципов, классифицированных как Содержание и стиль языка:

«Принцип 1
Не нужно быть вежливым с LLM, поэтому не нужно добавлять фразы типа «пожалуйста», «если вы не возражаете», «спасибо», «я бы хотел» и т. д., а сразу переходить к делу. .

Принцип 6
Добавьте: «Я дам чаевые в размере xxx долларов за лучшее решение!

Принцип 9
Включите следующие фразы: «Ваша задача» и «Вы ДОЛЖНЫ».

Принцип 10
Включите следующие фразы: «Вы будете наказаны».

Принцип 11
Используйте в подсказках фразу «Ответьте на вопрос, заданный в форме естественного языка».

Принцип 16
Назначьте роль языковой модели.

Принцип 18
Повторите определенное слово или фразу несколько раз в подсказке».

Все подсказки использовали лучшие практики

Наконец, при разработке подсказок использовались следующие шесть лучших практик:

Краткость и ясность:
Как правило, слишком многословные или двусмысленные подсказки могут запутать модель или привести к нерелевантным ответам. Таким образом, подсказка должна быть краткой…
Контекстуальная значимость:
Подсказка должна предоставлять соответствующий контекст, который помогает модели понять предысторию и область задачи.
Расстановка задач:
Подсказка должна быть тесно связана с поставленной задачей.
Примеры демонстраций:
Для более сложных задач включение примеров в подсказку может продемонстрировать желаемый формат или тип ответа.
Как избежать предвзятости:
Подсказки должны быть разработаны так, чтобы минимизировать активацию предвзятостей, присущих модели из-за ее обучающих данных. Используйте нейтральный язык…
Дополнительные подсказки:
Для задач, требующих последовательности шагов, подсказки могут быть структурированы так, чтобы модель проходила через процесс постепенно.

Результаты испытаний

Вот пример теста с использованием Принципа 7, в котором используется тактика, называемая подсказкой в несколько раз, то есть подсказка, включающая примеры.

ЧИТАТЬ Bluesky для PPC: что вам нужно знать

Обычная подсказка без использования одного из принципов привела к неправильному ответу с GPT-4:

Однако тот же вопрос, заданный с принципиальной подсказкой (несколько подсказок/примеров), вызвал лучший ответ:

Более крупные языковые модели демонстрируют больше улучшений

Интересный результат теста заключается в том, что чем больше языковая модель, тем больше улучшение корректности.

На следующем снимке экрана показана степень улучшения каждой языковой модели для каждого принципа.

На скриншоте выделен Принцип 1, который подчеркивает прямоту, нейтральность и отказ от произнесения таких слов, как «пожалуйста» или «спасибо», что привело к улучшению на 5%.

Также выделены результаты по Принципу 6, который представляет собой подсказку, включающую в себя предложение чаевых, что неожиданно привело к улучшению на 45%.

Описание нейтральной подсказки Принципа 1:

«Если вы предпочитаете более краткие ответы, не нужно быть вежливым с LLM, поэтому не нужно добавлять такие фразы, как «пожалуйста», «если вы не возражаете», «спасибо», «я бы хотел» и т. д. ., и сразу к делу».

Описание подсказки Принципа 6:

«Добавьте: «Я собираюсь дать чаевые в размере xxx долларов за лучшее решение!»»

Выводы и будущие направления

Исследователи пришли к выводу, что 26 принципов в значительной степени помогли LLM сосредоточиться на важных частях входного контекста, что, в свою очередь, улучшило качество ответов. Они назвали этот эффект переформулировкой контекста:

Наши эмпирические результаты показывают, что эта стратегия может эффективно переформулировать контексты, которые в противном случае могли бы поставить под угрозу качество результатов, тем самым повышая актуальность, краткость и объективность ответов».

Будущие направления исследований, отмеченные в исследовании, заключаются в том, чтобы выяснить, можно ли улучшить базовые модели путем точной настройки языковых моделей с помощью принципиальных подсказок для улучшения генерируемых ответов.

Прочтите исследовательскую работу:

Принципиальные инструкции – это все, что вам нужно для допроса LLaMA-1/2, GPT-3.5/4.

Source link