DeepMind от Google опубликовал исследовательскую работу, в которой предлагается способ обучения больших языковых моделей, чтобы они давали более надежные ответы и были устойчивы к взлому с вознаграждением — шаг в разработке более адаптируемых и эффективных систем искусственного интеллекта.

Снимаю шляпу @ЭтанЛазук для твит о новой исследовательской работе от Google ДипМайнд.

ИИ имеет тенденцию взламывать награды

Обучение с подкреплением на основе обратной связи с человеком (RLHF) — это метод, используемый для обучения генеративного ИИ умению предлагать ответы, которые положительно оцениваются рецензентами. Положительные результаты являются наградой за правильные ответы, поэтому этот метод называется обучением с подкреплением. Положительные оценки выставляются оценщиками, поэтому это называется «Обучение с подкреплением на основе отзывов людей».

RLHF очень успешен, но у него есть и непредвиденный побочный эффект: ИИ изучает ярлыки и получает за это положительное вознаграждение. Вместо того, чтобы давать правильный ответ, он дает ответ, который создает видимость правильного ответа, и когда он обманывает оценщиков-людей (что является провалом обучения с подкреплением), ИИ начинает улучшать свою способность предоставлять оценщикам-людям с неточными ответами фальшивые ответы, чтобы получить вознаграждение (положительные отзывы людей).

Эта тенденция ИИ «обманывать», чтобы получить награду за обучение, называется взломом вознаграждения, и в исследовании предполагается свести ее к минимуму.

Причины взлома вознаграждений в больших языковых моделях

Чтобы решить проблему взлома вознаграждений, исследователи определили две области, которые приводят к взлому вознаграждений и которые необходимо решить с помощью своего решения:

  1. Сдвиги в дистрибуции
  2. Несоответствие человеческих предпочтений
ЧИТАТЬ  Google начал выпуск обновления рейтингов за ноябрь 2023 года.

Сдвиги в дистрибуции

Сдвиги распределения — это ситуация, в которой LLM обучается на наборе данных определенного типа, а затем во время обучения с подкреплением сталкивается с другими типами обучающих данных, которых он раньше не видел. Это изменение типа данных называется сдвигом распределения и потенциально может привести к тому, что языковая модель будет манипулировать системой вознаграждения, чтобы обеспечить удовлетворительный ответ, который она не могла бы предоставить в противном случае.

Несоответствие человеческих предпочтений

Это признак того, что люди делают непоследовательные суждения при оценке ответов, предоставляемых ИИ. Например, решение проблемы непостоянства человеческих предпочтений, вероятно, является одной из мотиваций создания Руководства для оценщиков качества поиска Google, которое стремится снизить влияние субъективных предпочтений.

Человеческие предпочтения могут варьироваться от человека к человеку. Обучение с подкреплением на основе обратной связи с человеком опирается на обратную связь от человека в процессе обучения модели вознаграждения (RM), и именно несоответствия могут привести к взлому вознаграждения.

Нахождение решения важно, как отмечают исследователи:

«Этот феномен взлома вознаграждений вызывает множество проблем.

Во-первых, это снижает производительность и проявляется в лингвистически неверном или излишне многословном выводе, который не отражает истинные человеческие предпочтения.

Во-вторых, это усложняет выбор контрольных точек из-за ненадежности прокси-RM и отражает закон Гудхарта: «Когда показатель становится целью, он перестает быть хорошим показателем».

В-третьих, это может вызвать подхалимство или усилить социальные предубеждения, отражая ограниченную и искаженную демографию тех, кто дает обратную связь.

Наконец, что наиболее важно, несогласованность из-за взлома вознаграждений может привести к угрозам безопасности, особенно с учетом быстрой интеграции LLM в повседневную жизнь и важные процессы принятия решений. «

Модели средневзвешенного вознаграждения (WARM)

Исследователи из Google DeepMind разработали систему под названием «Модели вознаграждения по усредненному весу» (WARM), которая создает прокси-модель путем объединения нескольких отдельных моделей вознаграждения, каждая из которых имеет небольшие различия. При использовании WARM по мере увеличения количества моделей вознаграждения (RM) они усредняются, и результаты становятся значительно лучше, при этом система избегает внезапного падения надежности, которое происходит со стандартными моделями.

ЧИТАТЬ  Приходите в кинотеатр рядом с вами: как экраны кинотеатров вскоре могут стать гигантскими светодиодными дисплеями благодаря множеству китайских компаний, ищущих новые рынки

Поскольку система WARM использует несколько моделей меньшего размера, ее преимущество заключается в эффективном использовании памяти и не влияет на способность модели предоставлять ответы, а также в устойчивости к взлому с вознаграждением.

WARM также делает модель более надежной и согласованной при работе с изменяющимися данными.

Что привлекло мое внимание, так это его способность следовать «парадигме обновляемого машинного обучения», которая относится к способности WARM адаптироваться и совершенствоваться с течением времени путем интеграции новых данных или изменений, не начиная с нуля.

В следующей цитате WA означает средневзвешенное значение, а RM — модель вознаграждения.

Исследователи объясняют:

«WARM представляет собой гибкий и прагматичный метод улучшения соответствия ИИ человеческим ценностям и социальным нормам.

…WARM следует обновляемой парадигме машинного обучения, устраняя необходимость связи между серверами и, таким образом, обеспечивая невероятно простое распараллеливание RM.

Это упрощает использование в сценариях федеративного обучения, где данные должны оставаться конфиденциальными. Кроме того, WA добавит уровень конфиденциальности и уменьшит предвзятость за счет уменьшения запоминания личных предпочтений. Тогда простое расширение WARM объединило бы RM, обученных на разных наборах данных, например, от разных (кластеров) маркировщиков.

…Более того, поскольку было доказано, что WA ограничивает катастрофическое забывание, WARM может беспрепятственно поддерживать повторяющиеся и развивающиеся предпочтения».

ограничения

Это исследование указывает путь к дальнейшим улучшениям ИИ. Это не полное решение, поскольку оно имеет присущие ограничения. Одна из проблем заключается в том, что это не устраняет все формы «ложные корреляции или предвзятости, присущие данным о предпочтениях».

Тем не менее, они выразили оптимизм по поводу будущего WARM:

«Наши эмпирические результаты демонстрируют его эффективность при применении к обобщению. Мы ожидаем, что WARM будет способствовать созданию более настроенных, более прозрачных и эффективных систем искусственного интеллекта и будет стимулировать дальнейшие исследования в области моделирования вознаграждений».

Прочтите отчет об исследовании:

ЧИТАТЬ  Большие модели аргументов ускоряют контент-маркетинг

ТЕПЛЫЙ: О преимуществах моделей вознаграждения, усредненных по весу

Рекомендованное изображение: Shutterstock/Mansel Birst



Source