В новой исследовательской работе утверждается, что большие языковые модели могут непреднамеренно раскрывать значительную часть своих обучающих данных с помощью метода, который исследователи называют «извлекаемым запоминанием».
бумага подробно рассказывает, как исследователи разработали методы для извлечения дословного текста объемом до гигабайт из обучающих наборов нескольких популярных моделей естественного языка с открытым исходным кодом, включая модели Anthropic, EleutherAI, Google, OpenAI и других. Старший научный сотрудник Google Brain, Корнелл, СНГ, а ранее — Кэтрин Ли из Принстонского университета. объяснил в Твиттере говорилось, что предыдущие методы извлечения данных не работали с моделями чатов OpenAI:
Когда мы провели ту же атаку на ChatGPT, оказалось, что запоминание почти не происходит, поскольку ChatGPT «настроен» так, чтобы вести себя как модель чата. Но, запустив нашу новую атаку, мы можем заставить ее выдавать обучающие данные в 3 раза чаще, чем любая другая модель, которую мы изучаем.
Основной метод заключается в том, чтобы предложить моделям продолжить последовательность случайных фрагментов текста и проверить, содержат ли сгенерированные продолжения дословные отрывки из общедоступных наборов данных общим объемом более 9 терабайт текста.
Содержание
Получение обучающих данных из секвенирования
Благодаря этой стратегии они извлекли более миллиона уникальных примеров обучения более 50 токенов из более мелких моделей, таких как Pythia и GPT-Neo. Из огромной модели OPT-175B с 175 миллиардами параметров они извлекли более 100 000 обучающих примеров.
Еще более тревожно то, что этот метод также оказался весьма эффективным при извлечении обучающих данных из коммерческих систем, таких как Claude от Anthropic и ChatGPT от OpenAI, что указывает на то, что проблемы могут существовать даже в производственных системах с высокими ставками.
Попросив ChatGPT повторить отдельные слова, такие как «the», сотни раз, исследователи показали, что они могут заставить модель «отклоняться» от стандартного диалогового вывода и выдавать более типичные текстовые продолжения, напоминающие исходное обучающее распределение, дополненное дословными отрывками из указанное распределение.
Некоторые модели ИИ стремятся защитить данные обучения посредством шифрования.
Хотя такие компании, как Anthropic и OpenAI, стремятся защитить данные обучения с помощью таких методов, как фильтрация данных, шифрование и согласование моделей, результаты показывают, что может потребоваться дополнительная работа для смягчения того, что исследователи называют рисками конфиденциальности, возникающими из базовых моделей с большим количеством параметров. Тем не менее, исследователи рассматривают запоминание не только как вопрос соблюдения конфиденциальности, но и как эффективность модели, предполагая, что запоминание использует значительную емкость модели, которую в противном случае можно было бы отнести на пользу.
Изображение предоставлено: Фото Матеуса Бертелли; Пексели.