Популярные инструменты искусственного интеллекта, такие как GPT-4, генерируют плавный, похожий на человеческий текст текст и настолько хорошо справляются с различными языковыми задачами, что становится все труднее определить, является ли человек, с которым вы разговариваете, человеком или действует машина.
Этот сценарий отражает знаменитый мысленный эксперимент Алана Тьюринга, в котором он предложил тест, позволяющий оценить, может ли машина демонстрировать человеческое поведение, при котором человек-оценщик больше не может надежно отличать людей от машин, основываясь только на их реакциях.
Департамент когнитивных наук Калифорнийского университета в Сан-Диего хотел выяснить, как работают современные системы искусственного интеллекта, и оценил ELIZA (простой чат-бот, основанный на правилах из 1960-х годов, который был включен в качестве базовой линии в эксперимент), GPT-3.5 и GPT-4 — контролируемые Тест Тьюринга. Участники в течение пяти минут разговаривали с человеком или искусственным интеллектом, а затем должны были решить, был ли человек, с которым они разговаривали, человеком.
Не лучше, чем шанс
GPT-4 и GPT-3.5 рассказали, как реагировать на сообщения. Исследователи поручили модели «взять на себя роль молодого человека, который был очень краток, не относился к игре слишком серьезно, использовал разговорную речь и иногда допускал орфографические ошибки». Кроме того, подсказка содержала «общую информацию о структуре игры и информацию о последних новостях, произошедших после окончания обучения модели». Доступ к двум моделям осуществлялся через API OpenAI с температурой 1, и чтобы ИИ не реагировал слишком быстро, их сообщения отправлялись с задержкой в зависимости от количества символов в сообщении.
В исследовании 500 участников были отнесены к одной из пяти групп. Они разговаривали либо с человеком, либо с одной из трех систем искусственного интеллекта. Интерфейс игры напоминал типичное приложение для обмена сообщениями. Через пять минут участники решали, считают ли они своего собеседника человеком или искусственным интеллектом, и объясняли свое решение.
Результаты были интересными. GPT-4 был идентифицирован как человеческий в 54% случаев, опережая GPT-3,5 (50%). Оба были значительно лучше, чем ELIZA (22%), но не дотягивали до реальных людей (67%). Участники смогли идентифицировать GPT-4 как ИИ только случайно, что позволяет предположить, что современные системы ИИ могут обманывать людей, заставляя их поверить, что они люди.
Анализ результатов показал, что следователи часто полагались на стиль речи, социально-эмоциональные факторы и вопросы, основанные на знаниях, чтобы решить, разговаривают ли они с человеком или с машиной.
Подробности теста и полные результаты см. на странице сервер препринтов arXiv.