OpenAI, создатели ChatGPT, опубликовали информацию о своем веб-сканере под названием GPTBot. Теперь вы можете видеть, сканирует ли OpenAI ваш сайт и насколько, и вы можете запретить доступ ко всему или части вашего сайта с помощью протокола robots.txt.
Вы можете ознакомиться с документацией по GPTBot здесь.
- Токен пользовательского агента: GPTBot
- Полная строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, как Gecko; совместимо; GPTBot/1.0; +https://openai.com/gptbot)
Затем вы можете запретить использование пользовательского агента GPTBot, как и любого другого поискового робота.
В настоящее время диапазон IP указан для GPTbot это всего лишь 40.83.2.64/28, но это может измениться, поэтому проверьте этот файл на наличие обновлений.
OpenAI перечисляет использование GPTBot следующим образом: «Веб-страницы, просканированные с помощью пользовательского агента GPTBot, потенциально могут быть использованы для улучшения будущих моделей и отфильтрованы для удаления источников, требующих платного доступа, которые, как известно, собирают личную информацию (PII) или содержат текст, который нарушает наши политики. Предоставление GPTBot доступа к вашему сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность. Ниже мы также расскажем, как запретить GPTBot доступ к вашему сайту».
Вчера заметил новую тему на WebmasterWorld с жалобами на активность GPTBot. Веб-мастер сказал: «Только что было более 1000 посещений от этого бота, поражающих отдельные страницы. Так получилось, что мой сайт автоматически обслуживал 403 для каждого обращения, потому что бот не находится в моем белом списке и не прошел «человеческий» тест».
Раньше вы могли блокировать только плагины ChatGPT. И похоже, что Google и другие работают над альтернативой robots.txt для целей поиска ИИ.
Обсуждение форума на WebmasterWorld.