Согласно новому анализу, по меньшей мере 69 из 1000 самых популярных веб-сайтов в мире заблокировали GPTBot, новый веб-сканер OpenAI, представленный 7 августа.
А процент сайтов увеличивается примерно на 5% в неделю, согласно данным сервиса AI по контенту и плагиату Originality.ai.
Почему нас это волнует. Блокировать или не блокировать ChatGPT? Это был большой вопрос для многих SEO-специалистов. Очевидно, что несколько популярных веб-сайтов уже заблокировали GPTBot, предположительно потому, что они не хотят, чтобы OpenAI собирал их данные для обучения своих моделей – по крайней мере, не без компенсации. Кроме того, ChatGPT не цитирует и не ссылается на свои источники.
По цифрам. Согласно анализу, 15 самых популярных сайтов, блокирующих ChatGPT:
- Amazon.com
- quora.com
- nytimes.com
- Shutterstock.com
- Wikihow.com
- cnn.com
- foursquare.com
- healthline.com
- scribd.com
- businessinsider.com
- Reuters.com
- www.medicalnewstoday.com
- Goodhousekeeping.co
- Amazon.co.uk
- tumblr.com
Но. Несмотря на то, что многие сайты блокируют GPTBot, они не блокируют CCbot, веб-сканер Common Crawl. Часть обучающих данных, используемых OpenAI, Google и другими, поступает из Common Crawl.
Есть несколько примечательных исключений, таких как газета New York Times, которая не хочет, чтобы ее контент использовался для обучения систем искусственного интеллекта. Другие популярные сайты, блокирующие CCbot, включают Shutterstock.com, Reuters.com и Goodhousekeeping.com.
Ограничения. 241 файл robots.txt не был идентифицирован/проверен в рамках этого анализа. (Поэтому я написал «по крайней мере» в первом предложении.)
Анализ Originality.ai. Веб-сайты, которые заблокировали GPTBot OpenAI – исследование 1000 веб-сайтов
Копай глубже. Следует ли заблокировать плагину веб-браузера ChatGPT доступ к вашему веб-сайту?