OpenAI запустила GPTBot, новый поисковый робот для улучшения будущих моделей искусственного интеллекта, таких как GPT-4 и будущий GPT-5.

Как работает GPTBot

Эта система, узнаваемая по следующему токену пользовательского агента и всей строке пользовательского агента, просматривает Интернет в поисках данных, которые могут повысить точность, возможности и безопасность технологии ИИ.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +

Как сообщается, он должен строго отфильтровывать любые источники с ограниченным доступом к платному доступу, источники, нарушающие политику OpenAI, или источники, которые собирают личную информацию.

Использование GPTBot потенциально может значительно улучшить модели ИИ.

Предоставляя ему доступ к вашему сайту, вы вносите свой вклад в этот пул данных, тем самым улучшая общую экосистему ИИ.

Однако это не универсальный сценарий. OpenAI предоставил веб-администраторам возможность выбирать, предоставлять ли GPTBot доступ к своим веб-сайтам.

Ограничение доступа к GPTBot

Если владельцы веб-сайтов хотят ограничить доступ GPTBot к своему сайту, они могут изменить свой файл robots.txt.

Включив следующее, они могут запретить GPTBot доступ ко всему их веб-сайту.

User-agent: GPTBot
Disallow: /

Напротив, те, кто хочет предоставить частичный доступ, могут настроить каталоги, к которым может получить доступ GPTBot. Для этого добавьте в файл robots.txt следующее.

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Что касается технических операций GPTBot, любые вызовы на веб-сайты исходят из диапазонов IP-адресов, задокументированных в OpenAI. Веб-сайт. Эта деталь обеспечивает дополнительную прозрачность и ясность для веб-администраторов в отношении источника трафика на их сайтах.

Разрешение или запрещение GPTBot поисковый робот может существенно повлиять на конфиденциальность данных вашего сайта, безопасность и вклад в развитие ИИ.

Правовые и этические проблемы

Последние новости OpenAI вызвали дискуссию Хакер Новости об этичности и законности использования извлеченных веб-данных для обучения проприетарных систем искусственного интеллекта.

ЧИТАТЬ  EHPAD в Сент-Этьене: Как выбрать подходящее заведение для своих близких? -Airbuzz

GPTBot идентифицирует себя, поэтому веб-администраторы могут заблокировать его с помощью robots.txt, но некоторые утверждают, что в его разрешении нет никакой пользы, в отличие от сканеров поисковых систем, которые привлекают трафик. Серьезную озабоченность вызывает использование контента, защищенного авторским правом, без указания авторства. ChatGPT в настоящее время не цитирует источники.

Есть также вопросы о том, как GPTBot обрабатывает лицензионные изображения, видео, музыку и другие медиафайлы, найденные на веб-сайтах. Если это медиа заканчивается модельным обучением, это может представлять собой нарушение авторских прав. Некоторые эксперты считают, что данные, сгенерированные краулерами, могут ухудшить качество моделей, если контент, написанный ИИ, будет возвращен в обучение.

И наоборот, некоторые считают, что OpenAI имеет право свободно использовать общедоступные веб-данные, сравнивая это с человеком, который учится на онлайн-контенте. Однако другие утверждают, что OpenAI должен делиться прибылью, если он монетизирует веб-данные для коммерческой выгоды.

В целом, GPTBot открыл сложные дебаты о праве собственности, добросовестном использовании и стимулах для создателей веб-контента. Хотя следование robots.txt — хороший шаг, прозрачности все еще не хватает. Техническое сообщество задается вопросом, как их данные будут использоваться, поскольку продукты ИИ быстро развиваются.


Избранное изображение: Витор Миранда/Shutterstock





Source link