Использовался ли ваш веб-сайт или контент для обучения систем искусственного интеллекта в рамках набора данных Google C4? Новый инструмент поиска от Washington Post позволяет вам это выяснить.
Почему мы заботимся. Набор данных включает в себя типы веб-сайтов и создателей контента, на которых генеративный ИИ потенциально может негативно повлиять или даже уничтожить, например, новостные и медиа-издатели, блоги и маркетинговые агентства.
Поиск. Новый инструмент поиска можно найти в статье Post. Внутри секретного списка веб-сайтов, которые заставляют AI вроде ChatGPT звучать умно. Он создал список «на основе того, сколько «токенов» появилось из каждого в наборе данных. Жетоны — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы», — поясняется в статье.
Например, использовалась поисковая система Land.
Как и Marketing Land (бренд, который больше не существует, но существовал в 2019 году) и Marketing Land Events, на которых размещались наши сайты для конференций SMX и MarTech.
![C4 Маркетингленд](https://searchengineland.com/wp-content/seloads/2023/04/c4-marketingland.png.webp)
И сайт компании-учредителя Search Engine Land, Third Door Media.
![C4 Третья дверь](https://searchengineland.com/wp-content/seloads/2023/04/c4-thirddoormedia.png.webp)
Кроме того, использовался Круглый стол поисковых систем Барри Шварца.
![C4 Круглый стол](https://searchengineland.com/wp-content/seloads/2023/04/c4-seroundtable.png.webp)
Только часть данных. Напоминаем, что C4 (что означает Colossal Clean Crawled Corpus) — это только часть данных, используемых Google Bard и другими крупными языковыми моделями. Он также использует Википедию, Reddit и другие источники.
К слову о Реддите. Reddit хочет получать деньги, когда какие-либо компании хотят использовать его данные для обучения моделей ИИ. Нью-Йорк Таймс сообщил. Reddit обновил свой API условия и теперь будет взимать плату с некоторых компаний (например, Google, OpenAI) за доступ. Сказал генеральный директор и соучредитель Reddit Стив Хаффман:
- «Свод данных Reddit действительно ценен. Но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно. Сканирование Reddit, генерирование ценности и отсутствие возврата этой ценности нашим пользователям — это то, с чем у нас есть проблема. Это хорошее время для нас, чтобы ужесточить ситуацию».
По иронии судьбы, сам Reddit даже не создал ничего подобного. Это сделали пользователи.