Поиск по 15,7 миллионам веб-сайтов в наборе данных Google C4. • Продвижение Web 2.0

Использовался ли ваш веб-сайт или контент для обучения систем искусственного интеллекта в рамках набора данных Google C4? Новый инструмент поиска от Washington Post позволяет вам это выяснить.

Почему мы заботимся. Набор данных включает в себя типы веб-сайтов и создателей контента, на которых генеративный ИИ потенциально может негативно повлиять или даже уничтожить, например, новостные и медиа-издатели, блоги и маркетинговые агентства.

Поиск. Новый инструмент поиска можно найти в статье Post. Внутри секретного списка веб-сайтов, которые заставляют AI вроде ChatGPT звучать умно. Он создал список «на основе того, сколько «токенов» появилось из каждого в наборе данных. Жетоны — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы», — поясняется в статье.

Например, использовалась поисковая система Land.

Как и Marketing Land (бренд, который больше не существует, но существовал в 2019 году) и Marketing Land Events, на которых размещались наши сайты для конференций SMX и MarTech.

И сайт компании-учредителя Search Engine Land, Third Door Media.

Кроме того, использовался Круглый стол поисковых систем Барри Шварца.

Только часть данных. Напоминаем, что C4 (что означает Colossal Clean Crawled Corpus) — это только часть данных, используемых Google Bard и другими крупными языковыми моделями. Он также использует Википедию, Reddit и другие источники.

К слову о Реддите. Reddit хочет получать деньги, когда какие-либо компании хотят использовать его данные для обучения моделей ИИ. Нью-Йорк Таймс сообщил. Reddit обновил свой API условия и теперь будет взимать плату с некоторых компаний (например, Google, OpenAI) за доступ. Сказал генеральный директор и соучредитель Reddit Стив Хаффман:

«Свод данных Reddit действительно ценен. Но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно. Сканирование Reddit, генерирование ценности и отсутствие возврата этой ценности нашим пользователям — это то, с чем у нас есть проблема. Это хорошее время для нас, чтобы ужесточить ситуацию».

ЧИТАТЬ Сколько будет стоить Galaxy Z TriFold? Я эксперт по Samsung и вот мой прогноз

По иронии судьбы, сам Reddit даже не создал ничего подобного. Это сделали пользователи.

Source link