Использовался ли ваш веб-сайт или контент для обучения систем искусственного интеллекта в рамках набора данных Google C4? Новый инструмент поиска от Washington Post позволяет вам это выяснить.

Почему мы заботимся. Набор данных включает в себя типы веб-сайтов и создателей контента, на которых генеративный ИИ потенциально может негативно повлиять или даже уничтожить, например, новостные и медиа-издатели, блоги и маркетинговые агентства.

Поиск. Новый инструмент поиска можно найти в статье Post. Внутри секретного списка веб-сайтов, которые заставляют AI вроде ChatGPT звучать умно. Он создал список «на основе того, сколько «токенов» появилось из каждого в наборе данных. Жетоны — это небольшие фрагменты текста, используемые для обработки неорганизованной информации — обычно слова или фразы», ​​— поясняется в статье.

Например, использовалась поисковая система Land.

Как и Marketing Land (бренд, который больше не существует, но существовал в 2019 году) и Marketing Land Events, на которых размещались наши сайты для конференций SMX и MarTech.

C4 Маркетингленд

И сайт компании-учредителя Search Engine Land, Third Door Media.

C4 Третья дверь

Кроме того, использовался Круглый стол поисковых систем Барри Шварца.

C4 Круглый стол

Только часть данных. Напоминаем, что C4 (что означает Colossal Clean Crawled Corpus) — это только часть данных, используемых Google Bard и другими крупными языковыми моделями. Он также использует Википедию, Reddit и другие источники.

К слову о Реддите. Reddit хочет получать деньги, когда какие-либо компании хотят использовать его данные для обучения моделей ИИ. Нью-Йорк Таймс сообщил. Reddit обновил свой API условия и теперь будет взимать плату с некоторых компаний (например, Google, OpenAI) за доступ. Сказал генеральный директор и соучредитель Reddit Стив Хаффман:

  • «Свод данных Reddit действительно ценен. Но нам не нужно отдавать всю эту ценность некоторым из крупнейших компаний мира бесплатно. Сканирование Reddit, генерирование ценности и отсутствие возврата этой ценности нашим пользователям — это то, с чем у нас есть проблема. Это хорошее время для нас, чтобы ужесточить ситуацию».
ЧИТАТЬ  Конечно, кнопка действия на iPhone 15 Pro великолепна, но Apple следует перенять эту ретро-функцию у Google Pixel.

По иронии судьбы, сам Reddit даже не создал ничего подобного. Это сделали пользователи.



Source link