Новая нефть – это не данные или внимание. Это слова. Отличительной особенностью создания моделей ИИ следующего поколения является доступ к контенту при нормализации вычислительной мощности, хранилища и энергии.

Но Интернет уже становится слишком мал, чтобы утолить голод по новым моделям.

Некоторые руководители и исследователи говорят, что потребность отрасли в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие искусственного интеллекта.

Кажется, даже точная настройка не работает так же эффективно, как простое создание более мощных моделей. Исследование Microsoft показывает, что эффективные подсказки могут превосходить по эффективности хорошо настроенную модель на 27%.

Нам было интересно, будет ли будущее состоять из множества маленьких, точно настроенных моделей или из нескольких больших, всеобъемлющих моделей. Кажется, последнее.

Не существует стратегии ИИ без стратегии данных.

Жаждущие большего количества высококачественного контента для разработки следующего поколения больших языковых моделей (LLM), разработчики моделей начинают платить за естественный контент и возобновляют свои усилия по маркировке синтетических данных.

Для создателей контента любого рода этот новый поток денег может проложить путь к новой модели монетизации контента, которая стимулирует качество и делает Интернет лучше.

Изображение предоставлено: Лина ™

Повышайте свои навыки с помощью еженедельной экспертной информации Growth Memo. Подпишитесь бесплатно!

ЗСК: Да

Если контент — это новая нефть, то социальные сети — это нефтяные вышки. Google инвестировал 60 миллионов долларов в год в использование контента Reddit для обучения своих моделей и вывода ответов Reddit в топ поиска. Пенни, если вы спросите меня.

Генеральный директор YouTube Нил Мохан недавно ясно дал понять OpenAI и другим разработчикам моделей, что обучение на YouTube бесполезно, поскольку это защищает огромные запасы нефти компании.

Газета New York Times, которая в настоящее время подает иск против OpenAI, опубликовала статью, в которой говорится, что OpenAI разработала Whisper для обучения моделей по расшифровкам YouTube, а Google использует контент со всех своих платформ, например, обзоры Google Docs и Maps, для обучения своего ИИ. модели.

Поставщики данных генеративного ИИ, такие как Appen или Scale AI, нанимают авторов (людей) для создания контента для обучения моделям LLM.

Не заблуждайтесь, писатели не разбогатеют, писая для ИИ.

За 25–50 долларов в час писатели выполняют такие задачи, как ранжирование ответов ИИ, написание коротких рассказов и проверка фактов.

Кандидаты должны иметь степень доктора философии. или степень магистра или в настоящее время учатся в колледже. Поставщики данных явно ищут экспертов и «хороших» авторов. Но первые признаки обнадеживают: написание статей для ИИ может быть монетизировано.

Объявление о вакансии эксперта по творческому письму в области обучения моделям искусственного интеллектаИзображение предоставлено: Кевин Индиг
Скриншот онлайн-списка вакансий для Изображение предоставлено: Кевин Индиг

Разработчики моделей ищут хороший контент во всех уголках сети, и некоторые из них с радостью его продают.

Контент-платформы, такие как Photobucket, продают фотографии по цене от пяти центов до одного доллара за штуку. Короткие видеоролики могут стоить от 2 до 4 долларов; более длинные фильмы стоят от 100 до 300 долларов за час съемки.

ЧИТАТЬ  Избавьтесь от головной боли естественным путем с помощью этих эффективных средств - UniverSanté

С помощью миллиардов фотографий компания нашла нефть на своем заднем дворе. Какой генеральный директор сможет устоять перед таким искушением, особенно учитывая, что монетизация контента становится все сложнее и сложнее?

От Бесплатный контент:

Издателей давят с нескольких сторон:

  • Мало кто готов к смерти сторонних файлов cookie.
  • Социальные сети отправляют меньше трафика (Мета) или ухудшают качество (Х).
  • Большинство молодых людей получают новости из TikTok.
  • SGE маячит на горизонте.

По иронии судьбы, более правильная маркировка контента ИИ может помочь развитию LLM, поскольку легче отделить природный контент от синтетического.

В этом смысле в интересах разработчиков LLM маркировать контент ИИ, чтобы они могли исключить его из обучения или использовать правильно.

Маркировка

Подбор слов для обучения студентов-магистров — это лишь одна сторона разработки моделей искусственного интеллекта следующего поколения. Другое дело — маркировка. Разработчикам моделей необходима маркировка, чтобы избежать крах моделии обществу это нужно как щит от фейковые новости.

Новое движение в области маркировки ИИ растет, несмотря на то, что OpenAI отказалась от водяных знаков из-за низкой точности (26%). Вместо маркировки самого контента, что кажется бесполезным, крупные технологии (Google, YouTube, Meta и TikTok) подталкивают пользователей маркировать контент ИИ, используя метод кнута и пряника.

Google использует двойной подход к борьбе со спамом, создаваемым искусственным интеллектом, в поиске: на видном месте отображаются такие форумы, как Reddit, где контент, скорее всего, создается людьми, и налагаются штрафы.

От Эффективность:

Google размещает больше контента с форумов в поисковой выдаче, чтобы уравновесить контент ИИ. Верификация — это лучший водяной знак ИИ. Несмотря на то, что Reddit не может запретить людям использовать ИИ для создания сообщений или комментариев, шансы ниже из-за двух вещей, которых нет в поиске Google: модерации и кармы.

Да, Контентные гоблины уже нацелились на Reddit, но большинство из 73 миллионов активных пользователей в день дают полезные ответы.1 Модераторы контента наказывают спам банами или даже пинками. Но самым мощным фактором качества на Reddit является Карма, «оценка репутации пользователя, отражающая его вклад в сообщество». Посредством простого голосования «за» или «против» пользователи могут получить авторитет и надежность — два неотъемлемых компонента системы качества Google.

Google недавно пояснил, что ожидает, что продавцы не будут удалять метаданные искусственного интеллекта из изображений с помощью протокола метаданных IPTC.

Если у изображения есть такой тег, как «compositeSynthetic», Google может пометить его как «созданное искусственным интеллектом» где угодно, а не только при покупках. Наказание за удаление метаданных ИИ неясно, но я представляю это как наказание за ссылку.

IPTC — это тот же формат, который Meta использует для Instagram, Facebook и WhatsApp. Обе компании присваивают метатеги IPTC любому контенту, исходящему из их собственных LLM. Чем больше производители инструментов ИИ следуют одним и тем же правилам при маркировке и тегировании контента ИИ, тем надежнее работают системы обнаружения.

Когда фотореалистичные изображения создаются с помощью нашей функции Meta AI, мы делаем несколько вещей, чтобы люди знали об использовании искусственного интеллекта, в том числе размещаем видимые маркеры, которые вы можете видеть на изображениях, а также невидимые водяные знаки и метаданные, встроенные в файлы изображений. Такое использование как невидимых водяных знаков, так и метаданных повышает надежность этих невидимых маркеров и помогает другим платформам идентифицировать их.

Недостатки контента ИИ невелики, когда контент выглядит как ИИ. Но когда контент ИИ выглядит реальным, нам нужны ярлыки.

ЧИТАТЬ  Влияние скорости загрузки сайта на рейтинг в поисковых системах

В то время как рекламодатели стараются уйти от внешнего вида искусственного интеллекта, контент-платформы предпочитают его, потому что его легко распознать.

Для коммерческих художников и рекламодателей генеративный искусственный интеллект способен значительно ускорить творческий процесс и доставлять клиентам персонализированную рекламу в больших масштабах — что-то вроде Святого Грааля в мире маркетинга. Но есть одна загвоздка: многие изображения, генерируемые моделями искусственного интеллекта, имеют мультяшную плавность, явные недостатки или и то, и другое.

Потребители уже отвернулись от «взгляда ИИ» настолько, что сверхъестественную и кинематографическую рекламу христианской благотворительной организации «He Gets Us» на Суперкубке обвинили в том, что она рождена искусственным интеллектом, хотя ее изображения создал фотограф.

YouTube начал применять новые рекомендации для создателей видео, согласно которым реалистично выглядящий контент с искусственным интеллектом должен быть помечен.

Проблемы, создаваемые генеративным ИИ, постоянно находятся в центре внимания YouTube, но мы знаем, что ИИ создает новые риски, которыми злоумышленники могут попытаться воспользоваться во время выборов. ИИ может использоваться для создания контента, который может ввести зрителей в заблуждение, особенно если они не знают, что видео было изменено или создано искусственно. Чтобы лучше решить эту проблему и информировать зрителей, когда контент, который они смотрят, изменен или синтетический, мы начнем вводить следующие обновления:

Самый большой неизбежный страх — это фальшивый контент ИИ, который может повлиять на президентские выборы в США в 2024 году.

Ни одна платформа не хочет быть Facebook 2016 года, репутация которого понесла длительный ущерб, что повлияло на цену ее акций.

ЧИТАТЬ  Перевозка громоздких и хрупких предметов: советы по максимальной безопасности - Immobilier & Particuliers

Китайские и российские государственные деятели уже экспериментировали с фейковыми новостями об искусственном интеллекте и пытались вмешаться в тайваньские и предстоящие выборы в США.

Теперь, когда OpenAI близка к выпуску Sora, которая создает гиперреалистичные видеоролики из подсказок, нетрудно представить, как видеоролики ИИ могут вызывать проблемы без строгой маркировки. Ситуацию сложно взять под контроль. В Google Книгах уже есть книги, явно написанные с помощью ChatGPT.

Открытая электронная книга на экране компьютера, отображающая текст, связанный с технологиями, инновациями и маркировкой контента AI.Изображение предоставлено: Кевин Индиг

Еда на вынос

Ярлыки, мысленные или визуальные, влияют на наши решения. Они аннотируют мир для нас и обладают силой создавать или разрушать доверие. Подобно эвристике категорий в покупках, метки упрощают принятие решений и фильтрацию информации.

От Грязная середина:

Наконец, идея эвристики категорий (числа, на которые обращают внимание клиенты для упрощения принятия решений, например, количество мегапикселей для камер), предлагает путь для оптимизации поведения пользователей. Например, интернет-магазин, продающий камеры, должен оптимизировать свои карточки товаров, чтобы визуально расставить приоритеты эвристики категорий. Конечно, сначала вам нужно понять эвристику в ваших категориях, а они могут различаться в зависимости от продукта, который вы продаете. Я думаю, это то, что нужно для достижения успеха в SEO в наши дни.

Вскоре лейблы будут сообщать нам, написан ли контент искусственным интеллектом или нет. В ходе публичного опроса 23 000 респондентов компания Meta обнаружила, что 82% людей хотят иметь ярлыки на контенте ИИ. Пока неясно, сработают ли общие стандарты и наказания, но безотлагательность здесь есть.

Здесь также есть возможность: лейблы могут привлечь внимание к писателям-людям и сделать их контент более ценным, в зависимости от того, насколько хорошим станет контент ИИ.

Кроме того, написание статей для ИИ может стать еще одним способом монетизации контента. Хотя нынешние почасовые ставки никого не делают богатыми, обучение моделей добавляет контенту новую ценность. Контент-платформы могут найти новые источники дохода.

Веб-контент стал чрезвычайно коммерциализирован, но лицензирование ИИ может побудить авторов снова создавать хороший контент и освободиться от партнерских или рекламных доходов.

Иногда контраст делает ценность видимой. Возможно, ИИ все-таки сможет сделать Интернет лучше.


Для компаний, занимающихся ИИ, поглощающих данные, Интернет слишком мал

Сила подсказок

Подпольная гонка крупных технологических компаний по покупке данных для обучения ИИ

OpenAI отказывается от инструмента обнаружения текста, сгенерированного искусственным интеллектом

Метаданные фотографий IPTC

Маркировка изображений, созданных искусственным интеллектом, в Facebook, Instagram и Threads

Как рекламная индустрия делает ИИ-изображения менее похожими на ИИ

Как мы помогаем авторам раскрывать измененный или синтетический контент

Борьба с дезинформацией о выборах, генерируемой искусственным интеллектом

Китай нацеливается на избирателей США и Тайваня с помощью дезинформации с помощью искусственного интеллекта

Google Книги индексируют мусор, созданный искусственным интеллектом

Наш подход к маркировке контента, созданного искусственным интеллектом, и манипулируемых медиа


Рекомендованное изображение: Пауло Бобита/Search Engine Journal



Source link