Взрыв инструментов искусственного интеллекта за последний год оказал огромное влияние на цифровых маркетологов, особенно на SEO-специалистов.
Учитывая трудоемкость и дороговизну создания контента, маркетологи обратились за помощью к ИИ с неоднозначными результатами.
Несмотря на этические проблемы, постоянно возникает вопрос: «Могут ли поисковые системы обнаружить мой ИИ-контент?»
Этот вопрос считается особенно важным, потому что если ответ «нет», он делает недействительными многие другие вопросы о том, следует ли и как использовать ИИ.
Содержание
Долгая история машинно-генерируемого контента
Хотя частота машинно-генерируемого или автоматизированного контента беспрецедентна, она не совсем нова и не всегда негативна.
Для новостных веб-сайтов крайне важно публиковать новости первыми, и они уже давно используют данные из различных источников, таких как фондовые рынки и сейсмометры, для ускорения создания контента.
Например, фактически правильно опубликовать статью о роботе, в которой говорится:
- «А [magnitude] землетрясение было обнаружено в [location, city] К [time]/[date] сегодня утром первое землетрясение с [date of last event]. Другие новости, чтобы следовать.
Подобные обновления также полезны для конечного читателя, которому необходимо получить эту информацию как можно скорее.
На другом конце спектра мы видели множество «черных» реализаций машинно-генерируемого контента.
Google в течение многих лет осуждал использование цепей Маркова для создания контента с небольшими усилиями, вращающегося текста, под лозунгом «автоматически генерируемых страниц, которые не добавляют никакой ценности».
Что особенно интересно и особенно вызывает путаницу или серую зону для некоторых, так это значение «отсутствия добавленной стоимости».
Как LLM могут повысить ценность?
Популярность ИИ-контента резко возросла благодаря вниманию, которое привлекли модели больших языков GPTx (LLM) и точно настроенный чат-бот ИИ ChatGPT, который улучшил диалоговое взаимодействие.
Не вдаваясь в технические подробности, следует учесть несколько важных моментов, касающихся этих инструментов:
Сгенерированный текст основан на распределении вероятностей
- Например, если вы пишете «Быть SEO-специалистом весело, потому что…», LLM просматривает все токены и пытается вычислить наиболее вероятное следующее слово на основе своего обучающего набора. На первый взгляд, вы можете думать об этом как об очень продвинутой версии интеллектуального ввода текста вашего телефона.
ChatGPT — это разновидность генеративного искусственного интеллекта.
- Это означает, что результат непредсказуем. Существует случайный элемент, и он может по-разному реагировать на одну и ту же подсказку.
Когда вы оцените эти два момента, станет ясно, что такие инструменты, как ChatGPT, не имеют традиционных знаний или «знают» что-либо. Этот недостаток лежит в основе всех заблуждений, или, как их называют, «галлюцинаций».
Эти два пункта показывают, что таким инструментам, как ChatGPT, не хватает традиционных знаний или реального понимания, что приводит к ошибкам или «галлюцинациям».
Многие задокументированные выходные данные показывают, как этот подход может генерировать неверные результаты и заставлять ChatGPT постоянно противоречить самому себе.
Это вызывает серьезные сомнения в соответствии «добавленной стоимости» тексту, написанному ИИ, учитывая возможность частых галлюцинаций.
Основная причина заключается в том, как LLM генерируют текст, и решить эту проблему без нового подхода будет непросто.
Это жизненно важное соображение, особенно для тем «Ваши деньги, ваша жизнь» (YMYL), которые могут нанести значительный ущерб финансам или жизни людей, если они будут неточными.
Крупные издания, такие как Men’s Health и CNET, были уличены в публикации фактически неверной информации, сгенерированной ИИ в этом году, что подчеркивает обеспокоенность.
Издатели не одиноки в этой проблеме, поскольку Google изо всех сил пытался освоить свой контент Search Generative Experience (SGE) с контентом YMYL.
Хотя Google заявляет, что будет осторожен с генерируемыми ответами, и доходит до того, что специально приводит пример «не будет показывать ответ на вопрос о назначении Тайленола ребенку, потому что он находится в «медицинской сфере». SGE, очевидно, просто задав ему вопрос.
Получайте ежедневный информационный бюллетень, на который полагаются поисковые маркетологи.
EMS и MUM от Google
Понятно, что Google считает, что для машинного контента есть место для ответов на запросы пользователей. Google намекает на это с мая 2021 года, когда они анонсировали MUM, свою унифицированную модель многозадачности.
Одна из задач, которую MUM намеревалась решить, была основана на данных, которые люди выдают в среднем восемь запросов для сложных задач.
В начальном запросе искатель узнает дополнительную информацию, побуждая к связанным поискам и открывая новые веб-страницы для ответа на эти запросы.
Google предложил: что, если бы они могли принять первоначальный запрос, предвидеть последующие вопросы пользователей и сгенерировать полный ответ, используя свои знания об индексе?
Если бы это сработало, хотя этот подход мог бы быть фантастическим для пользователя, он по существу стирает много «длинного хвоста» или стратегии с нулевым объемом ключевых слов на которые оптимизаторы полагаются, чтобы закрепиться в поисковой выдаче.
Предполагая, что Google может идентифицировать запросы, подходящие для ответов, сгенерированных ИИ, многие вопросы можно считать «решенными».
Это вызывает вопрос…
- Зачем Google показывать поисковику вашу веб-страницу с предварительно сгенерированным ответом, если он может удержать пользователя в своей поисковой экосистеме и сам сгенерировать ответ?
У Google есть финансовый стимул удерживать пользователей в своей экосистеме. Мы видели разные подходы к этому, от избранных сниппетов до предоставления людям возможности искать авиабилеты в поисковой выдаче.
Предположим, Google считает, что сгенерированный вами текст не представляет ценности сверх того, что он уже может дать. В этом случае это просто становится вопросом соотношения затрат и выгод для поисковой системы.
Могут ли они генерировать больший доход в долгосрочной перспективе, покрывая расходы на генерацию и заставляя пользователя ждать ответа вместо того, чтобы быстро и дешево отправить его на страницу, которая, как они знают, уже существует?
Обнаружение ИИ-контента
Наряду со взрывным ростом использования ChatGPT появились десятки «детекторов контента AI», которые позволяют вам вводить текстовый контент и генерировать процент — в этом и заключается проблема.
Хотя есть некоторая разница в том, как разные детекторы обозначают этот процентный показатель, они почти всегда дают один и тот же результат: процент уверенности в том, что весь предоставленный текст сгенерирован ИИ.
Это сбивает с толку, когда указан процент, например, «75% ИИ / 25% человека».
Многие люди неправильно поймут, что это означает «75% текста было написано ИИ, а 25% — человеком», тогда как это означает «Я на 75% уверен, что ИИ написал 100% этого текста».
Это недоразумение заставило некоторых дать совет, как настроить ввод текста, чтобы он «прошел» детектор ИИ.
Например, использование двойного восклицательного знака (!!) — очень человеческая характеристика, поэтому добавление его к сгенерированному ИИ тексту приведет к тому, что детектор ИИ даст оценку «99% + человек».
Тогда будет неверно истолковано, что вы «обманули» детектор.
Но это пример идеально работающего детектора, потому что предоставленный путь больше не на 100% генерируется ИИ.
К сожалению, этот вводящий в заблуждение вывод о возможности «обмануть» детекторы ИИ также часто путают с тем, что поисковые системы, такие как Google, не обнаруживают контент ИИ, что дает владельцам веб-сайтов ложное чувство безопасности.
Политика и действия Google AI в отношении контента
Заявления Google о контенте ИИ всегда были достаточно расплывчатыми, чтобы дать им свободу действий, когда дело доходит до правоприменения.
Однако, обновленные советы был опубликован в этом году в Google Search Central, в котором прямо говорится:
«Мы ориентируемся на качество контента, а не на то, как он создается».
Еще до этого представитель Google Search Дэнни Салливан ухватился за консервацию Twitter, заявив, что они «не говорили, что контент ИИ был плохим».
Google перечисляет конкретные примеры того, как искусственный интеллект может генерировать полезный контент, такой как спортивные результаты, прогнозы погоды и стенограммы.
Понятно, что Google гораздо больше заботится о результате, чем о средствах его достижения, удваивая принцип «генерация контента с основной целью манипулирования рейтингом в результатах поиска, является нарушением нашей антиспамовой политики».
Google имеет многолетний опыт борьбы с манипулированием поисковой выдачей, утверждая, что достижения в их системах, таких как SpamBrain, сделали 99% поисковых запросов «свободными от спама», включая спам UGC, парсинг, маскировку и все другие формы контента. поколение.
Многие люди проводили тесты, чтобы увидеть, как Google реагирует на ИИ-контент и где они проводят линию качества.
Перед запуском ChatGPT я создал веб-сайт с 10 000 страниц контента, в основном сгенерированного по неконтролируемой модели GPT3, отвечая Люди также спрашивают вопросы о видеоиграх.
С минимальным количеством ссылок сайт быстро проиндексировался и стабильно рос, обеспечивая тысячи посетителей в месяц.
Во время двух обновлений системы Google в 2022 году, обновления полезного контента и более позднего обновления спама, Google внезапно и почти полностью отключил сайт.
Было бы неправильно делать из такого опыта вывод о том, что «ИИ-контент не работает».
Однако он показал мне, что именно в этот момент Google:
- Не классифицировал неконтролируемый контент GPT-3 как «качественный».
- Могли бы обнаруживать и подавлять такие результаты вместе со множеством других сигналов.
Чтобы получить окончательный ответ, вам нужен лучший вопрос
Основываясь на рекомендациях Google, том, что мы знаем из поисковых систем, опыта поисковой оптимизации и здравого смысла: «Могут ли поисковые системы обнаруживать контент ИИ?» наверное неправильный вопрос.
В лучшем случае это очень краткосрочная перспектива.
По большинству тем LLM изо всех сил пытаются постоянно производить «высококачественный» контент с точки зрения фактической точности и соответствия критериям Google EEAT, несмотря на то, что у них есть прямой доступ в Интернет к информации, выходящей за рамки их учебных данных.
ИИ добился значительного прогресса в получении ответов на ранее скудные запросы контента. Но поскольку Google стремится к более высоким долгосрочным целям с SGE, эта тенденция может исчезнуть.
Акцент должен сместиться обратно к экспертному контенту более длинной формы, а системы знаний Google будут давать ответы на многие длинные запросы вместо того, чтобы направлять пользователей на множество небольших сайтов.
Мнения, высказанные в этой статье, принадлежат приглашенному автору, а не обязательно Search Engine Land. Штатные авторы перечислены здесь.