В апреле 2025 года мы проанализировали 900 000 недавно созданных веб -страниц и обнаружили, что 74,2% содержали контент, генерируемый ИИ.

С быстрым ростом генератора, компании, педагоги и издатели задают критический вопрос: как мы можем сказать, что написано людьми и что производится машинами?

Ответ: это возможно, но не непогрешимо. Вот как эффективно подходить к обнаружению ИИ, ограничения, которые вам нужно понять, и лучший способ получить более надежные результаты.

Узнайте больше о нашем исследовании: 74% новых веб -страниц включают содержание ИИ (исследование 900 000 страниц)

Некоторые люди скептически относятся к обнаружению содержания ИИ, даже возможно. Это возможно, но с некоторыми важными предупреждениями.

Текст, созданный AI-AI, имеет тенденцию иметь характерные статистические и стилистические модели. Эти модели не всегда очевидны для человеческих читателей, но их часто можно обнаружить с помощью специально созданных моделей обнаружения.

Проще говоря, все детекторы искусственного интеллекта работают, сравнивая модели в тексте с большими коллекциями примеров, написанных людьми, и генерируемых ИИ.

Традиционно это было сделано со статистическим обнаружением: подсчет таких характеристик, как частоты слов и N-граммы, общие синтаксические структуры, стилистические выборы и даже статистические меры, такие как сбивает с толку (предсказуемость выбора слов) и разрыв (вариация в длине предложения), затем сигнальные аномалии.

Тип функциональности Объяснение
Частоты слов Разрешить, сколько слов, как «или» кошка «, появляются в образец :: 3, кошка: 2
Частоты n-граммов Измерения последовательностей, таких как Bigrams: «Кошка» появляется дважды, «кошка SAT» появляется один раз
Синтаксические структуры Определите такие модели, как субъектные структуры объектов (SVO), например, «Le Chat Sat», «Le Cat Bâillé»
Стилистический выбор Примечание тон, перспектива или формальность; Например, нейтральный тон от третьего лица
Недоумение Рассчитайте предсказуемость каждого слова на основе предыдущего контекста — самая высокая недоумение часто означает более предсказуемый текст (и, возможно, генерируемый машиной)
Светиться Сравните вариацию продолжительности предложения; Текст ИИ может отображать когерентную длину, в то время как человеческий текст более переменный
ЧИТАТЬ  Приверженность социальным сетям: как сделать ваш бренд жизнью цифровой вечеринки

Третий менее распространенный подход — это водяной знак — скрытые сигналы, вводя в игру в тексте, генерируемом ИИ во время творения.

Как ультрафиолетовые бренды на валюте, эти сигналы могут быть проверены, чтобы подтвердить, поступил ли текст из конкретной модели, но это работает только в том случае, если владелец модели решит его реализовать.

В настоящее время ни один основной поставщик LLM, такой как OpenAI, Anpropic или Google, не подтвердил, что они использовали водяной знак на своих публичных модельных выходах. (И зачем им наказывать своих пользователей?)

Узнать больше: Как работают детекторы контента IA? Ответы от ученых данных

Существует множество инструментов для обнаружения ИИ, от бесплатных аудиторов на основе браузера до качественных платформ бизнеса с интеграциями API.

Если вы пользователь AHREF, вы можете запустить наш детектор контента ИИ непосредственно внутри Sites ExplorerS. Осмотреть функциональность. Просто открыта Sites Explorer, Введите URL, который вы хотите проверить, перейдите к Осмотреть Отчет, и вы можете нажать на вкладку детектора искусственного интеллекта, чтобы увидеть анализ, наряду с другими ключевыми показателями ссылки:

Правильные детекторы не только дают вам единый вердикт Да или нет: они также разлагают текст и показывают вероятность того, что различные отрывки генерируются с помощью ИИ, обеспечивают общий показатель вероятности с точки зрения статьи, а в некоторых случаях даже попытка определить модели (такие как GPT-4O), вероятно, использовались для создания контента.

Мы провели небольшой тест, сравнив несколько самых популярных детекторов ИИ, чтобы увидеть, как они работают на практике. В таблице ниже показаны наши результаты:

Основываясь на моих тестах, детектор AHREFS IA и Copylems были наиболее эффективными детекторами ИИ, с Gptzero и Originality.ai рядом сзади. На другом конце масштаба грамматика и писатель провели худшее из моих тестов.

Детектор контента ИИ Счет
Ахрефс 13/18
Copyleaks 13/18
Gptzero 12/18
Оригинальность 12/18
Скриббр 10/18
Zerrogpt 9/18
Грамматика 6/18
Писатель 4/18

Узнайте больше в моей полной статье: 8 лучших детекторов ИИ, протестированные и сравниваемые

Как и LLM, детекторы ИИ являются вероятностными — они считают, что вероятность, а не уверенность. Они могут быть очень точными, но ложные срабатывания неизбежны. Вот почему вы не должны основывать решения на одном результате. Запустите несколько чеков, ищите модели и объедините результаты с другими доказательствами.

Все детекторы ИИ имеют одинаковые фундаментальные ограничения, независимо от используемого инструмента или используемой технологии.

  • Текст сильно опубликован или «гуманизированный» может избежать обнаружения. «»Пост-обработка (такие вещи, как переформулированные предложения, обмен синонимами, перегруппировка абзацев или распространение текста с помощью грамматической проверки) могут нарушить статистические сигналы, которые ищут детекторы, снижая их точность.
  • Основные детекторы могут не иметь точных и передовых функций. Инструменты обнаружения требуют частых обновлений, чтобы сохранить шаг впереди новых моделей искусственного интеллекта — генеративный ИИ быстро развивается, и детекторам нуждается в регулярной переработке, чтобы распознать последние стили письма и методы избегания. В AHREFS наш детектор поддерживает несколько ведущих моделей, включая модели OpenAI, антроп, мета, миктральные и QWEN, чтобы вы могли проверять контент по сравнению с более широким диапазоном вероятных источников.
  • Эффективность варьируется в зависимости от языка, типа контента и модели. Детекторы, обученные в основном по английской прозе, могут бороться с техническим письмом, поэзией или менее распространенными языками.
  • Амбигусные случаи (такие как человеческий текст, отредактированный ИИ) могут размыть результаты. Эти гибридные рабочие процессы создают смешанные сигналы, которые могут даже запутать передовые системы.
  • Даже лучшие инструменты могут создавать ложные позитивы или отрицательные. Статистическое обнаружение никогда не бывает непогрешимым, и ошибки случайных классификаций неизбежны, потому что модели, на которых эти системы могут перекрываться между написанием человека и искусственного интеллекта, а тонкие модификации или нетипичные стили письма могут легко размыть различия.

Не забывайте: ложные обвинения, основанные на неправильных результатах обнаружения искусственного интеллекта, могут серьезно повредить репутации отдельных лиц, предприятий или университетских учреждений.

Имея в виду эти ограничения, рекомендуется подтвердить любую розетку детектора дополнительными методами, прежде чем делать выводы.

Человеческое суждение может быть чрезвычайно полезно, чтобы добавить контекст к результатам детекторов ИИ. Изучив контекст — как модели на нескольких статьях, историю сообщений о социальных сетях или окружающих обстоятельствах публикации — вы можете лучше оценить вероятность того, что ИИ участвует в письменной форме.

ЧИТАТЬ  Как ChatGPT влияет на SEO?

Знаки для поиска:

  • Вы слишком последовательны без тонких причуд. Человеческое письмо, по сути, немного беспорядочно и непредсказуемо, с небольшими вариациями в стиле, ритме и выборе слов, которые отражают личность и контекст. Текст, сгенерированный ИИ, иногда может пропустить эти недостатки, создавая равномерный тон, который немного вежливый или механический.
  • Условно. ИИ очень хорош в растяжении простых идей в долгосрочных объяснениях.
  • Отсутствие новой информации. Выходы ИИ часто читаются как дженерики или на уровне поверхности (это особенно очевидно на LinkedIn: многие комментарии, сгенерированные AI Re -формированием идеи исходного автора в новых словах без добавления перспективы или значительного значения).
  • Выбор показательных слов. ИИ предпочитает слегка «вымершие» идиомы, как «Постоянно развивающаяся ландшафт»Формулы крючки («Это не х … это у»), или преодолевать их и смайлики.
  • Подстрекательства. Есть ли четкая мотивация для автора использовать контент ИИ?
Как обнаружить контент, генерируемый ИИКак обнаружить контент, генерируемый ИИ

Я вижу тебя, Чатгпт.

Ни один из этих признаков не предлагает окончательных доказательств содержания ИИ, но они могут добавить полезный контекст к другим формам доказательств.

Если вы запускаете детектор ИИ в одной статье, ненадежный результат может быть проблематичным. Но эта проблема становится менее важной, когда вы смотрите на результаты в больших масштабах. Выполнение этого процесса на многих страницах дает вам гораздо более четкое изображение того, как ИИ используется в рамках более широкой маркетинговой стратегии компании.

С ахрефом Превосходные страницы денонсировать Sites Explorer, Вы можете увидеть столбец «Уровень контента искусственного интеллекта» практически для любой страницы веб -сайта. Оттуда вы можете даже осмотреть любой отдельный URL -адрес и иметь представление о моделях ИИ, которые, вероятно, использовались при создании страницы.

Вот видео, в котором рассказывается об этом процессе:

Для быстрого совета: используйте этот отчет, чтобы найти ведущий контент, который сильно генерируется ИИ, и планируйте создать собственную версию ИИ. Если это рейтинг, он уважает намерение исследования, что делает его потенциальной возможностью для вас и вашего рабочего процесса контента искусственного интеллекта.



Source