Концепция сжимаемости как сигнала качества не широко известна, но оптимизаторам следует об этом знать. Поисковые системы могут использовать сжимаемость веб-страниц для выявления дубликатов страниц, дорвеев с похожим содержанием и страниц с повторяющимися ключевыми словами, что делает эту информацию полезной для SEO.

Хотя следующая исследовательская статья демонстрирует успешное использование встроенных функций для обнаружения спама, преднамеренное отсутствие прозрачности со стороны поисковых систем не позволяет с уверенностью сказать, применяют ли поисковые системы этот или аналогичные методы.

Что такое сжимаемость?

В вычислительной технике сжимаемость означает, насколько файл (данные) может быть уменьшен в размере, сохраняя при этом важную информацию, обычно для увеличения объема памяти или для передачи большего количества данных через Интернет.

TL/DR сжатия

Сжатие заменяет повторяющиеся слова и фразы более короткими ссылками, значительно уменьшая размер файла. Поисковые системы обычно сжимают проиндексированные веб-страницы, чтобы максимизировать пространство для хранения, уменьшить пропускную способность и повысить скорость поиска, а также по другим причинам.

Это упрощенное объяснение того, как работает сжатие:

  • Определите закономерности:
    Алгоритм сжатия сканирует текст, чтобы найти повторяющиеся слова, шаблоны и фразы.
  • Более короткие коды занимают меньше места:
    Коды и символы занимают меньше места для хранения, чем исходные слова и фразы, что приводит к меньшему размеру файла.
  • Более короткие ссылки используют меньше битов:
    «Код», который по сути символизирует замененные слова и фразы, использует меньше данных, чем оригиналы.

Дополнительным эффектом от использования сжатия является то, что его также можно использовать для выявления дубликатов страниц, дорвеев с похожим содержанием и страниц с повторяющимися ключевыми словами.

Исследовательская статья об обнаружении спама

Эта исследовательская работа имеет большое значение, поскольку ее авторами являются выдающиеся ученые-компьютерщики, известные своими прорывами в области искусственного интеллекта, распределенных вычислений, поиска информации и других областей.

Марк Найорк

Одним из соавторов исследовательской работы является Марк Найорк, выдающийся ученый-исследователь, который в настоящее время имеет звание выдающегося ученого-исследователя в Google DeepMind. Он является соавтором статей для TW-BERT, внес свой вклад исследование по повышению точности использования неявной обратной связи с пользователем, например кликови работал над созданием улучшенного поиска информации на основе искусственного интеллекта (DSI++: обновление памяти трансформатора новыми документами), среди многих других крупных прорывов в области поиска информации.

ЧИТАТЬ  NYT Connections: советы и ответы на субботу, 7 сентября | Цифровые тенденции

Деннис Феттерли

Еще один из соавторов Деннис Феттерлив настоящее время инженер-программист в Google. Он указан как соавтор в патент на алгоритм ранжирования, использующий ссылкии известен своими исследованиями в области распределенных вычислений и поиска информации.

Это лишь двое из выдающихся исследователей, перечисленных в качестве соавторов исследовательской работы Microsoft 2006 года об обнаружении спама с помощью функций содержимого на странице. Среди нескольких особенностей содержимого страницы, которые были проанализированы в исследовательской работе, была сжимаемость, которую, как они обнаружили, можно использовать в качестве классификатора для указания на то, что веб-страница является спамом.

Обнаружение спам-веб-страниц с помощью анализа контента

Хотя исследование было написано в 2006 году, его выводы остаются актуальными и по сей день.

Тогда, как и сейчас, люди пытались ранжировать сотни или тысячи веб-страниц на основе местоположения, которые по сути были дублирующим контентом, не считая названий городов, регионов или штатов. Тогда, как и сейчас, оптимизаторы часто создавали веб-страницы для поисковых систем, чрезмерно повторяя ключевые слова в заголовках, метаописаниях, заголовках, внутреннем якорном тексте и в содержании, чтобы улучшить рейтинг.

В разделе 4.6 исследовательской работы объясняется:

«Некоторые поисковые системы придают больший вес страницам, содержащим ключевые слова запроса несколько раз. Например, для данного термина запроса страница, содержащая его десять раз, может иметь более высокий рейтинг, чем страница, которая содержит его только один раз. Чтобы воспользоваться преимуществами таких механизмов, некоторые спам-страницы копируют свой контент несколько раз, пытаясь занять более высокий рейтинг».

В исследовательской статье объясняется, что поисковые системы сжимают веб-страницы и используют сжатую версию для ссылки на исходную веб-страницу. Они отмечают, что чрезмерное количество избыточных слов приводит к более высокому уровню сжимаемости. Поэтому они приступили к проверке наличия корреляции между высоким уровнем сжимаемости и спамом.

Они пишут:

«Наш подход в этом разделе к поиску избыточного контента на странице заключается в сжатии страницы; Чтобы сэкономить место и время на диске, поисковые системы часто сжимают веб-страницы после их индексации, но перед добавлением в кэш страниц.

…Мы измеряем избыточность веб-страниц по коэффициенту сжатия: размер несжатой страницы делится на размер сжатой страницы. Мы использовали GZIP… для сжатия страниц — быстрый и эффективный алгоритм сжатия».

Высокая сжимаемость коррелирует со спамом

Результаты исследования показали, что веб-страницы со степенью сжатия не ниже 4,0, как правило, являются веб-страницами низкого качества и спамом. Однако самые высокие показатели сжимаемости стали менее последовательными, поскольку было меньше точек данных, что затрудняло интерпретацию.

Рисунок 9. Распространенность спама в зависимости от сжимаемости страницы.

Исследователи пришли к выводу:

«70% всех выбранных страниц со степенью сжатия не менее 4,0 были признаны спамом».

Но они также обнаружили, что использование коэффициента сжатия само по себе все равно приводило к ложным срабатываниям, когда страницы, не являющиеся спамом, ошибочно идентифицировались как спам:

«Эвристика степени сжатия, описанная в разделе 4.6, показала себя лучше всего, правильно идентифицировав 660 (27,9%) спам-страниц в нашей коллекции и ошибочно идентифицировав 2068 (12,0%) всех оцененных страниц.

Учитывая все вышеупомянутые функции, точность классификации после десятикратной перекрестной проверки обнадеживает:

95,4% оцененных нами страниц были классифицированы правильно, а 4,6% — неправильно.

Точнее, для класса спама 1940 страниц из 2364 были классифицированы правильно. Что касается класса «не спам», то 14 440 из 14 804 страниц были классифицированы правильно. Следовательно, 788 страниц были классифицированы неправильно».

В следующем разделе описывается интересное открытие о том, как повысить точность использования внутристраничных сигналов для выявления спама.

ЧИТАТЬ  Яндекс 360 для бизнеса представил новые функции для Мессенджера, Почты и Телеконференций

Взгляд на рейтинги качества

В исследовательской работе изучались многочисленные сигналы на странице, включая сжимаемость. Они обнаружили, что каждый отдельный сигнал (классификатор) способен обнаружить некоторое количество спама, но использование любого отдельного сигнала приводит к пометке неспамовых страниц как спама, что обычно называют ложным срабатыванием.

Исследователи сделали важное открытие, которое должен знать каждый, кто интересуется SEO: использование нескольких классификаторов повышает точность обнаружения спама и снижает вероятность ложных срабатываний. Не менее важно и то, что сигнал сжимаемости идентифицирует только один вид спама, но не весь спектр спама.

Вывод заключается в том, что сжимаемость — хороший способ идентифицировать один вид спама, но существуют и другие виды спама, которые не улавливаются этим единственным сигналом. Другие виды спама с помощью сигнала сжимаемости не улавливались.

Это та часть, о которой должен знать каждый SEO и издатель:

«В предыдущем разделе мы представили ряд эвристик для анализа спам-веб-страниц. То есть мы измерили несколько характеристик веб-страниц и обнаружили диапазоны этих характеристик, которые коррелируют с тем, что страница является спамом. Тем не менее, при индивидуальном использовании ни один метод не выявляет большую часть спама в нашем наборе данных без пометки многих страниц, не являющихся спамом, как спама.

Например, учитывая эвристику степени сжатия, описанную в разделе 4.6, один из наших наиболее многообещающих методов, средняя вероятность спама для коэффициентов 4,2 и выше составляет 72%. Но только около 1,5% всех страниц попадают в этот диапазон. Это число намного ниже 13,8% спам-страниц, которые мы выявили в нашем наборе данных».

Таким образом, хотя сжимаемость была одним из лучших сигналов для выявления спама, она все равно не смогла раскрыть весь спектр спама в наборе данных, который исследователи использовали для проверки сигналов.

ЧИТАТЬ  Google Trends имеет новый вид на 2023 год

Объединение нескольких сигналов

Приведенные выше результаты показали, что отдельные сигналы низкого качества менее точны. Поэтому они протестировали, используя несколько сигналов. Они обнаружили, что объединение нескольких сигналов на странице для обнаружения спама привело к повышению точности и уменьшению количества страниц, ошибочно классифицированных как спам.

Исследователи объяснили, что они тестировали использование нескольких сигналов:

«Один из способов объединения наших эвристических методов — рассматривать проблему обнаружения спама как проблему классификации. В этом случае мы хотим создать классификационную модель (или классификатор), которая, учитывая веб-страницу, будет совместно использовать ее функции, чтобы (мы надеемся, правильно) отнести ее к одному из двух классов: спам и не-спам. ».

Вот их выводы об использовании нескольких сигналов:

«Мы изучили различные аспекты контентного спама в сети, используя реальный набор данных, полученный сканером MSNSearch. Мы представили ряд эвристических методов обнаружения контентного спама. Некоторые из наших методов обнаружения спама более эффективны, чем другие, однако при использовании по отдельности наши методы могут не выявить все спам-страницы. По этой причине мы объединили наши методы обнаружения спама, чтобы создать высокоточный классификатор C4.5. Наш классификатор может правильно идентифицировать 86,2% всех спам-страниц, помечая при этом очень мало законных страниц как спам».

Ключевая идея:

Ошибочное определение «очень немногих законных страниц как спама» стало значительным прорывом. Важная мысль, которую должен вынести каждый, кто занимается SEO, заключается в том, что один сигнал сам по себе может привести к ложным срабатываниям. Использование нескольких сигналов повышает точность.

Это означает, что SEO-тесты изолированных сигналов ранжирования или качества не дадут надежных результатов, которым можно было бы доверять при принятии стратегических или бизнес-решений.

Вынос

Мы не знаем наверняка, используется ли в поисковых системах сжимаемость, но это простой в использовании сигнал, который в сочетании с другими можно использовать для перехвата простых видов спама, таких как тысячи дорвеев с названиями городов с похожим содержанием. Тем не менее, даже если поисковые системы не используют этот сигнал, это показывает, насколько легко обнаружить такого рода манипуляции поисковых систем и что поисковые системы сегодня хорошо с этим справляются.

Вот ключевые моменты этой статьи, которые следует иметь в виду:

  • Дорвеи с дублирующимся контентом легко обнаружить, поскольку они сжимаются с большей степенью сжатия, чем обычные веб-страницы.
  • Группы веб-страниц со степенью сжатия выше 4,0 представляли собой преимущественно спам.
  • Сигналы отрицательного качества, используемые сами по себе для перехвата спама, могут привести к ложным срабатываниям.
  • В ходе этого конкретного теста они обнаружили, что сигналы отрицательного качества на странице улавливают только определенные типы спама.
  • При использовании отдельно сигнал сжимаемости улавливает только спам избыточного типа, не обнаруживает другие формы спама и приводит к ложным срабатываниям.
  • Объединение сигналов качества повышает точность обнаружения спама и снижает количество ложных срабатываний.
  • Сегодня поисковые системы имеют более высокую точность обнаружения спама благодаря использованию искусственного интеллекта, такого как Spam Brain.

Прочтите исследовательскую работу, ссылка на которую находится на странице Google Scholar Марка Найорка:

Обнаружение спам-веб-страниц посредством анализа контента

Рекомендованное изображение: Shutterstock/pathdoc



Source link