В ежегодном отчете Google о веб-спаме за 2022 год освещаются все способы, которыми их антиспамовая система SpamBrain стала более искусной в обнаружении различных форм спама. Хотя отчет в основном посвящен тому, насколько больше спама они поймали по сравнению с прошлым годом, фрагменты о том, как работает SpamBrain, кажутся не менее важными.

Платформа Google SpamBrain

SpamBrain — это имя, которое Google дал своей системе машинного обучения, которую Google называет платформой для запуска алгоритмов, обнаруживающих несколько форм нежелательного контента.

Машинное обучение — это форма искусственного интеллекта, которая использует данные для обучения, чтобы стать более опытным в решении задачи, для выполнения которой оно предназначено.

О SpamBrain мало что известно, кроме того, что это платформа машинного обучения, и она занимает центральное место в инициативах Google по предотвращению ранжирования спама.

В отчете Google о веб-спаме говорится о SpamBrain:

«Мы также улучшили SpamBrain как надежную и универсальную платформу, запустив несколько решений для улучшения нашего охвата различных типов злоупотреблений».

Улучшения в SpamBrain

В отчете о веб-спаме отмечается, что усовершенствования системы привели к обнаружению на 500% больше спам-сайтов, чем годом ранее.

Дополнительное обучение привело к десятикратному увеличению способности SpamBrain идентифицировать взломанные веб-сайты.

Обнаружение ссылочного спама

В отчете отмечается, что благодаря специальному обучению ссылочному спаму было выявлено в пятьдесят раз больше сайтов, создающих ссылочный спам, по сравнению с прошлым годом, и способность SpamBrain к обучению является ключом к его успеху.

«Благодаря возможностям обучения SpamBrain мы обнаружили в 50 раз больше сайтов со спамом по сравнению с предыдущим обновлением».

Индексирующий гейткипер

Интересным фактом о SpamBrain является то, как он идентифицирует спам во время сканирования.

ЧИТАТЬ  Google: размещайте ресурсы на разных именах хостов, чтобы сэкономить бюджет сканирования

Если просканированная страница обнаруживается как спам, она немедленно блокируется, что предотвращает ее попадание в поисковый индекс Google и экономит ресурсы, не тратя их на сканирование нежелательных веб-страниц.

Блокировка спама во время сканирования — это возможность, о которой было объявлено в 2021 году. В ней отмечалось, что индексирование блокируется не только при сканировании спама, но и при попытке проникновения через консоль поиска и карты сайта.

В 2021 году они писали:

«…у нас есть системы, которые могут обнаруживать спам при сканировании страниц или другого контента. Сканирование — это когда наши автоматические системы посещают контент и рассматривают его для включения в индекс, который мы используем для предоставления результатов поиска. Некоторый контент, определенный как спам, не добавляется в индекс.

Эти системы также работают с контентом, который мы обнаруживаем с помощью карт сайта и Search Console.

Например, в Search Console есть функция запроса индексации, поэтому создатели могут сообщать нам о новых страницах, которые следует быстро добавлять. Мы наблюдали, как спамеры взламывали уязвимые сайты, выдавали себя за владельцев этих сайтов, подтверждали себя в Search Console и использовали этот инструмент, чтобы просить Google просканировать и проиндексировать множество спам-страниц, которые они создали.

Используя искусственный интеллект, мы смогли точно определить подозрительные проверки и таким образом предотвратили попадание спам-адресов в наш индекс».

Поэтому будет справедливо сказать, что одна из многих функций SpamBrain заключается в том, чтобы действовать как привратник, блокируя спам до того, как он попадет в индекс Google.

Защита от мошенничества теперь многоязычна

Что-то новое для SpamBrain заключается в том, что система идентификации мошенников теперь многоязычна, что снижает количество кликов на мошеннических сайтах на 50% по сравнению с прошлым годом.

ЧИТАТЬ  Безопасный поиск Google может запускаться при использовании явных и экстремальных ругательств

Как насчет спам-контента?

В отчете этого года основное внимание уделялось отлову ссылочного спама, выявлению взломанных сайтов и улучшениям в обнаружении спама во время сканирования.

Чего он не упомянул, так это ничего общего с идентификацией спам-контента.

Это потому, что контент обрабатывается алгоритмом полезного контента, а не SpamBrain?

Прочтите отчет Google о веб-спаме:

Как мы боролись со спамом в Google Поиске в 2022 году

Избранное изображение Shutterstock/Asier Romero





Source link