В ежегодном отчете Google о веб-спаме за 2022 год освещаются все способы, которыми их антиспамовая система SpamBrain стала более искусной в обнаружении различных форм спама. Хотя отчет в основном посвящен тому, насколько больше спама они поймали по сравнению с прошлым годом, фрагменты о том, как работает SpamBrain, кажутся не менее важными.
Содержание
Платформа Google SpamBrain
SpamBrain — это имя, которое Google дал своей системе машинного обучения, которую Google называет платформой для запуска алгоритмов, обнаруживающих несколько форм нежелательного контента.
Машинное обучение — это форма искусственного интеллекта, которая использует данные для обучения, чтобы стать более опытным в решении задачи, для выполнения которой оно предназначено.
О SpamBrain мало что известно, кроме того, что это платформа машинного обучения, и она занимает центральное место в инициативах Google по предотвращению ранжирования спама.
В отчете Google о веб-спаме говорится о SpamBrain:
«Мы также улучшили SpamBrain как надежную и универсальную платформу, запустив несколько решений для улучшения нашего охвата различных типов злоупотреблений».
Улучшения в SpamBrain
В отчете о веб-спаме отмечается, что усовершенствования системы привели к обнаружению на 500% больше спам-сайтов, чем годом ранее.
Дополнительное обучение привело к десятикратному увеличению способности SpamBrain идентифицировать взломанные веб-сайты.
Обнаружение ссылочного спама
В отчете отмечается, что благодаря специальному обучению ссылочному спаму было выявлено в пятьдесят раз больше сайтов, создающих ссылочный спам, по сравнению с прошлым годом, и способность SpamBrain к обучению является ключом к его успеху.
«Благодаря возможностям обучения SpamBrain мы обнаружили в 50 раз больше сайтов со спамом по сравнению с предыдущим обновлением».
Индексирующий гейткипер
Интересным фактом о SpamBrain является то, как он идентифицирует спам во время сканирования.
Если просканированная страница обнаруживается как спам, она немедленно блокируется, что предотвращает ее попадание в поисковый индекс Google и экономит ресурсы, не тратя их на сканирование нежелательных веб-страниц.
Блокировка спама во время сканирования — это возможность, о которой было объявлено в 2021 году. В ней отмечалось, что индексирование блокируется не только при сканировании спама, но и при попытке проникновения через консоль поиска и карты сайта.
В 2021 году они писали:
«…у нас есть системы, которые могут обнаруживать спам при сканировании страниц или другого контента. Сканирование — это когда наши автоматические системы посещают контент и рассматривают его для включения в индекс, который мы используем для предоставления результатов поиска. Некоторый контент, определенный как спам, не добавляется в индекс.
Эти системы также работают с контентом, который мы обнаруживаем с помощью карт сайта и Search Console.
Например, в Search Console есть функция запроса индексации, поэтому создатели могут сообщать нам о новых страницах, которые следует быстро добавлять. Мы наблюдали, как спамеры взламывали уязвимые сайты, выдавали себя за владельцев этих сайтов, подтверждали себя в Search Console и использовали этот инструмент, чтобы просить Google просканировать и проиндексировать множество спам-страниц, которые они создали.
Используя искусственный интеллект, мы смогли точно определить подозрительные проверки и таким образом предотвратили попадание спам-адресов в наш индекс».
Поэтому будет справедливо сказать, что одна из многих функций SpamBrain заключается в том, чтобы действовать как привратник, блокируя спам до того, как он попадет в индекс Google.
Защита от мошенничества теперь многоязычна
Что-то новое для SpamBrain заключается в том, что система идентификации мошенников теперь многоязычна, что снижает количество кликов на мошеннических сайтах на 50% по сравнению с прошлым годом.
Как насчет спам-контента?
В отчете этого года основное внимание уделялось отлову ссылочного спама, выявлению взломанных сайтов и улучшениям в обнаружении спама во время сканирования.
Чего он не упомянул, так это ничего общего с идентификацией спам-контента.
Это потому, что контент обрабатывается алгоритмом полезного контента, а не SpamBrain?
Прочтите отчет Google о веб-спаме:
Как мы боролись со спамом в Google Поиске в 2022 году
Избранное изображение Shutterstock/Asier Romero