Сага о причудливых роботах Джона Мюллера.txt • Продвижение Web 2.0

Файл robots.txt личного блога Джона Мюллера из Google оказался в центре внимания, когда кто-то на Reddit заявил, что блог Мюллера подвергся атаке системы полезного контента и впоследствии был деиндексирован. Правда оказалась менее драматичной, но всё равно немного странной.

SEO-субреддит-пост

Сага о файле robots.txt Джона Мюллера началась, когда пользователь Redditor опубликовано что веб-сайт Джона Мюллера был деиндексирован, и было заявлено, что он не соответствует алгоритму Google. Но как бы иронично это ни было, этого никогда не произойдет, потому что все, что потребовалось, — это несколько секунд, чтобы загрузить файл robots.txt веб-сайта и увидеть, что происходит что-то странное.

Вот верхняя часть файла robots.txt Мюллера, в котором есть пасхальное яйцо с комментариями для тех, кто заглянет.

Первое, что встречается не каждый день, — это запрет на файл robots.txt. Кто использует файл robots.txt, чтобы запретить Google сканировать файл robots.txt?

Теперь мы знаем.

Следующая часть файла robots.txt блокирует сканирование веб-сайта и файла robots.txt всеми поисковыми системами.

Это, вероятно, объясняет, почему сайт деиндексирован в Google. Но это не объясняет, почему Bing до сих пор индексирует его.

Я поспрашивал Адама Хамфриса, веб-разработчика и SEO(Профиль в LinkedIn), предположил, что, возможно, Bingbot не посещал сайт Мюллера, потому что этот сайт в основном неактивен.

Адам поделился со мной своими мыслями:

«Пользователь-агент: *
Запретить: /топси/
Запретить: /crets/
Запретить: /hidden/file.html

В этих примерах папки и файл в этой папке не будут найдены.

Он предлагает запретить файл robots, который Bing игнорирует, но Google слушает.

Bing будет игнорировать неправильно реализованных роботов, потому что многие не знают, как это сделать. «

Адам также предположил, что, возможно, Bing вообще проигнорировал файл robots.txt.

ЧИТАТЬ Сайт Джона Мюллера больше не отображается в поиске Google

Он объяснил мне это так:

«Да, или он решит игнорировать директиву не читать файл инструкций.

Неправильно реализованные инструкции по роботам в Bing, скорее всего, игнорируются. Для них это самый логичный ответ. Это файл с указаниями.

Последний раз файл robots.txt обновлялся где-то в период с июля по ноябрь 2023 года, поэтому, возможно, Bingbot не видел последнюю версию robots.txt. Это имеет смысл, поскольку система веб-сканирования Microsoft IndexNow отдает приоритет эффективному сканированию.

Один из каталогов, заблокированных файлом robots.txt Мюллера, — /nofollow/ (странное имя для папки).

На этой странице практически ничего нет, кроме навигации по сайту и слова «Редиректор».

Я проверил, действительно ли файл robots.txt блокирует эту страницу, и так оно и было.

Тестеру расширенных результатов Google не удалось просканировать веб-страницу /nofollow/.

Объяснение Джона Мюллера

Мюллера, похоже, позабавило, что его файлу robots.txt уделяется так много внимания, и он опубликовал объяснение в LinkedIn того, что происходит.

Он написал:

«Но что там с файлом? А почему ваш сайт деиндексирован?

Кто-то предположил, что это может быть из-за ссылок на Google+. Возможно. И вернемся к robots.txt… все в порядке – я имею в виду, это то, как я хочу, и сканеры могут с этим справиться. Или они смогут это сделать, если будут следовать RFC9309».

Далее он сказал, что nofollow в файле robots.txt предназначен просто для предотвращения его индексации как HTML-файла.

Он объяснил:

«»disallow: /robots.txt» — заставляет ли это роботов кружиться? Это деиндексирует ваш сайт? Нет.

В моем файле robots.txt просто много всего, и он чище, если не индексируется вместе со своим содержимым. Это просто блокирует сканирование файла robots.txt в целях индексирования.

Я также мог бы использовать HTTP-заголовок x-robots-tag с noindex, но в этом случае он будет присутствовать и в файле robots.txt».

Мюллер также сказал то же самое о размере файла:

«Размер получен в результате тестов различных инструментов тестирования robots.txt, над которыми мы с командой работали. В RFC сказано, что сканер должен парсить не менее 500 кибибайт (бонус лайк первому, кто объяснит, что это за закуска). Надо где-то останавливаться, можно делать страницы бесконечно длинные (и у меня, и у многих так, некоторые даже специально). На практике происходит следующее: система, проверяющая файл robots.txt (парсер), где-то делает разрез».

Он также сказал, что добавил запрет в начало этого раздела в надежде, что его воспримут как «полный запрет», но я не уверен, о каком запрете он говорит. В его файле robots.txt ровно 22 433 запрета.

ЧИТАТЬ 3 недооцененных фильма Джона Сины, которые вы должны посмотреть | Цифровые тенденции

Он написал:

«Я добавил «disallow: /» в верхней части этого раздела, так что, надеюсь, это будет воспринято как общий запрет. Вполне возможно, что парсер обрежется в неудобном месте, например, в строке с «allow: /cheeseisbest» и остановится прямо на «/», что поставит парсер в тупик (и, мелочь! правило разрешения). будет переопределен, если у вас есть оба параметра «allow: /» и «disallow: /»). Хотя это кажется очень маловероятным».

И вот оно. Странный файл robots.txt Джона Мюллера.

Robots.txt можно просмотреть здесь:

Source link