Файл robots.txt личного блога Джона Мюллера из Google оказался в центре внимания, когда кто-то на Reddit заявил, что блог Мюллера подвергся атаке системы полезного контента и впоследствии был деиндексирован. Правда оказалась менее драматичной, но всё равно немного странной.
SEO-субреддит-пост
Сага о файле robots.txt Джона Мюллера началась, когда пользователь Redditor опубликовано что веб-сайт Джона Мюллера был деиндексирован, и было заявлено, что он не соответствует алгоритму Google. Но как бы иронично это ни было, этого никогда не произойдет, потому что все, что потребовалось, — это несколько секунд, чтобы загрузить файл robots.txt веб-сайта и увидеть, что происходит что-то странное.
Вот верхняя часть файла robots.txt Мюллера, в котором есть пасхальное яйцо с комментариями для тех, кто заглянет.
Первое, что встречается не каждый день, — это запрет на файл robots.txt. Кто использует файл robots.txt, чтобы запретить Google сканировать файл robots.txt?
Теперь мы знаем.
Следующая часть файла robots.txt блокирует сканирование веб-сайта и файла robots.txt всеми поисковыми системами.
Это, вероятно, объясняет, почему сайт деиндексирован в Google. Но это не объясняет, почему Bing до сих пор индексирует его.
Я поспрашивал Адама Хамфриса, веб-разработчика и SEO(Профиль в LinkedIn), предположил, что, возможно, Bingbot не посещал сайт Мюллера, потому что этот сайт в основном неактивен.
Адам поделился со мной своими мыслями:
«Пользователь-агент: *
Запретить: /топси/
Запретить: /crets/
Запретить: /hidden/file.htmlВ этих примерах папки и файл в этой папке не будут найдены.
Он предлагает запретить файл robots, который Bing игнорирует, но Google слушает.
Bing будет игнорировать неправильно реализованных роботов, потому что многие не знают, как это сделать. «
Адам также предположил, что, возможно, Bing вообще проигнорировал файл robots.txt.
Он объяснил мне это так:
«Да, или он решит игнорировать директиву не читать файл инструкций.
Неправильно реализованные инструкции по роботам в Bing, скорее всего, игнорируются. Для них это самый логичный ответ. Это файл с указаниями.
Последний раз файл robots.txt обновлялся где-то в период с июля по ноябрь 2023 года, поэтому, возможно, Bingbot не видел последнюю версию robots.txt. Это имеет смысл, поскольку система веб-сканирования Microsoft IndexNow отдает приоритет эффективному сканированию.
Один из каталогов, заблокированных файлом robots.txt Мюллера, — /nofollow/ (странное имя для папки).
На этой странице практически ничего нет, кроме навигации по сайту и слова «Редиректор».
Я проверил, действительно ли файл robots.txt блокирует эту страницу, и так оно и было.
Тестеру расширенных результатов Google не удалось просканировать веб-страницу /nofollow/.
Объяснение Джона Мюллера
Мюллера, похоже, позабавило, что его файлу robots.txt уделяется так много внимания, и он опубликовал объяснение в LinkedIn того, что происходит.
Он написал:
«Но что там с файлом? А почему ваш сайт деиндексирован?
Кто-то предположил, что это может быть из-за ссылок на Google+. Возможно. И вернемся к robots.txt… все в порядке – я имею в виду, это то, как я хочу, и сканеры могут с этим справиться. Или они смогут это сделать, если будут следовать RFC9309».
Далее он сказал, что nofollow в файле robots.txt предназначен просто для предотвращения его индексации как HTML-файла.
Он объяснил:
«»disallow: /robots.txt» — заставляет ли это роботов кружиться? Это деиндексирует ваш сайт? Нет.
В моем файле robots.txt просто много всего, и он чище, если не индексируется вместе со своим содержимым. Это просто блокирует сканирование файла robots.txt в целях индексирования.
Я также мог бы использовать HTTP-заголовок x-robots-tag с noindex, но в этом случае он будет присутствовать и в файле robots.txt».
Мюллер также сказал то же самое о размере файла:
«Размер получен в результате тестов различных инструментов тестирования robots.txt, над которыми мы с командой работали. В RFC сказано, что сканер должен парсить не менее 500 кибибайт (бонус лайк первому, кто объяснит, что это за закуска). Надо где-то останавливаться, можно делать страницы бесконечно длинные (и у меня, и у многих так, некоторые даже специально). На практике происходит следующее: система, проверяющая файл robots.txt (парсер), где-то делает разрез».
Он также сказал, что добавил запрет в начало этого раздела в надежде, что его воспримут как «полный запрет», но я не уверен, о каком запрете он говорит. В его файле robots.txt ровно 22 433 запрета.
Он написал:
«Я добавил «disallow: /» в верхней части этого раздела, так что, надеюсь, это будет воспринято как общий запрет. Вполне возможно, что парсер обрежется в неудобном месте, например, в строке с «allow: /cheeseisbest» и остановится прямо на «/», что поставит парсер в тупик (и, мелочь! правило разрешения). будет переопределен, если у вас есть оба параметра «allow: /» и «disallow: /»). Хотя это кажется очень маловероятным».
И вот оно. Странный файл robots.txt Джона Мюллера.
Robots.txt можно просмотреть здесь: