Google напоминает веб-сайтам использовать Robots.txt для блокировки URL-адресов действий • Продвижение Web 2.0

В сообщении на LinkedIn Гэри Иллиес, аналитик Google, повторил давнее руководство для владельцев веб-сайтов: используйте файл robots.txt, чтобы запретить веб-сканерам доступ к URL-адресам, которые запускают такие действия, как добавление товаров в корзины или списки желаний.

Иллиес отметил распространенную жалобу на перегрузку серверов ненужным трафиком сканеров, что часто связано с тем, что боты поисковых систем сканируют URL-адреса, предназначенные для действий пользователя.

Он написал:

«Глядя на то, что мы сканируем с сайтов в жалобах, слишком часто это URL-адреса действий, такие как «добавить в корзину» и «добавить в список желаний». Они бесполезны для сканеров, и вы, вероятно, не захотите, чтобы они сканировались».

Чтобы избежать такой бесполезной нагрузки на сервер, Иллес посоветовал заблокировать доступ в файле robots.txt для URL-адресов с такими параметрами, как «?добавить в корзину» или «?добавить в список желаний».

В качестве примера он предлагает:

«Если у вас есть такие URL-адреса:
https://example.com/product/scented-candle-v1?add_to_cart
и
https://example.com/product/scented-candle-v1?add_to_wishlist

Вероятно, вам следует добавить для них правило запрета в файл robots.txt».

Хотя использование метода HTTP POST также может предотвратить сканирование таких URL-адресов, Иллес отметил, что сканеры все равно могут отправлять запросы POST, поэтому файл robots.txt остается целесообразным.

Содержание

1 Укрепление лучших практик десятилетней давности
2 Послушание и исключения
3 Почему SEJ заботится
4 Как это может вам помочь

Укрепление лучших практик десятилетней давности

Алан Перкинс, участвовавший в обсуждении, отметил, что это руководство перекликается с веб-стандартами, введенными в 1990-е годы по тем же причинам.

Цитата из 1993 года. документ под названием «Стандарт исключения роботов»:

«В 1993 и 1994 годах были случаи, когда роботы посещали WWW-серверы, где их не приветствовали по разным причинам… роботы пересекали непригодные части WWW-серверов, например, очень глубокие виртуальные деревья, дублированную информацию, временную информацию или cgi-скрипты с побочными эффектами (например, голосованием)».

Стандарт robots.txt, предлагающий правила, ограничивающие доступ роботов-сканеров с хорошим поведением, появился как «консенсусное» решение среди заинтересованных сторон еще в 1994 году.

ЧИТАТЬ НЭР: Как мы научили нашу собственную модель распознавать бренды. Часть 2

Послушание и исключения

Иллиес подтвердил, что сканеры Google полностью подчиняются правилам robots.txt, за редкими исключениями, тщательно документированными для сценариев, включающих «выборку данных по инициативе пользователя или по договору».

Соблюдение протокола robots.txt стало основой политики сканирования веб-страниц Google.

Почему SEJ заботится

Хотя этот совет может показаться элементарным, возрождение этой десятилетней передовой практики подчеркивает ее актуальность.

Используя стандарт robots.txt, сайты могут помочь укротить чрезмерно усердных сканеров, которые не перегружают полосу пропускания непродуктивными запросами.

Как это может вам помочь

Независимо от того, ведете ли вы небольшой блог или крупную платформу электронной коммерции, следование совету Google по использованию файла robots.txt для блокировки доступа сканера к URL-адресам действий может помочь несколькими способами:

Снижение нагрузки на сервер: вы можете уменьшить ненужные запросы к серверу и использование полосы пропускания, запретив сканерам обращаться к URL-адресам, которые вызывают такие действия, как добавление товаров в корзины или списки желаний.
Повышенная эффективность сканера: предоставление в файле robots.txt более четких правил относительно того, какие URL-адреса следует избегать сканерам, может привести к более эффективному сканированию страниц/контента, которые вы хотите проиндексировать и ранжировать.
Лучший пользовательский опыт: поскольку ресурсы сервера сосредоточены на реальных действиях пользователя, а не на бесполезных посещениях сканера, конечные пользователи, скорее всего, будут испытывать более быстрое время загрузки и более плавную работу.
Следуйте стандартам: Внедрение этого руководства приведет ваш сайт в соответствие с широко распространенными стандартами протокола robots.txt, которые десятилетиями были лучшими отраслевыми практиками.

Пересмотр директив robots.txt может стать простым, но эффективным шагом для веб-сайтов, стремящихся лучше контролировать активность сканеров.

Сообщение Иллиеса указывает на то, что древние правила robots.txt остаются актуальными в нашей современной веб-среде.

ЧИТАТЬ 10 лучших способов заработать на криптовалюте в 2023 году

Рекомендованное изображение: BestForBest/Shutterstock

Source link