Гэри Иллис из Google недавно обратил внимание на повторяющуюся проблему SEO в LinkedIn, повторив опасения, которые он ранее высказывал в подкасте Google.
В чем проблема? Параметры URL создают трудности для поисковых систем при сканировании веб-сайтов.
Эта проблема особенно сложна для крупных сайтов и интернет-магазинов. Когда к URL-адресу добавляются различные параметры, это может привести к появлению множества уникальных веб-адресов, которые все ведут к одному и тому же контенту.
Это может затруднить работу поисковых систем, снижая их эффективность при сканировании и индексации сайтов.
Содержание
Загадка параметров URL
И в подкасте, и в посте на LinkedIn Иллис объясняет, что URL-адреса могут содержать бесконечное количество параметров, каждый из которых создает отдельный URL-адрес, даже если все они указывают на один и тот же контент.
Он пишет:
«Интересная особенность URL-адресов заключается в том, что вы можете добавлять бесконечное (я называю это BS) количество параметров URL-адресов к пути URL-адреса, и тем самым по сути формировать новые ресурсы. Новые URL-адреса не обязательно должны соответствовать разному контенту на сервере, каждый новый URL-адрес может просто обслуживать тот же контент, что и URL-адрес без параметров, но все они являются разными URL-адресами. Хорошим примером этого является параметр URL-адреса очистки кэша в ссылках JavaScript: он не изменяет контент, но заставляет кэши обновляться».
Он привел пример того, как простой URL-адрес типа «/путь/файл” можно расширить до “/путь/файл?параметр1=a» и «/путь/файл?параметр1=a&параметр2=b«, все они потенциально предоставляют идентичный контент.
«Каждый [is] другой URL, но все то же самое содержимое», — отметил Иллис.
Случайное расширение URL-адреса и его последствия
Поисковые системы иногда могут находить и пытаться сканировать несуществующие страницы на вашем сайте, которые Иллес называет «поддельными URL-адресами».
Они могут всплывать из-за таких вещей, как плохо закодированные относительные ссылки. То, что начинается как сайт обычного размера с примерно 1000 страниц, может раздуться до миллиона фантомных URL-адресов.
Этот взрыв поддельных страниц может вызвать серьезные проблемы. Поисковые роботы могут сильно ударить по вашим серверам, пытаясь просканировать все эти несуществующие страницы.
Это может перегрузить ресурсы вашего сервера и потенциально привести к краху вашего сайта. Кроме того, это тратит бюджет сканирования поисковой системы на бесполезные страницы вместо вашего контента.
В конечном итоге ваши страницы могут не сканироваться и не индексироваться должным образом, что может повредить вашим рейтингам в результатах поиска.
Иллес утверждает:
«Иногда вы можете случайно создать эти новые фейковые URL-адреса, взорвав ваше пространство URL с благоухающих 1000 URL-адресов до 1 миллиона, что приведет к захватывающим поискам, которые в свою очередь неожиданно обрушатся на ваши серверы, расплавляя трубы и свистки слева и справа. Плохие относительные ссылки являются одной из относительно распространенных причин. Но robotstxt — ваш друг в этом случае».
Наиболее пострадавшие сайты электронной коммерции
В публикации на LinkedIn не упоминались конкретно интернет-магазины, но обсуждение в подкасте прояснило, что эта проблема имеет большое значение для платформ электронной коммерции.
Эти веб-сайты обычно используют параметры URL для отслеживания, фильтрации и сортировки продуктов.
В результате вы можете увидеть несколько разных URL-адресов, указывающих на одну и ту же страницу продукта, при этом каждый вариант URL-адреса представляет выбор цвета, размер или источник, откуда пришел покупатель.
Смягчение проблемы
Иллис постоянно рекомендует использовать robots.txt для решения этой проблемы.
В подкасте Ильес выделил возможные решения, такие как:
- Создание систем для обнаружения дубликатов URL-адресов
- Лучшие способы для владельцев сайтов сообщить поисковым системам о структуре своих URL-адресов
- Более разумное использование robots.txt для управления поисковыми роботами
Инструмент устаревших параметров URL
В ходе обсуждения в подкасте Ильес затронул прошлые попытки Google решить эту проблему, включая ныне устаревший инструмент «Параметры URL» в Search Console.
Этот инструмент позволяет веб-сайтам указывать, какие параметры важны, а какие можно игнорировать.
Когда Ильеса спросили в LinkedIn о возможном возвращении этого инструмента, он скептически отнесся к его практической эффективности.
Он заявил: «Теоретически да. На практике нет», объяснив, что инструмент страдает от тех же проблем, что и robots.txt, а именно: «люди не могут ни за что на свете разобраться, как управлять собственными параметрами».
Последствия для SEO и веб-разработки
Продолжающаяся дискуссия в Google имеет несколько последствий для SEO и веб-разработки:
- Бюджет сканирования: Для крупных сайтов управление параметрами URL может помочь сэкономить бюджет сканирования, гарантируя, что важные страницы будут просканированы и проиндексированы.
- Архитектура сайта: Разработчикам, возможно, придется пересмотреть структуру URL-адресов, особенно для крупных сайтов электронной коммерции с многочисленными вариациями продуктов.
- Фасетная навигация: Сайты электронной коммерции, использующие фасетную навигацию, должны учитывать, как это влияет на структуру URL-адресов и возможность сканирования.
- Канонические теги: Канонические теги помогают Google понять, какую версию URL следует считать основной.
Почему это важно
Google обсуждает проблемы с параметрами URL по нескольким каналам, что свидетельствует о реальной обеспокоенности качеством поиска.
Для отраслевых экспертов наличие информации об этих технических аспектах имеет решающее значение для поддержания видимости в результатах поиска.
Пока Google работает над решениями, рекомендуется проактивное управление URL-адресами и эффективное руководство поисковыми роботами.