Вторник, 24 декабря 2024 г.

Сети доставки контента (CDN) особенно хорошо подходят для уменьшения задержки вашего веб-сайта и в целом избавления от головной боли, связанной с веб-трафиком. В конце концов, это их основная цель: быстрая доставка вашего контента, даже если ваш сайт получает много трафика. Буква «D» в CDN означает доставку или распространение контента по всему миру, поэтому время передачи вашим пользователям также меньше, чем просто хостинг где-то в одном центре обработки данных. В этом посте мы собираемся изучить, как использовать CDN таким образом, чтобы улучшить сканирование и удобство работы пользователей на вашем сайте, а также рассмотрим некоторые нюансы сканирования сайтов, поддерживаемых CDN.

Резюме: что такое CDN?

CDN по сути являются посредником между вашим исходным сервером (где находится ваш веб-сайт) и конечным пользователем и обслуживает (некоторые) файлы для них. Исторически,
Основное внимание CDN уделяется кешированиюЭто означает, что как только пользователь запросил URL-адрес с вашего сайта, CDN какое-то время будет хранить содержимое этого URL-адреса в своих кешах, поэтому вашему серверу не придется какое-то время снова обслуживать этот файл.

CDN могут значительно ускорить работу вашего сайта обслуживая пользователей из ближайшего к ним места. Скажем, если пользователь из Австралии обращается к сайту, размещенному в Германии, CDN будет обслуживать этого пользователя из его кешей в Австралии, сокращая кругосветное путешествие. Световая скорость или нет,
расстояние все еще довольно большое.

И, наконец,
CDN — фантастический инструмент для защиты вашего сайта от перегрузки и некоторых угроз безопасности.. Учитывая объем глобального трафика, которым управляют CDN, они могут создавать надежные модели трафика для обнаружения аномалий трафика и блокирования доступа, который кажется чрезмерным или злонамеренным. Например, 21 октября 2024 г.
Системы Cloudflare
автономно обнаружил и смягчил угрозу 4.2.
Тбит/с
(ред: это много) DDoS-атака, продолжавшаяся около минуты.

Как CDN могут помочь вашему сайту

У вас могут быть самые быстрые серверы и лучшая восходящая линия связи, которую можно купить за деньги, и вы можете не думать, что вам нужно что-то ускорять, но CDN может сэкономить вам деньги в долгосрочной перспективе, особенно если ваш сайт большой:

  • Кэширование в CDN: если такие ресурсы, как медиа, JavaScript и CSS или даже ваш HTML, обслуживаются из кешей CDN, вашим серверам не нужно тратить вычислительные ресурсы и пропускную способность на обслуживание этих ресурсов, что снижает нагрузку на сервер в процессе. Обычно это также означает, что страницы загружаются быстрее в браузерах пользователей, что
    коррелирует с лучшими конверсиями.
  • Защита от наводнений: CDN особенно хороши для выявления и блокировки чрезмерного или вредоносного трафика, позволяя вашим пользователям посещать ваш сайт, даже если плохо ведущие себя боты или недобросовестные люди могут перегрузить ваши серверы.
    Помимо защиты от флуда, те же элементы управления, которые используются для блокировки плохого трафика, также могут использоваться для блокировки трафика, который вам просто не нужен, будь то определенные сканеры, клиенты, которые соответствуют определенному шаблону, или просто тролли, которые продолжают использовать один и тот же шаблон. IP-адрес. Хотя вы также можете сделать это на своем сервере или брандмауэре, обычно гораздо проще использовать пользовательский интерфейс CDN.
  • Надежность: некоторые CDN могут предоставлять пользователям ваш сайт, даже если он не работает. Это, конечно, может сработать только для статического контента, но этого уже может быть достаточно, чтобы гарантировать, что они не переведут свой бизнес куда-то еще.
ЧИТАТЬ  Яндекс добавил собственного чат-бота для работы в маркетплейсе

Короче говоря, CDN — ваш друг, и если ваш сайт большой или вы ожидаете (или даже уже получаете!) большие объемы трафика, возможно, вы захотите найти тот, который соответствует вашим потребностям с учетом таких факторов, как цена, производительность, надежность. , безопасность, поддержка клиентов, масштабируемость, будущее расширение. Обратитесь к своему хостинг-провайдеру или CMS, чтобы узнать, какие у вас есть варианты (и используете ли вы их уже).

Как сканирование влияет на сайты с CDN

С точки зрения сканирования CDN также могут быть полезны, но они могут вызвать некоторые проблемы со сканированием (хотя и редко). Оставайся с нами.

Влияние CDN на скорость сканирования

Наша инфраструктура сканирования спроектирована так, чтобы обеспечить более высокую скорость сканирования на сайтах, поддерживаемых CDN, которая определяется на основе IP-адреса службы, обслуживающей URL-адреса, к которым получают доступ наши сканеры. Это работает хорошо, по крайней мере, большую часть времени.

Допустим, сегодня вы открываете сайт стоковых фотографий, и у вас в наличии 1 000 007 фотографий… в наличии. Вы запускаете свой веб-сайт с целевой страницей, страницами категорий и страницами с подробными сведениями обо всем, что у вас есть, — и в итоге у вас получается много страниц. В нашей документации по ограничению мощности сканирования мы объясняем, что, хотя Google Search хочет сканировать все эти страницы как можно быстрее, сканирование также не должно перегружать ваши серверы. Если ваш сервер начинает медленно отвечать при увеличении количества запросов на сканирование, на стороне Google применяется регулирование, чтобы предотвратить перегрузку вашего сервера. Порог этого регулирования намного выше, когда наша инфраструктура сканирования обнаруживает, что ваш сайт поддерживается CDN, и предполагает, что можно отправлять больше одновременных запросов, поскольку ваш сервер, скорее всего, может это обработать, тем самым сканируя ваш интернет-магазин быстрее.

Однако при первом доступе к URL-адресу кеш CDN является «холодным». Это означает, что, поскольку никто еще не запрашивал этот URL-адрес, его содержимое еще не было кэшировано CDN, поэтому вашему исходному серверу все равно придется обслуживать этот URL-адрес по адресу. хотя бы один раз, чтобы «разогреть» кеш CDN. Это очень похоже на то, как работает HTTP-кеширование.

ЧИТАТЬ  Как продвигать медицинскую клинику в Интернете в 2024 году: эффективные стратегии

Короче говоря, даже если ваш интернет-магазин поддерживается CDN, вашему серверу необходимо будет обслуживать эти 1 000 007 URL-адресов хотя бы один раз. Только после этого первоначального обслуживания ваш CDN сможет помочь вам со своими кешами. Это значительная нагрузка на ваш «бюджет сканирования», и скорость сканирования, вероятно, будет высокой в ​​течение нескольких дней; имейте это в виду, если планируете запускать множество URL-адресов одновременно.

Влияние CDN на рендеринг

Как мы объяснили в нашем первом блоге Crawling за декабрь о сканировании ресурсов, разделение ресурсов на их собственные имена хостов или имена хостов CDN (cdn.example.com) может позволить нашей службе веб-рендеринга (WRS) более эффективно отображать ваши страницы. Однако здесь есть оговорка: такая практика может отрицательно повлиять на производительность страницы из-за дополнительных затрат на подключение к другому имени хоста, поэтому вам необходимо тщательно учитывать опыт страницы с производительностью рендеринга.

Если вы поддерживаете свой основной хост с помощью CDN, вы избегаете этой проблемы: одно имя хоста для запроса, а критические ресурсы рендеринга, скорее всего, обслуживаются из кеша CDN, поэтому вашему серверу не нужно их обслуживать (и никакого попадания на страницу). ).

В конце концов, выберите решение, которое лучше всего подходит для вашего бизнеса: иметь отдельное имя хоста (cdn.example.com) для статических ресурсов подтвердите свое основное имя хоста с помощью CDN или сделайте и то, и другое. Инфраструктура сканирования Google без проблем поддерживает любой вариант.

Когда CDN чрезмерно защищают

Из-за защиты CDN от наводнений и того, как сканеры сканируют, иногда боты, которые вам нужны на вашем сайте, могут оказаться в черном списке вашей CDN, обычно в их брандмауэре веб-приложений (WAF). Это предотвращает доступ сканеров к вашему сайту, что в конечном итоге может помешать вашему сайту появиться в результатах поиска. Блокировка может произойти по-разному, некоторые из них более вредны для присутствия сайта в результатах поиска Google, чем другие, и вам может быть сложно (или невозможно) контролировать ее, поскольку они происходят на стороне CDN. Для целей этой статьи мы разделили их на две группы: жесткие блоки и мягкие блоки.

Жесткие блоки

Жесткие блокировки — это когда CDN отправляет ответ на запрос сканирования, который в той или иной форме является ошибкой. Это могут быть:

  • HTTP 503/429 коды состояния: Отправка этих кодов состояния является предпочтительным способом сигнализировать о временной блокировке. Это даст вам некоторое время, чтобы отреагировать на непреднамеренные блокировки со стороны CDN.
  • Сетевые таймауты: тайм-ауты сети CDN приведут к удалению затронутых URL-адресов из поискового индекса Google, поскольку эти сетевые ошибки считаются терминальными, «серьезными» ошибками. Кроме того, они также могут существенно повлиять на скорость сканирования вашего сайта, поскольку сигнализируют нашей инфраструктуре сканирования о том, что сайт перегружен.
  • Случайное сообщение об ошибке с HTTP 200 код состояния: Также известное как программные ошибки, это особенно опасно. Если сообщение об ошибке со стороны Google приравнивается к «серьезной» ошибке (скажем, HTTP 500), Google удалит URL-адрес из поиска. Если Google не сможет определить сообщения об ошибках как «серьезные» ошибки, все страницы с одним и тем же сообщением об ошибке могут быть удалены как дубликаты из поискового индекса Google. Поскольку при индексировании Google мало стимулов запрашивать повторное сканирование повторяющихся URL-адресов, восстановление после этого может занять больше времени.
ЧИТАТЬ  Лучшие образовательные сайты/блоги для индийских студентов: 9 самых популярных - Bscholarly

Мягкие блоки

Подобная проблема может возникнуть (очень задуманная игра слов), когда ваш CDN показывает межстраничные объявления «вы уверены, что вы человек?».

Наши краулеры на самом деле убеждены, что они НЕ люди и не притворяются ими. Они просто хотят ползать. Однако когда появляется межстраничное объявление, они видят только это, а не ваш потрясающий сайт. В случае таких межстраничных объявлений для проверки ботов мы настоятельно рекомендуем отправлять четкий сигнал в виде кода состояния HTTP 503 автоматическим клиентам, таким как сканеры, о том, что контент временно недоступен. Это гарантирует, что контент не будет удален из индекса Google автоматически.

Отладка блокировок

В случае как твердых, так и мягких засоров самый простой способ проверить правильность работы — использовать
Инструмент проверки URL-адресов в Search Console
и понаблюдайте за визуализированным изображением: если оно показывает вашу страницу, все в порядке; если отображается пустая страница, ошибка или страница с вызовом бота, возможно, вам стоит поговорить об этом со своим CDN.

Кроме того, чтобы помочь с этими непреднамеренными блокировками, Google, другие поисковые системы и другие операторы сканеров публикуют наши IP-адреса, чтобы помочь вам идентифицировать наших сканеров и, если вы считаете это целесообразным, удалить заблокированные IP-адреса из правил WAF или даже из белого списка. их. Где вы можете это сделать, зависит от используемого вами CDN; к счастью, большинство CDN и автономных WAF имеют великолепную документацию. Вот некоторые из них, которые мы смогли найти после небольшого поиска (на момент публикации этого поста):

Если вам нужно, чтобы ваш сайт отображался в поисковых системах, мы настоятельно рекомендуем проверить, могут ли нужные вам сканеры получить доступ к вашему сайту. Помните, что IP-адреса могут оказаться в черном списке автоматически, без вашего ведома, поэтому время от времени проверять черные списки — хорошая идея для успеха вашего сайта в поиске и за его пределами. Если черный список очень длинный (как в этом сообщении в блоге), попробуйте поискать, например, только первые несколько сегментов диапазонов IP-адресов вместо поиска 192.168.0.101 ты можешь просто поискать 192.168.

Это был последний пост в нашей серии постов в блоге «Crawling декабрь». Мы надеемся, что они вам понравились так же, как нам понравилось их писать. Если у вас есть… бла-бла-бла… вы знаете, что делать.

Авторы: Мартин Сплитт и Гэри Иллис


Хотите узнать больше о сканировании? Посмотрите всю серию «Ползущий декабрь»:



Source link