Краулинговый бюджет - это ограничение в количестве сканируемых ресурсов сайта за один обход роботом поисковой системы. На странице собраны ответы Google касающиеся краулингового бюджета. Также в блоге есть подробный гайд на тему работы с краулинговым бюджетом.
Ресурсы, используемые на страницах, включены в краулинговый бюджет Google
Ресурсы, которые нужны Google для отображения страниц, включены в краулинговый бюджет и отображены в данных статистики сканирования в Search Console.
JavaScript редиректы тратят больше времени Google, чем 301 редиректы
Обработка JavaScript редиректов занимает больше времени чем обработка 301 редиректов, так как требует обработки кода JavaScript.
Google может увеличить частоту сканирования сайта, если заметит что его структура изменилась
Если вы удалите значительную часть страниц, и при сканировании сайта Google обнаружит большое число страниц с 404 ответом сервера, то он может решить что структура вашего сайта изменилась. Это может привести к тому что Google станет чаще сканировать сайт чтобы понять какие изменения произошли.
Для определения своего краулингового бюджета воспользуйтесь данными Search Console и логов сервера
Есть два аспекта, которые позволят вам понять свой краулинговый бюджет сайта.
Первый касается скорости, с которой Google смог загрузить страницы сайта (информация об этом есть в Search Console). Если она высокая, то значит Google просканировал всё что мог (хотя, возможно, пропустил некоторые страницы).
Второй касается ошибок сервера и их влияния на сканирование сайта. Изучение логов сервера позволяет понять, появляются ли такие ошибки.
Исключенные страницы в Search Console будут сканироваться и дальше
Страницы, исключенные в Search Console, будут сканироваться Googlebot и дальше, а также учитываются при расчете краулингового бюджета. Однако другие страницы, открытые для индексации, будут иметь больший приоритет для сканирования (если ваш краулинговый бюджет не позволяет обойти все сразу).
Редиректы могут повлиять на краулинговый бюджет сайта
Если на сайте много редиректов, то это может сказаться на краулинговом бюджете. В этом случае Google обнаружит, что URL-адреса извлекаются дольше, и ограничит количество одновременных запросов к сайту, чтобы не возникло проблем с сервером (то есть чтобы его не положить).
Краулинговый бюджет учитывает каждый URL, к которому обращается Google
Краулинговый бюджет учитывает каждый URL, к которому Google обращается на сервере, поэтому, если для отображения страницы необходимо загрузить несколько её ресурсов (например, изображений или стилей), то все они будут просканированы и засчитаются в краулинговый бюджет сайта.
На краулинговый бюджет не влияет время отклика сторонних тегов страниц
Для Google краулинговый бюджет определяется тем, сколько страниц и ресурсов он загружает с сайта в сутки. Если у страницы долгое время ответа сервера, Google может меньше сканировать сайт, чтобы снизить нагрузку на сервер, но на это не повлияют никакие загружаемые сторонние теги на странице (например блоки РСЯ или AdSense).
Размещение статических ресурсов на поддомене может не оптимизировать краулинговый бюджет
Google может распознать, являются ли поддомены частью одного и того же сервера, и поэтому распределяет краулинговый бюджет вашего сайта для сервера в целом. Однако размещение статических ресурсов в CDN приведёт к сканированию двух независимых источников и оптимизации краулингового бюджета.
Проверяйте логи сервера, если видите, что сканируется слишком много страниц
Если робот Googlebot сканирует намного больше страниц, чем у сайта есть на самом деле, следует проверить логи сервера, чтобы точно определить, какие страницы сканирует Google. Например, может случиться так, что файлы JavaScript с get-параметром сеанса сканируются и расходуют краулинговый бюджет.
Уменьшите количество подключаемых файлов JavaScript, если робот Googlebot выполняет их, но они не влияют на контент
Если робот Googlebot сканирует много JavaScript файлов на сайте (а контент сайта отрисовывается на стороне сервера), то стоит убедиться, что содержимое этих JavaScript файлов влияет на контент или макет страницы и Googlebot выполняет их. Лучше всего использовать как можно меньше файлов JavaScript, полностью кэшировать и отрисовывать страницу на стороне сервера, чтобы не было ссылок на лишний JavaScript.
Заголовки ETags и If-Modified-Since могут улучшить UX благодаря кэшированию
Google не всегда использует HTTP-заголовки ETags и If-Modified-Since при сканировании, поскольку не многие сайты их используют, да и те часто ошибаются. Однако они могут повлиять на UX, поскольку могут улучшить кэширование ресурсов сайта для вернувшихся пользователей.
Google кеширует файлы CSS и JS, чтобы не загружать их каждый раз
Google кеширует используемые на страницах файлы (например, файлы CSS), чтобы ему не пришлось заново загружать их в будущем. Объединение нескольких файлов CSS в один может помочь Googlebot в этом, точно также как и минификация JavaScript.
А мы создали закрытый SEO-клуб..
В нем доступны крутые уникальные инструменты и ещё много чего.