Сканирование (краулинг) - это процесс обхода страниц и ресурсов сайта роботами поисковых систем для дальнейшей индексации. На странице собраны ответы Google касающиеся сканирования сайтов.
Временно удаленные страницы могут передавать PageRank
Инструмент временного удаления в Search Console не меняет способ сканирования или индексации страницы, он просто скрывает её от появления в результатах поиска, поэтому страница все еще может передавать PageRank.
Создайте просматриваемый сайт, который не является слишком глубоким или слишком широким
Чтобы все страницы сайта были доступны и легко просканированы Google, следует создавать разумную структуру, которая не будет слишком глубокой или слишком широкой. Постарайтесь сделать так, чтобы Google запуская сканирование на любой странице вашего сайта мог увидеть все остальные страницы, просто перейдя по ссылкам. Для проверки сканирования с различных страниц следует использовать сторонний сканер.
Отчеты о покрытии в Search Console не включают в себя сторонние размещенные файлы Sitemap
Если вы размещаете свои файлы sitemap на стороннем сайте, они могут использоваться, но не попадут в отчеты о покрытии в Search Console.
Googlebot может сканировать URL найденные после отправки форм
Google может попытаться отправить форму на сайте чтобы посмотреть что получится, а затем просканировать любые полученные URL-адреса, что приведет к увеличению активности сканирования.
Сокращение количества страниц на большом сайте может быть полезно
Сокращение количества страниц на очень большом сайте может помочь Google выяснить, какие страницы являются наиболее важными, но, скорее всего, не окажет никакого влияния на небольшой сайт.
Google всегда будет понятен, когда робот Google сканирует сайт
Возможно, что сотрудник Google посетит ваш сайт через браузер, в этом случае он не будет отображаться как робот Google. Однако при сканировании сайта роботом Googlebot всегда будет отображаться корректное имя, потому что информация о том какие страницы сайта были посещены и проиндексированы должна быть открытой.
Google использует как само изображение, так и страницу на которой оно размещено, для выбора изображения в поиск
Робот Google не понимает содержимое изображения и поэтому должен учитывать контекст веб-страницы. Он изучает страницу, и использует для ранжирования связку изображения и страницы на которой оно размещено. В первую очередь Google используют веб-страницу для понимания того что отражено на изображении и всегда учитывает данную связку при ранжировании.
Сайты с долгим ответом сервера сканируются меньше
Если Google не может повторно просканировать страницу достаточно быстро из-за долгого времени ответа сервера, он не будет повторно сканировать её так часто, как хотелось бы.
Ресурсы, используемые на страницах, включены в краулинговый бюджет Google
Ресурсы, которые нужны Google для отображения страниц, включены в краулинговый бюджет и отображены в данных статистики сканирования в Search Console.
Среднее время сканирования может зависеть от нескольких медленных страниц
Если Google тратит больше времени на сканирование нескольких медленно загружающихся страниц, это может привести к ухудшению среднего времени загрузки и общие данные сканирования будут хуже.
Используйте sitemap ping, атрибут lastmod и отдельные файлы карты сайта для индексации обновленного содержимого
Чтобы ускорить индексацию обновленного содержимого в Google, отправьте ping Googlebot при обновлении файла sitemap, используйте атрибут lastmod с датами последнего изменения в файлах sitemap и создавайте отдельный файл sitemap для обновленного содержимого, который нужно сканировать чаще других.
После удаления низкокачественных страницы пройдут месяцы, прежде чем это повлияет на сканирование и качество сайта
Удаление низкокачественных страниц с вашего сайта может оказать положительное влияние на его сканирование, но эффект от этого может быть отложенным от 3 до 9 месяцев, результат можно будет отследить по логам сайта. Положительное влияние на общее качество сайта может быть заметно спустя ещё более долгое время. Странно, если после удаления таких страниц будет какое-то негативное влияние.
Не используйте сторонние cookie для отображения контента
Поскольку Chrome блокирует сторонние файлы cookie, а Google использует Chrome для отображения страниц, если отображение содержимого страниц вашего сайта зависит от содержимого сторонних файлов cookie, то он не будет отображаться для Google.
Google отслеживает более 5 переадресаций в каждом цикле сканирования
Google выполняет 5 переадресаций в течение одного цикла сканирования, но позже он продолжит обходить цепочки перенаправлений. Как только он найдет окончательный URL в цепочке перенаправления, то сосредоточатся на этом URL.
Статистика сканирования Search Console включает URL-адреса, полученные другими сервисами Google
Статистика сканирования Google в Search Console является точным отражением собственных логов сканирования Google, но включает URL-адреса, полученные от других служб Google, использующих ту же инфраструктуру, что и Googlebot, включая проверки целевой страницы Google Ads и сканирование поиска по товарам.
Google не использует валидатор W3C
Google не учитывает проверку валидатором W3C в своих алгоритмах, поэтому вам не нужно беспокоиться, если на ваших страницах есть какие-то ошибки при проверке. Однако валидатор - это отличный способ убедиться, что страницы вашего сайта отображаются корректно и доступны (например, для устройств чтения с экрана).
Быстрое снижение трафика после ошибки на сайте не следует связывать с ней
Если вы видите резкое снижение трафика, в течении дня после внесения изменений на сайте, то скорее всего дело в обновлениях алгоритма поиска. Для влияния технической ошибки на трафик требуется больше время, так как сканирование - более длительный процесс.
Google не взаимодействует с кнопками на JavaScript
Google не взаимодействует с элементами на которые навешаны JavaScript-события клика (вроде кнопок «Показать больше»), но он использует расширение фрейма для рендеринга очень длинных страниц, чтобы посмотреть не догружается ли контент автоматически.
Изменения алгоритма могу влиять на скорость сканирования
Количество страниц, которые Google хочет просканировать может меняться при изменении алгоритма. Это может произойти из-за того что некоторые страницы станут (или перестанут) считаться менее важными для отображения в результатах поиска или из-за оптимизации процесса сканирования.
Включайте измененные недавно страницы в отдельный файл sitemap
Вместо того чтобы каждый раз отправлять все свои файлы sitemap для сканирования Google новых страниц, лучше включить недавно измененные страницы в отдельный файл sitemap, который можно отправлять на переобход чаще, оставив не изменившиеся страницы в других файлах sitemap.
Используйте элемент lastmod для последовательного учета изменений на сайте
Следует вдумчиво использовать элементы lastmod в файлах sitemap, чтобы правильно показывать последовательность изменений на сайте. Это помогает Google распознать, какие страницы важны, и в первую очередь просканировать их.
Рендеринг страниц отличается у Googlebot и пользователей
Googlebot не делает снимок рендеринга страницы в какое-то определённое время для дальнейшей индексации. Основная причина этого заключается в том, как Google обрабатывает страницы, так как рендеринг страницы для индексации отличается от рендеринга страницы в браузере пользователя. Это может привести к тому что элементы на сайте будут обрабатываться иначе чем у пользователя и рендеринг с целью индексации будет занимать дольше времени.
То, что Google сканирует старые URL - не проблема
Из-за процесса рендеринга страниц сайта Google может сканировать старые URL, для их проверки. Вы можете заметить это в своих лог-файлах, но это нормально и не вызовет никаких проблем.
Проверка URL в Search Console не всегда показывает как страница была просканирована для индексации
«Другая ошибка» возникает при проверке URL в Search Console, когда не удается получить его содержимое в этом конкретном тесте (например, это возможно для ресурсов страницы). При сканировании страницы с целью индексации Google будет тратить больше времени на получение и кэширование ресурсов к которым обращается страница, чтобы иметь возможность правильно их отображать.
Переобход страниц осуществляется не реже чем раз в 6 месяцев
Google старается повторно сканировать страницы не реже чем раз в 6 месяцев.
Google по-прежнему учитывает директиву unavailable_after в теге meta robots
Google не перестал учитывать директиву unavailable_after в теге meta robots, используемую для указания даты когда страница перестанет быть доступна. Скорее всего, примерно в эту дату Google будет повторно сканировать страницу, чтобы убедиться что не удаляет из индекса страницу которая все еще доступна.
Технические проблемы на сайте могут привести к тому, что его контент будет индексироваться на сайтах-скраперах раньше
Если контент с сайтов-скраперов появляется в индексе раньше чем с сайта-источника, то скорее всего у этого сайта имеются технические проблемы. Например, Googlebot может не находить хаб-страницы или страницы категорий или может застревать в ловушках сканирования, следуя по URL-адресам с избыточными GET-параметрами.
Google может регулировать скорость сканирования сайта в зависимости от его производительности и контента
Расчет скорости сканирования сайта Google может автоматически изменяться с учётом того насколько быстро сайт отдает контент и сколько контента необходимо сканировать.
Настройте 404 или 410 ответ сервера чтобы Googlebot не сканировал взломанные страницы
Если ваш домен был взломан, то лучшим способом предотвратить сканирование Googlebot взломанных страниц будет настроить для них 404 или 410 ответ сервера с помощью файла htaccess. Также это остановит выполнение серверных скриптов и запросов к базе данных.
Google может увеличить частоту сканирования сайта, если заметит что его структура изменилась
Если вы удалите значительную часть страниц, и при сканировании сайта Google обнаружит большое число страниц с 404 ответом сервера, то он может решить что структура вашего сайта изменилась. Это может привести к тому что Google станет чаще сканировать сайт чтобы понять какие изменения произошли.
Использование 410 ответа сервера не гарантирует быстрое удаление страниц
Чтобы удалить весь раздел сайта из индекса, лучше всего настроить для него 410 ответ сервера. Коды ответа 404 и 410 являются разными сигналами для робота Googlebot, причем 410 является более явным сигналом того, что страница была удалена. Однако, так как Google встречает большое количество неверных сигналов на сайтах, он будет использовать ваш код ответа сервера лишь в качестве подсказки, поэтому использование 410 ответа сервера все-таки не гарантирует то, что страницы будут удалены быстрее.
Используйте Chrome DevTools и Google Testing Tools для проверки теневого DOM страницы
Есть два способа проверить теневое DOM-дерево страницы, чтобы сравнить его с тем, что видит робот Googlebot. Самый простой способ - использовать Chrome DevTools, в инспекторе вы увидите элемент #shadow-root, который вы можете раскрыть, это покажет, что содержит теневой DOM. Вы также можете использовать инструмент проверки структурированных данных чтобы просмотреть визуализированную DOM, она должна содержать всё то, что изначально было в теневой DOM.
Расхождение в данных Search Console и логах сервера при сканировании - это вполне нормально
В отчете по статистике сканирования в Search Console показаны абсолютно все обращения, которые выполнялись Googlebot. Сюда входят данные о сканировании, рендеринге и даже обращению к robots.txt. И хотя такая статистика сканирования довольно полезна, но сравнивать её с логами бывает слишком затруднительно.
Для определения своего краулингового бюджета воспользуйтесь данными Search Console и логов сервера
Есть два аспекта, которые позволят вам понять свой краулинговый бюджет сайта.
Первый касается скорости, с которой Google смог загрузить страницы сайта (информация об этом есть в Search Console). Если она высокая, то значит Google просканировал всё что мог (хотя, возможно, пропустил некоторые страницы).
Второй касается ошибок сервера и их влияния на сканирование сайта. Изучение логов сервера позволяет понять, появляются ли такие ошибки.
Сводные отчёты в Search Console сосредоточены на неполной выборке URL-адресов
Сводные отчеты в Search Console, например, отчет по удобству использования на мобильных устройствах, отчет по AMP-версиям страниц и отчет по расширенным результатам в поиске, сосредоточены лишь на выборке URL-адресов с сайта.
Для сравнения, отчет о покрытии включает в себя все проиндексированные URL-адреса, а это означает, что не стоит сравнивать итоговые числа в различных отчетах. Например. в отчете о покрытии может быть показано 4000 проиндексированных страниц, тогда как в отчете об удобстве использования для мобильных устройств общее количество страниц может составлять только 2000 (это и будет размером выборки данного отчета).
Google определяет удобство использования страницы на мобильных устройствах основываясь на эмуляции
Google проверяет удобство использования страницы на мобильных устройствах с помощью рендеринга страницы аналогичного тому, который будет производиться на мобильных устройствах пользователей. Иногда во время такой эмуляции могут возникать ошибки при загрузке файлов CSS или JavaScript, это может привести к появлению небольшого количества ошибок удобства использования на мобильных устройствах в Search Console. Эти ошибки связаны с загрузкой Google отдельных файлов и являются временными, а также не повлияют на индексацию таких страниц.
Google распознает рекламные объявления, появляющиеся при переходе между страницами сайта
Google пытается распознать рекламные объявления, которые появляются при переходе между страницами сайта чтобы отличать их от обычных рекламных баннеров страницы. Это делается, чтобы они не вызывали проблем при сканировании сайта Googlebot. Это может стать проблемой только в том случае, если межстраничное объявление подменяет контент на странице, тем самым блокируя его сканирование.
Обеспечьте индексирование страниц категорий и закройте от индексации страницы поиска по сайту
Чтобы избежать таких проблем как индексация дублей страниц и засорение сайтом индекса Google, займитесь улучшением качества страниц категорий и помощью им в индексации. Также закройте от индексации страницы внутреннего поиска, поскольку именно функционал поиска часто генерирует низкокачественные страницы.
Google не будет учитывать JavaScript, если страница отдаёт редирект или ошибку
Если у вас есть страница, часть контента которой формируется с помощью JavaScript, но при обращении к странице отдаётся перенаправление или ошибка, то Google не будет тратить время на её рендеринг. Например, если вы используете JavaScript на странице 404 для вывода сообщения об ошибке или ссылки на главную страницу. В случае редиректа от Google нужно только проследовать на новую страницу (цель перенаправления), отрисовывать саму страницу с редиректом ни к чему.
Появление 404 или 410 ответа сервера снизит частоту сканирования страницы
Если Google найдет 404 или 410 код ответа сервера на страницах сайта, он продолжит сканировать эти страницы в случае каких-либо изменений, но начнет постепенно снижать частоту сканирования, чтобы больше сосредоточиться на страницах, которые возвращают 200 код ответа сервера.
Google может сканировать страницы с параметрами, закрытыми в Search Console
Google может сканировать адреса страниц с get-параметрами, даже если сканирование этих параметров запрещено в Search Console. Если вы хотите наверняка закрыть данные адреса от сканирования, то воспользуйтесь файлом robots.txt.
Google проверяет код ответа сервера страницы перед попыткой её отрисовки
Google сначала проверяет код ответа сервера при обращении к странице и лишь затем обрабатывать её (в том числе, отрисовывает). Это помогает быстро понять, какие страницы можно проиндексировать, а на какие не стоит тратить свои ресурсы. Например, если страница возвращает ошибку 404, Google не будет её обрабатывать.
Добавление тёмной темы на сайте не повлияет на SEO
Настройка тёмной темы на сайте не повлияет на SEO. Это связано с тем, что она в большинстве случаев реализуется посредством той части CSS, которая не влияет на то, как Google сканирует, отрисовывает и индексирует страницы сайта. Прим. автора канала: кто ещё не встречал тёмные темы у сайтов, в шапке этого сайта кликните по иконке луны. Также некоторые сайты используют специальный медиа-запрос для показа сайта в тёмной теме пользователям смартфонов (у которых включен "dark mode" на смартфоне).
Блокировка IP-адреса Googlebot - лучший способ предотвратить сканирование вашего сайта Google, позволяя другим инструментам получить к нему доступ
Если вы хотите запретить роботу Googlebot сканировать ещё не доделанный (или не проверенный) сайт, но хотите разрешить доступ другим инструментам сканирования, то следует внести в белый список IP-адреса пользователей и инструментов, которые вам нужны, но запретить роботу Googlebot. Это связано с тем, что Google может сканировать страницы, которые они находят на сайте, даже если у них есть тег noindex, или индексировать страницы без сканирования, даже если они заблокированы в robots.txt.
У Google есть отдельный user-agent для сканирования файлов sitemap и проверки через Search Console
У Google есть отдельный user-agent, который извлекает файлы карты сайта, а также отдельный user-agent для сканирования для проверки данных Search Console. Если у вас на сайте настроена блокировка роботов по user-agent, то стоит убедиться убедиться, что вы их не блокируете.
Google при сканировании не выполняет события, которые инициирует пользователь
Googlebot не может сканировать контент появляющийся после событий, инициированных пользователем (например, он не выполняет загрузку контента, догружаемого при прокрутке страницы пользователем). Следует использовать динамический рендеринг, чтобы обеспечить сканирование контента выводимого после таких событий с помощью ссылки, а не взаимодействия со страницей.
Убедитесь, что Google может сканировать все страницы, догружаемые при бесконечной прокрутке
При реализации бесконечной прокрутки убедитесь, что Google может сканировать все догружаемые страницы. Лучший вариант реализации - создать ссылки на каждую догружаемую страницу с помощью пагинации, чтобы каждая страница была просканирована наверняка.
Скорость имеет решающее значение для быстрой индексации контента Google
Чтобы быстро индексировать контент (например новостные статьи), Google должен иметь возможность быстро сканировать их страницы. То есть должен получать быстрый ответ сервера и быстро загружать содержимое страниц.
Если контент загружается после показа межстраничного объявления, Google не сможет проиндексировать страницу
Робот Googlebot не взаимодействует с межстраничными объявлениями, например, с уведомлением об использовании файлов cookie. Вместо этого он будет пытаться сканировать и отображать страницу по мере ее загрузки. Если вы выводите объявление закрывая HTML-контент, Google по-прежнему сможет просматривать основной контент страницы, однако, если HTML-контент загружается только после взаимодействия с межстраничным объявлением, Google сможет видеть только это объявление и проиндексирует его, а не фактическое содержание страницы.
Google может сканировать разные разделы сайта с разной скоростью
Google может определять, как часто обновляются различные разделы сайта, и сканировать их с разной скоростью. Это делается чтобы страницы сайта которые изменяются чаще сканировались тоже чаще.
Google может со временем переобходить страницы с ошибками 5xx
Если страница в течение недели показывает ошибку сервера (5xx), Google может отнестись к ней как к странице с 404 ошибкой, и уменьшить сканирование этой страницы, а также удалить ее из индекса. Но Google по-прежнему будет периодически сканировать страницу, чтобы увидеть, не стала ли она снова доступна. Если страница стала доступна, то она проиндексируется.
Инструмент удаления URL скрывает страницы от отображения, но не влияет на их сканирование или индексацию
Инструмент удаления URL только скрывает страницу из результатов поиска. Но абсолютно никак не влияет на её сканирование и индексацию.
Выберите одно: либо закрываете страницы от сканирования в robots.txt, либо закрываете их от индексации посредством noindex
Закрытие индексации страницы посредством noindex (или X-Robots-Tag) при одновременной блокировке её сканирования в robots.txt приведёт к тому что закрытие от индексации не будет учтено, поскольку робот Googlebot не будет о нём знать. Следует использовать что-то одно.
XML карта сайта должна включать URL того же сайта и зеркала, но может также содержать URL других ресурсов из Search Console
XML карта сайта в общем случае должна содержать ссылки на URL страниц относящихся к тому же сайту и зеркалу. Однако URL страниц XML карты сайта, отправленной через Search Console, могут относиться к любому ресурсу для которого есть доступ в вашей учетной записи Search Console.
Google понимает нужно ли отрисовывать страницы сравнивая содержимое исходного HTML и итогового DOM
Google сравнивает содержимое начального HTML-кода страницы при сканировании со сформированным DOM после отрисовки страницы, чтобы увидеть, появляется ли какой-то новый контент, ради которого необходимо снова отрисовывать страницу в будущем.
Проверка оптимизации сайтов на JavaScript будет актуальна всегда
Проверка оптимизации сайтов на JavaScript никуда не исчезнет даже в случае улучшения рендеринга Google из-за постоянных изменений фреймворков, ошибок технической реализации и сложности отладки.
JavaScript SEO будет развиваться
Поисковая оптимизация сайтов на JavaScript эволюционирует от ручного поиска проблем к поиску ошибок в готовых инструментах. Но даже несмотря на то, что Google предоставляет инструменты для поиска ошибок, технические знания SEO-специалистам все равно потребуются. Также улучшается и обработка JavaScript, хотя она по-прежнему несовершенна. Например, если сегодня вы разместите контент в теге canvas, то для Google это по-прежнему будет изображение.
Проверка исправления в Search Console сначала проверяет 5-10 страниц перед повторной обработкой остальных ошибок
Когда вы нажимаете «Проверить исправление» для ошибок в Search Console, сначала проверяется небольшая выборка от 5 до 10 страниц, чтобы убедиться что ошибка была исправлена. Если на них ошибка исправлена, то остальные страницы будут повторно обработаны.
Исключенные страницы в Search Console будут сканироваться и дальше
Страницы, исключенные в Search Console, будут сканироваться Googlebot и дальше, а также учитываются при расчете краулингового бюджета. Однако другие страницы, открытые для индексации, будут иметь больший приоритет для сканирования (если ваш краулинговый бюджет не позволяет обойти все сразу).
Редиректы могут повлиять на краулинговый бюджет сайта
Если на сайте много редиректов, то это может сказаться на краулинговом бюджете. В этом случае Google обнаружит, что URL-адреса извлекаются дольше, и ограничит количество одновременных запросов к сайту, чтобы не возникло проблем с сервером (то есть чтобы его не положить).
URL должен состоять из менее чем 1000 символов
Следует проверить, что длина URL-адресов вашего сайта не превышает 1000 символов, для того чтобы все ваши страницы были просканированы и проиндексированы.
Используйте проверку URL, чтобы узнать, видит ли робот Google встроенные комментарии
Инструмент "Проверка URL" в Google Search Console может показать, видит ли Googlebot комментарии, встроенные в ваши страницы (например, комментарии Facebook).
Закрытые от сканирования страницы с входящими ссылками могут быть проиндексированы Google
Страницы, закрытые в файле robots.txt, не могут сканироваться роботом Googlebot. Однако, если на такие страницы есть ссылки, Google может посчитать что страницу стоит проиндексировать (даже несмотря на то, что она не может сканироваться).
Внешние ссылки полезны при запуске сайта
Внешние ссылки помогают Google находить и сканировать новые сайты, но они играют гораздо меньшую роль для Google, как только он уже обнаружил сайт.
Пользовательский интерфейс Search Console и API используют один и тот же источник данных
Пользовательский интерфейс Google Search Console и API Search Console используют один и тот же источник данных, поэтому между ними не должно быть никаких расхождений в данных.
Дата последнего обновления страницы не влияет на её ранжирование
Хотя дата последнего обновления страницы полезна для пользователей, она никак не влияет на сканирование, индексирование или ранжирование страницы в результатах поиска.
Робот Googlebot выполняет сканирование с нескольких региональных IP-адресов
Робот Googlebot выполняет сканирование в том числе с небольшого числа региональных IP-адресов. Чаще всего это происходит в странах, где сканирование из США может быть затруднено.
Проблем со сканированием не будет даже если какая-то ссылка в XML карте сайта является ошибочной
Если какой-то URL в XML карте сайта является ошибочным, то это не повлияет на то, как Google сканирование и учет других ссылок из карты сайта. Однако, если элемент содержит такую ошибку, которая приводит к некорректному синтаксису, то такой XML-файл становится нечитаемым и не может использоваться в качестве карты сайта.
Страницы с результатами поиска по сайту следует закрывать от сканирования, если они не имеют ценности для пользователей поиска
Необходимо закрывать от сканирования страницы с результатами поиска по сайту, так как их доступность для поискового бота может привести к повышенной нагрузке на сайт при сканировании и появлению ошибок. Однако бывают ситуации, когда имеет смысл открывать для сканирования и индексации страницы внутреннего поиска (в случае если они полезны пользователям поисковой системы).
Ошибки загрузки ресурсов при проверке URL в GSC и Mobile Friendly могут не проявиться в поиске
В рамках инструментов проверки Mobile Friendly и проверки URL (в Search Console) Google извлекает все содержимое страницы и обращается к URL использованных на страницах ресурсов, включая изображения, шрифты и JavaScript, что иногда может нагрузить сервер и вызвать ошибку связанную со слишком долгим получением этих ресурсов. Однако это не должно влиять на индексацию контента и его учёта в результатах поиска из-за кеширования и использования старых версий файлов, которые не удалось получить.
Страница на которую осуществляется редирект используется для определения релевантности
При сканировании страницы с которой осуществляется редирект Google будет использовать содержимое страниц на которую осуществляется редирект, чтобы определить релевантность страницы, так как контент новой страницы может отличаться.
Метрики скорости загрузки, важные для UX, отличаются от метрик, важных для сканирования и индексирования
Даже несмотря на некоторые пересечения, показатели скорости загрузки, важные для UX, отличаются от показателей, используемых для сканирования и индексирования. В последнем случае Google должен запрашивать HTML-код страницы как можно быстрее, быстро находить новые ссылки, а также время ответа сервера должно быть минимальным.
Время загрузки роботом Googlebot страницы может меняться в зависимости от скорости сервера, размера и сложности страницы
Если Search Console показывает, что Googlebot стал тратить больше времени на загрузку страниц сайта, то это скорее всего связано с тем что страницы стали большего размера или более сложными для разбора, а также дело может быть в том, что сервер стал работает медленнее.
Данные микроразметки, которые отсутствуют в Search Console, не обнаружены Google
Если данные микроразметки не отображаются в отчетах Search Console, то скорее всего делов том, что Google их не видит на сайте (или не успел увидеть).
Кэшированная версия страницы Google может отличаться от реальной страницы
Кешированная версия страницы Google - это не совсем то, что Google использует для индексации, и иногда она может немного отличаться от реальной страницы. Кроме того, дата в кэшированной версии не показывает время последнего сканирования страницы роботом Googlebot.
Не блокируйте сканирование старого сайта во время переезда
Если во время переезда сайта старый сайт заблокировать от сканирования Google в файле robots.txt, то могут возникнуть проблемы с тем, что Google не сможет обработать переезд и не передаст важные для ранжирования показатели новому сайту.
Используйте кеширование контента страниц, чтобы предотвратить снижение частоты сканирования Google
Если между запросом Google и получением контента страницы происходит задержка в 5–10 секунд, то Google может снизить частоту сканирования сайта. Реализуйте кеширование содержимого страниц, чтобы улучшить время ответа для робота Googlebot.
Используйте точные даты последнего изменения страниц в файлах Sitemap для быстрого повторного сканирования
Убедитесь, что каждая страница, указанная в XML-карте сайта имеет собственную дату последнего изменения (lastmod). Так Google будет уверен в необходимости повторно сканирования нужных страниц и сделает это быстрее.
Можно реализовывать персонализацию сайта по странам, но тогда Google проиндексирует версию сайта для США
Персонализировать контент для пользователей - это нормально, но важно знать, что робот Googlebot сканирует сайты из США и будет индексировать тот контент, который показывается пользователям США. Лучше всего, если это возможно, оставить одинаковым значительную часть контента на всех версиях страницы.
Google не обрабатывает страницы пагинации как-то иначе, чем любые другие страницы
Google обрабатывает страницы пагинации так же, как и любую другую страницу сайта. И хотя Google пытается понять, как каждая страница вписывается в контекст сайта в целом, он не применяет какую-то дополнительную проверку к страницам, чтобы выявить, что это страница пагинации.
Google может индексировать страницы, заблокированные в файле robots.txt
Google может индексировать страницы, заблокированные в файле robots.txt, если на них есть внутренние ссылки. В таком случае Google, скорее всего, будет использовать в качестве заголовка сниппета анкоры внутренних ссылок, указывающих на страницу. Правда такая страница будет редко отображаться в поиске, потому что у Google очень мало информации о ней.
Google кеширует файлы CSS и JS, чтобы не загружать их каждый раз
Google кеширует используемые на страницах файлы (например, файлы CSS), чтобы ему не пришлось заново загружать их в будущем. Объединение нескольких файлов CSS в один может помочь Googlebot в этом, точно также как и минификация JavaScript.
Файл XML карты сайта не заменяет сканирование внутренних ссылок
XML карта сайта помогает Google сканировать сайт, но она не заменит сканирование сайта, например обнаружение новых URL по внутренним ссылкам. Карта сайта больше подходит для того, чтобы сообщить Google об изменениях на страницах.
Google ждет некоторое время, прежде чем закончит рендеринг страницы
Робот Googlebot довольно долго ожидает отрисовку контента, но невозможно сказать точное время ожидания. Нужно постараться как можно быстрее отдавать контент используя серверный рендеринг, динамический рендеринг или кэширование.
Заблокируйте тестовый сайт от сканирования Google
Вы должны запретить Google сканировать ваш тестовый сайт, так как его индексация может вызвать проблемы. Вы можете заблокировать доступ на основе user-agent (содержащего Googlebot) или с помощью файла robots.txt.
А мы создали закрытый SEO-клуб..
В нем доступны крутые уникальные инструменты и ещё много чего.