В своей работе SEO специалисты часто подменяют User-Agent для обхода сайтов конкурентов краулерами. Мы подставляем значения агента пользователя от поисковых роботов (Googlebot, YandexBot и т. д.) чтобы мимикрировать под них и избежать блокировку при посещении большого количества страниц за малое время. Также технику подмены агента пользователя могут использовать при атаках на сайт или автоматическом парсинге информации.
Давайте разберём как можно вычислить и заблокировать такие фейковые посещения сайта конкурентами.
Метод определения
Определить реально ли к нам зашел робот поисковой системы можно через обратный просмотр DNS. Он вычисляет по IP домен с которого произошел запрос. В случае если домен не соответствует роботу поисковой системы, это чья-то попытка мимикрировать.
Вручную сделать обратный просмотр DNS по IP можно с помощью онлайн-утилиты от MXToolBox.

Домены роботов
Роботы поисковых систем могут запускаться на домене отличном от самой поисковой системы, для исключения ошибки далее размещена таблица соответствия роботов и доменов. Знак звездочки (*) означает любое множество символов.
Поисковая система | User-Agent | Домен робота |
---|---|---|
Яндекс | *Yandex*, *YaDirect* | *.yandex.ru, *.yandex.net или *.yandex.com |
*Googlebot* | *.googlebot.com | |
*Mail.RU_Bot* | *.go.mail.ru | |
Bing | *bingbot*, *BingPreview* | *.search.msn.com |
Yahoo | *Slurp* | *.yahoo.com |
DuckDuckGo | *DuckDuckBot* | *.duckduckgo.com |
Baidu | *Baiduspider* | *.crawl.baidu.com |
В таблице не указан Рамблер. Дело в том что они ещё в 2011 году отказались от использования своего поиска и перешли на использование технологии Яндекса. Также в таблице не указаны поисковые системы имеющие уж совсем низкую популярность.
Цена ошибки
Если вы случайно заблокируете индексирующего робота популярной поисковой системы, то последствия будут действительно ужасны. В лучшем случае вы будете понижены в позициях, а в худшем вообще исключены из результатов поиска.
Стоит крепко задуматься о том нужно ли вообще блокировать такие визиты. Разумнее всего для них будет просто ввести ограничение по частоте обращения к серверу.
Продвигал основные сайты таких компаний как ВТБ, Альфа-Банк, Газпром АГНКС, Технопарк и BMW Борисхоф.
Спикер конференций Optimization в Сколково, Merge в Иннополисе, SEO без воды и многих других.