От заголовка – к делу. В статье официальная информация о наименованиях поисковых (индексирующих) ботов с приведением ссылки на первоисточники.
Яндекс
У Яндекса есть несколько роботов, которые представляются по-разному. (источник)
- Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
- Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
- Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
- Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
- Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
- Yandex/1.01.001 (compatible; Win16; m),Yandex/1.03.000 (compatible; Win16; M) — роботы, индексирующие мультимедийные данные
- YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
- YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий комментарии постов
IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.
Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.
- Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
- Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
- Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
- Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей.
Rambler
У рамблера поисковый робот именуется StackRambler. (источник)
Google, Bing, Yahoo
Официальной информации о том как именуются User-Agent поисковых ботов Google и Bing (MSN) я не нашел. Пришлось покопать логи сервера и найти знакомые аббревиатуры.
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Agent: msnbot/2.0b (+http://search.msn.com/msnbot.htm)
Agent: Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
По аналогии с роботами Яндекса названия роботов можно свести к Googlebot, msnbot, Yahoo. Дополнительная информацию по роботу Google, она больше касается вопросам безопасности.
Кроме прочего были найдены странные имена агентов, происхождение которых я выяснять не стал.
Agent: Mediapartners-Google
Agent: Microsoft Data Access Internet Publishing Provider Protocol Discovery
Agent: Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)
И еще я заметил что в логах засветилась спамерская программа xrymep.exe. Профессиональные спамеры изменяют User-Agent, значит еще один спамер родился. Лучше будет вообще запретить доступ к сайту пользователям с таким User-Agent с помощью директив .htaccess
1 2 3 4 5 6 |
SetEnvIf User-Agent "Crazy Browser" bad SetEnvIf User-Agent "xpymep" bad SetEnvIf User-Agent xpymep.exe bad Order allow,deny Deny from env=bad Allow from all |
Информация будет пополнятся, задаем вопросы в комментариях – получаем ответы.
В качестве источников по теме читаем ресурс robotstxt.org.ru
В качестве иллюстрации к статье использован кадр фильма «Я робот».
Спасибо за статью!
Очень полезная информация.
Особенный респект за решение с баном Хрумера, а то чессслово достал уже)
Всегда готов поделиться опытом. Такой бан Хрумера – это минимум что можно сделать. Повторюсь, матерые спамеры меняют имя спам-программы и работают через прокси-сервер. На сегодняшний день блог я защищаю с помощью Akismet.
Да только иногда пролетают пустые заголовки от ботов. Не знаю даже с чем это связано. Пробовал не давать поисковику страницы, смотря в заголовки, но они почему то все равно в поиске(.
Сомневаюсь что у ботов Яндекса или Google будут пустые User-Agent. Такими приемами чаще всего пользуются спамеры. Для того что бы в поиске не участвовали какие то страницы, нужно запретить их к индексированию. Например, с помощью robots.txt. Покажите конкретный пример, подскажу как поступить.