Названия поисковых ботов (пакуков) основных поисковых систем рунета.

От заголовка – к делу. В статье официальная информация о наименованиях поисковых (индексирующих) ботов с приведением ссылки на первоисточники.

Яндекс

У Яндекса есть несколько роботов, которые представляются по-разному. (источник)

  • Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот
  • Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок
  • Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов
  • Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons)
  • Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
  • Yandex/1.01.001 (compatible; Win16; m),Yandex/1.03.000 (compatible; Win16; M) — роботы, индексирующие мультимедийные данные
  • YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса
  • YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; B; robot) — робот поиска по блогам, индексирующий комментарии постов

IP-адресов, с которых «ходит» робот Яндекса, много, и они могут меняться. Список адресов мы не разглашаем.

Кроме роботов, у Яндекса есть несколько агентов-«простукивалок», которые определяют, доступен ли в данный момент сайт или документ, на который стоит ссылка в соответствующем сервисе.

  • Yandex/2.01.000 (compatible; Win16; Dyatel; C) — «простукивалка» Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — «простукивалка» Яндекс.Закладок. Ссылки на недоступные сайты помечаются серым цветом.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; D) — «простукивалка» Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается.
  • Yandex/2.01.000 (compatible; Win16; Dyatel; N) — «простукивалка» Яндекс.Новостей. Она формирует статистические отчеты для контент-менеджера и информирует его о возможных проблемах у партнеров-поставщиков новостей.

Rambler

У рамблера поисковый робот именуется StackRambler. (источник)

Google, Bing, Yahoo

Официальной информации о том как именуются User-Agent поисковых ботов Google и Bing (MSN) я не нашел. Пришлось покопать логи сервера и найти знакомые аббревиатуры.

Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Agent: msnbot/2.0b (+http://search.msn.com/msnbot.htm)

Agent: Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

По аналогии с роботами Яндекса названия роботов можно свести к Googlebot, msnbot, Yahoo. Дополнительная информацию по роботу Google, она больше касается вопросам безопасности.

Кроме прочего были найдены странные имена агентов, происхождение которых я выяснять не стал.

Agent: Mediapartners-Google

Agent: Microsoft Data Access Internet Publishing Provider Protocol Discovery

Agent: Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)

И еще я заметил что в логах засветилась спамерская программа xrymep.exe. Профессиональные спамеры изменяют User-Agent, значит еще один спамер родился. :) Лучше будет вообще запретить доступ к сайту пользователям с таким User-Agent  с помощью директив .htaccess

Информация будет пополнятся, задаем вопросы в комментариях – получаем ответы.

В качестве источников по теме читаем ресурс robotstxt.org.ru

В качестве иллюстрации к статье использован кадр фильма «Я робот».