Главная
Советы начинающим
Поисковый робот: что это такое и как он работает? Поисковые роботы Google, Яндекса, других ПС и сервисов

Поисковый робот: что это такое и как он работает? Поисковые роботы Google, Яндекса, других ПС и сервисов

12.07.2019

Php начинающим

Поисковая система-робот, что это такое? То есть, как работают все поисковики?
Все они работают следующим образом:

1. Сначала, скачиваются все ссылки с сайта.
2. Потом, ссылки сортируются, убираются ненужные.
3. Затем, по ссылкам скачиваются все странички, из которых забирается только текст.
4. Текст записывается в базу, странички сортируют по ликвидности.
5. Включают поисковую систему, выводят совпадения с вашим запросом.
6. Выводят адреса страничек с вводимыми вами словами.
7. Выводят сами странички с выделенными словами поиска.

Все это сделал у нас на сайте. Вы можете посмотреть работу программы поиска, то есть не ее саму, а только последнюю ее часть п.п. 5,6,7.

" Поисковый робот" - " Robot777" , сделан без баз данных, рассчитан на сайты до 30000 страничек.1000 страниц тянет файл-базу на 1,1 Мб.

Сделал так, что здесь, вообще, не надо знать никакого языка программирования, просто переписали на сервер все файлы и Поисковик - " Robot777" начал работать.
Работает, как в ручном режиме, так и автоматически: скачивает все. Причем, скачивать можно любые сайты, все ссылки на страничках меняются под его ссылки.
Возникла проблема с кодировкой, прежде чем установить наш " Robot777" , протестировал его на 50 разных сайтах. Иногда лезут " кракозябры" , то есть кодировка разная. Посмотрите koi кодировку:

БВЧЗДЕЁЦЪЙКЛМНОПРТУФХЖИГЮЫЭЯЩШьАСбвчздеёцъйклмнопртуфхжигюыэящшЬас
абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ

Внизу стоит нормальный, обычный текст, а вверху показано, как он изменяется в кодировке koi, то есть вся страничка html записана, именно, этим текстом. Броузер автоматически переводит разные кодировки, а программе надо об этом рассказать, так как броузером она не пользуется. В " Robot777" добавил семь кодировок.

Скачивайте последний архив, там скрипт оптимизирован.

Ищу фрилансера для написания бота поисковой системы
Заходи на Pv4x.Ru - буде весело!!!
Спасибо за отличный скрипт
Если что могу помочь с написанием робота, знания php mysql javascript c++ java
Спасибо за скрипт, но нужны доработки: чтение robots.txt, проверка сайта на вирусы, страница регистрации сайтов, ну и конечно автоматизировать скрипт =)
Думаю это скоро будет?

Ответ: на данный момент дополнительные вещи никто делать не будет, так как бесплатная работа прекращена, программеры требуют не менее 30 т.р. в месяц, а сайт может дать не более 3 т.р. Так что, пользуйтесь тем, что есть.

Возможно ли заказать доработку или создание нового скрипта поискового робота?

Мне необходимо чтоб он выбирал работал с базой MSQL
брал доменное имя из базы (занесено пользователем)
ну а дальше находил ссылки и описание к ним
все результаты хранил в базе

более подробно при заказе на скрипт

Ответ: Нет, пока это невозможно

Хотелось бы задать вопрос. При запуске robot.php я получил три таких предупреждения:

Warning: set_time_limit () has been disabled for security reasons in /var/Мой сайт/robot777b/robot777/robot.php on line 2

Warning: Cannot modify header information - headers already sent by (output started at /var/Мой сайт/robot777b/robot777/robot.php: 2) in /var/ Мой сайт /robot777b/robot777/robot.php on line 8

Не могли бы вы прокомментировать эти предупреждения.

Заранее благодарен

Ответ: Хорошего мало

первая ошибка с set_time_limit () - это Ва запретили пользоваться этой функцией. Обычно на сайте есть ограничения по ВРЕМЕНИ выполнения скриптов (обычно 30 секунд), если будет превышение, то просто останавливается скрипт. При поиске зачастую время выполнения сценария может достигать и 5 и 10 минут, когда мы ставим вначале скрипта set_time_limit (0); то этим говорим, что ограничений по времени быть не может. Но Вас ОТРУБИЛИ от этой возможности.

@set_time_limit (0); - вот так сделайте, то есть добавьте @

всё остальное само исчезнет

Если б он не только один домен индексировал цены бы не было ему

Ответ:

Еще поддерживается?
Если да, то вопрос.
Возможно расширение базы?
С Уважением, Сергей

Ответ: Сергей не понятно, что поддерживается. Если Вы говорите про сайты, то они поддерживаются, мы ничего не меняли в скрипте. Если же Вы говорите о том, чтобы переделать скрипт и под поиск на сайтах.рф, то это нам не интересно, а как Вы смогли увидеть, здесь выложено только то, что нам интересно. Потому оно и бесплатное.

Приветствую,

Страница: 1

Вы когда - нибудь задумывались, что все действия в интернете происходят с участием поисковых машин-роботов?

Так странно, но когда я слышу словосочетание поисковый робот, то перед глазами появляется образ такого симпатичного робота, как на картинке. А вот с роботами- пауками дело обстоит иначе.

Они немного страшные, наверное потому, что я их побаиваюсь (это я про настоящих пауков).

Что представляют из себя поисковые роботы?

Поисковый робот, или «веб-паук», или краулер - это всего навсего программа, являющаяся составной частью поисковой системы.

Проще говоря, действия паука напоминают работу обычного браузера. Он в режиме реального времени анализирует содержимое страницы, после чего сохраняет его в специальном виде на сервере поисковой машины, в базу данных.

Поисковый робот не всегда имеет полномочие проникновения внутрь сайта и, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной.

Кроме обычных поисковых роботов-пауков, есть ещё роботы - «дятлы», функции которых заключаются в «простукивании» сайта.

Это нужно для того, чтобы проиндексировать сайт, и определить, что он доступен.

Когда следует ждать в гости поисковых роботов?

Ну, тут не угадаешь. И никто этого не знает, так как порядок обхода страниц, а также частота визитов, и даже критерии выделения важной для них информации, определяются какими-то сложными поисковыми алгоритмами.

Но, единственное, что бывает верно - это то, что в большинстве случаев переход от одной страницы к другой будет происходить по ссылкам, содержащимся на первой и последующих страницах. Всё просто.

Но есть, конечно, способ, когда о своём новом сайте Вы можете сами сообщить поисковым роботам.

Почти все поисковые системы дают возможность пользователю самому добавить сайт в очередь для индексирования.

Обычно это помогает и ускоряет индексирование сайта. Потому что, если на Ваш молодой сайт не ведут никакие внешние ссылки, то откуда поисковым роботам понять, то Ваш сайт вообще существует? И это действие оказывается единственной возможностью указать на его существование.

При первом посещении робот-поисковик запрашивает файл robots.txt, затем ищет главную страницу сайта, а уже после него - все стоящие в очереди на сканирование страницы. На этом первый визит робота-поисковика и заканчивается.

На следующий день робот запрашивает следующие страницы. Это происходит по ссылкам, которые найдены на уже раннее считанной странице.

Далее, следующий процесс продолжается в том же порядке: робот запрашивает страницу, ссылки на которые уже найдены, делает не долгую пауза на обработку считанных документов и идёт на следующий сеанс с запросом найденных ссылок.

Каждый сервер сканирования одновременно запускает множество процессов, которые осуществляют роботы-поисковики. Как мы понимаем, роботы должны работать максимально быстро, чтобы успеть считывать новые страницы и повторно перечитывать уже известные.

Поэтому было предусмотрено заранее, что роботы будут только считывать и сохранять документы. Сохранив информацию, они ставят её в очередь на обработку. Найденные при посещении сайта на разных страницах ссылки ставятся в очередь для выполнения заданий для роботов. Так бесконечно продолжается и идет непрерывное сканирование всей сети.

Существуют различные виды поисковых роботов:

Разумеется, что у каждой поисковой системы есть свой набор: отряд роботов-поисковиков для различных целей.

Все они различаются по своему функциональному назначению. У каждого робота своя задача и цель. Тем рабочим системам, которые специализируются только на поиске текстовой информации будет вполне достаточно одного робота на все случаи жизни.

Для более сложных поисковиков, которые заняты не только текстом, роботы разделяются на две категории: для текстов и рисунков.

Есть ещё и отдельные роботы, которые занятые специфическими видами контента - мобильным видом, новостной информацией, видео-информацией и так далее.

У Поисковой системы Googlе роботы в общем имеют название: Googlebot. Как ни странно, они мой сайт полюбили больше, чем роботы с Поисковой системы Яндекс.

Почему так произошло, пока не понятно, но поисковый трафик идёт ко мне именно с Googlа. Что же, раз так, рада видеть их всегда, стараюсь сделать их пребывание у меня максимально комфортным.

Роботы-поисковики Системы Поиска Яндекса : (ау!!! Я вас жду!!!) Не могу сказать,что они не заходят, да, заходят тоже, но индексируют по какому-то другому алгоритму, нежели гуглеботы. Пока мне этого не понять.

Яндекс имеет самую большую коллекцию роботов. Чтобы ознакомится со всем списком, можно зайти в раздел помощи для вебмастеров и ознакомится, если интересно будет узнать поподробнее.

Роботы Поисковой системы Рамблер в настоящее время уже не работает, поскольку Рамблер сейчас использует поиск Яндекса.

Роботы Mail.Ru . Об этих роботах пока известно немного.

Всякие другие роботы: например, робот Bing - поисковой системы от Microsoft.

В заключение сделаем вывод:

Роботы поисковики являются одним из основных элементов любой поисковой системы.

Их роль очень важна в выполнении различных функций, связанных с индексацией сайтов в Интернете. Из всей общей информации, которую добыли роботы поисковики, формируется индексная база поисковой системы. Всё это непосредственным образом влияет на качество поиск

Если вдруг Вам захочется представить, как видит робот ваш сайт, то можете посмотреть это на сайте:

http://pr-cy.ru/simulator

Там всё просто: скопируете адрес сайта или страницы, вставите в строку поиска и любуйтесь!

Конечно, как же не вспомнить про вредных роботов?

В заключение сделаем вывод:

Роботы поисковики являются одним из основных элементов любой поисковой системы. Их роль очень важна в выполнении различных функций, связанных с индексацией сайтов в Интернете. Из всей общей информации,которую добыли роботы поисковики, формируется индексная база поисковой системы. Всё это непосредственным образом влияет на качество поиска.

Конечно, как же не вспомнить про вредных роботов?

Их основные вредоносные действия:

Вот и всё. Если при прочтении Вы обнаружите какую либо неточность, то напишите об этом в комментариях. Принимаю любую конструктивную критику.

Всегда с Вами Лара Мазурова .

Поисковый робот – это программа, автоматически путешествующая по веб, запрашивая документы и рекурсивно получая все документы, на которые они ссылаются.

Заметьте, что слово «рекурсивно » здесь не относится к конкретной реализации алгоритмов. Робот может, например, случайным образом выбирать документ который будет обработан следующим, или посещать их через значительные промежутки времени, тем неменее он считается роботом.

Обычные веб-браузеры к роботам не относятся, поскольку управляются человеком и не получают документы, на которые стоят ссылки, автоматически (за исключением картинок, скриптов и т.п.).

Поисковых роботов иногда называют пауками, Web Wanderers или Web Crawlers. Такие названия вносят некоторую путаницу, так как создаётся впечатление, что программы перемещаются по интернету самостоятельно, на манер вирусов. Это не так, робот «посещает» сайты, попросту запрашивая с них документы.

Что такое агент?

Слово «агент » имеет несколько значений. Например:

Автономные агенты

это программы, перемещающиеся от сайта к сайту и самостоятельно решающие, что делать дальше. Обычно они перемещаются между специализированными серверами, и практически не распространены в интернете.

Интелектуальные агенты

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Пользовательские агенты

это техническое название программ, помогающих пользователям в межсетевых взаимодействиях. Это могут быть браузеры, такие как Internet Explorer, Firefox или Opera или почтовые программы, такие как Outlook Express, Thunderbird или Qualcomm Eudora.

Что такое поисковая система?

Какие другие виды роботов существуют?

Существуют роботы для различных целей:

Индексация
Проверка HTML
Проверка ссылок
Проверка обновлений
Зеркалирование

Пауки
то же, что и роботы, но звучит гораздо круче, поэтому больше нравится журналистам

Черви
то же, что и роботы, но в отличие от обычных роботов, являются самовоспроизводящимися

Муравьи
распределённые (пример: комариная стая) , взаимодействующие между собой роботы

Не вредят ли поисковые роботы интернету?

Есть несколько причин, по которым люди считают, что роботы вредят интернету:

Некоторые реализации роботов могут (и такие случаи были) перегрузить сети и сервера. Это может произойти, когда робота пишет неопытный программист. В настоящее время в сети достаточно информации о создании роботов, чтобы избегать таких ошибок.
Роботами управляют люди, которые могут ошибиться в настройках, или попросту не подумать о последствиях своих действий. Это значит, что людям стоит быть осторожнее, а авторы роботов должны создавать программы таким образом, чтобы избежать такого рода ошибок.
Индексирующие роботы обычно складывают данные в централизированную базу данных, что не очень масштабируется на миллионы документов на миллионах сайтов

В то же время бОльшая часть роботов хорошо спроектирована, профессионально управляется, не создает никаких проблем и предоставляет прекрасный сервис, особенно учитывая отсутствие альтернативных решений.

Поэтому роботы по своей природе не плохие и не хорошие, и посему требуют внимательного к себе отношения.

Существуют ли книги о поисковых роботах?

Да. Для справки: если вы купите книгу по нижепреведенной ссылке, интернет-магазин заплатит автору robotstxt.org немного денег, которые пойдут на поддержание сайта. Книги преведены в алфавитном порядке.

Индексирующие роботы

Каким образом роботы выбирают, какую страницу индексировать?

Это зависит от робота – каждый использует свои критерии для выбора. В общем случае, они начинают с документов, с которых идет много ссылок – например, каталогов, новостных сайтов и наиболее популярных сайтов в сети.

Большинство поисковых систем позволяют добавлять URL вручную. После добавления они добавляются в очередь и через некоторое время индексируются.

Иногда используются иные источники URL, например рассылки USENET, опубликованные архивы e-mail рассылок и т.д.
Сейчас архивы USENET доступны на http://groups.google.com .

Как робот решает, что ему индексировать?

Если индексирующий робот знает о существовании документа, он может решить распарсить его (разобрать, как разбирают предложения) и добавить в базу. Сам процесс зависит от конкретного робота: некоторые роботы читают только Title документов, некоторые берут первые несколько параграфов, некоторые – берут весь документ, индексируют все слова с различным весом, в зависимости от html-разметки. Некоторые разбирают мета-теги или другие специальные скрытые теги.

Надеемся, что с развитием интернета, появится больше возможностей эффективно связать мета-данные документа с самим документом. Работа в этом направлении ведется.

Как мне добавить мой сайт для индексирования?

Это зависит от поисковой системы. Многие системы размещают ссылку на добавление сайта на странице поиска или в одном из разделов сайта. Например:

У Яндекса есть страница Добавить URL
У Google есть раздел Information for Webmasters
У Рамблера есть Форма регистрации сайта

Для администраторов

Как мне узнать, что на мой сайт заходил робот?

Вы можете проверить логи на предмет того, что за очень короткое время было запрошено множество документов.

Если ваш сервер заности в логе user-agent-ы, можете проверить в логах необычные user-agent-ы.

И наконец, если с сайта запрашивался файл «/robots.txt», вероятно, это был робот.

Ко мне на сайт заходил робот! Что мне делать?

Хмм, в принципе ничего:-). Суть в том, что они полностью автоматические. Вам не требуется ничего делать.

Если вам кажется, что вы нашли нового робота (т.е. он не указан в списке действующих роботов и он заходит с некоторой периодичностью, напишите мне, чтобы я мог внести его в список. Но пожалуйста, не пишите мне о каждом замеченном вами роботе!

Робот чересчур быстро забирает весь мой сайт!

Такие роботы называют «скорострельными», и пользователи, просматривающие лог-файлы, обычно их сразу замечают.

Прежде всего проверьте, действительно ли это проблема, измерив нагрузку на сервер и просмотрев журнал ошибок на предмет отказов в соединении. Если ваш сервер достаточно мощный, такие нагрузки не будут для него сколь-либо заметной проблемой.

Однако, если вы используете в качестве веб-сервера свой персональный компьютер или у вас медленное серверное ПО, или много долго формируемых документов (например, CGI-скрипты или просто очень большие документы), то такие проблемы проявляются в отказах в соединении, высоких нагрузках, замедлении работы или в самом худшем случае в отказах системы.

В таких случаях надо сделать несколько вещей. Глваное, начните записывать информацию – когда вы это заметили, что показывают логи, что вы сделали – это поможет позже разобраться в проблеме. Далее выясните, откуда пришел робот, какие у него IP и доменное имя, и посмотрите, указаны ли они в списке действующих роботов . Если вы таким образом определили что это за робот, вы можете написать e-mail ответственному за него человеку и спросить его, что происходит. Если это не поможет, поищите у них на сайте телефоны или напишите на адрес postmaster @ домен.

Если робот не указан в списке, пришлите мне собраную вами информацию, включая предпринятые вами действия. Даже я не смогу помочь, я напишу об этом роботе и тем самым предупрежу других пользователей.

Как мне заставить роботов держаться подальше от моего сайта?

Об этом в следующем разделе.

Стандарт исключения роботов

Почему у меня в логах появляются запросы файла robots.txt?

Это запросы от роботов, которые пробоуют получить инструкции для обработки сайта в соответствии со .

Если вы не хотите давать роботам никаких инструкций, и в то-же время хотите убрать эти сообщения из логов, попросту создайте в корне сайта пустой файл robots.txt.

Не стоит писать туда html или текст, типа «Кто там?» – вероятнее всего его никто никогда не прочтет:-).

Как запретить роботам индексировать мой сайт?

Самый простой способ – поместить в /robots.txt следующие строчки:

User-agent: *
Disallow: /

Более точечные ограничения задаются также просто.

Где мне узнать как работает файл /robots.txt?

Где я могу достать робота для себя?

Где я могу достать исходный код робота?

Смотрите предыдущий абзац – для некоторых общедоступных роботов может предоставляться исходный код.

Либо посмотрите libwww-perl5 – с ним идет небольшой пример.

Я пишу робота, на что мне стоит обратить особое внимание?

О, на многое. Для начала, прочитайте все материалы этого сайта, потом – отчеты с прошедших WWW-конференций, и спецификации HTML и HTTP..

Некоторые роботы могут маскироваться под роботов Яндекса путем указания соответствующего User agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS запросах (reverse DNS lookup).

Для этого необходимо выполнить следующее:

Для интересующего User-agent определите IP-адрес по логам вашего сервера. Все роботы Яндекса представляются с помощью заданных User agent .

По полученному IP-адресу определите доменное имя хоста, используя обратный DNS запрос.

После определения имени хоста, Вы можете проверить, принадлежит ли он Яндексу. Имена всех роботов Яндекса заканчиваются на "yandex.ru", "yandex.net" или "yandex.com". Если имя хоста имеет другое окончание, это означает, что робот не принадлежит Яндексу.

Напоследок удостоверьтесь в корректности полученного имени. Для этого нужно использовать прямой DNS запрос (forward DNS lookup), чтобы получить IP-адрес, соответствующий имени хоста. Он должен совпадать с IP-адресом, использованным при обратном DNS запросе. Если IP-адреса не совпадают, это означает, что полученное имя хоста поддельное.

Роботы Яндекса в логах сервера

Вопросы и ответы

Как оградиться от мошеннических роботов, представляющихся роботами Яндекса

Если вы хотите оградиться от мошеннических роботов, представляющихся роботами Яндекса, Вы можете использовать фильтрацию, основанную на обратных DNS запросах . Такая схема более предпочтительна по сравнению с управлением доступом на основе IP-адресов, так как она устойчива к изменениям внутренних сетей Яндекса.

Объем трафика между моим веб-сервером и вашим роботом слишком большой. Существует ли поддержка скачивания страниц в сжатом виде?

Да, существует. Поисковый робот Яндекса при каждом запросе страницы говорит: «Accept-Encoding: gzip,deflate» . Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду - передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate , робот придерживается стандарта rfc2616 ,

Роботы-пауки у поисковых машин - это интернет-боты, в задачу которых входит систематический просмотр страниц в World Wide Web для обеспечения веб-индексации. Традиционно сканирование WWW-пространства осуществляется для того, чтобы обновить информацию о размещенном в сети контенте с целью предоставления пользователям актуальных данных о содержимом того или иного ресурса. О типах поисковых роботов и их особенностях и будет идти речь в данной статье.

Поисковые пауки могут именоваться еще и по-другому: роботы, веб-пауки, краулеры. Однако независимо от названия, все они заняты постоянным и непрерывным изучением содержимого виртуального пространства. Робот сохраняет список URL-адресов, документы по которым загружаются на регулярной основе. Если в процессе индексации паук находит новую ссылку, она добавляется в этот список.

Таким образом, действия краулера можно сравнить с обычным человеком за браузером. С тем лишь отличием, что мы открываем только интересные нам ссылки, а робот - все, о которых имеет информацию. Кроме того, робот, ознакомившись с содержимым проиндексированной страницы, передает данные о ней в специальном виде на сервера поисковой машины для хранения до момента запроса со стороны пользователя.

При этом каждый робот выполняет свою определенную задачу: какие-то индексируют текстовое содержимое, какие-то - графику, а третьи сохраняют контент в архиве и т.д.

Главная задача поисковых систем - создание алгоритма, который позволит получать информацию о быстро и наиболее полно, ведь даже у гигантов поиска нет возможностей обеспечить всеобъемлющий процесс сканирования. Поэтому каждая компания предлагает роботам уникальные математические формулы, повинуясь которым бот и выбирает страницу для посещения на следующем шаге. Это, вкупе с алгоритмами ранжирования, является одним из важнейших критериев по которым пользователи выбирают поисковую систему: где информация о сайтах более полная, свежая и полезная.

Робот-поисковик может не узнать о вашем сайте, если на него не ведут ссылки (что возможно редко - сегодня уже после регистрации доменного имени упоминания о нем обнаруживаются в сети). Если же ссылок нет, необходимо рассказать о нем поисковой системе. Для этого, как правило, используются «личные кабинеты» веб-мастеров.

Какая главная задача поисковых роботов

Как бы нам ни хотелось, но главная задача поискового робота состоит совсем не в том, чтобы рассказать миру о существовании нашего сайта. Сформулировать ее сложно, но все же, исходя из того, что поисковые системы работают лишь благодаря своим клиентам, то есть пользователям, робот должен обеспечить оперативный поиск и индексацию размещенных в сети данных . Только это позволяет ПС удовлетворить потребность аудитории в актуальной и релевантной запросам выдаче.

Конечно, роботы не могут проиндексировать 100% веб-сайтов. Согласно исследованиям, количество загруженных лидерами поиска страниц не превышает 70% от общего числа URL, размещенных в интернете. Однако то, насколько полно ваш ресурс изучен ботом, повлияет и на количество пользователей, перешедших по запросам из поиска. Поэтому и мучаются оптимизаторы в попытках «прикормить» робота, чтобы как можно быстрее знакомить его с изменениями.

В Рунете Яндекс лишь в 2016 году подвинулся на вторую строчку по охвату месячной аудитории, уступив Google. Поэтому не удивительно, что у него наибольшее количество пауков, изучающих пространство, среди отечественных ПС. Перечислять их полный список бессмысленно: его можно увидеть в разделе «Помощь вебмастеру» > Управление поисковым роботом > Как проверить, что робот принадлежит Яндексу.

Все краулеры поисковика обладают строго регламентированным user-agent. Среди тех, с которыми обязательно придется встретиться сайтостроителю:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) - основной индексирующий бот;
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots) - индексирующий паук;
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots) - бот Яндекс.Картинок;
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots) - индексирует мультимедийные материалы;
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots) - индексирует иконки сайтов.

Чтобы привлечь на свой сайт пауков Яндекса, рекомендуется выполнить несколько простых действий:

правильно настроить robots.txt;
создать RSS-фид;
разместить sitemap с полным списком индексируемых страниц;
создать страницу (или страницы), которые будут содержать ссылки на все документы ресурса;
настроить HTTP-статусы;
обеспечить социальную активность после публикации материалов (причем не только комментарии, а расшаривание документа);
интенсивное размещение новых уникальных текстов.

В пользу последнего аргумента говорит способность ботов запоминать скорость обновления контента и приходить на сайт с обнаруженной периодичностью добавления новых материалов.

Если же вы хотели бы запретить доступ краулерам Яндекса к страницам (например, к техническим разделам), требуется настроить файл robots.txt. Пауки ПС способны понимать стандарт исключений для ботов, поэтому сложностей при создании файла обычно не появляется.

User-agent: Yandex

Disallow: /

запретит ПС индексировать весь сайт.

Кроме того, роботы Яндекса умеют учитывать рекомендации, указанные в мета-тегах. Пример: запретит демонстрацию в выдаче ссылки на копию документа из архива. А добавление в код страницы тега укажет на то, что данный документ не нужно индексировать.

Полный список допустимых значений можно найти в разделе «Использование HTML-элементов» Помощи вебмастеру.

Роботы поисковики Google

Основной механизм индексации контента WWW у Google носит название Googlebot. Его механизм настроен так, чтобы ежедневно изучать миллиарды страниц с целью поиска новых или измененных документов. При этом бот сам определяет, какие страницы сканировать, а какие - игнорировать.

Для этого краулера важное значение имеет наличие на сайте файла Sitemap, предоставляемого владельцем ресурса. Сеть компьютеров, обеспечивающая его функционирование настолько мощна, что бот может делать запросы к страницам вашего сайта раз в пару секунд. А настроен бот так, чтобы за один заход проанализировать большее количество страниц, чтобы не вызывать нагрузку на сервер. Если работа сайта замедляется от частых запросов паука, скорость сканирования можно изменить, настроив в Search Console. При этом повысить скорость сканирования, к сожалению, нельзя.

Бота Google можно попросить повторно просканировать сайт. Для этого необходимо открыть Search Console и найти функцию Добавить в индекс, которая доступна пользователям инструмента Просмотреть как Googlebot. После сканирования появится кнопка Добавить в индекс. При этом Google не гарантирует индексацию всех изменений, поскольку процесс связан с работой «сложных алгоритмов».

Полезные инструменты

Перечислить все инструменты, которые помогают оптимизаторам работать с ботами, достаточно сложно, поскольку их масса. Кроме упомянутого выше «Посмотреть как Googlebot», стоит отметить анализаторы файлов robots.txt Google и Яндекса, анализаторы файлов Sitemap, сервис «Проверка ответа сервера» от российской ПС. Благодаря их возможностям, вы будете представлять, как выглядит ваш сайт в глазах паука, что поможет избежать ошибок и обеспечить наиболее быстрое сканирование сайта.