Главная
Аппаратные решения
Какую работу выполняют роботы поисковых машин. Роботы поисковых систем. Как работает поисковая машина

Какую работу выполняют роботы поисковых машин. Роботы поисковых систем. Как работает поисковая машина

29.06.2020

Являющаяся составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По принципу действия паук напоминает обычный браузер. Он анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы » - роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он доступен.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения значимой информации определяются алгоритмами информационного поиска .

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования . Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается практически единственной возможностью указать на его существование. Ещё одним способом быстрой индексации сайта является добавление на сайт систем веб-аналитики, принадлежащих поисковым сервисам. Например, таких как Google Analytics , Яндекс.Метрика и Рейтинг@Mail.ru от Google, Яндекса и Mail.Ru соответственно.

Ограничить индексацию сайта можно с помощью файла robots.txt . Полная защита от индексации может быть обеспечена другими механизмами, например установкой пароля на странице либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому.

Энциклопедичный YouTube

1 / 3
Просмотров:

Определения и терминология
Имена роботов
Немного истории
Что делают роботы поисковых систем
Поведение роботов на сайте
Управление роботами
Выводы

Что такое роботы поисковых систем? Какую функцию они выпол няют? Каковы особенности работы поисковых роботов? Здесь мы постараемся дать ответ на эти и некоторые другие вопросы, свя занные с работой роботов.

Определения и терминология

В английском языке существует несколько вариантов названий поисковых роботов: robots, web bots, crawlers, spiders; в русском языке фактически прижился один термин - роботы, или сокращенно - боты.

На сайте www. robotstxt. org дается следующее определение роботам:

“Веб-робот - это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашивая и извлекая документы”.

Ключевое слово в этом определении - рекурсивно, т.е. имеется в виду, что после получения документа робот будет запрашивать документы по ссылкам из него и т.д.

Имена роботов

Большинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры).

Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем.

Так, робота Яндекса собирательно называют Yandex, робота Рамблера - StackRambler, робота Yahoo! - Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent.

Кроме имени робота, в поле User-agent может находиться больше информации: версия робота, предназначение и адрес страницы с дополнительной информацией.

Немного истории

Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу.

В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 “Как сделать сайт доступным для поисковых систем”.

В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter - робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы.

Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени “compatible; Win16;” был добавлен для совместимости с некоторыми старыми веб-серверами.

Что делают роботы поисковых систем

Какие же функции могут выполнять роботы?

В поисковой машине функционирует несколько разных роботов, и у каждого свое предназначение. Перечислим некоторые из задач, выполняемых роботами:

обработка запросов и извлечение документов;
проверка ссылок;
мониторинг обновлений;проверка доступности сайта или сервера;
анализ контента страниц для последующего размещения контекстнойрекламы;
сбор контента в альтернативных форматах (графика, данные в форматахRSSnAtom).

В качестве примера приведем список роботов Яндекса. Яндекс использует несколько видов роботов с разными функциями. Идентифицировать их можно по строке User-agent.

Yandex/1.01.001 (compatible; Win 16; I) -основной индексирующий робот.
Yandex/1.01.001 (compatible; Win 16; P) -индексатор картинок.
Yandex/1.01.001 (compatible; Win 16; H) -робот, определяющийзеркала сайтов.
Yandex/1.03.003 (compatible; Win 16; D) -робот, обращающийсяк странице при добавлении ее через форму “Добавить URL”.
Yandex/1.03.000 (compatible; Win 16; М) - робот, обращающийсяпри открытии страницы по ссылке “Найденные слова”.
YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; В;robot) - робот, индексирующий xml-файлы для поиска по блогам.
YandexSomething/1.0 - робот, индексирующий новостные потоки партнеров Яндекс.Новостей и файлы robots. txt для робота поиска по блогам.

Кроме того, в Яндексе работает несколько проверяющих роботов - “просту- кивалок”, которые только проверяют доступность документов, но не индексируют их.

Yandex/2.01.000 (compatible; Win 16; Dyatel; С) - “просту-кивалка” Яндекс.Каталога. Если сайт недоступен в течение несколькихдней, он снимается с публикации. Как только сайт начинает отвечать, онавтоматически появляется в каталоге.
Yandex/2.01.000 (compatible; Win 16; Dyatel; Z) - “просту-кивалка” Яндекс.Закладок. Ссылки на недоступные сайты выделяютсясерым цветом.
Yandex/2.01.000 (compatible; Win 16; Dyatel; D) -”простуки-валка” Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией.

И все-таки наиболее распространенные роботы - это те, которые запрашивают, получают и архивируют документы для последующей обработки другими механизмами поисковой системы. Здесь уместно будет отделить робота от индексатора.

Поисковый робот обходит сайты и получает документы в соответствии со своим внутренним списком адресов. В некоторых случаях робот может выполнять базовый анализ документов для пополнения списка адресов. Дальнейшей обработкой документов и построением индекса поисковой системы занимается уже индексатор поисковой машины. Робот в этой схеме является всего лишь “курьером” по сбору данных.

Поведение роботов на сайте

Чем отличается поведение робота на сайте от поведения обычного пользователя?

Управляемость. Прежде всего “интеллигентный” робот должен запросить с сервера файл robots . txt с инструкциями по индексации.
Выборочное выкачивание. При запросе документа робот четко указываеттипы запрашиваемых данных, в отличие от обычного браузера, готового принимать все подряд. Основные роботы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилен оформления CSS, изображения, видео. Zip-архивы и т.п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторых других.
Непредсказуемость. Невозможно отследить или предсказать путь роботано сайту, поскольку он не оставляет информации в поле Referer - адресстраницы, откуда он пришел; робот просто запрашивает список документов, казалось бы, в случайном порядке, а на самом деле в соответствии сосвоим внутренним списком или очередью индексации.
Скорость. Небольшое время между запросами разных документов. Здесьречь идет о секундах или долях секунды между запросами двух разныхдокументов. Для некоторых роботов есть даже специальные инструкции,которые указываются в файле robots . txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт.

Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления.

Таким образом, можно сделать вывод, что поисковые роботы закачивают в свой индекс HTML-структуру страницы, но без элементов оформления и без картинок.

Управление роботами

Как же вебмастер может управлять поведением поисковых роботов на своем сайте?

Как уже было сказано выше, в 1994 году в результате открытых дебатов вебмастеров был разработан специальный протокол исключений для роботов. До настоящего времени этот протокол так и не стал стандартом, который обязаны соблюдать все без исключения роботы, оставшись лишь в статусе строгих рекомендаций. Не существует инстанции, куда можно пожаловаться на робота, не соблюдающего правила исключений, можно лишь запретить доступ к сайту уже с помощью настроек веб-сервера или сетевых интерфейсов для IP-адресов, с которых “неинтеллигентный” робот отсылал свои запросы.

Однако роботы крупных поисковых систем соблюдают правила исключений, более того, вносят в них свои расширения.

Об инструкциях специального файла robots.txt. и о специальном мета-теге robots подробно рассказывалось в главе 6 “Как сделать сайт доступным для поисковых систем”.

С помощью дополнительных инструкций в robots.txt, которых нет в стандарте, некоторые поисковые системы позволяют более гибко управлять поведением своих роботов. Так, с помощью инструкции Crawl-delaу вебмастер может устанавливать временной промежуток между последовательными запросами двух документов для роботов Yahoo! и MSN, а с помощью инструкции Но-; t указать адрес основного зеркала сайта для Яндекса. Однако работать с нестандартными инструкциями в robots . txi следует очень осторожно, поскольку робот другой поисковой системы может проигнорировать не только непонятную ему инструкцию, но и весь набор правил, связанных с ней.

Управлять посещениями поисковых роботов можно и косвенно, например, робот поисковой системы Google чаще будет повторно забирать те документы, на которые много ссылаются с других сайтов.

Друзья, я снова приветствую Вас! Сейчас мы разберем, что такое поисковые роботы и подробно поговорим про поисковый робот google и как с ними дружить.

Сначала надо понимать, что вообще такое поисковые роботы, еще их называют пауки. Какую работу выполняют пауки поисковых систем?

Это программы, которые проверяют сайты. Они просматривают все записи и страницы на вашем блоге, собирают информацию, которую потом передают в базу той поисковой системы, на которую они трудятся.

Не надо знать весь список поисковых роботов, самое главное знать, что у гугла сейчас появились два основных паука, которые называются «панда» и «пингвин». Они борются с некачественным контентом и мусорными ссылками и надо знать как отражать их атаки.

Поисковый робот google «панда» создан для того, чтобы продвигать в поиске только качественный материал. Все сайты с низкопробным контентом понижаются в поисковой выдаче.

Первый раз этот паук появился в 2011 году. До его появления можно было продвинуть любой сайт публикуя в статьях большой объем текста и используя огромный объем ключевых слов. В совокупности эти два приема выводили на верх выдачи поиска не качественный контент, а хорошие сайты понижались в выдаче.

«Панда» сразу навел порядок проверив все сайты и расставил всех по своим заслуженным местам. Хотя она и борется с низкопробным контентом, зато сейчас можно продвинуть даже небольшие сайты с качественными статьями. Хотя раньше такие сайты продвигать было бесполезно, они не могли конкурировать с гигантами у которых большое количество контента.

Сейчас мы с вами разберемся, как можно избежать санкций «панды». Надо сначала понять что ей не нравится. Я уже писал выше, что она борется с плохим контентом, но какой текст для нее плохой, давайте разберемся в этом, чтобы не публиковать такой на своем сайте.

Поисковый робот google стремиться чтобы в этом поисковике выдавалась только качественные материалы для соискателей. Если у вас есть статьи в которых мало информации и они не привлекательные внешне, то срочно перепишите эти тексты, чтобы «панда» не добралась до вас.

Качественный контент может иметь как большой объем, так и маленький, но если паук видит длинную статью с большим количеством информации значит она больше принесет пользы читателю.

Затем надо отметить дублирование, а другими словами плагиат. Если вы думаете что будете переписывать чужие статьи себе на блог, то можете сразу поставить крест на своем сайте. Копирование строго наказывается наложением фильтра, а проверяется плагиат очень легко, я писал статью на тему как проверять тексты на уникальность .

Следующее что надо заметить, это перенасыщение текста ключевыми словами. Кто думает, что напишет статью из одних ключей и займет первое место в выдаче – очень сильно ошибается. У меня есть статья, как проверять страницы на релевантность, прочитайте обязательно.

И еще что может привлечь к вам «панду», так это старые статьи, которые устарели морально и не приносят трафик на сайт. Их нужно обязательно обновить.

Существует так же поисковый робот google «пингвин». Этот паук борется со спамом и мусорными ссылками на вашем сайте. Так же он вычисляет купленные ссылки с других ресурсов. Поэтому, чтобы не бояться этого поискового робота, надо не заниматься закупом ссылок, а публиковать качественный контент, чтобы люди сами на вас ссылались.

Сейчас давайте сформулируем, что надо сделать чтобы сайт глазами поискового робота смотрелся идеально:

Для того чтобы сделать качественный контент, сначала хорошо изучите тему, прежде чем писать статью. Затем надо понимать, что данной темой реально интересуются люди.

Используйте конкретные примеры и картинки, это сделает статью живой и интересной. Разбивайте текст на мелкие абзацы, чтобы читать было легко.Вот например, если вы открыли в газете страницу с анекдотами, то какие сначала прочитаете? Естественно каждый человек сначала читает короткие тексты, затем подлиньше и в самую последнюю очередь уже длинные портянки.

Любимая придирка «панды» — это не актуальность статьи в которой содержится устаревшая информация. Следите за обновлениями и изменяйте тексты.

Следите за плотностью ключевых слов, как определить эту плотность я написал выше, в сервисе о котором я рассказал вы получите точное необходимое количество ключей.

Не занимайтесь плагиатом, всем известно что нельзя воровать чужие вещи или текста – это одно и то же. За воровство будете отвечать попаданием под фильтр.

Тексты пишите минимум на две тысячи слов, тогда такая статья будет выглядеть глазами роботов поисковых систем информативной.

Не уходите от темы вашего блога. Если вы ведете блог по заработку в интернете, то не надо печатать статьи про пневматическое оружие. Это может снизить рейтинг вашего ресурса.

Красиво оформляйте статьи, делите на абзацы и добавляйте картинки, чтобы приятно было читать и не хотелось побыстрее уйти с сайта.

Закупая ссылки, делайте их на самые интересные и полезные статьи, которые реально будут читать люди.

Ну вот сейчас вы знаете какую работу выполняют роботы поисковых систем и сможете с ними дружить. А самое главное поисковый робот google и «панда» и «пингвин» вами подробно изучен.

Поисковым роботом называется специальная программа какой-либо поисковой системы, которая предназначена для занесения в базу (индексирования) найденных в Интернете сайтов и их страниц. Также используются названия: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса :

Yandex/1.01.001 I — основной бот, занимающийся индексацией,
Yandex/1.01.001 (P) — индексирует картинки,
Yandex/1.01.001 (H) — находит зеркала сайтов,
Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

Робот Googlebot — основной робот,
Googlebot News — сканирует и индексирует новости,
Google Mobile — индексирует сайты для мобильных устройств,
Googlebot Images — ищет и индексирует изображения,
Googlebot Video — индексирует видео,
Google AdsBot — проверяет качество целевой страницы,
Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.