Общие принципы работы поисковых систем. Поисковые системы Интернета: Яндекс, Google, Rambler, Yahoo. Состав, функции, принцип работы

29.06.2019

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Поисковая система включает в себя такие компоненты:

Spider (“паук”) – эта программа скачивает веб-страницы точно так же, как и пользовательский браузер. Но! Браузер показывает всю информацию, которая имеется на странице (графическую, текстовую и т.д.), тогда как паук не обладает никакими визуальными компонентами и работает сразу с html-текстом.

Indexer (индексатор) – индексатор занимается разбором страницы на составляющие, затем анализирует их. Он выделяет и анализирует разные компоненты страницы: текст, заголовки, стилевые и структурные особенности, html-тэги и прочее.

Search Engine Results Engine – это система выдачи результатов. В ее задачи входит решение того, насколько возможные страницы удовлетворяют запрос пользователя, а также, в каком порядке отсортировать результаты поиска. Этот процесс осуществляется согласно алгоритму ранжирования поисковой системы. Такая информация наиболее ценна для оптимизатора, именно с этим компонентом следует взаимодействовать при попытке повысить позиции сайта в выдаче результатов поиска.

Crawler – этот компонент выделяет все ссылки, имеющиеся на странице. В его задачу входит определение последующего пути. Вычисление этого пути основывается на ссылках или исходя из заданного заранее ряда адресов. Crawler следует по найденным ссылкам и так осуществляет поиск новых документов, которые еще неизвестны поисковой системе.

Database – это база данных, в ней хранятся все данные, которые скачивает и анализирует поисковая система. Базу данных могут называть и индексом поисковой системы.

Web server – на сервере обычно присутствует html-страница с полем ввода, где пользователи могут задать интересующий их поисковый термин. Веб-сервер тоже отвечает за результаты, выдаваемые пользователю, в виде html-страницы.

Индексация сайта означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы. Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой.

Если некоторая страница занесена в индекс поисковика , то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы. Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом.



Поисковая система может узнать о вновь созданном сайте двумя путями :

Ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;

Предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота.
Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.

Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться.
Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время.

8. Релевантность сайта поисковому запросу. внутренние факторы ранжирования.

Релевантность (лат.relevo- поднимать,облегчать) – степень соответствия найденной информации по отношению к запросу в поисковой системе.

Содержательная релевантность: поисковые системы для оценки релевантности найденных документов в базовом варианте используют TF-IDF-метод. Суть его в том, что релевантность документа будет выше, в том случае, если слово или словосочетание из запроса как можно чаще встречается в документе (параметр TF) и при этом, как можно реже это же слово или словосочетание встречается в базе данных поисковой систем (параметр IDF).



Формальная релевантность: соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.

На релевантность сайта влияют следующие факторы:

Наличие ключевых слов или фраз в теге title, мета-описание;

Наличие ключевых слов в заголовках и подзаголовках, теги h1...h6 ;

Наличие ключей в атрибуте alt.

Количество и качество входящих ссылок;

Плотность ключевых слов в основном тексте на странице;

Популярность и релевантность ссылающихся сайтов.

– это факторы, которые относятся к структуре сайтов и находятся под контролем веб-мастера, не зависят от таких внешних условий, как изменение алгоритма поисковых систем или введение ими новых правил индексации. Формируются с созданием сайта и оказывают непосредственное влияние на позиции страниц в поисковых выдачах и вес ключевых слов.

Текстовое оформление web-страниц (контент)

Структура сайта - настройки

Преднамеренный обман поисковиков

Внутренние факторы ранжирования сайтов Факторы, влияющие на положение сайта в выдаче поисковых запросов, можно разделить на внутренние (текст, оформление, мета-теги и проч.) и внешние (ссылочная популярность).

Внутренние факторы ранжирования целиком и полностью подконтрольны владельцу сайта. От того насколько умело ими воспользовался веб-мастер, во многом зависит поисковая релевантность сайта и, как следствие, приток посетителей с поисковых систем

Текстовое оформление: Текста на странице должно быть в меру. Оптимальным вариантом считается 500-1000 слов. Ключевые фразы должны встречаться в тексте несколько раз - примерно 3-4 раза. Плотность ключевых слов должна быть в пределах 3-4%. При меньшем проценте снижается вероятность попадания в Топ10, при большем - повышается вероятность попасть в "бан" поисковика. Ключевые слова и фразы по возможности должны располагаться как можно ближе к началу html-страницы. Обязательно ключевая фраза (или хотя бы слово) должна присутствовать в теле тега TITLE. В тексте ссылок старайтесь использовать ключевые слова и фразы. Желательно использовать ключевые слова в тегах изображений ALT. Не помешает прописать ключевые фразы и слова в мета-тегах DESCRIPTION, KEYWORDS.

Структура сайта: число страниц сайта - чем больше, тем лучше. Необходимо постоянно обновлять контент сайта, добавлять новые страницы. Использовать в навигационных меню ключевые слова. Если сайт относится к англоязычной аудитории, использовать ключевые слова в названии html-файла. При небольшом количестве страниц желательно их размещать в корневом каталоге. Одна страница - одна ключевая фраза. Не стоит оптимизировать одну страницу сразу под несколько ключевых фраз. Главная страница должна быть оптимизирована под основную ключевую фразу.

Ошибки оптимизации: не желательно использовать в дизайне сайта графический заголовок. Верхушка сайта - самое ценное место для того, чтобы размещать ключевые фразы и слова. Поисковые машины "не понимают" графику. По той же причине не желательно использовать графическое меню, скрипты в навигации по сайту. Поисковые машины не индексируют скрипты, не использовать редиректы. Использование скрытого текста позволяет наполнить страницу нужными ключевыми словами без нарушения логики и дизайна страницы. Такой текст невидим для посетителей, однако прекрасно читается поисковыми роботами. Использование таких «серых» методов оптимизации может привести к бану сайта - то есть принудительному исключению сайта из индекса поисковой системы. Однопиксельные ссылки - графические изображения‐ссылки размером 1*1 пиксель (то есть фактически невидимых посетителю) также воспринимается поисковыми системами как попытка обмана и может привести к бану сайта.

В одном из своих интервью Гари Флэйк (руководитель исследовательской лаборатории Yahoo!) сказал: «Если бы Web-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение». Пока же современные системы предоставляют визуальный интерфейс для анализа «препарированной» ими подборки документов.

  1. Навигация по сети.
  2. Альтернативным способом поиска является поиск объектов и их взаимосвязей, выделенных автоматически из текста документов в фазе ETL-процесса. Этот способ позволяет исследовать связи объектов из документов без указания контекстного критерия на фильтрацию документов. Например, можно произвести поиск взаимосвязей объекта «Чейни» с другими объектами (рис. 1). Это можно использовать для навигации к нужным объектам, для получения и анализа документов о связях этих объектов. Дальнейшее развитие методов анализа связей объектов связано с решением задач типизации связей между объектами. В свою очередь, их решение ограничено качеством синтаксических анализаторов русского языка и тезаурусов.

    Очень полезен метод навигации в подборке документов с использованием OLAP-технологии. Система «на лету» строит многомерное представление полученной подборки документов с измерениями из полей карточки: рубрики, авторы, дата публикации, источники. Аналитик может погружаться в элементы разных измерений (например, в регионы федерального округа), просматривать документы в ячейках с нужными значениями частот и др. Дополнительно могут использоваться общие методы анализа и прогноза данных. На рис. 3 показана схема получения списка публикаций из ячейки двумерного распределения публикаций по регионам и подрубрикам рубрики «Политика». Этот метод используется при анализе динамики публикаций и факторов, ее определяющих

  3. Автоматическое аннотирование.
Открытые источники информации делают доступными огромное количество публикаций и тем самым ставят проблему эффективной работы с большими объемами документов. Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа. Однако, наш опыт показывает, что аннотации - статичный результат, он используется при анализе «бумажных» документов, а при анализе коллекций электронных документов более наглядное и структурированное представление содержания одного или коллекции электронных документов дает интерактивная семантическая карта взаимосвязей тем документов. Современные системы аналитической обработки текстовой информации обладают средствами автоматического составления аннотаций. При этом существует два подхода к решению этой задачи.
  1. В первом подходе программа-аннотатор извлекает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть предложения, содержащие термы запроса; фрагменты предложений с окружением термов несколькими словами и др. В более развитых системах выделяются предложения, прямо содержащие ключевые темы документа (но не кореферентные ссылки на них).
  2. В) При втором подходе аннотация представляет собой синтезированный документ в виде краткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает получаемой при синтезе. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека.

Большинство программ-аннотаторов построены по принципу выделения фрагментов текста. Так, исследовательская система eXtragon ориентирована на аннотирование Web-документов. Для каждого предложения документа вычисляется вес на основе информации о ключевых словах, значимых словосочетаниях, их месте в тексте и присутствии в запросе, после чего предложения ранжируются, и из нескольких фраз с максимальным весом составляется реферат. В системе «Аналитический курьер» аннотация документа автоматически формируется из его фрагментов, а ее объем зависит от главных тем документа и настроек. В аннотацию по объектам или проблемам могут включаться анафорические предложения документа. Кроме этого, имеется компонент создания общей аннотации на основе взаимосвязей тем в семантической сети этой подборки документов.

Продолжаем уроки по продвижению сайтов. Сегодня речь пойдет о том, как работают поисковые системы.

Каждый день в Интернете появляются тысячи сайтов, и большинство из них стремится занять почетный ТОП в поисковой системе по разнообразным ключевым запросам. Это веб-мастеру возможно осуществить только в том случае, если присутствует хотя бы начальное (а лучше, углубленное собственным опытом) понимание того, что есть поисковая система и каковы принципы ее работы.

Поисковая система (ПС) — это, говоря современным языком, попытка упорядочить и классифицировать информацию на веб-сайтах. При этом ПС имеют свои принципы оценки, что же такое достойный сайт, а что мусор.

Хороший и достойный сайт — это сайт, который соответствует требованиям системы, разработанных с учетом поведения реальных пользователей. Такой веб-ресурс наполнен уникальным контентом, знаком с юзабилити и регулярно обновляется. При этом одного только красивого текстового наполнения недостаточно, чтобы сайт оказывался в ТОПе поисковой выдачи. Необходимо «подготовить» его к индексированию. Для пониманию, как это сделать, лучше изначально разобраться, каковы же способы и принципы работы пресловутых Google или Yandex.

Из чего состоят поисковые системы

Для начала нужно сказать о том, из каких компонентов состоит поисковая система. Без понимания этого будет бесполезно объяснять процесс и принципы работы.

Итак, SEO мастер всегда должен помнить о таких участниках процесса, как:

  • Spider (паук или спайдер) — программа, подобная браузеру, созданная для скачивания страниц для проверки и запоминания.
  • Crawler (краулер, паук-путешественник) — очень важный компонент, программа, которая инспектирует ссылки на странице ресурса, переходя по ним.
  • Indexer (индексатор) — программа для изучения страниц, любезно скачанных для нее спайдером.
  • Database (база данных) — огромный каталог обработанных системой страниц сайтов.
  • Search engine results (система выдачи результатов) — именно эта огромная система извлекает необходимые результаты из каталога. Именно ради нее и старается сеошник, стараясь обхитрить ее таким образом, чтобы она показывала результаты определенного характера.
  • Web server (веб-сервер) — веб-сервер, «связной» между конечным пользователем и самой поисковой системой.

Принцип работы

Теперь, когда понятен список «главных действующих лиц», можно перейти к системе работы поисковой системы. Конечно, сценарий может варьироваться, но общие принципы будут сохраняться:

1. Spider получает указание скачать некую страницу сайта для дальнейшего исследования.

2. Страница скачана, и в дело вступает паук-путешественник, который начинает скрупулезно переходить по ссылкам на странице, постоянно кочуя по ним, пока не исследует все. Далее он «рапортует» об этом, и если нашел ссылки на посторонние ресурсы, процесс начинается заново.

3. Как только новый контент найден, Spider снова засылает туда Crawler на исследование ссылок. Этот процесс может длиться вечно, собственно, он и является бесконечным, ведь интернет никогда не остается статичным: появляются и исчезают веб-сайты, меняется контент, структура, изменяется код и так далее.

4. Следующий этап — вторая часть важных операций. Происходит встраивание проанализированных ресурсов в общий индекс поисковой системы. Как точно это происходит, не знает никто, за исключением самой системы. Думается, что множество сеошников готовы были бы временно продать душу какому-нибудь SEO-дьяволу, чтобы уметь предсказать результат формирования рейтинга. А так как пока таких возможностей нет, приходится детально изучать правила работы системы, копить ценнейший опыт и учиться делать сайты только «для людей».

Напоследок хотелось бы сказать о важности постоянного изменения контента на страницах подведомственного ресурса. Это могут быть добавления статей, лента новостей, что-то еще, в зависимости от цели и структуры Вашего сайта. Даже если в старой статье появится новая ссылка, поисковые роботы с жаром направятся туда, ибо для них это будет уже новый контент. Система заметит это очень быстро, так как анализ содержимого однажды проиндексированных веб-ресурсов не стихает ни днем, ни ночью.

Если вы даже, например, написали все статьи по всем ключевым словам вашей темы — все равно нужно обновлять (хотябы изредка) ваш сайт. Тут вы сами можете придумать, как это сделать. Например, можно сделать сервис «Вопрос-ответ». Пользователи будут задавать вопросы, а вы переодически публиковать ответы — ваш сайт будет жив.

Также позаботьтесь о бесперебойной работе сайта, не экономьте на хостере и его услугах. Если даже самый распрекрасный сайт часто будет «лежать», поисковые боты расценят его как недостойный и «умирающий» ресурс, и тем меньше система будет стремиться проиндексировать его.

Похожие статьи