Поисковые системы: состав, функции, принципы работы. Поисковые системы интернета: обзор существующих решений

28.07.2019

В последние годы сервисы от «Гугл» и «Яндекс» прочно вошли в нашу жизнь. В этой связи многие наверняка задаются вопросом, что такое поисковая система? Говоря простыми словами, это программная система, предназначенная для поиска информации в World Wide Web. Результаты его обычно представлены в виде списка, часто называемом страницами результатов поиска (SERP). Информация может представлять собой сочетание веб-страниц, изображений и других типов файлов. Некоторые поисковые системы также содержат информацию, доступную в базах данных или открытых каталогах.

В отличие от веб-каталогов, которые поддерживаются только собственными редакторами, поисковики также содержат информацию в режиме реального времени, запуская алгоритм на веб-искателе.

История возникновения

Сами по себе поисковые системы появились ранее всемирной сети - в декабре 1990 года. Первый такой сервис назывался Archie, и он искал по командам содержимое файлов FTP.

Что такое поисковая система в Интернете? До сентября 1993 года World Wide Web была полностью проиндексирована вручную. Существовал список веб-серверов, отредактированный Тимом Бернерс-Ли, который был размещен на веб-сервере CERN. По мере того, как все большее количество серверов выходили в интернет, вышеуказанный сервис не мог успевать обрабатывать такое количество информации.

Одной из первых поисковых систем, основанных на поиске в сети, была WebCrawler, которая вышла в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать любое слово на любой веб-странице. Такой алгоритм с тех пор стал стандартом для всех основных поисковых систем. Это было также первое решение, широко известное публике. Также в 1994 году был запущен сервис Lycos, который впоследствии стал крупным коммерческим проектом.

Вскоре после этого появилось много поисковых машин, и их популярность значительно выросла. К ним можно отнести Magellan, Excite, Infoseek, Inktomi, Northern Light и AltaVista. Yahoo! был одним из самых популярных способов отыскания интересующих веб-страниц, но его алгоритм поиска работал в своем собственном веб-каталоге, а не в полнотекстовых копиях страниц. Искатели информации также могли просматривать каталог, а не выполнять поиск по ключевым словам.

Новый виток развития

Компания Google приняла идею продажи поисковых запросов в 1998 году, начиная с небольшой компании goto.com. Этот шаг оказал значительное влияние на бизнес SEO, который со временем стал одним из самых прибыльных занятий в Интернете.

Примерно в 2000 году поисковая система «Гугл» стала широко известна. Компания добилась лучших результатов для многих поисков с помощью инноваций под названием PageRank. Этот итерационный алгоритм оценивает веб-страницы на основе их связей с другими сайтами и страницами, исходя из предпосылки, что хорошие или желанные источники часто упоминаются другими. Google также поддерживал минималистский интерфейс для своей поисковой системы. Напротив, многие из конкурентов встроили поисковую систему в веб-портал. На самом деле «Гугл» стала настолько популярной, что появились мошеннические движки, такие как Mystery Seeker. Сегодня существует масса региональных версий этого сервиса, в частности, поисковая система Google.ru, рассчитанная на русскоязычных пользователей.

Как работают эти сервисы?

Как же происходит ранжирование и выдача результатов? Что такое поисковые системы с точки зрения алгоритма действий? Они получают информацию через веб-сканирование с сайта на сайт. Робот или «паук» проверяет стандартное имя файла robots.txt, адресованное ему, перед отправкой определенной информации для индексации. При этом основное внимание уделяется многим факторам, а именно заголовкам, содержимому страницы, JavaScript, каскадным таблицам стилей (CSS), а также стандартной разметке HTML информационного содержимого или метаданным в метатегах HTML.

Индексирование означает связывание слов и других определяемых токенов, найденных на веб-страницах, с их доменными именами и полями на основе HTML. Ассоциации создаются в общедоступной базе данных, доступной для запросов веб-поиска. Запрос от пользователя может быть одним словом. Индекс помогает найти информацию, относящуюся к запросу как можно быстрее.

Некоторые из методов индексирования и кэширования - это коммерческие секреты, тогда как веб-сканирование - это простой процесс посещения всех сайтов на систематической основе.

Между посещениями робота кэшированная версия страницы (часть или весь контент, необходимый для ее отображения), хранящийся в рабочей памяти поисковой системы, быстро отправляется запрашивающему пользователю. Если визит просрочен, поисковик может просто действовать как веб-прокси. В этом случае страница может отличаться от индексов поиска. На кэшированном источнике отображается версия, слова которой были проиндексированы, поэтому он может быть полезен в том случае, если фактическая страница была утеряна.

Высокоуровневая архитектура

Обычно пользователь вводит запрос в поисковую систему в виде нескольких ключевых слов. У индекса уже есть имена сайтов, содержащих данные ключевые слова, и они мгновенно отображаются. Реальная загрузочная нагрузка заключается в создании веб-страниц, которые являются списком результатов поиска. Каждая страница во всем списке должна быть оценена в соответствии с информацией в индексах.

В этом случае верхний элемент результата требует поиска, реконструкции и разметки фрагментов, показывающих контекст из сопоставленных ключевых слов. Это лишь часть обработки каждой веб-страницы в результатах поиска, а дальнейшие страницы (рядом с ней) требуют большей части этой последующей обработки.

Помимо простого отыскания ключевых слов, поисковые системы предлагают свои собственные GUI- или управляемые командами операторы и параметры поиска для того, чтобы уточнить результаты.

Они обеспечивают необходимые элементы управления для пользователя с помощью цикла обратной связи, путем фильтрации и взвешивания при уточнении искомых данных с учетом начальных страниц первых результатов поиска. Например, с 2007 года Google.com позволила отфильтровать полученный список по дате, нажав «Показать инструменты поиска» в крайнем левом столбце на странице исходных результатов, а затем выбрав нужный диапазон дат.

Варьирование запросов

Большинство поисковых систем поддерживают использование логических операторов AND, OR и NOT, чтобы помочь конечным пользователям уточнить запрос. Некоторые операторы предназначены для литералов, которые позволяют пользователю уточнять и расширять условия поиска. Робот ищет слова или фразы точно так же, как и введенные команды. Некоторые поисковые системы предоставляют расширенную функцию отыскания, которая позволяет пользователям определять расстояние между ключевыми словами.

Существует также основанный на концепции поиск, в котором исследование предполагает использование статистического анализа на страницах, содержащих слова или фразы, которые вы ищете. Кроме того, запросы на естественном языке позволяют пользователю вводить вопрос в том же виде, который он задал бы человеку (самый характерный пример - ask.com).

Полезность поисковой системы зависит от релевантности набора результатов, который она выдает. Это могут быть миллионы веб-страниц, которые содержат определенное слово или фразу, но некоторые из них могут быть более релевантными, популярными или авторитетными, чем другие. В большинстве поисковых систем используются методы ранжирования, чтобы обеспечить наилучшие результаты.

Каким образом поисковик решает, какие страницы являются лучшими совпадениями с запросом, и в каком порядке должны отображаться найденные источники, сильно варьируется от одного робота к другому. Эти методы также со временем меняются по мере изменения использования Интернета и развитием новых технологий.

Что такое поисковая система: разновидности

Существует два основных типа поисковой системы. Первая - система предопределенных и иерархически упорядоченных ключевых слов, которыми люди массово ее запрограммировали. Вторая - это система, которая генерирует «инвертированный индекс», анализируя найденные тексты.

Большинство поисковых систем - коммерческие сервисы, поддерживаемые доходами от рекламы, и, таким образом, некоторые из них позволяют рекламодателям иметь рейтинг в отображаемых результатах за определенную плату. Сервисы, которые не принимают деньги за ранжирование, зарабатывают деньги, запуская контекстные объявления рядом с отображенными сайтами. На сегодняшний день продвижение в поисковых системах является одним из наиболее прибыльных заработков в сети.

Какие сервисы распространены наиболее всего?

Google - самая популярная поисковая система в мире с долей рынка 80,52% по состоянию на март 2017 года.

  • Google - 80,52%
  • Bing - 6,92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Поисковые системы России и стран Восточной Азии

В России и некоторых странах Восточной Азии Google - не самый популярный сервис. Среди российских пользователей поисковая система «Яндекс» лидирует по популярности (61,9%) по сравнению с Google (28,3%). В Китае Baidu является самым популярным сервисом. Поисковый портал Южной Кореи - Naver используется для 70% процентов онлайн-поиска в стране. Также Yahoo! в Японии и Тайвани является наиболее популярным средством для отыскания нужных данных.

Другие известные русские поисковые системы - «Мейл» и «Рамблер». С началом развития рунета они пользовались широкой популярностью, но в настоящее время сильно сдали свои позиции.

Ограничения и критерии поиска

Несмотря на то, что поисковые системы запрограммированы на ранжирование веб-сайтов на основе некоторой их популярности и релевантности, эмпирические исследования указывают на различные политические, экономические и социальные критерии отбора информации, которую они предоставляют. Эти предубеждения могут быть прямым результатом экономических (например, компании, которые рекламируют поисковую систему, могут также стать более популярными в результатах обычного поиска) и политических процессов (например, удаление результатов поиска в соответствии с местными законами). Так, Google не будет отображать некоторые неонацистские сайты во Франции и Германии, где отрицание Холокоста является незаконным.

Христианские, исламские и еврейские поисковые системы

Глобальный рост Интернета и электронных средств массовой информации в мусульманском мире за последнее десятилетие побудил исламских приверженцев на Ближнем Востоке и Азиатском субконтиненте попытаться создать собственные поисковые системы и отфильтрованные порталы, которые позволят пользователям выполнять безопасный поиск.

Такие сервисы содержат фильтры, которые дополнительно классифицируют веб-сайты как «халяль» или «харам» на основе современного экспертного толкования «Закона Ислама».

Портал ImHalal появился в сети в сентябре 2011 года, а Halalgoogling - в июле 2013 года. Они используют фильтры харам, базируясь на алгоритмах от Google и Bing.

Другие, ориентированные на религию поисковые системы - это Jewgle (еврейская версия Google), а также христианская SeekFind.org. Они фильтрует сайты, которые отрицают или унижают их веру.

Поисковая система — это база данных по определенной информации в интернете. Многие пользователи считают, что как только они вводят запрос в поисковую систему, тут же начинается сканирование всего интернета, но это совсем не так. Сканирование интернета происходит постоянно, многими программами, данные о сайтах заносятся в базу данных, где по определенным критериям все сайты и все их страницы распределяются в различного рода списки и базы данных. То есть это своего рода картотека данных, и поиск происходит не по интернету, а по этой картотеке.

Популярные поисковые системы

Яндекс — крупнейшая поисковая система в рунете.

Кроме поисковой системы, компания Яндекс предлагает 77 дополнительных сервисов, самые популярные из них — почтовый сервис Яндекс , Яндекс-браузер , Яндекс-диск, информация о пробках и погоде, Яндекс-деньги и многое другое. Поисковая система учитывает Ваше местоположение при выдаче результатов поиска. Так же поисковая программа постоянно модернизируется для выдачи более корректных результатов, рассчитанных на наибольшую информативность для пользователя.

Google — самая популярная поисковая система в мире.

Кроме поисковой системы, компания Google предлагает множество дополнительных сервисов, программ и аппаратного обеспечения, среди которых почтовый сервис , браузер Google Chrome , крупнейшая видеотека youtube и многие другие проекты. Компания Google уверено скупает многие проекты приносящие крупную прибыль. Большинство сервисов направлены не на прямого пользователя, а на заработок в интернете и интегрирована с уклоном на интересы европейских и американских пользователей.

Mail — поисковая система, популярная в основном из-за почтового сервиса.

Имеется множество дополнительных сервисов, ключевым из которых является почта Mail , на данный момент компании Mail принадлежит социальная сеть Одноклассники , собственная сеть «Мой мир», сервис Деньги-mail, множество онлайн игр, три практически одинаковых браузера с различными названиями. Во всех приложениях и сервисах очень много рекламного наполнения. Социальная сеть «ВКонаткте» блокирует прямые переходы в сервисы Mail, агрументируя большим количеством вирусов.

Википедия.

Википедия — поисковая справочная система.

Некоммерческая поисковая система, существующая на частные пожертвования, поэтому не наполняет страницы рекламой. Многоязычный проект, целью которого является создание полной справочной энциклопедии на всех языках мира. У нее нет определенных авторов, заполняется и управляется добровольцами со всех стран мира. Каждый пользователь может как написать, так и отредактировать статью.

Официальная страница — www.wikipedia.org.

Youtube — крупнейшая библиотека видеофайлов.

Видеохостинг с элементами социальной сети, где каждый пользователь может добавить видео. С момента приобретения их компанией Google Ink, отдельная регистрация для ютуба не требуется, достаточно зарегистрироваться в почтовом сервисе Google .

Официальная страница — youtube.com.

Yahoo! — вторая по значимости поисковая система в мире.

Имеются дополнительные сервисы, самым известным из которых является почта Yahoo. В рамках улучшения качества поисковой системы, Yahoo передает данные о пользователях и их запросах в компанию Microsoft. От этих данных формируется представление об интересах пользователей, а так же формируется рынок рекламного наполнения. Поисковая система Yahoo, так же как и , занимается поглощением других компаний, например, Yahoo принадлежат поисковой сервис Altavista и сайт электронной коммерции Alibaba.

Официальная страница — www.yahoo.com.

WDL — цифровая библиотека.

В библиотеке собираются книги предоставляющие культурную ценность в цифровом виде. Основная цель — повышение уровня культурного содержания интернета. Доступ к библиотеке осуществляется бесплатно.

Официальная страница — www.wdl.org/ru/.

Bing — поисковая система от компании Microsoft.

Официальная страница — www.baidu.com.

Поисковые системы России

Рамблер — «проамериканская» поисковая система.

Изначально создавался как медийный интернет-портал. Как и другие многие поисковые системы, имеет сервисы поиска по картинкам, видеофайлы, карты, прогноз погоды, новостной раздел и многое другое. Так же издатели предлагают бесплатный браузер Рамблер-Нихром .

Официальная страница — www.rambler.ru.

Nigma — интеллектуальная поисковая система.

Более удобная поисковая система из-за наличия множества фильтров и настроек. Интерфейс позволяет включать, либо исключать предлагаемые подобные значения в поиске для получения более качественных результатов. Так же, при получении результата поиска позволяет использовать информацию других крупных поисковиков.

Официальная страница — www.nigma.ru.

Aport — каталог товаров онлайн.

В прошлом поисковая система, но впоследсвии того, что разработки и нововведения были прекращены, быстро сдала позиции и . В настоящий момент Апорт является торговой площадкой, на которой представляются товары более 1500 фирм.

Официальная страница — www.aport.ru.

Спутник — национальная поисковая система и интернет-портал.

Создана компанией «Ростелеком». В настоящее время находится в стадии тестирования.

Официальная страница — www.sputnik.ru.

Metabot — развивающаяся поисковая система.

В задачах Metabot стоит создание поисковой системы по всем другим поисковым системам, создавая позиции выдачи результатов с учетом данных всего списка поисковых систем. То есть это поисковая система по поисковым системам.

Официальная страница — www.metabot.ru.

Работа поисковой системы приостановлена.

Официальная страница — www.turtle.ru.

KM — мультипортал.

Изначально сайт являлся мультипорталом с последующим внедрением поисковой системы. Поиск может проводиться как внутри сайта, так и по всем отслеженным сайтам рунета .

Официальная страница — www.km.ru.

Gogo — не работает, перенаправляет на поисковик .

Официальная страница — www.gogo.ru.

Российский мультипортал, не очень популярный, требует доработки. В поисковик включены новости, телевидение, игры, карта.

Официальная страница — www.zoneru.org.

Поисковая система не работает, разработчики предлагают воспользоваться поисковиком .

Официальная страница — www.au.ru.

Каждый момент времени человек принимает решения. Результат: движение вперед, суета на месте или перемещение в информационном пространстве, но куда? Что понимают под поисковой системой?

Хорошее зрение, слух, надежная работа всех органов чувств и объективное восприятие действительности во многом определяют правильное применение накопленного опыта и знаний, дают шанс интуиции проявить себя. Но правильный ответ - результат не только правильного вопроса, но и корректно собранной информации для его решения (это область критерия).

Что понимают под поисковой системой кратко? История интернет-поиска

Во времена, когда компьютеры и Интернет были уделом избранных, логика обычного библиотечного дела считалась востребованной. Зачем усложнять решение задачи, когда для ориентации в информационном пространстве достаточно каталога файлов, данных, решений, программ и всего, что было сделано и может пригодиться?

Не стоит ли пользователям поставить памятник? Вспомнить, что именно труду фанатов компьютерного дела обязаны сети, каталоги, возможности для общения и «первичного» накопления:

  • информационного капитала;
  • основ современных представлений (они канули в лету, но их мимолетное явление образовало долгосрочную перспективу).

Мощь и возможности компьютеров быстро ушли из вычислительной сферы в сферу обработки информации. Интернет стал стремительно завоевывать новые территории в областях применения и умах людей. Простое библиотечное дело моментом мигрировало в изощренные механизмы поисковых машин.

Многочисленные армии искателей, роботов, "пауков" и прочих алгоритмов принялись скрупулезно исследовать все, что попадало в интернет-пространство. Возможно, именно они дали понять, что такое поисковая система, как работает поиск, что такое Интернет. Они учились индексировать информацию, приходили к пониманию того, что можно и как нужно использовать.

Это был древний «доинформационный мир», допотопное вооружение, примитивные методики собирательства - совсем как рыбалка и охота во времена, когда люди только начали представлять собой что-то общественное, социально значимое, отделившееся от природы по критерию разумности.

Индексация: мы не рабы, но у нас еще ничего нет

Индексация информационного пространства, методика ориентации в собранной информации и умение правильно корректировать имеющееся за счет обнаруженных изменений во внешней (Интернет) среде становились основой для выживания. Так принято в живой природе, а интернет-пространство уже обретало свою собственную и абсолютно реальную жизнь.

В истории всегда было что-то, что можно вспомнить, но всегда возникает вопрос, а так ли это было, связано ли то историческое «бытие» с реальными людьми и памятными воспоминаниями?

Возможно, сосед по лестничной клетке оказался создателем Google или сформулировал фундаментальные основы процветания Yandex. Но многие упоминают 1945 год как точку, с которой началась идея гипертекста, а «Волшебный автоматический извлекатель текста Сэлтона» считается отцом современной поисковой технологии.

С тех пор утекло много воды, а список первых поисковиков, первых античных алгоритмов и идей так велик, что сам по себе является хорошей поисковой задачей для систематизации и индексации прошлого.

Небеспочвенно утверждать, что причина явления Google как феномена и современной системы - это не только реальный человек, его друзья и подруги. Почему это не совершенно иная точка информационного пространства, которая удачно вызвала нужный резонанс или ассоциацию?

Совокупное общественное сознание - еще та темная вселенная, в которой до своего варианта лампочки Эдисона очень даже далеко.

Год 1994: какой бот сказал ключевое слово «мама»?

В современном мире с трудом верится в прошлое, но сделав скидку на точность дат и участие реальных личностей, следует отметить, что появление ключевых слов - это еще не семантическое ядро.

Что понимали под поисковой системой в конце прошлого века, уже было абсолютно ясно: это десяток популярных поисковиков с конкурирующим рейтингом в борьбе за клиента. Одним нравился Yahoo, другим Aport, третьим Rambler, но в конечном счете остались Google и Yandex.

Все это слова, мнения, предпочтения и интересные факты. Однако монстры поискового дела образовались, создали фундаментальные основы, заложили объективное знание и солидный опыт в понимание:

  • механизмов поиска;
  • ключевые слова;
  • семантическое ядро.

Гипертекст не только оперился, но и стал основой интернет-программирования, проложил дорогу смежным серьезным технологиям.

Главное: не суть, как мы понимаем и что происходит. Важно, что направление движения есть, и оно правильное. Колебания курса - это нормально, не будь колебаний, не было бы повода оптимизировать критерии. А критерии и в вопросе, и в ответе - самое главное.

Год 1989: возрождение, о котором забыли

Откат - это особый исторический механизм и всегда интересный факт. Людям, особенно ученым и квалифицированным специалистам, свойственно забывать о сути вещей и уходить в мечтания. Мир войн, гладиаторов и страшных сражений - забава по сравнению с тем, какие состязания идут в общественном и частном сознании. Здесь царство мрака, но идти вперед нужно, и без победы на каждом шагу никак нельзя.

Принцип работы поисковой системы лег в основу алгоритма. Реальных реализаций алгоритмов исполнено множество. Выжило очень мало, но именно это поделило между собой все интернет-сообщество. Борьба за идеалы в сфере поиска уже тогда имела значение, но даже краткая история развития поисковых систем перестала интересовать потребителя.

Пользователю нужен ответ, а не достижения ученых и специалистов. Потребитель желает знать, как правильно сформулировать вопрос, чтобы получить адекватный ответ и быть уверенным, что поисковый механизм отработал правильно, применил объективные критерии.

Кого волнует интересный факт, что ООП и облака были придуманы в 1989-1991 гг. Абсолютно никого! Но всего десяток лет назад пошел откат: теперь без ООП и облачных технологий нельзя. Но откат «не покатил» в нужном направлении, поэтому на вопрос о том, что понимают под поисковой системой, нет конкретного ответа. Ничего нового не появилось, а вот лишнее - да.

Определение поиска и поисковой системы

Когда появились калькуляторы, человек подумал, что забудет правила сложения, умножения, деления. Прошло время, и страх развеялся. Калькуляторы живы, и столбиком вершить простейшие математические действия человек не разучился.

Во времена, когда функционирует "Гугл" и "Яндекс", а вокруг небольшое число авторитетных поисковых систем, сложилось мнение: поиск - это компьютерный алгоритм, а поисковая система (определение слова и его значение) - это программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Выдача поисковой системы

Что понимают под поисковой системой, несложно представить. Есть строка запроса, посетитель пишет ключевое слово, нажимает кнопку «искать» и получает результат. Но поисковая выдача - это не ответ, а ключевое слово - это не вопрос.

В обычной жизни человек не пользуется ключевыми словами и никогда не получает никакой «выдачи». Если ребенок хочет кушать, он скажет об этом маме или папе. Все зависит от того, что именно малыш хочет: реально поесть или получить деньги на мороженое. Реакция родителя может быть лишена слов, но действие последует.

Работник не будет обращаться к нанимателю через ключевые слова, иначе результатом выдачи будет бессловесное увольнение.

Все это факты, но человек и компьютерная система - это другая сфера отношений. Пока есть четкое представление, что понимают под поисковой системой - это не вопросы, ответы, критерии, а ключевые слова и результаты работы движка (поисковая выдача).

Реальная польза текущего момента

Страсти по SEO, стремительный рост числа веб-студий, развитие рекламного дела, навязывание идей, тонны спама и мусор в выдаче - все это естественно и объективно нормально. Бороться со спамом, хакерами и негативом пора. Нужно это делать внимательно, но реальная польза от сложившейся ситуации - всего лишь очередной этап развития поискового дела.

Ключевые слова - отлично. Семантическое ядро сайта - прекрасно. Компьютер может переводить тексты на разные языки и разбирать естественные предложения. Язык SQL стал де-факто в «общении» с базами данных. У SQL - масса диалектов, а это реальный показатель. Искусственный язык стал жизнеспособен! Язык способен дать доступ к огромным объемам систематизированной информации.

Oracle и другие лидеры в сфере больших баз данных потратили десятки лет на представление информации. Google - на сбор информации и механизмы индексации. Семейство Linux удержало позиции, Windows осталась на плаву, а численность языков программирования сузилась до достаточного уровня.

Искусственный интеллект ушел в мир грез, разработчики и потребители объективно устремились в мир созидательного управления информацией и ее использования.

Поисковая выдача: важное и бесполезное

Не так сложно систематизировать поисковую выдачу, но за последние десять лет она не изменилась. По сути - верно. Если в строке поиска ключевое слово, а не вопрос, то о каком ответе может идти речь? Критерии во всех современных поисковых системах есть, к ним относятся с надлежащим пониманием, но зачем ограничивать потребителя?

Важна реакция пользователя на то, какую именно часть поисковой выдачи он выбирает. Это его мнение о результатах работы поисковой системы. Поисковики ценят это и учитывают не только в частном запросе, но и в целом.

Поток ключевых слов и поток выдачи - и то, и другое содержит информационный мусор. Это тоже повод для формирования критериев. Нельзя рассматривать задачу поиска как применение ключевого слова и алгоритма к накопленной информации, как уточнение накопленной информации.

О перспективах: от поиска к решению

Лучшее решение - не принимать никаких решений. Понимают это или нет разработчики поисковых механизмов, но факт остается фактом: что такое поисковая система, разработчики знают в контексте реакции на ключевое слово, как индекс в условиях выборки информации из уже доступных и систематизированных данных.

Потребитель сам выберет из поисковой выдачи, что сочтет нужным, и примет решение. Поисковая система учтет и запомнит это. Как человек распорядится полученной информацией - это будет следующее ключевое слово.

Так поисковая система учится принимать решения, а человек - формулировать вопросы. Пока это ключевые слова, а результат ответа - поисковая выдача. Но количество всегда переходит в качество.

Что такое поисковые системы Интернета? Реальность, основанная на поступательном движении вперед. Не так много практических задач требуют разума от компьютерных систем. В большинстве случаев вполне достаточно, чтобы они просто адекватно отвечали на правильно поставленные вопросы.

Поисковые системы (ПС) уже приличное время являются обязательной частью интернета. Сегодня они громадные и сложнейшие механизмы, которые представляют собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса.


Многие пользователи поиска никогда не думали о принципах их работы, о способах обработки пользовательских запросов, о том, как построены и функционируют данные системы. Данный материал поможет людям, которые занимаются оптимизацией и , понять устройство и основные функции поисковых машин.

Функции и понятие ПС

Поисковая система – это аппаратно-программный комплекс, который предназначен для осуществления функции поиска в интернете, и реагирующий на пользовательский запрос который обычно задают в виде какой-либо текстовой фразы (или точнее поискового запроса), выдачей ссылочного списка на информационные источники, осуществляющейся по релевантности. Самые распространенные и крупные системы поиска: Google, Bing, Yahoo, Baidu. В Рунете – Яндекс, Mail.Ru, Рамблер.

Рассмотрим поподробнее само значение запроса для поиска, взяв для примера систему Яндекс.

Запрос обязан быть сформулирован пользователем в полном соответствии с предметом его поиска, максимально просто и кратко. К примеру, мы желаем найти информацию в данном поисковике: «как выбрать автомобиль для себя». Чтобы сделать это, открываем главную страницу и вводим запрос для поиска «как выбрать авто». Потом наши функции сводятся к тому, чтобы зайти по предоставленным ссылкам на информационные источники в сети.




Но даже действуя таким образом, можно и не получить необходимую нам информацию. Если мы получили подобный отрицательный результат, нужно просто переформировать свой запрос, или же в базе поиска действительно нет никакой полезной информации по данному виду запроса (такое вполне возможно при заданных «узких» параметров запроса, как, к примеру, «как выбрать автомобиль в Анадыри»).

Самая основная задача каждой поисковой системы – доставить людям именно тот вид информации, который им нужен. А приучить пользователей создавать «правильный» вид запросов к поисковым системам, то есть фразы, которые будут соответствовать их принципам работы, практически, невозможно.

Именно поэтому специалисты-разработчики поисковиков делают такие принципы и алгоритмы их работы, которые бы давали пользователям находить интересующие их сведения. Это означает, что система, должна «думать» так же, как мыслит человек при поиске необходимой информации в интернете.

Когда он вводит свой запрос в поисковую машину, он желает найти то, что ему надо, как можно проще и быстрее. Получив результат, пользователь составляет свою оценку работе системы, руководствуясь несколькими критериями. Получилось ли у него найти нужную информацию? Если нет, то сколько раз ему пришлось переформатировать текст запроса, чтобы найти ее? Насколько актуальная информация была им получена? Как быстро поисковая система обработала его запрос? Насколько удобно были предоставлены поисковые результаты? Был ли нужный результат первым, или находился на 30-ом месте? Сколько «мусора» (ненужной информации) было найдено вместе с полезными сведениями? Найдется ли актуальная для него информация, при использовании ПС, через неделю, либо через месяц?




Для того чтобы получить правильные ответы на подобные вопросы, разработчики поиска постоянно улучшают принципы ранжирования и его алгоритмы, добавляют им новые возможности и функции и любыми средствами пытаются сделать быстрее работу системы.

Основные характеристики поисковых систем

Обозначим главные характеристики поиска:

Полнота.

Полнота является одной из главнейших характеристик поиска, она представляет собой отношение цифры найденных по запросу информационных документов к их общему числу в интернете, относящихся к данному запросу. Например, в сети есть 100 страниц имеющих словосочетание «как выбрать авто», а по такому же запросу было отобрано всего 60 из общего количества, то в данном случае полнота поиска составит 0,6. Понятно, что чем полнее сам поиск, тем больше вероятность, что пользователь найдет именно тот документ, который ему необходим, конечно, если он вообще существует.

Точность.

Еще одна основная функция поисковой системы – точность. Она определяет степень соответствия запросу пользователя найденных страниц в Сети. К примеру, если по ключевой фразе «как выбрать автомобиль» найдется сотня документов, в половине из них содержится данное словосочетание, а в остальных просто есть в наличии такие слова (как грамотно выбрать автомагнитолу, и установить ее в автомобиль»), то поисковая точность равна 50/100 = 0,5.

Чем поиск точнее, тем скорее пользователь найдет необходимую ему информацию, тем меньше разнообразного «мусора» будет встречаться среди результатов, тем меньше найденных документов будут не соответствовать смыслу запроса.

Актуальность.

Это значимая составляющая поиска, которую характеризует время, проходящее с момента опубликования информации в интернете до занесения ее в индексную базу поисковика.

К примеру, на следующий день после возникновения информации о выходе нового iPad, множество пользователей обратилась к поиску с соответствующими видами запросов. В большинстве случаев информация об этой новости уже доступна в поиске, хотя времени с момента ее появления прошло очень мало. Это происходит благодаря наличию у крупных поисковых систем «быстрой базы», которая обновляется несколько раз за день.

Скорость поиска.

Такая функция как скорость поиска теснейшим образом связана с так называемой «устойчивостью к нагрузкам». Ежесекундно к поиску обращается огромное количество людей, подобная загруженность требует значительного сокращения времени для обработки одного запроса. Тут интересы, как поисковой системы, так и пользователя целиком совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая система должна отработать его запрос тоже максимально быстро, чтобы не притормозить обработку последующих запросов.

Наглядность.

Наглядное представление результатов является важнейшим элементом удобства поиска. По множеству запросов поисковая система находит тысячи, а в некоторых случаях и миллионы разных документов. Вследствие нечеткости составления ключевых фраз для поиска или его не точности, даже самые первые результаты запроса не всегда имеют только нужные сведения.

Это значит, что человеку часто приходится осуществлять собственный поиск среди предоставленных результатов. Разнообразные компоненты страниц выдачи ПС помогают ориентироваться в поисковых результатах.

История развития поисковых систем

Когда интернет только начал развиваться, число его постоянных пользователей было небольшим, и объем информации для доступа был сравнительно невеликим. В основном доступ к этой сети имели лишь специалисты научно-исследовательских сфер. В то время, задача нахождения информации не была столь актуальна как сейчас.

Одним из самых первых методов организации широкого доступа к ресурсам информации стало создание каталогов сайтов, причем ссылки на них начали группировать по тематике. Таким первым проектом стал ресурс Yahoo.com, который открылся весной 1994-ого года. Впоследствии когда количество сайтов в Yahoo-каталоге существенно увеличилось, была добавлена опция поиска необходимых сведений по каталогу. Это еще не было в полной мере поисковой системой, так как область такого поиска была ограничена только сайтами, входящими в данный каталог, а не абсолютно всеми ресурсами в интернете. Каталоги ссылок весьма широко использовались раньше, однако в настоящее время, практически в полной мере утратили свою популярность.

Ведь даже сегодняшние, громадные по своим объемам каталоги имеют информацию о незначительно части сайтов в интернете. Самый известный и большой каталог в мире имеет информацию о пяти миллионах сайтов, когда база Google содержит информацию о более чем 25 миллиардов страниц.




Самой первой настоящей поисковой системой стала WebCrawler, возникшая еще в 1994-ом году.

В следующем году появились AltaVista и Lycos. Причем первая была лидером по поиску информации очень длительное время.




В 1997-ом году Сергей Брин вместе с Ларри Пейджем создал машину поисковую Google как исследовательский проект в Стэндфордском университете. Сегодня именно Google, самая востребованная и популярная поисковая система в мире.




В сентябре 1997-ом году была анонсирована (официально) ПС Yandex, которая в настоящий момент является самой популярной системой поиска в Рунете.




По данным на сентябрь 2015 года , доли поисковых систем в мире распределены следующим образом:
  • Google - 69,24 %;
  • Bing - 12,26 %;
  • Yahoo! - 9,19 %;
  • Baidu - 6,48 %;
  • AOL - 1,11 %;
  • Ask - 0,23 %;
  • Excite - 0,00 %


По данным на декабрь 2016 года , доли поисковых систем в Рунете:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Принципы работы поисковой системы

В России главной системой поиска является Яндекс, затем Google, а потом Поиск@Mail.ru. Все большие системы поиска имеют свою структуру, которая весьма отличается от других. Но все-таки можно выделить общие для всех поисковиков основные элементы.

Модуль индексирования.

Данный компонент состоит из трех программ-роботов:

Spider (по англ. паук) – программа которая предназначена для того чтобы скачивать веб-страницы. «Паук» скачивает определенную страницу, одновременно извлекая из нее все ссылки. Скачивается код html практически с каждой страницы. Для этого роботы используют HTTP-протоколы.




«Паук» функционирует следующим образом. Робот передает запрос на сервер “get/path/document” и иные команды запроса HTTP. В ответ программа-робот получает поток текста, который содержит информацию служебного вида и, естественно, сам документ.
  • URL скаченной страницы;
  • дата, когда осуществлялось скачивание страницы;
  • заголовок http-ответа сервера;
  • html-код, «тела» страницы.
Crawler («путешествующий» паук). Данная программа автоматически заходит на все ссылки, которые найдены на странице, а также выделяет их. Его задача – определиться, куда в дальнейшем должен заходить паук, основываясь на этих ссылках или исходя из заданного списка адресов.

Indexer (робот-индексатор) – это программа, анализирующая страницы, которые скачали пауки.



Индексатор полностью разбирает страницу на составные элементы и проводит их анализ, применяя свои морфологические и лексические виды алгоритмов.

Анализ проводится над разнообразными частями страницы, такими как заголовки, текст, ссылки, стилевые и структурные особенности, теги html и др.

Таким образом, модуль индексирования дает возможность проходить по ссылкам заданного количества ресурсов, скачивать страницы, извлекать ссылочную массу на новые страницы из полученных документов и делать подробный их анализ.

База данных

База данных (или индекс поисковика) - комплекс хранения данных, массив информации в котором сохраняются определенным образом переделанные параметры каждого обработанного модулем индексации и скачанного документа.

Поисковый сервер

Это самый важный элемент всей системы, потому что от алгоритмов, лежащих в основе ее функциональности, прямо зависит скорость и, конечно же, качество поиска.

Поисковый сервер работает следующим образом:

  • Запрос, который идет от пользователя подвергается морфологическому анализу. Информационное окружение любого документа, имеющегося в базе, генерируется (оно и будет в дальнейшем отображаться как сниппет, т.е. информационное поле текста соответствующего данному запросу).
  • Полученные данные передают как входные параметры специализированному модулю ранжирования. Они обрабатываются по всем документам, и в итоге для каждого такого документа рассчитывается свой рейтинг, который характеризует релевантность такого документа запросу пользователя, и иных составляющих.
  • В зависимости от условий заданных пользователем этот рейтинг вполне может быть подкорректирован дополнительными.
  • Затем генерируется сам сниппет, т.е. для любого найденного документа из соответствующей таблицы извлекают заголовок, аннотацию, наиболее отвечающую запросу, и ссылка на этот документ, при этом найденные словоформы и слова подсвечивают.
  • Результаты полученного поиска передаются осуществившему его человеку в виде страницы, на которую выдают поисковые результаты (SERP).
Все эти элементы тесно связаны между собой и функционируют, взаимодействуя, образовывая отчетливый, но достаточно непростой механизм функционирования ПС, требующий громадных затрат ресурсов.

Все больше людей пользуются его несомненными преимуществами. Одним из которых является быстрый поиск самой разнообразной информации. Растет число пользователей старшего возраста осваивающих всемирную сеть. Возможность эффективного поиска во всемирной паутине представляют – поисковые системы. Большинство поисковиков ищут информацию на сайтах Интернета, и представляют собой программно-аппаратный комплекс.

Условно можно разделить поисковики на охватывающие мировую глобальную сеть (Google, Yahoo! и пр.) и Рунет – русскоязычную часть сети (Россия, страны СНГ).

Поисковая система Google

Безусловным мировым лидером по предоставлению интернет услуг и в частности поиска информации является Google (Гугл), принадлежащая корпорации Google Inc. Она выдает информацию на 191 языках, обрабатывает более 40 млрд. запросов в месяц и охватывает более 60% рынка. Google была создана в Сергеем Брином и Ларри Пейджом в 1998 году. Индексация сайтов из сети производится несколькими поисковым роботами (специальными программами), основным из которых является User Agent. Робот сканирует глобальную сеть и заносит в базу данных новые сайты появившиеся в сети. Молодые сайты часто попадают в так называемую «песочницу» (зона ожидания), до тех пор пока специальный алгоритм Google не сочтет сайт готовым к выдаче в поисковой системе.

Поисковая система Yahoo!

Второй по популярности компанией в мире владеющей поисковой системой является - Yahoo! Ей принадлежит около 6% рынка в поисковом секторе Интернета. Компания Yahoo! была создана в 1994 году американцами Дзвидом Файло и Джерри Янгом. Особенно бурно компания развивалась в конце 90-х годов, когда конкуренция была относительно невысока. В 1997 году компания одна из первых ввела бесплатный почтовый сервис - Yahoo! Mail.

Поисковая система Яндекс

– российская поисковая система. По популярности в России сайт Яндекса занимает первое место. Ей принадлежит 5-ое место в мире по количеству поисковых запросов. Услугами этой системы пользуются более 50 миллионов человек. Официально поисковая система Яндекс была представлена в 1997 году, а в следующем году объем русского интернета удвоился. Сама компания «Яндекс» была учреждена в 2000 году акционерами CompTek. Генеральным директором стал Аркадий Волож. Кроме поискового сервиса были открыты Яндекс Новости, Яндекс Товары, Яндекс Гуру, Яндекс Открытки, Яндекс Закладки. В 2010 году компания запустила свою англоязычную версию на домене yandex.com и вышла на международный уровень. Появились новые специализированные сервисы , Яндекс Услуги, Яндекс Музыка, Яндекс Недвижимость, . В 2011 году появился новый сервис Яндекс Карты с помощью которого можно прокладывать маршруты по всей России.

В 2012 году генеральный директор ООО «Яндекс» Аркадий Волож планирует вывести Яндекс на европейский рынок.

Поисковая система Рамблер

Поисковая система Rambler (англ. странник, бродяга) была создана в 1996 году Дмитрием Крюковым. Кроме

поискового сервиса он также является информационным интернет-порталом. С 2011 года Рамблер отказался от собственных поисковых алгоритмов и полностью перешел на технологию Яндекс.

Поисковая система Майл Ру

Mail.Ru – занимает третье место по популярности в Рунете. Он больше известен своей почтовой службой @mail.ru. Сайт обладает мощными возможностями поиска по электронному ящику и адресной книге. С 2006 года поисковый сервис начал осуществляться на движке Яндекс. До этого использовался движок от Google. C 2010 года Майл Ру использует движок собственной разработки.

В мире существует сотни поисковых систем. Наиболее популярными в России являются Яндекс и Google. Эти две мощнейшие поисковые системы являются постоянными конкурентами и стараются привлечь пользователя новыми сервисами и качеством своих разработок.

Какой поисковик выбрать Google или Яндекс?

Похожие статьи