Дорогоне всегда «круто»,
«Круто» — не всегда дорого

 
FAQ SEO-энциклопедия Поисковые системы Как устроены поисковые системы

Как устроены поисковые системы

Как устроены поисковые системы

Яндекс - крупнейшая поисковая система Рунета. Она состоит из четырех дата-центров. Работает быстро, удовлетворяет все запросы пользователя. Этот обзор о том, как устроены поисковые системы.

Поисковые системы - главный элемент структуры Интернета. Поисковых систем много, доминирует Google, в Рунете - Яндекс, немного отстает от него Рамблер, затем - Google русскоязычный.

Информация хранится на тысячах, даже миллионах серверов. Десятки тысяч пользователей ежесекундно обращаются с запросом. За сентябрь 2012 года посещаемость Яндекса составила 27,6 млн человек.

Первый сервер Яндекса размещался в обычном офисе, а в 2000 году серверов было уже 50, появился свой дата-центр, сегодня их четыре. Дата-центр - это сотни объединенных серверов, отвечающих на запросы пользователей.

Работа поисковой системы

После того, как заказчик ввел запрос, система автоматически направляет его в наименее загруженный кластер, этим занимается балансировщик нагрузки. Балансировщик старается работать локально, то есть, в рамках одного дата-центра. Цель разбивки на кластеры - равномерное распределение нагрузки.

Кластер - место, где хранится определенная часть всей информации, которая есть в интернете. Технически эта часть интернета называется шардом. Так вычислительные мощности используются с максимальным эффектом. Следующий этап - работа метапоиска. Метапоиск отсылает запрос тысячам других вспомогательных поисковых машинок. Обработав информацию, сервера возвращают на исходный сервер ответы. Проверяется орфография запроса, система анализирует региональную привязку запроса и его тип данных.

Традиционно, система проверяет, не было ли похожего запроса недавно. Часто случается всплеск интереса пользователей к одному и тому же событию, продукту или личности. Некоторое время система сохраняет ответы и выдает их в случае повторного запроса, а не генерирует ответы вновь, это снижает нагрузку. Быстрый доступ к готовым ответам снижает нагрузку. Если в кэше нет нужного ответа, запрос идет далее, на серверы "базового поиска", где находится индекс поисковой машины. Информация разбита на части, каждый сервер имеет копию. Копирование называется репликацией. Она необходима, ведь там, где есть много компьютеров, один или несколько могут сломаться. Если одна из машинок базового поиска сломается, информация, которая на ней хранится, окажется утерянной. Репликация выполняется не только по отдельным компьютерам, но и по дата-центрам, на тот случай, если выйдет из строя целая комната, где стоят машины.

Поиск по частям всегда более быстрый, нагрузка распределяется равномерно, копирование защищает информацию от уничтожения. Например, когда на один сервер идет слишком много запросов из-за повышенного интереса к хранящейся на нем информации, в работу включается копия, это снижает нагрузку на основной.

Поисковая машина ищет информацию по подготовленным данным - индексам. Данные для поисковых машин готовит специальный алгоритм - робот. Робота сравнивают с пауком, бегающим по паутине и качающим данные. Поэтому на изменения на сайтах Яндекс реагирует не сразу, а спустя какое-то время.

В индексе системы есть все слова и все их упоминания на страницах интернета, есть еще словоформы и другая служебная информация.

Рекомендуемый хостинг для сайта:

Лучшие видеокурсы по созданию сайтов:

Оптимизация сайта

При заказе оптимизации и продвижения сайта - новый сайт или редизайн старого - сделаем бесплатно
(обращайтесь лично ко мне: Игорь Вялов )
Обсуждение SEO-энциклопедии на форуме
Видео-уроки SEO — оптимизация Joomla »

Комментарии (0)

Оставить комментарий

Пожалуйста, войдите, чтобы комментировать.

Навигатор: FAQ SEO-энциклопедия Поисковые системы Как устроены поисковые системы