Алгоритмы и технологии Яндекса: как работает поиск
Разберем более подробно, как устроена поисковая машина Яндекса. Что же происходит после того, как пользователь вводит запрос в строку поиска?
MatrixNet
Технология поиска Яндекс устроена сложно. Поисковая выдача формируется на основе формулы ранжирования, построенной на нескольких сотнях факторов, каждый из которых может включаться с индивидуальным коэффициентом, а также в различных комбинациях с прочими факторами.
Формула ранжирования — это функция, построенная на множестве факторов, при помощи которых определяется релевантность сайта поисковому запросу и его очередность в выдаче
Для обеспечения качественного поиска факторы и коэффициенты в формуле ранжирования должны регулярно обновляться. Построением такой формулы в Яндексе занимается MatrixNet (Матрикснет) — метод машинного обучения, введенный Яндексом в 2009 году с целью сделать поиск более точным.
Tip Sheet: Yandex Reverse Image Search
«Матрикснет» — метод машинного обучения, с помощью которого подбирается формула ранжирования Яндекса. Входными данными являются факторы и обучающие данные, подготовленные асессорами (экспертными сотрудниками Яндекса).
Основная его особенность заключается в том, что он устойчив к переобучению и позволяет построить сложную формулу ранжирования с десятками тысяч коэффициентов, которая учитывает множество различных факторов и их комбинаций без увеличения количества асессорских оценок и опасности найти несуществующие закономерности.
Архитектура поиска
Ежедневно пользователи посылают Яндексу десятки миллионов запросов. Для формирования ответа под какой-нибудь один запрос поисковой машине необходимо проверить миллионы документов, определить их релевантность и упорядочить при помощи формулы ранжирования так, чтобы наиболее подходящие страницы сайтов оказались вверху выдачи. Для ускорения этого процесса Яндекс использует заранее подготовленные данные — индекс.
Индекс — база поисковой системы, содержащая сведения о запросах и их позициях на страницах сайтов в сети. Индекс формируется поисковым роботом, который обходит сайты и собирает информацию с заданной периодичностью.
Размер индекса в поиске огромен, чтобы быстро обработать такой объем данных используются тысячи серверов, объединенные в кластеры.
После того, как пользователь вводит запрос в строку поиска, он анализируется компьютерной системой «Метапоиск» на предмет региональной привязки, класса запроса и т.д. Там же запрос проходит лингвистическую обработку. Далее «Метапоиск» проверяет кэш на наличие поискового ответа по данному запросу. По часто задаваемым запросам результаты поиска хранятся в памяти поисковика в течение какого-то времени, а не формируются каждый раз заново.
Yandex Pronunciation | Russian Search Engine
«Метапоиск» — это программа, которая принимает и разбирает поисковые запросы, передает их соответствующим «Базовым поискам», обеспечивает агрегацию и ранжирование найденных документов, а также производит кеширование части ответов, которые впоследствии возвращаются пользователям без обращения к «Базовому поиску».
Если же ответ не найден, «Метапоиск» передает запрос другой компьютерной системе — «Базовому поиску». Там же хранится поисковая база Яндекса (индекс). Так как это огромный объем данных, индекс разбивается на части, которые хранятся на разных серверах. Такой подход позволяет производить поиск одновременно по нескольким частям базы данных, что заметно ускоряет процесс.
Каждый сервер имеет несколько копий, это дает возможность распределять нагрузку и не терять данные. При передаче запроса «Метапоиск» выбирает наименее загруженные сервера «Базового поиска».
«Базовый поиск» обеспечивает поиск по всей части индекса (базе поисковой системы), содержащей сведения о запросах и их позициях на страницах сайтов в сети.
Каждый сервер базового поиска отдает список документов, содержащих поисковый запрос, обратно в «Метапоиск», где они ранжируются по сформированной «Матрикснетом» формуле. Результаты такой работы мы видим на странице выдачи.
Использование индекса в качестве источника данных, многостадийный подход к формированию ответа и дублирование данных позволяют Яндексу обеспечивать поиск за доли секунды.
Оценка качества поиска
Помимо скорости поиска не менее важно и его качество. Для этого у Яндекса существует система оценки качества поиска, которая также помогает улучшить это качество.
Релевантность — свойство документа, определяющее степень его соответствия поисковому запросу. Вычисляется на основе формулы ранжирования.
Релевантность документа поисковому запросу вычисляется на основе формулы ранжирования — функции от множества факторов. Сейчас в Яндексе более 800 различных факторов, таких как возраст сайта, региональная привязка, взаимодействие пользователей с сайтом (поведенческий фактор), уникальность контента и т.д. В случае с персонализированным поиском релевантность документа зависит непосредственно от предпочтений пользователя, отправившего запрос.
Формула ранжирования постоянно обновляется, так как меняются потребности пользователей и индекс поисковика. Для ее обновления применяется методы машинного обучения. На основе экспертных данных выявляются зависимости между характеристиками документов и порядком их включения в выдачу, которые вносятся в формулу для ее корректировки.
Оценка качества поиска — удовлетворенность пользователей результатами поиска и порядком их следования.
Экспертными данными для машинного обучения являются оценки асессоров, которые также применяются для оценки качества поиска.
Асессоры — специалисты, оценивающие по ряду критериев релевантность представленного в выдаче документа поисковому запросу.
Асессоры оценивают поисковые результаты в выдаче по ряду критериев, которые позволяют определить, присутствует ли на сайте полный ответ на запрос, является ли сайт брендовым, не переспамлен ли текстовый контент и т.д. В основном асессоры работают с наиболее популярными поисковыми запросами (порядка 150 тыс.), при этом оцениваются первые 30 позиций выдачи. Это наиболее авторитетная оценка, так как ее проводит человек, а не машина, т.е. сайт получает оценку с точки зрения пользователя.
Актуализация и улучшение правил ранжирования в комплексе с оценкой качества поиска помогают Яндексу формировать выдачу, соответствующую ожиданиям пользователей.
Источник: www.iseo.ru
Персональный поиск яндекса
Добрый день, Друзья. Тема этой статьи – без сомнения очень удобная программа “персональный поиск яндекса”.
Сегодня, наверное, уже никого не удивишь жесткими дисками на 500 Гб и больше. Кажется это так много, но со временем и такие большие диски заполняются информацией: фотографиями, фильмами, клипами, музыкальными файлами и документами.
А в этом хозяйстве нужно еще организовать поиск необходимого файла. Те времена, когда поиск данных на ПК осуществлялся прямым перебором всех файлов, канули в века. В предыдущей статье, я рассказал Вам о достоинствах встроенного в Windows 7 поисковика. Это достаточно мощное и эффективное средство, но также не лишенное недостатков.
А что делать тем, кто использует устаревшую, но тем не менее еще не утратившую свою популярность, операционную систему Windows XP? Поиск этой ОС сильно ограничен в функциональном плане. Искать по содержимому возможно только в определенных типах файлов. Электронная почта и документы в формате PDF остаются недоступными. Кроме того, встроенный в XP поиск очень медленный.
Поиск данных на персональном компьютере
Как говорится, на спрос всегда есть предложение. Решений от сторонних разработчиков достаточно, только выбирай. Я своим читателям предлагаю утилиту “персональный поиск яндекса”.
Программа, на мой взгляд, действительно уникальная. Она позволяет осуществить поиск информации по файлам, сообщениям электронной почты, вложениям, а также в кэше (служебных файлах) браузеров.
А теперь внимание, скажите, многие из Вас пользуются Яндексом для поиска в Интернете? Но, мне кажется, каждый хотя бы пробовал. И отметил для себя адаптированность поисковика к русскоязычным запросам. Почти тот же самый механизм реализован и в программе “персональный поиск яндекса”.
В эту утилиту встроена возможность осуществления поиска с учетом морфологии русского языка:
- для существительных – с учетом падежа и числа;
- для глаголов – с учетом времени, числа и рода.
Например, при в воде в поле поиска программы слова “стол”, утилита выдаст результаты, в которых будут содержаться слова “столе”, “столом”, “столы” и т.д.
Настройка утилиты “персональный поиск яндекса”
- 1. Первое, что необходимо сделать это установить программу. Я думаю, с этим проблем не возникнет, просто укажите место установки. И в конце, и на последней страничке, если не хотите, чтобы по умолчанию в вашем браузере использовался поиск Яндекса, уберите соответствующую галочку. Нажмите “ОК” и через несколько секунд файл будет скачан. Вот проверенная ссылка для скачивания.
- 2. После установки запустите программу. После первого запуска “персональный поиск яндекса” (ППЯ) предложит сделать индексацию файлов. В предыдущей статье я уже рассказывал, что это значит. Но еще раз напомню, что какой бы программой для поиска Вы не пользовались, не отказывайтесь от этапа проведения индексация файлов. Ведь именно благодаря этому действию в последствии удается добиться такой эффективной работы поисковика.
Если значок программы выглядит так
или серого цвета, то процесс индексации еще не завершен. Сигналом готовности ППЯ к работе и завершения процесса индексации является ярко красная буква “Я”.
- 3. Утилита поддерживает несколько режимов индексации.
Для того, чтобы установить необходимый режим индексации щелкните по значку программы в системном трее, выберите пункт “Индексация” и определите подходящий режим индексации:
Принудительная – индексация будет проводиться во время работы компьютера;
Интеллектуальная – индексация запустится во время простоя компьютера (не активны мышь и клавиатура, процессор не нагружен);
Отключена – отключение индексации файлов.
- 4. По умолчанию, ППЯ запускается во время старта операционной системы. Чтобы отключить эту функцию, кликните по значку программы в системном трее, выберите пункт “Настроить…” и снимите указанную галочку:
Также в этом окне для удобства можно настроить горячие клавиши для вызова поиска и браузер для отображения результатов поиска.
Как пользоваться “персональным поиском яндекса”
1. Чтобы начать поиск с помощью утилиты “персональный поиск яндекса”, необходимо кликнуть по значку программы в системном трее, либо, если Вы настроили “горячие” клавиши для запуска, использовать их.
Программа для своей работы использует установленный по умолчанию браузер. Вам необходимо будет только ввести необходимое слово или фразу в строку поиска и дождаться появления результатов.
- 2. Если по Вашему запросу программа выдала слишком много результатов, то поставьте галочку “в найденном” и наберите уточняющий запрос. Если Вы желаете, чтобы поиск осуществлялся по точной словоформе, то перед словом укажите восклицательный знак – “!”.
- 3. Результаты поиска группируются по формату документа (в правой части окна): Документы, Музыка, Письма, Кэш, Файлы. Одним кликом можно осуществить сортировку по типу файла.
4. Также можно указать способ сортировки найденных файлов:
по релевантности – степень соответствия запроса найденному;
по дате – результаты отображаются в хронологическом порядке.
- 5. Если Вы желаете продолжить поиск в Интернете, то пролистайте страницу вниз и нажмите кнопку “в интернете”
Итак, мы рассмотрели еще одно средство для удобного поиска на компьютере и в Интернете. Уверен, Вы будете довольны результатами работы этой программы, как и я. Пользуйтесь на здоровье.
Если Вы в своей повседневной работе за компьютером используйте другую программу для поиска и она Вам нравится, напишите в комментариях, поделитесь с нами своим мнением. Заранее спасибо.
Источник: pc4me.ru