Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы. Информационно-поисковая система (И.-пс) – совокупность программных, языковых и технических средств, предназначенных для хранения, поиска и выдачи по запросу требуемой информации.
Поисковые cистемы обычно состоят из трех компонент:
агент (паук или кроулер), который перемещается по Сети и собирает информацию;
база данных, которая содержит всю информацию, собираемую пауками;
поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Lycos. В Lycos используется следующий механизм индексации:
Какой самый лучший поиск в России. Лучшие поисковики в рф. Как работает поиск.
слова в title заголовке имеют высший приоритет;
слова в начале страницы;
слова в ссылках;
если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ — релевантность этого документа возрастает.
Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению.
Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа «Like this», но намечается его расширение и на другие способы организации поисковых предписаний.
AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:
слова содержащиеся в теге title имеют высший приоритет; ключевые фразы в Meta тэгах;
ключевые фразы, находящиеся в начале странички;
ключевые фразы в ALT — ссылках
ключевые фразы по количеству вхожденийприсутствия словфраз;
Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)
Наиболее интересная возможность AltaVista — это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа.
Как работает поисковая система
AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR.
При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске.
При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:
слова в заголовке title имеют наивысший приоритет;
слова в теге keywords, description и частота вхожденийповторений в самом тексте;
при повторении одинаковых слов рядом выбрасывает из индекса
Допускает до 1024 символов для тега keywords, 200 символов для тэга description;
Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;
Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» — термин обязан быть в документе, и «-» — термин должен отсутствовать в документе.
Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.
Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.
Поисковая система Hot Bot (Хот Бот) самая молодая из рассматриваемых нами всемирных поисковых систем. Так же как Yahoo и Infoseek, в ней имеется каталог, но кроме него информация выдаётся по запросам, как в системе Alta Vista. Мы в опыте осуществим поиск по запросам, а вы можете самостоятельно осуществить поиск в каталоге Hot Bot.
Ø Введите адрес страницы hotbot.lycos.com. Будет загружена начальная страница данной поисковой системы (Рис. 4).
Рис. 4. Начальная страница системы Hot Bot
Выполнить простой запрос, аналогично тому, как мы искали информацию в других поисковых системах.
Ø Введите в поле ввода запроса слово интернет. Если вы формируете запрос на английском языке, то введите слово internet document.
Ø Нажмите кнопку Advanced Search (Поиск). Расположенную правее поля ввода. Мы получили список найденных страниц. Он содержит несколько десятков страниц
Как вы видите, обычный поиск в данной системе аналогичен такой же операции в других системах. Но расширенные возможности поиска в системе Hot Bot реализованы достаточно оригинально. Для ввода запросов не требуется знать специальные правила, запросы формируются вами прямо на данной странице путём ввода значений и выбора других значений из списка.
Система Hot Bot достаточно удобна для поиска. Количество ссылок в системе растёт быстрыми темпами, но при этом скорость работы системы остаётся достаточно высокой.
Ещё одной системой, с которой мы познакомимся, будет система Яндекс.
Ø Введите адрес yandex.ru. Будет загружена начальная страница данной поисковой системы. (Рис. 9).
Вы можете ввести запрос в поле ввода и установить некоторые параметры запроса с помощью флажков, расположенных на данной странице. Давайте введём запрос и выполним поиск информации.
Ø Введите в поле ввода запроса слова поиск Интернет. Мы хотим найти документы, содержащие эти два слова.
Ø Установите флажок Везде. В этом случае поиск будет осуществлён во всех доступных местах.
Ø Нажмите кнопку Найти. Вы получите список найденных страниц.
Из поисковых систем Яндекс, пожалуй, пользуется наибольшей популярностью среди русскоязычных посетителей Интернета. В системе Яндекс так же имеется возможность перехода по ссылкам, однако, если вы хотите воспользоваться не поиском, а системой каталогов, лучше воспользоваться другими поисковыми системами.
Расширенный поиск — это средство уточнения параметров Вашего поиска.
Источник: studfile.net
Современные поисковые системы
Поисковая система – это программно-аппаратный комплекс с веб-интерфейсом, который позволяет осуществлять поиск информации в Интернете.
Обычно под поисковой системой подразумевается сайт, на котором размещен интерфейс (фронт-энд) системы.
Программной частью поисковой системы является поисковая машина (поисковый движок) – комплекс программ, которые обеспечивают функциональность поисковой системы и которые, как правило, являются коммерческой тайной компании-разработчика.
Большинство поисковых систем глобальны и они ищут информацию на сайтах Всемирной паутины, но также существуют локальные системы, способные искать файлы на FTP-серверах, товары в интернет-магазинах, в группах новостей Usenet , в локальных сетях (например, в социальных сетях).
В 2011 году рынок поисковых систем выглядел следующим образом:
Одним из первых инструментов поиска в интернете был Archie , а првой поисковой системой для Всемирной паутины был уже не существующий индекс Wandex .
Сегодня размещение поисковой контекстной рекламы в Яндексе позволяет получить доступ к половине пользователей Рунета. Другая система Google обеспечивает треть поискового трафика в России. Сильно отстают от лидера системы Rambler и Mail.ru .
Поисковая система Google
Поисковик Google – наиболее популярный в мире, лидирует во всех странах, кроме России и Китая.
Доля популярности среди остальных поисковых систем составляет до 70%.
Поисковая система обрабатывает более 40 миллиардов запросов в месяц, а в индексе Google находится более 10 миллиардов страниц, представленных почти 200 языками мира.
На российском рынке Google занимает почти 25%.
Поисковик Google характеризуется стабильностью системы и поисковых алгоритмов, обусловленной большим количеством индексируемых сайтов.
Основными факторами ранжирования Google являются:
Размер сайта (не менее 100 страниц уникального текста).
Понятная структура сайта.
Ключевые слова в заголовке, соответствие заголовка содержанию страницы, и уникальность заголовка.
Ссылочная популярность, как с других сайтов, так и из социальных сетей ( Google , Facebook, Twitter и т.д.).
Сквозные и перекрестные ссылки на сайте, перелинковка.
Возраст сайта.
Имя домена, включающего или нет ключевое слово.
Тематическая релевантность внешних ссылок.
Ключевые слова в теле текста и их плотность.
Качество новых внешних ссылок на сайт.
Доступность сервера для ботов.
Наличие дубликата контента.
Ссылки на плохие или спам-сайты.
Участие в ссылочных схемах, активная продажа ссылок.
Поисковая система Bing
Поисковая система Bing по своим основными факторам ранжирования похожа на Google. Yahoo! и Microsoft заключили сделку, в результате которой поисковые технологии Bing стали использоваться при выдаче на Yahoo.com.
Поисковая система Яндекс
Доля Яндекса на российском рынке продолжает неуклонно расти. По итогам 2010 года Яндекс вырос на 5.2% (по данным LiveInternet.ru ) и занимает около двух третей поискового рынка нашей страны.
Основными алгоритмами 2010 года стали «Снежинск», «Конаково», «Обнинск», «Краснодар».
Конаково – введено ранжирование по 1250 городам.
Обнинск – появление книг, бесплатных библиотек в выдаче по коммерческим запросам, снижение роли молодых сайтов.
Краснодар – усиление поведенческих факторов, применение технологии «Спектр», учет статистики переходов на сайты.
Возможность проверки ответа сервера в Вебмастере.
Возможность поиска всех копий изображений в Яндекс.Картинках.
Запуск нового сервиса Яндекс.Недвижимость, позволяющего искать по тематическим объявлениям.
Развитие технологии МатриксНет, заложенной в 2009 году, привело к тому, что «просчитать» факторы ранжирования стало очень сложно, а для большинства оптимизаторов – невозможно.
На лидирующих позициях в поисковой выдаче Яндекса остались сайты, работа над которыми проводилась комплексно. Сайты, попавшие в выдачу с помощью искусственного манипулирования, ушли в прошлое (покупные ссылки, переоптимизированные тексты, работа с продвигаемыми страницами, а не со всем сайтом в целом и т.д.).
Факторов ранжирования стало очень много, а кроме этого, они в различных случаях по-разному сочетаются друг с другом.
Исчезли «портянки» на главных страницах (огромные полотна текста) и снизилась роль покупных ссылок.
В 2010 году Яндекс заложил основы в оценку поведенческих факторов в ранжировании.
В 2011 году продолжилось значительное продвижение в этой области.
Яндекс начал анализировать не только на какие сайты чаще всего переходят люди по одним и тем же запросам, но и насколько эти сайты соответствуют ожиданиям пользователей (сколько страниц прочитано, сколько времени пользования сайтом и т.д.).
Согласно исследованию TNS Gallup Media , аудитория российского интернет-пользователя поисковой системы Яндекс, выглядит следующим образом:
52% – мужчины и 48% – женщины;
Возраст наиболее активных интернет-пользователей: от 18 до 44 лет (80% всей аудитории результатов поиска);
20% – руководители, 27% – специалисты, 12% – служащие, 26% – учащиеся,
15% – другая занятость;
В среднем пользователи используют Яндекс 19,6 раз в неделю и 6,8 раз в сутки (12-54 лет).
Подробнее в книге «Медиапланирование» .
Источник: www.nazaykin.ru
Поисковая программа которая является частью поисковой системы
Структура и принцип работы поисковых систем.
Поисковая система (поисковик, ПС) – программно-аппаратный комплекс с веб интерфейсом. Осуществляющий функции поиска по сети Интернет.
Части поисковой системы:
WEB Spider (паук) – программа работающая как интернет обозреватель. Служит для получения информации со страниц интернет ресурсов.
Crawler (краулер) – программа обрабатывает ссылки которые связывают страницы и указывает путь пауку.
Indexer (индексер) – программа занимается анализом информации на страницы, текстового и графического наполнения.
Database (база данных) – база данных , в которой храниться индекс поисковой системы и сохраненная информация с проиндексированных веб страниц.
Search results engine (поисковая машина) – программная часть которая осуществляет оценку и сортировку сохраненной информации
Web server (веб сервер)– сервер, который взаимодействует между пользователем и поисковой системой
Поисковой индекс – это рубрикатор по своей сути схожий с оглавлением книги. Технология индекса используется в поисковых машинах для более быстрого доступа и оценки сохраненной информации. При создании поискового индекса используются элементы математики, лингвистики, конгнетивной психологии и информатики.
В индексе хранится информация о содержании, тематике страницы, соответствии ключевым словам, информация о ссылках страницы и многое другое.
Ранжирование сайтов – сортировка результатов поисковой системы. Компания google учитывает более 200 характеристик для оценки соответствия страницы сайта поисковому запросу.
Из учета всех характеристик ПС формирует релевантность страницы.
Релевантность – это показатель соответствия страницы как информационного ответа относительно запроса поисковой системы. В релевантности учитывается не только лингвистическое соответствие но и применимость «адекватность» данного результата.
Траст сайта (доверие ПС) – одной из характеристик сайта является некое значение «доверия» поисковой системы относительно этого сайта.
Косвенными показателями траста сайта являются численные показатели качества сайта или страницы.
Для ПС google таким показателям является PR
PageRank (пейдж ранк) – назван в честь его изобретателя Лари Пейджа. Изменяется от 0 до 10 также может иметь значение «не определен». По сути, является алгоритмом ссылочного ранжирования, то есть показывает, на сколько определенная страница важнее относительно других страниц учитывая ссылочный вес этих страниц. Также пейдж ранк можно рассматривать как показатель вероятности пребывания пользователя на конкретной странице учитывая только ссылочные связи. Пейдж ранк имеет экспоненциальную природу, это означает, что значение PR 10 в десятки тысяч раз больше чем значение PR 1.
Поисковая система Yandex использует показатель ТИЦ
Тематический индекс цитирования (тИЦ) — технология поисковой машины Яндекс заключающаяся в определении авторитетности интернет-ресурсов с учётом качественной характеристики — ссылок на них с других сайтов. тИЦ рассчитывается по специально разработанному алгоритму, в котором особое значение придаётся тематической близости ресурса и ссылающихся на него сайтов.
ТИЦ определяется суммарным весом ссылающихся сайтов. Не могут влиять на тИЦ сайты, где любой человек может поставить свою ссылку без ведома администратора ресурса.
Продвижение сайтов с точки зрения поисковых систем это:
- Анализ содержания или структуры вашего сайта
- Технические рекомендации по разработке веб-сайта, например: хостинг, переадресация, страницы с сообщениями об ошибках, использование JavaScript
- Разработка содержания
- Управление кампаниями по развитию бизнеса в Интернете
- Анализ ключевых слов
- Обучение в области поисковой оптимизации
- Опыт работы на определенных рынках и географических территориях
Источник: www.seo-sign.com