Как называется компьютерная программа которая выполняет содержимое поискового указателя

Поисковый индекс сайта — это база данных, содержащая информацию о веб-страницах, которые поисковая система индексирует и использует для поиска информации. Когда ПС обходит веб-сайты, она анализирует содержимое каждой страницы и добавляет эту информацию в индекс. Он может содержать множество данных, таких как ключевые слова, описание содержимого страницы, заголовки, ссылки на другие страницы и другую информацию.

После индексации, содержимое сайта становится доступным для поиска пользователями в поисковых системах. Когда пользователь вводит запрос в поисковой строке, поисковая система использует свои индексы, чтобы найти соответствующие страницы и показать их в результатах поиска.

Чтобы обеспечить эффективную индексацию вашего сайта, важно создавать качественный контент, использовать ключевые слова, оптимизировать заголовки страниц и мета-описания, а также соблюдать правила построения ссылок на сайте. Все это помогает поисковым системам лучше понимать содержимое вашего сайта и добавлять его в свои индексы.

как решать 5 задание ЕГЭ по информатике 2023

Индекс поисковых систем – это база (структура) данных, которая содержит информацию о страницах сайтов. Информация заносится в индекс поисковыми роботами, которые учитывают ряд факторов при анализе ресурса:

  • качество текстового наполнения,
  • графические объекты,
  • внутренние и внешние ссылки и т. д.

Когда пользователь вводит свой запрос в строку поиска, система обращается к базе данных за ответом. В это время происходит ранжирование страниц по релевантности – формируется список сайтов от более полезных к менее полезным.

Индексация сайта

Индексация: что это и как работает

Чтобы понять, что такое индексация сайта, нужно обратиться еще раз к первому определению. Если индекс – это база данных, то индексацией называется процесс сбора и добавления данной информации в нее. Таким образом, создается выжимка документов. Все результаты, которые мы видим в поисковой системе, были бы невозможны без этого процесса.

Кстати, он может происходить 2 способами: автоматически и вручную. В первом случае робот самостоятельно находит сайт при переходе по внешним ссылкам с других ресурсов или после сканирования файл-карты sitemap.xml. Во втором случае индексацию инициирует сам владелец ресурса. Для этого ему нужно добавить URL сайта в специальную форму поисковой системы.

Необходимость индексировать веб-ресурсы возникла еще в середине 90-х годов прошлого века. Сначала база данных представляла собой подобие предметного указателя с ключевыми словами, найденными на сайтах. Собственно, они и являлись главным элементом ранжирования. Но за 30 лет алгоритм значительно усложнился.

Количество сайтов выросло в несколько тысяч раз, и оценка их полезности для пользователей изменилась. Сегодня перед попаданием в индекс информация оценивается с привлечением искусственного интеллекта.

Дополнительные возможности поиска и анализа информации на платформе Web of Science

Как работает индексация

Поисковые роботы: виды, как работают

Поисковый робот (бот, паук) – это программа, которая выполняет сканирование сайтов. Фактически это основной элемент любой поисковой системы, без которого невозможна ее работа.

Выделяют 2 типа ботов:

  • основные – предназначены для сканирования всего контента на сайте и отдельных страницах;
  • быстрые – проводят анализ только новой информации, добавленной после очередного обновления.

Еще есть поисковые роботы, которые осуществляют индексацию rss-ленты, медиафайлов и др. Сначала в базу попадают все новые сайты, подходящие под требования поисковой системы. При повторном визите ботов информация только дополняется деталями.

От чего зависит скорость индексации страниц

Чем быстрее веб-ресурс будет проверен роботом и добавлен в индекс, тем лучше для SEO. Скорость зависит как от самих поисковых систем, так и от характеристик сайта. В Яндексе индексация обычно занимает 1–2 недели, в Google – несколько дней. Также на скорость влияет выбор движка сайта и доменной зоны, частота наполнения контентом, внешние и внутренние ссылки, дополнительные инструменты, ограничения в robots.txt, корректно заполненный файл sitemap.xml и др. Для некоторых ресурсов (например, информационных порталов) задействуется специальный робот, который посещает сайт один или даже несколько раз в день.

Как ускорить индексацию? Следуйте основным советам:

  • отдайте предпочтение быстрому и надежному хостингу;
  • установите правила индексации в файле robots.tx и снимите ненужные запреты;
  • устраните дубли и ошибки в коде страниц;
  • в корневой папке создайте карту сайта sitemap.xml;
  • организуйте простую и понятную навигацию по сайту (желательно, чтобы все страницы были доступны не более чем в 3 клика от главной);
  • добавьте сайт в панели веб-мастеров Google и Яндекс;
  • создайте эффективную внутреннюю перелинковку страниц;
  • регулярно актуализируйте контент;
  • зарегистрируйте ресурс в авторитетных рейтингах;
  • оцените объем flash-элементов.

Последний пункт связан с тем, что подобные визуальные объекты снижают долю поискового трафика, роботы просто не могут в полной мере выполнить индексацию. Также не рекомендуется размещать ключевую информацию в формате PDF – боты сканируют только текстовое содержимое документа.

Как проверить индексацию

Как проверить индексацию

Проверка индексации – первая задача SEO-оптимизации. Ее можно провести следующими способами.

С помощью информации из панели веб-мастеров. Для этого откройте сервисы Google, зайдите в Search Console, а следом в раздел «Индекс Google». Интересующая вас информация находится в блоке «Статус индексирования». Если вы пользуйтесь Яндекс.Вебмастером, пройдите по цепочке: «Индексирование сайта» — «Страницы в поиске».

С помощью специальных плагинов. Это дополнения для браузера, позволяющие провести проверку индексации страниц. Наиболее популярным среди них считается RDS Bar.

С помощью поиска по сайту с использованием специальных операторов. Необходимо использовать запрос с конструкцией «site:», после которой указать полный адрес ресурса. Этот способ позволяет вычислить количество проиндексированных страниц. Если от разных поисковых систем вы получили сильно разнящиеся данные, то это сигнал о наличии проблем. Как правило, это говорит о том, что сайт находится под фильтром.

Источник: www.sape.ru

Что не относится к сайтам а история браузера б социальная сеть в wiki г поисковик

5. Выделенные слова или фразы на Web-странице при нажатии на которые выполняется переход на другую Web-страницу называются:

6. Интернет – это:

1) Почтовая сеть

2) Корпоративная сеть

3) Локальная сеть

+4) Глобальная сеть

7. Какой элемент может быть гиперссылкой:

+4) Текст и рисунок

8. Гипертекст – это.

1) Большой по объему текст

+2) Способ организации текстовой информации, внутри которой установлены смысловые связи между ее различными фрагментами

3) Совокупность баз данных с текстами

4) текст, набранный большими буквами

1) Программа шпион

+2) Программа для просмотра web-сайтов

3) Поисковая программа – часть поисковой системы

тест 10. Выберите самую популярную в мире поисковую систему:

11. Какой логической связке соответствует изображение

вопрос теста Логическая связка Канарейки  щеглы</p><p>2) Канарейки | щеглы</p><p>12. Какой логической связке соответствует изображение</p><p><img decoding=

17. Выберите верное определение поисковых систем.

1) Это организации, где сидят специально обученные люди, обрабатывающие запросы пользователей

+2) Поисковые системы располагаются на специально выделенных компьютерах с мощными каналами связи

3) Программа на компьютере, которая ищет информацию в Интернете

4) Это и есть система World Wide Web

18. Назначение браузера Internet Explorer:

1) Набор документов

2) Просмотр графических файлов

3) Общение в сети

+ 4) Просмотр гипертекстовых документов

19. Для такого что бы найти в Интернете информацию о цветущих кустарниках Урала, следует внести поисковый запрос:

17. Выберите верное утверждение.
Авторские посты, размещаемые пользователями в социальных сетях и блогах:
а) никогда не содержат персональной информации, поэтому их публикация не несет серьезных последствий
б) всегда содержат излишнюю персональную информацию о человеке, что может навредить не только его репутации, но и личной безопасности
в) оцениваются читателями по-разному, поэтому невозможно предсказать, как публикация поста отразится на репутации его автора +

18. Укажите устройство для подключения компьютера к сети:
а) мышь
б) модем +
в) сканер

19. При просмотре веб-сайтов и общении через Интернет:
а) Вы оставляете электронные следы, которые можно удалить самому
б) Вы оставляете электронные следы, которые хранятся только на Вашем компьютере
в) Вы оставляете электронные следы («цифровые отпечатки»), по которым можно определить, какие страницы Вы просматривали и какой IP-адрес компьютера Вы использовали +

20. Главной функцией брандмауэра является:
а) пополнительное офисное приложения для работы с базами данных
б) защита компьютера от взлома хакерами, а также всевозможных вирусов и «троянов» +
в) упрощение и оптимизация работы операционной системы

22. Когда можно полностью доверять новым онлайн-друзьям:
а) поговорив по телефону
б) ничего не может дать 100 %-ную гарантию того, что онлайн-другу можно доверять +
в) после обмена фотографиями

23. Что делать, если вам пришло письмо о том, что вы выиграли в лотерее:
а) связаться с отправителем по телефону
б) перейти по ссылке в письме, ведь информация может оказаться правдой
в) удалить его и заблокировать отправителя +

24. Какую информацию о себе можно выкладывать в Интернете в открытом доступе:
а) место работы родителей
б) о своих интересах +
в) номер телефона

25. Как защититься от негативного контента:
а) обратиться к автору негативного контента
б) не обращать на него внимания
в) использовать безопасный поиск Google и безопасный режим на YouTube +

26. В каком случае нарушается авторское право:
а) при использовании материалов Википедии для подготовки доклада со ссылкой на источник
б) при размещении на YouTube собственного видеоролика с концерта какой-либо группы +
в) при просмотре трансляций на официальном сайте телеканала

27. Троянская программа опасна тем, что:
а) проникает на компьютер под видом полезной программы и выполняет вредоносные действия без ведома пользователя +
б) обладает всеми вышеперечисленными возможностями
в) вынуждает пользователя возвращать долги данайцев

28. Клавиатурный шпион:
а) юридический термин, используемый для обозначения правонарушений, связанных с информационной безопасностью
б) физический термин, используемый для обозначения правонарушений, связанных с информационной безопасностью
в) программа, отслеживающая ввод пользователем паролей и пин-кодов +

29. Что не является персональными данными:
а) история болезни +
б) паспортные данные
в) фамилия, имя, отчество

30. Что делать, если вы стали жертвой интернет-травли:
а) сыпать угрозами в ответ, предлагать встретиться и разобраться
б) обратиться в администрацию ресурса с просьбой наказать обидчика +
в) выкинуть компьютер

Какую информацию о веб-странице собирает поисковый робот?

  • Количество посещений веб-страницы
  • Слова в заголовке веб-страницы
  • Количество гиперссылок, ведущих на веб-страницу
  • Слова, часто повторяющиеся на веб-странице
  • Автор веб-страницы
Вопрос 3

Как называются сервисы, предназначенные для поиска веб-страниц, содержащих необходимую информацию во Всемирной паутине?

  • Гиперссылки
  • Форумы
  • Поисковые системы
  • Поисковые запросы
Вопрос 4

Как называется компьютерная программа, которая пополняет содержимое поискового указателя?

  • Сыщик
  • Поисковый агент
  • Поисковый робот
  • Поисковый код
Вопрос 5

Как называется поисковая система, работающая на основании пользовательских запросов?

  • Поисковый робот
  • Поисковый каталог
  • Поисковый паук
  • Поисковый указатель
Вопрос 6

Какие разновидности поисковых систем существуют?

  • Поисковые роботы
  • Поисковые указатели
  • Поисковые каталоги
  • Поисковые каналы
Вопрос 7

Как называется поисковая система, которая представляет собой список сайтов, разделённый на категории?

  • Поисковый робот
  • Поисковый паук
  • Поисковый указатель
  • Поисковый каталог
Вопрос 8
  • Поисковая система
  • Поисковый робот
  • Поисковый указатель
  • Поисковый каталог
Вопрос 9

Как называется то, что пользователь вводит в поисковую строку поискового указателя?

Составьте слово из букв:

Вопрос 10

При помощи какого логического оператора поисковых запросов нужно соединить два слова, чтобы поисковый указатель нашёл веб-страницы, на которых содержаться оба слова?

Все в больших моментах они пересекаются. И очень важно, чтобы мы с вами, как люди, работающие на просторах интернета, обязательно учитывали эти интересы.

Для чего нам нужно использовать оба эти инструмента? Да потому, что каждый в отдельности и seo и smm дают отличные результаты, но использование их в совокупности дает не 100% кпд, а 130%. На этом сайте мы подробно разбираем и продвижение в поисковых системах и работу в социальных сетях.

В тот момент, когда соцсети стали интегрировать в себя свои поисковые системы, они начали составлять определенную конкуренцию для поисковых систем.

И на сегодняшний день эта интеграция усиливается, так как мы знаем, что поисковые системы все больше и больше учитывают в своих факторах ранжирования поведенческие функции.

Приведу статистику по Рунету:

  • 450 млн. пользователей ежемесячно вводят 11 млрд. запросов. Как мы видим, аудитория поисковых систем просто огромна, и она постоянно растет.
  • 90% посетителей веб-сайтов приходят на них из поисковых систем.
  • 75% посетителей при переходе на сайт отдают предпочтение органической выдаче, а не рекламным блокам.

Именно здесь таится камень преткновения между самими сайтами и поисковыми системами.

SEO против SMM

Задачи поисковых систем

Задача поисковых систем сформировать такие алгоритмы, которые будут способствовать тому, чтобы сайты, находящиеся в топ выдаче, максимально соответствовали запросам пользователей.

Задача же самих сайтов – находится там в независимости от того отвечают ли они на этот запрос или нет. Именно из этого и формируется противостояние.

Сервисы контекстной рекламы Яндекс Директ и Google Adwords хотят увеличить количество пользователей, пользующихся контекстной рекламой, так как это инструмент монетизации поисковых систем.

Владельцы же сайтов и их продвигающие заинтересованы в бесплатном использовании поисковых систем, в виде органической выдачи, что не менее эффективно, чем контекстная реклама.

Смотрите также: Как бороться с воровством контента и что делать, если уже сперли

Это и есть основные принципы seo-продвижения, когда сайт показывается как можно выше в органической выдаче. Для этого компании вкладывают средства в продвижение и оптимизацию сайтов, чтобы этого достичь.

В результате, чем больше будут усложняться алгоритмы поисковых систем, тем более они будут индивидуальны и тем больше количества сайтов перейдет в контекстную рекламу, так все сайты завязаны на продажах и не могут себе позволить их не совершать.

Чем ниже рейтинг сайта, тем больше он будет вкладывать в контекстную рекламу. Отсюда и заинтересованность поисковых систем в создании как можно больше алгоритмов ранжирования. 42% покупателей приходят за покупками с поисковых систем (читайте об эволюции интернет-покупателей).

Тенденции развития поисковых систем

Поисковые машины: состав, функции, принцип работы

Поисковая система — это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google», «Yahoo», «MSN». В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Читайте также:
В какой программе лучше всего рисовать спрайты

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.

База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени — владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.

1.2 Особенности поисковых систем

В работе поисковый процесс представлен четырьмя стадиями: формулировка (происходит до начала поиска); действие (начинающийся поиск); обзор результатов (результат, который пользователь видит после поиска); и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности). Более удобная нелинейная схема поиска информации состоит из следующих этапов:

— фиксация информационной потребности на естественном языке;

— выбор нужных поисковых сервисов сети и точная формализация записи информационной потребности на конкретных информационно-поисковых языках (ИПЯ);

— выполнение созданных запросов;

— предварительная обработка и выборка полученных списков ссылок на документы;

— обращение по выбранным адресам за искомыми документами;

— предварительный просмотр содержимого найденных документов;

— сохранение релевантных документов для последующего изучения;

— извлечение из релевантных документов ссылок для расширения запроса;

— изучение всего массива сохраненных документов;

— если информационная потребность не полностью удовлетворена, то возврат к первому этапу.

1.3 Принципы работы поисковых систем

Задача любой поисковой системы – доставлять людям ту информацию, которую они ищут. Научить людей делать “правильные” запросы, т.е. запросы, соответствующие принципам работы поисковых систем невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям именно ту информацию, которую они ищут. Это означает, поисковая система должна “думать” также как думает пользователь при поиске информации.

Поисковые системы в большинстве своем работает по принципу предварительного индексирования. По такому же принципу работают база данных большинства поисковых систем.

Есть и другой принцип построения. Прямой поиск. Он заключается в том, что вы в поиске ключевого слова перелистываете книгу страницу за страницей. Конечно, этот способ гораздо мене эффективен.

В варианте с инвертированным индексом поисковые системы сталкиваются с проблемой величины файлов. Как правило, они значительно велики. Эту проблему обычно решают двумя методами. Первый заключается в том, что из файлов удаляется все лишнее, а остается лишь то, что действительно нужно для поиска. Второй метод заключается в том, что для каждой позиции запоминается не абсолютный адрес, а относительный т.е. разница адресов между текущей и предыдущей позициями.

Таким образом, два главных процесса, выполняемых поисковой системой – это индексирование сайтов, страниц и поиск. В общем, процесс индексирования для поисковиков проблем не вызывает. Проблемой является обработка миллиона запросов в сутки. Это связано с большими объемами информации, которая подвергается обработке больших компьютерных комплексов.

Главный фактор, определяющий количество участвующих в поиске серверов, — поисковая нагрузка. Это объясняет некоторые странности возникающие при поиске информации.

Поисковые системы состоят из пяти отдельных программных компонент:

spider (паук): браузероподобная программа, которая скачивает веб-страницы.

crawler: «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице.

indexer (индексатор): «слепая» программа, которая анализирует веб-страницы, скаченные пауками.

the database (база данных): хранилище скаченных и обработанных страниц.

search engine results engine (система выдачи результатов): извлекает результаты поиска из базы данных.

Spider: Паук – это программа, которая скачивает веб-страницы. Он работает точно как ваш браузер, когда вы соединяетесь с веб-сайтом и загружаете страницу. Паук не имеет никаких визуальных компонент. То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу и когда выбираете «просмотр HTML-кода» в своем браузере.

Crawler: Как и паук скачивает страницы, он может «раздеть» страницу и найти все ссылки. Это его задача – определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов.

Indexer: Индексатор разбирает страницу на различные ее части и анализирует их. Элементы типа заголовков страниц, заголовков, ссылок, текста, структурных элементов, элементов BOLD, ITALIC и других стилевых частей страницы вычленяются и анализируются.

Database: База данных – это хранилище всех данных, которые поисковая система скачивает и анализирует. Это часто требует огромных ресурсов.

Search Engine Results: Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования поисковой системы. Эта информация является наиболее ценной и интересной для нас – именно с этим компонентом поисковой системы взаимодействует оптимизатор, пытаясь улучшить позиции сайта в выдаче, поэтому в дальнейшем мы подробно рассмотрим все факторы, влияющие на ранжирование результатов.

Работа поискового указателя происходит в три этапа, из кото­рых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает инфор­мацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры.

Они способны скопи­ровать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гипетэссылки, которые на ней имеютте ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических про­грамм, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-простран­ство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посе­щенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.

После копирования разысканных Web-ресурсов на сервер поис­ковой системы начинается второй этап работы — индексация. Индексирование страниц производится специальной программой называемой роботом. У каждой поисковой машины таких роботов очень много. Все это служит целью параллельного скачивания документов из различных мест сети.

Скачивать документы по очереди не имеет смысла, так малоэффективно. Представьте себе постоянно растущее дерево. На стволах которого вновь и вновь появляются лепесточки (страницы сайтов). Конечно же, вновь появляющиеся сайты будет проиндексированы значительно быстрее, если роботов пустить по каждому ответвлению дерева, а не делать это последовательно.

Читайте также:
Потребление каких ресурсов может быть уменьшено в вашем алгоритме а в дальнейшем и в программе

Технически модуль скачивания бывает либо мультимедийным (Altavista Merkator), либо используется асинхронный ввод-вывод (GoogleBot). Также разработчикам постоянно приходится решать задачу многопоточного DNS-сервера.

В мультитредовой схеме скачивающие треды называются червями (worms), а их менеджер – погоняльщиком червей (wormboy).

Не многие серверы выдержат нагрузки нескольких сотен червей, поэтому менеджер следит затем, чтобы не перегружать серверы.

Для скачивания страниц роботы используют протоколы HTTP. Работает он следующим образом. Робот на сервер передает запрос “get/path/document” и другие полезные строки, относящиеся в HTTP запросу. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

Целью скачивания является уменьшение сетевого трафика при максимальной полноте.

Абсолютно все поисковые роботы подчиняются файлу robots.txt, где web мастер может ограничить индексацию страниц роботом.Также у роботов есть и свои фильтры.

Например, некоторые роботы опасаются индексировать динамические страницы. Хотя сейчас web мастеры без проблем обходят эти места. Да и таких роботов остается все меньше.

Также у каждого бота есть список ресурсов, отнесенных к спаму. Соответственно, эти ресурсы посещаются ботами значительно меньше, либо вообще игнорируются в течение определенного времени, при этом поисковые системы не фильтруют информацию

У моделей скачивания в поддержке есть другие модули, выполняющие вспомогательные функции. Они помогают уменьшать трафик, увеличивать глубину поиска, обрабатывают часто обновляемые ресурсы, хранят URL и ссылки, чтобы повторно не скачивать ресурсы.

Существуют модули отслеживания дубликатов. Они помогают отсеивать страницы с повторной информацией. Т.е. если робот находит дубликат уже существующей страницы или со слегка измененной информацией, то он просто не идет дальше по ссылкам страницы.Есть отдельный модуль определения кодировки и языка документа.

После того как страница было скачена, она обрабатывается html-парсером. Он оставляет лишь ту информацию от документа, которая действительно важна для поиска: текст, шрифты, ссылки и т.д. Хотя сейчас роботы индексируют почти все. И javascript и флэш-технологии. Но, тем не менее не стоит забывать про некоторую ограниченность роботов.

В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выда­вать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.

На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку. Найти (Search).

По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и фор­мирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.

Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поис­ковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.

Несколько тысяч — это еще не так много, потому что зарубеж­ная поисковая система в аналогичной ситуации выдала бы сотни тысяч ссылок. Попробуйте найти среди них нужную! Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион.

Как правило, кли­енты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиен­тов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант — когда подряд идут несколько ссылок, веду­щих к одному и тому же ресурсу, но находящемуся на разных серверах.

Клиент вправе ожидать, что самыми первыми будут стоять наи­более полезные ссылки. Вот здесь и возникает проблема. Чело­век легко отличает полезный ресурс от бесполезного, но как объяснить это программе?! Поэтому лучшие поисковые сис­темы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресур­сов. И делать это они должны быстро — клиент не любит ждать.

Строго говоря, все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каж­дая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. Операция сортировки полу­ченных результатов называется ранжированием. Каждой най­денной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество — понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.

Высокие рейтинги получают Web-страницы, у которых клю­чевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благопри­ятно влияет на рейтинг вхождение нужного слова впервые 5-6 абзацев текста — они считаются самыми важными при индек­сации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каж­дая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.

Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстра­ции. Для поисковой системы это верный признак того, что дан­ная страница точно соответствует запросу. Еще одним призна­ком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше.

Значит, эта Web-страница популярна и обладает высо­ким показателем цитирования. Самые совершенные поиско­вые системы следят за уровнем цитирования зарегистрирован­ных ими Web-страниц и учитывают его при ранжировании.

Создатели Web-страниц всегда заинтересованы в том, чтобы их просматривало больше людей, поэтому они специально гото­вят страницы так, чтобы поисковые системы давали им высо­кий рейтинг. Хорошая, грамотная работа Web-мастера способ­на значительно поднять посещаемость Web-страницы, однако есть и такие «мастера», которые пытаются обмануть поиско­вые системы и придать своим Web-страницам значимость, кото­рой в них на самом деле нет. Они многократно повторяют на Web-странице какие-то слова или группы слов, а для того чтобы те не попадались на глаза читателю, либо делают их исключи­тельно мелким шрифтом, либо применяют цвет текста, сов­падающий с цветом фона. За такие «хитрости» поисковая сис­тема может и наказать Web-страницу, присвоив ей штрафной отрицательный рейтинг.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

Источник: studopedia.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru