Метод автоматического индексирования документов при котором программа эвм анализирует

Процедура принятия решения о выборе наиболее эффективной компьютерной системы управления нова для большинства отечественных руководителей, а ее последствия во многом будут оказывать значительное влияние на предприятие в течение нескольких лет. Т.к. применение интегрированной ИС, которая отвечала бы требованиям предприятия (масштабу, специфике бизнеса и т.д.), позволила бы руководителю минимизировать издержки и повысить оперативность управления предприятием в целом.

Введение 3
Глава 1. Информационное обеспечение автоматизированной информационной системы 4
1.1 Понятие автоматизированной информационной системы в экономике 4
1.2 Структура и целостность автоматизированной информационной системы 8
1.3 Информационное обеспечение автоматизированной информационной системы 9
Глава 2. Построение кода сообщения 23
Заключение 25
Список используемой литературы

Содержимое работы — 1 файл

БЗ широко используются не только для извлечения знаний пользователями, но и для решения задач искусственного интеллекта. В составе экспертных систем применяются статические и динамические БЗ. Статическая БЗ содержит сведения, отображающие особенности конкретной предметной области и остающиеся неизменными в ходе решения задачи. Динамическая БЗ применяется для организации сведений, важных для решения конкретной задачи и изменяющихся в процессе ее решения. Генерация БЗ выполняется на основе механизма АИИС с помощью набора сведений, правил, аппарата логического вывода и др.

ECM и IoT

Значительную часть подсистемы «Информационное обеспечение» составляют лингвистические средства. Лингвистические средства АИС – это совокупность ИПЯ, методик индексирования и критерия смыслового соответствия АИС. В составе лингвистических средств содержатся следующие компоненты:

  • Информационно-поисковый язык;
  • методики индексирования документов;
  • типы, форматы, структуры информационных категорий (данные, показатели, записи, таблицы, файлы, документы с указанием их «шапок» и «боковиков», массивы и др.)
  • критерий смыслового соответствия (критерий выдачи) документов и (или) поисковых образов документов по различным классам документальной информации, содержащейся в БД.

В решении задач АИС связующее звено между пользователем и ЭВМ – информационно-поисковый язык.

Информационно-поисковый язык (далее ИПЯ) АИС – это упорядоченное множество понятий, терминов определенной предметной области, предназначенное для отображения содержания документов и запросов с целью обеспечения ввода документов и запросов в ЭВМ и осуществления последующего поиска данных. Словарная единица ИПЯ – ключевое слово, которое может быть как отдельным словом, так и словосочетанием. При условии устранения неоднозначности отдельных слов ключевые слова обозначаются как дескрипторы ИПЯ.

Посредством ИПЯ в технологии обработки данных осуществляется индексирование документов и запросов. Индексирование – это совокупность логических операций по отображению содержания документов и запросов средствами принятого ИПЯ. По уровню применения технических средств индексирование бывает ручное и автоматическое.

Видеоинструкция по подаче заявки на программу «Старт». Апрель 2020

При ручном индексировании процессы анализа документов и запросов выполняются без применения ЭВМ. При автоматическом индексировании ЭВМ выполняет функции анализа текстов документов и запросов, определения их значимости (весомости) и формирования состава дескрипторов поискового образа документов и поискового образа запросов.

При автоматическом индексировании ЭВМ поручаются функции дериватного, прописного индексирования и автоматической классификации. Так, например, дериватное индексирование, или индексирование извлечением, представляет собой метод автоматического индексирования документов, при котором программа ЭВМ анализирует лексический состав текстов и выбирает из них те слова и их сочетания, которые удовлетворяют заданным критериям.

Одним из таких критериев может быть критерий поиска. Программы автоматического индексирования довольно сложны и обычно относятся к продуктам высокоинтеллектуального труда. Автоматическое индексирование имеет относительно высокую стоимость и применяется в АИС, где это экономически или функционально оправдано. В результате индексирования получаются поисковые образы документов и поисковые образы запросов.

Следует различать ИПЯ классификационного и дескрипторного типов. Наибольший удельный вес в экономических АИС занимают ИПЯ классификационного типа – классификаторы и кодификаторы. С учетом классификаторов строится принципиальная схема управления экономическим объектом.

Классификатор – это систематизированная совокупность наименований и кодов языковых элементов определенной предметной области. Классификаторы строятся по иерархическому принципу. Исходное множество элементов делится на группировки следующего уровня деления и образуют древовидную систему группировок.

Для выделения группировок применяется соответствующий признак (основание) деления. Каждому элементу классификатора по принципу однозначного соответствия проставляется код. Код может быть цифровым, буквенным, комбинированным. По применяемому способу кодирования классификаторы имеют следующие основные разновидности:

  • десятичные классификации;
  • библиотечно-библиографические классификации (далее ББК);
  • фасетные классификации.

В десятичных классификациях множество объектов делится на десять частей, каждая из которых, в свою очередь, также делится на десять частей и т.д. Представитель десятичной классификации — универсальная десятичная классификация (далее УДК). УДК в современной информатике — это международная классификация, охватывающая все отрасли знаний, в том числе и экономику, она строится по десятичному принципу и используется в современных ИС, в том числе и АИС, для индексирования экономических и других документов и последующего их поиска в справочно-информационных фондах, автоматизированных базах данных и др.

ББК основана на порядке следования букв в том или ином алфавите. В России действует ББК, разработанная Всероссийской государственной библиотекой. Вся область знаний разбита на количество разделов (подобластей), равное количеству букв русского алфавита, за исключением «неудобных», в частности ь, ъ, и. На втором и последующем уровнях деления каждый уровень также разделяется на такое же количество подразделов и т. д.

Фасетная классификация – это разновидность системы классификации, в которой реализована возможность классификации объектов параллельно по нескольким различным признакам. Возможность параллельной классификации не означает принципиальную обязательность этого условия для всех фасетных классификаций. Так, например, поставщик комплектующих изделий при определенных условиях может быть идентифицирован как кредитор и (или) дебитор.

В соответствии с принципом фасетной классификации в России разработана и применяется Единая система классификации и кодирования. Она включает в себя следующие классификаторы:

  1. общегосударственные – разрабатываются в централизованном порядке, едины и обязательны для применения по всей стране;
  2. отраслевые – разрабатываются соответствующими отраслями для решения задач. Отраслевые классификаторы в определенных случаях могут быть задействованы и в АИС других отраслей, например, шифры счетов бухгалтерского учета применяются во многих отраслях деятельности;
  3. локальные – разрабатываются предприятиями на номенклатуры, относящиеся только к данному предприятию, например коды предоставляемых услуг, коды (табельные номера) сотрудников и др.

Эффективность автоматизированной обработки информации требует предварительного представления ее в удобной и компактной форме, что достигается в процессе ее кодирования. Код — это элемент системы условных обозначений объекта или элементов информационной совокупности в виде знака или группы знаков, выраженных цифрами, буквами, символами и различными сигналами.

Процесс присвоения объектам кодовых обозначений называется кодированием. Основная цель кодирования состоит в однозначном определении объектов, а также в обеспечении необходимой достоверности кодируемой информации. При проектировании кодов к ним предъявляется ряд требований:

  • охват всех объектов, подлежащих кодированию, и их однозначное определение;
  • возможность увеличения количества объектов кодирования без изменения правил их обозначения;
  • удобство восприятия и запоминания кодовых обозначений экономистом, обеспечивающее простоту заполнения, чтения и обработки статистического отчета;
  • максимальная информативность кода при минимальном его формате (значности) с целью эффективной обработки информации;
  • возможность использования кодов для автоматического получения сводных итогов;
  • возможность автоматического контроля кодовых обозначений с целью обнаружения ошибок.

Разумеется, поиск нужных документов АИС возможен при условии обеспечения единообразия индексирования документов и запросов. Существенный компонент лингвистических средств – методы индексирования. В рамках АИС индексированию подвергаются документы, вводимые в БД, и запросы на поиск данных. Индексированию подвергаются входные документы АИС, содержащие документальную и фактографическую информацию. Аналитико-синтетическая переработка документов, содержащих документальную информацию, строится по традиционной схеме путем выделения в документах формальных и содержательных признаков, ключевых слов дескрипторного языка и фиксирования их в формате ПОД.

Читайте также:
Чит программа на shadow fight 2

Индексирование документов, содержащих фактографическую информацию, выполняется посредством применения языков классификационного типа. Каждая классификационная рубрика (реквизит-признак) снабжается соответствующим шифром (кодом) классификатора.

В организации стратегии и эффективности поиска документальной информации большое значение имеет критерий поиска – условие поиска данных, указываемого в запросе или программе. В общем смысле критерий поиска обозначает степень соответствия найденных данных условию поиска. Разновидность критерия поиска – критерий выдачи.

Критерий выдачи, или критерий смыслового (семантического) соответствия (КСС), относится к процедуре поиска документальной информации и в значительной мере способствует улучшению качества поиска в документальных БД АИС. Критерий смыслового соответствия – это правило, определяющее степень смысловой близости ПОД и ПОЗ и формирующее решение о выдаче данного документа в ответ на запрос пользователя.

При поиске документов в документальных БД не всегда происходит полное совпадение ключевых слов ПОД и ПОЗ. Иногда выданный по запросу список документов может быть неполным и неточным. Критерий смыслового соответствия служит для управления выдачей релевантных, т.е. совпадающих по смыслу запроса пользователей АИС документов. Методика его построения и механизм применения в основном идентичен его статусу в информационно-поисковых системах других программных областей. В зависимости от характера БД и уровня логической проработки стратегии поиска различают критерии смыслового соответствия, основанные на статистических способах вычисления степени соответствия, логические полиномы, весовые критерии.

При поиске данных в фактографических БД совпадение между ПОД и ПОЗ должно быть полным. В данном случае классификационные группировки и элементы индексируются одинаковыми однозначными кодами, что и обеспечивает 100 %-ное совпадение ПОД и ПОЗ.

Глава 2. Построение кода сообщения

Заключение

Люди организуют свою деятельность в силу разных причин — чтобы закончить работу или задание, чтобы сократить или удалить дублирование действий, чтобы создать центры ответственности, чтобы обеспечить стабильность. Информационные системы должны поддерживать эти цели.

  1. Основой функционирования информационной системы является ее информационное обеспечение, в части, базы данных, базы знаний и лингвистические и средства.
  2. Большинство БД использует табличный способ представления, где данные располагаются по строкам (которые называются записями) и столбцам (которые называются полями), однако не любая таблица представляет собой БД, поскольку БД должны содержать только независимую (первичную) информацию.

В последнее время наибольшее распространение получили реляционные БД, которые имеют независимую организацию взаимосвязи логических и физических записей. Отношения между данными построены в виде двухмерных таблиц и наделены определенными признаками. Каждый элемент таблицы отображает одно данное. Элементы столбца таблицы имеют одинаковую природу, отображая одно свойство (признак) в строке (записи) таблицы.

Источник: www.turboreferat.ru

Автоматическое индексирование

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автомати­ческой обработки (индекс документа).

Различают ручное и автоматическое индексирование. При руч­ном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрип­торов. Преимущество ручного индексирования состоит в его ка­честве, недостатком является низкая производительность и, сле­довательно, высокая стоимость. Кроме того, при ручном ин­дексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может по­лучить различные индексы.

При автоматическом индексировании (АИ) индексирование осу­ществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача авто­матического индексирования состоит в распознавании в словофор­ме соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежно­сти словоформы слову.

Задачами морфологического анализа текста являются: выделе­ние из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результа­те морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные ав­томатические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания сло­воформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов.

Счи­тается, что и развитом языке насчитывается десятки миллионов по­нятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отно­шениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразова­ния слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя предста­вить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отно­шениях между словами. Поэтому для более полного и точного рас­познавания смысла текста в развитых системах АИ помимо морфо­логического анализа осуществляется и автоматический синтаксиче­ский анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Осно­вой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представля­ются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные техноло­гии автоматического индексирования текста. Например, техноло­гия «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, кото­рый является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии яв­ляется значительное увеличение скорости индексирования и по­иска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия се­мантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% сло­воупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки ин­формативности лексических единиц, составляющих текст. Счита­ется, что как очень редкие, так и очень часто встречаемые терми­ны не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в доку­мент; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автомати­чески, посредством достаточно простых операций, получить све­дения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении’ информативности слов не всегда при­водит к адекватным результатам. Например, удаление часто встре­чающихся терминов уменьшает полноту, а удаление редко встре­чающихся терминов снижает точность поиска. Поэтому статисти­ческие методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

Читайте также:
При обновлении версии программы возникла ошибка файл базы данных поврежден

В современных информационно-поисковых системах часто пре­дусмотрено и ручное и автоматическое индексирование.

Структуры информационно-поисковых

Массивов в ИПС

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован раз­личными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами — номерами доку­ментов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содер­жащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информацион­ного массива — прямую и инверсную.

При прямой организации каждому документу соответствует пе­речень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой ор­ганизации для примера, приведенного в подразделе 20.4, будет вы­глядеть следующим образом (см. рис. 20.2).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.

Недостатком прямой организации поиска является необходи­мость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

Адрес документа Ключевые слова
D1 S2, S3
D2 S1, S3, S5
D3 S1, S3
D4 S3, S6
D5 S3, S4, S5
D6 S3, S4
D7 S1, S2, S4, S5
D8 S1, S3
D9 S2, S3, S4, S5

Рис. 20.2. Прямая схема организации информационного массива

Инверсный способ организации поискового массива предусмат­ривает создание инвертированной матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом) (см. рис. 20.3).

Слова Адреса документов
S1 D2, D3, 07, D8
S2 D1, 02, D3, D4, D5, D6, D8,D9
S3 D1, D2, D3. D4, D5, Dб, 08,D9
S4 D5, D6, D7, D8, D9
S5 D2, D5, D7, D9
S6 D4

Рис. 20.3. Инверсная схема организации информационного массива

Простой индекс можно представить как бинарное отношение I(v,a), в котором «v» — слово, взятое из текста, «а» — список адресов документов, содержащих это слово. Каждый кортеж инвертирован­ного индекса называется инвертированным списком.

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровожда­ются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса/Таким образом, отпадает необходимость в последовательном просмотре всего инфор­мационного массива и значительно сокращается время поиска.

При индексировании (инвертировании) текста документа воз­можны различные варианты.

В случае частичного инвертирования в индекс включают инфор­мативные ключевые слова, т.е. формируется поисковый образ доку­мента.

При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в индекс.

В случае неполного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В каче­стве незначимых слов выступают союзы, предлоги и прочие служеб­ные части речи.

При инвертировании всех значащих слов текста документов, файлы инвертированных матричных индексов могут достигать ги­гантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матри­цу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к дан­ным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индекс­ных структур состоит в использовании В-деревьев, листьями кото­рых являются ссылки на документы.

Списки адресов в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации эффективного доступа к дан­ным индекс может храниться, например, в трех разных файлах, свя­занных указателями. Первый файл — индексный файл состоит из полей: слово; указатели пересылок. Второй файл — пересылок, со­стоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.

В инвертированных матричных индексах может также храниться дополнительная информация. Например, данные о месте вхождения термина, статистические данные о термине, слова, связанные пара­дигматическими отношениями с данным термином, и др.

Информация о месте вхождения термина это — зона, абзац, пред­ложение и номер слова в предложении. Эти данные могут указы­ваться для каждого вхождения термина в документ и для каждого документа, содержащего данный термин. Данные о положении сло­ва используются для реализации некоторых видов контекстного по­иска.

В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть число вхождений термина в доку­мент. Частота документа есть число документов, содержащих дан­ный термин. Данные о частоте встречаемости используются в раз­личных схемах поиска, основанных на весах или рангах терминов.

Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит автоматическое связывание инверти­рованных списков всех терминов, синонимичных указанному в за­просе. Это значительно повышает полноту поиска.

В дополнение к прямой и инвертированной схемам в ИПС ис­пользуется так называемый атрибутный индекс. Он позволяет хра­нить данные о документе, не содержащиеся непосредственно в его тексте. Например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекать­ся из документа либо вноситься вручную при вводе документа в систему.

Структура атрибутного индекса соответствует стандарту пред­ставления структурированной информации — т.е. это таблица с зара­нее заданными полями. На рис. 20.4 представлен пример организа­ции поискового файла — атрибутного индекса, в котором все доку­менты характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, назва­ние. Поиск по атрибутному индексу осуществляется средствами об­работки запросов СУБД — выдаются только те документы, значе­ния атрибутов которых удовлетворяют условиям запроса.

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно мень­ше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

Автор Вид документа Дата издания Название
Правительство РФ Постановление №1172 7.11.96 Об утверждении Положения о порядке контроля за вывозом из РФ товаров и технологий двойного назначения, экспорт которых контролируется
Центральный банк РФ Приказ № 02-368 27.09.97 О введении в действие Инструк­ции № 49 «0 порядке регистра­ции кредитных организаций и лицензирования банковской деятельности»
ГТКРФ Письмо № 01-14/1104 1.10.96 0 применении Положения о таможенном перевозчике

Рис. 20.4. Пример атрибутного индекса

В современных ИПС реализованы как атрибутное индексирова­ние, так и инвертированное матричное. Это позволяет, например, отыскать все документы, созданные за определенный период време­ни, и при этом содержащие конкретную фразу. Первая часть поис­ка — по дате — выполняется с помощью атрибутного индекса, а вто­рая часть — по заданному набору слов — на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись доку­ментами, принятыми каким-либо органом, или за определенный период (дату).

Читайте также:
Какие программы для интернета на Андроид

Источник: megalektsii.ru

Координатное индексирование

Принцип координатного индексирования заключается в том что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, т.е. наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса.

Содержание

Координатное (или посткоординатное) индексирование – это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Согласно ГОСТ Р 7.0.66-2010 координатное индексирование — это индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования. Совокупность ключевых слов и дескрипторов составляет поисковый образ документа (ПОД).

Принцип координатного индексирования заключается в том что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, т.е. наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса.

Координатное индексирование представляет собой такой метод анализа информационного содержания документов, при котором поиск осуществлялся путем логической координации, т. е. за счет операций логического умножения, сложения и дополнения, выполняемых над введенными в систему лексическими единицами. При координатном индексировании в ПОД может включаться неограниченное число ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске. Однако исходя из экономических соображений число терминов на документ при его индексировании имеет некоторый предел.

Посткоординатное индексирование осуществляется на базе ИПЯ посткоординатного типа, чаще всего на базе дескрипторных ИПЯ. Лексические единицы поискового образа при таком индексировании задаются списком, перечнем и сочетаются друг с другом после поступления запроса (отсюда — «посткоординация», т. е. последующая координация).

Принцип координатного индексирования и сама идея создания ДИПЯ (дескрипторных информационно-поисковых языков) возникли в 50-е гг. XX в. связи с внедрением в информационную деятельность средств вычислительной техники и необходимостью автоматизации информационного поиска.

Принцип координатного индексирования был разработан американскими учеными М. Таубе и К. Муэрсом в первой половине 50-х гг. XX в. в связи с попытками механизации и автоматизации информационного поиска.

В частности, в 1952 г. М. Таубе предложил систему «Унитерм», работающую по принципу координатного индексирования. «Унитерм» (от англ, unit term — «единичный термин, отдельное слово») — полнозначное, имеющее большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слово, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы.

По степени нормализации различают два типа терминов координат ного индексирования — дескрипторы и ключевые слова.

Одним из средств, позволяющих обеспечить явное выражение полезных для поиска парадигматических отношений при переводе текста сообщений с естественного языка на ИПЯ, является избыточное, т. е. дополнительное индексирование, суть которого состоит в терминологическом обогащении поискового образа документа или запроса.

Избыточное индексирование — вид индексирования, при котором в ПОД или в ПОЗ включаются лексические единицы ИПЯ, отсутствующие в индексируемом тексте, но добавляемые индексатором на основании его знаний, опыта и/или использования информационно-поискового тезауруса.

Оно предусматривает дополнение ПОД словами ИПЯ, связанными парадигматическими отношениями с лексическими единицами исходного поискового образа, в результате чего получается полный поисковый образ документа. Источником лексических единиц, использующихся при избыточном индексировании, чаще всего является информационно-поисковый тезаурус.

В качестве основного лингвистического средства помощи индексатору в процессе координатного индексирования рассматриваются информационно-поисковые тезаурусы. Они облегчают отбор соответствующих запросу лексических единиц. И в этом качестве тезаурусы сравниваются с иерархическими классификациями. Преимуществом использования тезауруса можно считать его полииерархичность, т.к. построение тезауруса от общего к частному позволяет обеспечить значительно большее количество разнообразных семантических взаимосвязей между лексическими единицами.

Основополагающим документом, регламентирующим методику координатного индексирования, является ГОСТ 7.66–92. В нем подробно прописана методика и правила отбора дескрипторов, однако он больше ориентирован на индексирование с использованием тезаурусов, а не на свободное индексирование, которое в библиотечной практике больше распространено.

Методика

В качестве КС при координатном индексировании используются лексические единицы (ЛЕ), представляющие слова (унитермы), терминологические словосочетания, фразы (в исключительных случаях), аббревиатуры, численные характеристики, хронологические данные, имена собственные, символические обозначения.

При формировании перечня ключевых слов не допускается использование аббревиатур и сокращений слов, не предусмотренных ГОСТом.

Выбранные из текста информативные слова, применяемые в качестве ключевых, при необходимости, дополняются, уточняются, изменяются.

Существуют определенные правила приведения ключевых слов к стандартной лексикографической форме.

Прилагательные не считаются самостоятельными ключевыми словами, они включаются в словосочетания:

  • а) когда характеризуют существительное, например, биржевые операции;
  • б) когда прилагательное является неотъемлемой частью устойчивого словосочетания, например, магнитные бури, производственные отношения

Сочетания существительного с существительным даются, если это широко распространенные и устойчивые, часто употребляемые
словосочетания, например, источники света, средства связи.

Словосочетание из одного существительного и нескольких прилагательных преобразуется в несколько двухсловных ключевых слов, в которых одно и то же существительное сопровождается поочередно одним прилагательным, например, мировые финансовые кризисы = мировые кризисы, финансовые кризисы.

В сочетаниях существительных с прилагательными инверсия не применяется.

В словосочетаниях числительного с существительным применяется инверсия. Порядковые числительные инверсируются тогда, когда они обозначают очередность явления или события при последовательном их повторении, например, Олимпийские игры, 18-е

Преимущество метода координатного индексирования проявляется при необходимости многоаспектного поиска информации на определенную тему. В этом заключается его преимущество по сравнению с языком предметных рубрик, который, в силу своей специфики, не способен глубоко отразить тему документа и обеспечить многоаспектный поиск. По предметным рубрикам нельзя найти какой-то аспект темы, невозможно перечислить, например, все персоналии, отраженные в книге. Основные достоинства этого подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее индексированных по этому методу.

  1. Агаркова И. А. Лингвистическое обеспечение процессов каталогизации научной библиотеки / И.А. Агаркова, Г.С. Щербинина // Библиотеки вузов Урала. – 2011. – № 10. — С. 89-110.
  2. Индексирование документов. Общие требования к координатному индексированию : ГОСТ 7.0.66-2010. – М., 2011.
  3. Гендина Н. И. Лингвистические средства библиотечно-информационных технологий : учебник по направлению подготовки 071900 «Библиотечно-информационная деятельность» (квалификация «бакалавр») / Н. И. Гендина. — Санкт-Петербург : Профессия, 2015. — 439 с.
  4. Скипор И. Л. Методика координатного индексирования / И. Л. Скипор // Фонды и каталоги Кузбасса : Опыт. Проблемы. Решения.: Сб. — 2002. — Вып.1. — С. 139-146. – URL: http://www.libhelp.ru/documents/founds/vip1/vip1.24.htm

08.01.2022, 2342 просмотра.

Источник: myfilology.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru