Метод автоматического индексирования документов при котором программа эвм анализирует

Содержание

Процедура принятия решения о выборе наиболее эффективной компьютерной системы управления нова для большинства отечественных руководителей, а ее последствия во многом будут оказывать значительное влияние на предприятие в течение нескольких лет. Т.к. применение интегрированной ИС, которая отвечала бы требованиям предприятия (масштабу, специфике бизнеса и т.д.), позволила бы руководителю минимизировать издержки и повысить оперативность управления предприятием в целом.

Введение 3
Глава 1. Информационное обеспечение автоматизированной информационной системы 4
1.1 Понятие автоматизированной информационной системы в экономике 4
1.2 Структура и целостность автоматизированной информационной системы 8
1.3 Информационное обеспечение автоматизированной информационной системы 9
Глава 2. Построение кода сообщения 23
Заключение 25
Список используемой литературы

Содержимое работы — 1 файл

БЗ широко используются не только для извлечения знаний пользователями, но и для решения задач искусственного интеллекта. В составе экспертных систем применяются статические и динамические БЗ. Статическая БЗ содержит сведения, отображающие особенности конкретной предметной области и остающиеся неизменными в ходе решения задачи. Динамическая БЗ применяется для организации сведений, важных для решения конкретной задачи и изменяющихся в процессе ее решения. Генерация БЗ выполняется на основе механизма АИИС с помощью набора сведений, правил, аппарата логического вывода и др.

ECM и IoT

Значительную часть подсистемы «Информационное обеспечение» составляют лингвистические средства. Лингвистические средства АИС – это совокупность ИПЯ, методик индексирования и критерия смыслового соответствия АИС. В составе лингвистических средств содержатся следующие компоненты:

Информационно-поисковый язык;
методики индексирования документов;
типы, форматы, структуры информационных категорий (данные, показатели, записи, таблицы, файлы, документы с указанием их «шапок» и «боковиков», массивы и др.)
критерий смыслового соответствия (критерий выдачи) документов и (или) поисковых образов документов по различным классам документальной информации, содержащейся в БД.

В решении задач АИС связующее звено между пользователем и ЭВМ – информационно-поисковый язык.

Информационно-поисковый язык (далее ИПЯ) АИС – это упорядоченное множество понятий, терминов определенной предметной области, предназначенное для отображения содержания документов и запросов с целью обеспечения ввода документов и запросов в ЭВМ и осуществления последующего поиска данных. Словарная единица ИПЯ – ключевое слово, которое может быть как отдельным словом, так и словосочетанием. При условии устранения неоднозначности отдельных слов ключевые слова обозначаются как дескрипторы ИПЯ.

Посредством ИПЯ в технологии обработки данных осуществляется индексирование документов и запросов. Индексирование – это совокупность логических операций по отображению содержания документов и запросов средствами принятого ИПЯ. По уровню применения технических средств индексирование бывает ручное и автоматическое.

Видеоинструкция по подаче заявки на программу «Старт». Апрель 2020

При ручном индексировании процессы анализа документов и запросов выполняются без применения ЭВМ. При автоматическом индексировании ЭВМ выполняет функции анализа текстов документов и запросов, определения их значимости (весомости) и формирования состава дескрипторов поискового образа документов и поискового образа запросов.

При автоматическом индексировании ЭВМ поручаются функции дериватного, прописного индексирования и автоматической классификации. Так, например, дериватное индексирование, или индексирование извлечением, представляет собой метод автоматического индексирования документов, при котором программа ЭВМ анализирует лексический состав текстов и выбирает из них те слова и их сочетания, которые удовлетворяют заданным критериям.

Одним из таких критериев может быть критерий поиска. Программы автоматического индексирования довольно сложны и обычно относятся к продуктам высокоинтеллектуального труда. Автоматическое индексирование имеет относительно высокую стоимость и применяется в АИС, где это экономически или функционально оправдано. В результате индексирования получаются поисковые образы документов и поисковые образы запросов.

Следует различать ИПЯ классификационного и дескрипторного типов. Наибольший удельный вес в экономических АИС занимают ИПЯ классификационного типа – классификаторы и кодификаторы. С учетом классификаторов строится принципиальная схема управления экономическим объектом.

Классификатор – это систематизированная совокупность наименований и кодов языковых элементов определенной предметной области. Классификаторы строятся по иерархическому принципу. Исходное множество элементов делится на группировки следующего уровня деления и образуют древовидную систему группировок.

Для выделения группировок применяется соответствующий признак (основание) деления. Каждому элементу классификатора по принципу однозначного соответствия проставляется код. Код может быть цифровым, буквенным, комбинированным. По применяемому способу кодирования классификаторы имеют следующие основные разновидности:

десятичные классификации;
библиотечно-библиографические классификации (далее ББК);
фасетные классификации.

В десятичных классификациях множество объектов делится на десять частей, каждая из которых, в свою очередь, также делится на десять частей и т.д. Представитель десятичной классификации — универсальная десятичная классификация (далее УДК). УДК в современной информатике — это международная классификация, охватывающая все отрасли знаний, в том числе и экономику, она строится по десятичному принципу и используется в современных ИС, в том числе и АИС, для индексирования экономических и других документов и последующего их поиска в справочно-информационных фондах, автоматизированных базах данных и др.

ББК основана на порядке следования букв в том или ином алфавите. В России действует ББК, разработанная Всероссийской государственной библиотекой. Вся область знаний разбита на количество разделов (подобластей), равное количеству букв русского алфавита, за исключением «неудобных», в частности ь, ъ, и. На втором и последующем уровнях деления каждый уровень также разделяется на такое же количество подразделов и т. д.

Фасетная классификация – это разновидность системы классификации, в которой реализована возможность классификации объектов параллельно по нескольким различным признакам. Возможность параллельной классификации не означает принципиальную обязательность этого условия для всех фасетных классификаций. Так, например, поставщик комплектующих изделий при определенных условиях может быть идентифицирован как кредитор и (или) дебитор.

В соответствии с принципом фасетной классификации в России разработана и применяется Единая система классификации и кодирования. Она включает в себя следующие классификаторы:

общегосударственные – разрабатываются в централизованном порядке, едины и обязательны для применения по всей стране;
отраслевые – разрабатываются соответствующими отраслями для решения задач. Отраслевые классификаторы в определенных случаях могут быть задействованы и в АИС других отраслей, например, шифры счетов бухгалтерского учета применяются во многих отраслях деятельности;
локальные – разрабатываются предприятиями на номенклатуры, относящиеся только к данному предприятию, например коды предоставляемых услуг, коды (табельные номера) сотрудников и др.

Эффективность автоматизированной обработки информации требует предварительного представления ее в удобной и компактной форме, что достигается в процессе ее кодирования. Код — это элемент системы условных обозначений объекта или элементов информационной совокупности в виде знака или группы знаков, выраженных цифрами, буквами, символами и различными сигналами.

Процесс присвоения объектам кодовых обозначений называется кодированием. Основная цель кодирования состоит в однозначном определении объектов, а также в обеспечении необходимой достоверности кодируемой информации. При проектировании кодов к ним предъявляется ряд требований:

охват всех объектов, подлежащих кодированию, и их однозначное определение;
возможность увеличения количества объектов кодирования без изменения правил их обозначения;
удобство восприятия и запоминания кодовых обозначений экономистом, обеспечивающее простоту заполнения, чтения и обработки статистического отчета;
максимальная информативность кода при минимальном его формате (значности) с целью эффективной обработки информации;
возможность использования кодов для автоматического получения сводных итогов;
возможность автоматического контроля кодовых обозначений с целью обнаружения ошибок.

Разумеется, поиск нужных документов АИС возможен при условии обеспечения единообразия индексирования документов и запросов. Существенный компонент лингвистических средств – методы индексирования. В рамках АИС индексированию подвергаются документы, вводимые в БД, и запросы на поиск данных. Индексированию подвергаются входные документы АИС, содержащие документальную и фактографическую информацию. Аналитико-синтетическая переработка документов, содержащих документальную информацию, строится по традиционной схеме путем выделения в документах формальных и содержательных признаков, ключевых слов дескрипторного языка и фиксирования их в формате ПОД.

Глава 2. Построение кода сообщения

Заключение

Люди организуют свою деятельность в силу разных причин — чтобы закончить работу или задание, чтобы сократить или удалить дублирование действий, чтобы создать центры ответственности, чтобы обеспечить стабильность. Информационные системы должны поддерживать эти цели.

Основой функционирования информационной системы является ее информационное обеспечение, в части, базы данных, базы знаний и лингвистические и средства.
Большинство БД использует табличный способ представления, где данные располагаются по строкам (которые называются записями) и столбцам (которые называются полями), однако не любая таблица представляет собой БД, поскольку БД должны содержать только независимую (первичную) информацию.

В последнее время наибольшее распространение получили реляционные БД, которые имеют независимую организацию взаимосвязи логических и физических записей. Отношения между данными построены в виде двухмерных таблиц и наделены определенными признаками. Каждый элемент таблицы отображает одно данное. Элементы столбца таблицы имеют одинаковую природу, отображая одно свойство (признак) в строке (записи) таблицы.

Источник: www.turboreferat.ru

Автоматическое индексирование

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).

Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.

При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.

Задачами морфологического анализа текста являются: выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов.

Считается, что и развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представляются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, который является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в документ; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении’ информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.

Структуры информационно-поисковых

Массивов в ИПС

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами — номерами документов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информационного массива — прямую и инверсную.

При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой организации для примера, приведенного в подразделе 20.4, будет выглядеть следующим образом (см. рис. 20.2).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.

Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

Адрес документа	Ключевые слова
D1	S2, S3
D2	S1, S3, S5
D3	S1, S3
D4	S3, S6
D5	S3, S4, S5
D6	S3, S4
D7	S1, S2, S4, S5
D8	S1, S3
D9	S2, S3, S4, S5

Рис. 20.2. Прямая схема организации информационного массива

Инверсный способ организации поискового массива предусматривает создание инвертированной матрицы, в которой и происходит поиск (ее называют инвертированным матричным индексом) (см. рис. 20.3).

Слова	Адреса документов
S1	D2, D3, 07, D8
S2	D1, 02, D3, D4, D5, D6, D8,D9
S3	D1, D2, D3. D4, D5, Dб, 08,D9
S4	D5, D6, D7, D8, D9
S5	D2, D5, D7, D9
S6	D4

Рис. 20.3. Инверсная схема организации информационного массива

Простой индекс можно представить как бинарное отношение I(v,a), в котором «v» — слово, взятое из текста, «а» — список адресов документов, содержащих это слово. Каждый кортеж инвертированного индекса называется инвертированным списком.

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровождаются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса/Таким образом, отпадает необходимость в последовательном просмотре всего информационного массива и значительно сокращается время поиска.

При индексировании (инвертировании) текста документа возможны различные варианты.

В случае частичного инвертирования в индекс включают информативные ключевые слова, т.е. формируется поисковый образ документа.

При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в индекс.

В случае неполного инвертирования в индекс включаются все значимые слова текста документов, а незначимые удаляются. В качестве незначимых слов выступают союзы, предлоги и прочие служебные части речи.

При инвертировании всех значащих слов текста документов, файлы инвертированных матричных индексов могут достигать гигантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матрицу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к данным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индексных структур состоит в использовании В-деревьев, листьями которых являются ссылки на документы.

Списки адресов в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации эффективного доступа к данным индекс может храниться, например, в трех разных файлах, связанных указателями. Первый файл — индексный файл состоит из полей: слово; указатели пересылок. Второй файл — пересылок, состоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.

В инвертированных матричных индексах может также храниться дополнительная информация. Например, данные о месте вхождения термина, статистические данные о термине, слова, связанные парадигматическими отношениями с данным термином, и др.

Информация о месте вхождения термина это — зона, абзац, предложение и номер слова в предложении. Эти данные могут указываться для каждого вхождения термина в документ и для каждого документа, содержащего данный термин. Данные о положении слова используются для реализации некоторых видов контекстного поиска.

В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть число вхождений термина в документ. Частота документа есть число документов, содержащих данный термин. Данные о частоте встречаемости используются в различных схемах поиска, основанных на весах или рангах терминов.

Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит автоматическое связывание инвертированных списков всех терминов, синонимичных указанному в запросе. Это значительно повышает полноту поиска.

В дополнение к прямой и инвертированной схемам в ИПС используется так называемый атрибутный индекс. Он позволяет хранить данные о документе, не содержащиеся непосредственно в его тексте. Например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из документа либо вноситься вручную при вводе документа в систему.

Структура атрибутного индекса соответствует стандарту представления структурированной информации — т.е. это таблица с заранее заданными полями. На рис. 20.4 представлен пример организации поискового файла — атрибутного индекса, в котором все документы характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД — выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.

Поиск по атрибутному индексу выполняется быстрее, чем по инвертированному матричному индексу, но имеет значительно меньше поисковых возможностей. Однако атрибутный индекс позволяет находить информацию, не являющуюся составной частью текста документа. Кроме того, файлы атрибутных индексов значительно меньше по размеру файлов инвертированных матричных индексов с полным текстом, поскольку в этом случае с каждым документом связано гораздо меньше хранимой информации.

Автор	Вид документа	Дата издания	Название
Правительство РФ	Постановление №1172	7.11.96	Об утверждении Положения о порядке контроля за вывозом из РФ товаров и технологий двойного назначения, экспорт которых контролируется
Центральный банк РФ	Приказ № 02-368	27.09.97	О введении в действие Инструкции № 49 «0 порядке регистрации кредитных организаций и лицензирования банковской деятельности»
ГТКРФ	Письмо № 01-14/1104	1.10.96	0 применении Положения о таможенном перевозчике

Рис. 20.4. Пример атрибутного индекса

В современных ИПС реализованы как атрибутное индексирование, так и инвертированное матричное. Это позволяет, например, отыскать все документы, созданные за определенный период времени, и при этом содержащие конкретную фразу. Первая часть поиска — по дате — выполняется с помощью атрибутного индекса, а вторая часть — по заданному набору слов — на основе инвертированного матричного индекса. Разрешается и обратная последовательность отбора. Так, если пользователь из всей базы предварительно получил список документов, содержащих сведения о льготах по уплате подоходного налога, он может сузить этот список, ограничившись документами, принятыми каким-либо органом, или за определенный период (дату).

Координатное индексирование

Принцип координатного индексирования заключается в том что основной смысл документа или информационного запроса выражается в виде перечня ключевых слов, т.е. наиболее значимых слов или словосочетаний, которые являются как бы координатами документа или запроса.

Содержание

Координатное (или посткоординатное) индексирование – это индексирование, предусматривающее многоаспектное выражение основного смыслового содержания документа или смыслового содержания информационного запроса множеством ключевых слов или дескрипторов. Согласно ГОСТ Р 7.0.66-2010 координатное индексирование — это индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования. Совокупность ключевых слов и дескрипторов составляет поисковый образ документа (ПОД).

Координатное индексирование представляет собой такой метод анализа информационного содержания документов, при котором поиск осуществлялся путем логической координации, т. е. за счет операций логического умножения, сложения и дополнения, выполняемых над введенными в систему лексическими единицами. При координатном индексировании в ПОД может включаться неограниченное число ключевых слов, что способствует сокращению потерь информации, обеспечивает большую гибкость и увеличение совпадений терминов при поиске. Однако исходя из экономических соображений число терминов на документ при его индексировании имеет некоторый предел.

Посткоординатное индексирование осуществляется на базе ИПЯ посткоординатного типа, чаще всего на базе дескрипторных ИПЯ. Лексические единицы поискового образа при таком индексировании задаются списком, перечнем и сочетаются друг с другом после поступления запроса (отсюда — «посткоординация», т. е. последующая координация).

Принцип координатного индексирования и сама идея создания ДИПЯ (дескрипторных информационно-поисковых языков) возникли в 50-е гг. XX в. связи с внедрением в информационную деятельность средств вычислительной техники и необходимостью автоматизации информационного поиска.

Принцип координатного индексирования был разработан американскими учеными М. Таубе и К. Муэрсом в первой половине 50-х гг. XX в. в связи с попытками механизации и автоматизации информационного поиска.

В частности, в 1952 г. М. Таубе предложил систему «Унитерм», работающую по принципу координатного индексирования. «Унитерм» (от англ, unit term — «единичный термин, отдельное слово») — полнозначное, имеющее большую смысловую нагрузку (в отличие от служебных слов, предлогов и союзов) слово, которое выбирается из текста документа или запроса. В качестве унитермов могут выступать только отдельные слова, но не словосочетания. Следовательно, язык системы «Унитерм» характеризуется первым уровнем интеграции лексики. Например, термин информационно-поисковые системы на языке этой системы преобразуется в три унитерма: информационный, поисковый, системы.

По степени нормализации различают два типа терминов координат ного индексирования — дескрипторы и ключевые слова.

Одним из средств, позволяющих обеспечить явное выражение полезных для поиска парадигматических отношений при переводе текста сообщений с естественного языка на ИПЯ, является избыточное, т. е. дополнительное индексирование, суть которого состоит в терминологическом обогащении поискового образа документа или запроса.

Избыточное индексирование — вид индексирования, при котором в ПОД или в ПОЗ включаются лексические единицы ИПЯ, отсутствующие в индексируемом тексте, но добавляемые индексатором на основании его знаний, опыта и/или использования информационно-поискового тезауруса.

Оно предусматривает дополнение ПОД словами ИПЯ, связанными парадигматическими отношениями с лексическими единицами исходного поискового образа, в результате чего получается полный поисковый образ документа. Источником лексических единиц, использующихся при избыточном индексировании, чаще всего является информационно-поисковый тезаурус.

В качестве основного лингвистического средства помощи индексатору в процессе координатного индексирования рассматриваются информационно-поисковые тезаурусы. Они облегчают отбор соответствующих запросу лексических единиц. И в этом качестве тезаурусы сравниваются с иерархическими классификациями. Преимуществом использования тезауруса можно считать его полииерархичность, т.к. построение тезауруса от общего к частному позволяет обеспечить значительно большее количество разнообразных семантических взаимосвязей между лексическими единицами.

Основополагающим документом, регламентирующим методику координатного индексирования, является ГОСТ 7.66–92. В нем подробно прописана методика и правила отбора дескрипторов, однако он больше ориентирован на индексирование с использованием тезаурусов, а не на свободное индексирование, которое в библиотечной практике больше распространено.

Методика

В качестве КС при координатном индексировании используются лексические единицы (ЛЕ), представляющие слова (унитермы), терминологические словосочетания, фразы (в исключительных случаях), аббревиатуры, численные характеристики, хронологические данные, имена собственные, символические обозначения.

При формировании перечня ключевых слов не допускается использование аббревиатур и сокращений слов, не предусмотренных ГОСТом.

Выбранные из текста информативные слова, применяемые в качестве ключевых, при необходимости, дополняются, уточняются, изменяются.

Существуют определенные правила приведения ключевых слов к стандартной лексикографической форме.

Прилагательные не считаются самостоятельными ключевыми словами, они включаются в словосочетания:

а) когда характеризуют существительное, например, биржевые операции;
б) когда прилагательное является неотъемлемой частью устойчивого словосочетания, например, магнитные бури, производственные отношения

Сочетания существительного с существительным даются, если это широко распространенные и устойчивые, часто употребляемые
словосочетания, например, источники света, средства связи.

Словосочетание из одного существительного и нескольких прилагательных преобразуется в несколько двухсловных ключевых слов, в которых одно и то же существительное сопровождается поочередно одним прилагательным, например, мировые финансовые кризисы = мировые кризисы, финансовые кризисы.

В сочетаниях существительных с прилагательными инверсия не применяется.

В словосочетаниях числительного с существительным применяется инверсия. Порядковые числительные инверсируются тогда, когда они обозначают очередность явления или события при последовательном их повторении, например, Олимпийские игры, 18-е

Преимущество метода координатного индексирования проявляется при необходимости многоаспектного поиска информации на определенную тему. В этом заключается его преимущество по сравнению с языком предметных рубрик, который, в силу своей специфики, не способен глубоко отразить тему документа и обеспечить многоаспектный поиск. По предметным рубрикам нельзя найти какой-то аспект темы, невозможно перечислить, например, все персоналии, отраженные в книге. Основные достоинства этого подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее индексированных по этому методу.

Агаркова И. А. Лингвистическое обеспечение процессов каталогизации научной библиотеки / И.А. Агаркова, Г.С. Щербинина // Библиотеки вузов Урала. – 2011. – № 10. — С. 89-110.
Индексирование документов. Общие требования к координатному индексированию : ГОСТ 7.0.66-2010. – М., 2011.
Гендина Н. И. Лингвистические средства библиотечно-информационных технологий : учебник по направлению подготовки 071900 «Библиотечно-информационная деятельность» (квалификация «бакалавр») / Н. И. Гендина. — Санкт-Петербург : Профессия, 2015. — 439 с.
Скипор И. Л. Методика координатного индексирования / И. Л. Скипор // Фонды и каталоги Кузбасса : Опыт. Проблемы. Решения.: Сб. — 2002. — Вып.1. — С. 139-146. – URL: http://www.libhelp.ru/documents/founds/vip1/vip1.24.htm

08.01.2022, 2342 просмотра.

Источник: myfilology.ru

Содержимое работы — 1 файл

Глава 2. Построение кода сообщения

Заключение

Автоматическое индексирование

Координатное индексирование

Методика

Составьте блок схему и программу вычисления значения функции вариант 3

Напиши программу которая в последовательности натуральных чисел определяет количество чисел кратных

Как записать музыку на сд диск в формате сд программа

Какая нужна программа на телефон чтобы скачивать музыку на телефон

Если не хватает места на диске с для установки программы

Задачи по ознакомлению с формой и геометрическими фигурами в программе радуга

Как расширение имени файла связано с форматом файла и программой обработки

Что программа 12111 переводит число 50 в число 20 определите значение b