Программа осуществляющая морфологическую или синтаксическую разметку текста в корпусе называется

В связи с развитием технических средств появилась возможность более эффективных лингвистических исследований разного рода на базе корпусной лингвистики. Одним из таких перспективных приложений является разработка учебных корпусов текстов (Learner Corpora), ориентированных на лингводидактический формат и применимых для анализа языка и речи тех, кто изучает иностранный язык.

LC-технологии совершенствуются с каждым годом, в результате чего появляются все новые и новые направления в данной области. Отметим основные из них:

· При сохранении основных принципов проектирования и строительства LC развитие технологий предполагает новые форматы и процедуры. Многие корпусы включают аудио – и видеоматериалы, сканы и pdf-файлы оригинальных рукописей информантов, что требует разработки процедур встраивания их в корпус инструментов для дальнейшей обработки.

· Кроме обязательной морфологической и синтаксической разметки, возникает необходимость в просодической разметке аудио и видео материалов. Новые запросы создателей LC – семантическая и дискурсивная разметки.

Рубанова Е.А. Полуавтоматическая морфологическая разметка параллельного русско-санскритского корпуса

· Специфическая для LC задача – разметка ошибок. Достаточно трудоемкой задачей является сам процесс обнаружения ошибок в тексте, который обычно проводится вручную.

· LC перестают быть только базой для извлечения ошибок, но становятся полезным и эффективным средством обучения. Примером последнего может быть обучающая система Т.Кобба, созданная на основе оригинального учебного корпуса.

· Большинство известных LC фиксируют определенный этап языковой компетенции. Новое направление в LC – создание лонгитюдных корпусов, накопление текстов одного и того же автора (авторов) в течении некоторого времени, что позволяет представить процесс овладения языком в динамике.

Практически все учебные корпусы являются лингвистически размеченными. (Лингвистическая) разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток. [29]

Лингвистическая разметка является одним из основных понятий корпусной лингвистики. Разметка даёт возможность идентифицировать тексты по различным параметрам, позволяя осуществлять осмысленный поиск по корпусу.

Разметка должна быть независима от текста: должна быть возможность убрать разметку и просмотреть текст без неё и, наоборот, вычленить только разметку. Принципы разметки и их разработчики должны быть известны конечному пользователю. Пользователь должен быть поставлен в известность о том, что разметка не является безошибочной, а представляет собой лишь потенциально полезный инструмент. В основу разметки должны быть положены общепринятые и, по возможности, теоретически нейтральные лингвистические принципы. И, наконец, ни одна разметка не может априорно считаться стандартом.

Существует несколько видов разметки. Экстралингвистическая, или метаразметка, сообщает сведения о данных. Метаразметку можно условно подразделить на внешнюю, структурную и техническую разметки. Внешняя разметка содержит сведения об авторе и сведения о тексте (автор, название, год и место издания, жанр и тематика).

Корпусы текстов. Сочетаемость

Структурная разметка маркирует главы, абзацы, предложения и словоформы. Техническая разметка отмечает кодировку, даты обработки, исполнителей и источник электронной версии. Метаразметка нужна для исследования условий существования языка, выявления в нём взаимосвязей и для изучения отдельных подмножеств языка. Большое внимание уделяется стандартизации метаразметок:

· проект TEI (Text Encoding Initiative),

· рекомендации EAGLES (Expert Advisory Group on Language Engineering Standards),

· стандарт CES (Corpus Encoding Standard),

Читайте также:
Программы по тендерам отзывы

· стандарт XCES (Corpus Encoding Standard for XML),

· проект ISLE (International Standards for Language Engineering),

· стандарт CDIF (Corpus Document Interchange Format, BNC).

Собственно лингвистическая разметка делится на:

· морфологическую (выделение аффиксов, сложных слов и т.п.),

· лемматизацию (указание для каждой словоформы из текста ее исходной формы),

· морфо-синтаксическую, или частеречную (part-of-speech-tagging) (выделение основ, определение части речи и признаков грамматических категорий),

· синтаксическую (характер синтаксической связи, тип предложения, член предложения и т.п.),

· семантическую (снятие семантической омонимии, разрешение анафоры и кореферентности, фиксирование информационной структуры и т.п.),

· дискурсивную (реплики, коммуникативные акты и т.п.). [25]

Обычно корпус аннотирован сразу по нескольким или по всем видам разметки. Для исследования любого учебного корпуса обычно рассматриваются способы классификации ошибок, выбирается методика их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методика количественного автоматизированного подсчета ошибок по типам, что позволяет провести их всесторонний лингвистический и лингводидактический анализ.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:

Источник: studopedia.ru

Лингвистическая разметка

Среди специальных программ для обработки естественного языка особое место занимают программы автоматической разметки. В рамках сегодняшней лекции постараемся определить, для чего же они нужны и как они функционируют.

Итак, для решения различных лингвистических задач недостаточно иметь массив текстов. Требуется также, чтобы тексты содержали в себе явным образом указанную разного рода дополнительную лингвистическую и экстралингвистическую информацию.

Так, на материале корпуса, подобного Брауновскому, можно легко выявить частотность слов – их регулярное употребление в определенных контекстах. Однако это будет частотность токенов (словоформ). Для определения частоты лексем каждому слову должна быть приписана ее лемма. Для подсчета частот в разрезе грамматических категорий они также должны быть соответствующим образом маркированы. Если осуществлять маркировку в большом корпусе вручную, это займет очень много времени, поэтому исследователи разработали способы автоматической разметки в корпусе.

Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности, анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers).

В результате работы программ автоматического морфологиче­ского анализа (тэггеров) каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму и набор граммем (например, род, число, падеж, одушевленность/неодушевленность, переходность и т.д.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.д.).

Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии.

Один из простых способов заключается в том, чтобы компьютеризированный словарь, в котором указаны лексические категории для самых распространенных слов или для наибольшего количества слов, совместить с неразмеченным корпусом. Затем каждому слову в неразмеченном корпусе может быть автоматически присвоен тэг от соответствующего ему слова в снабженном пометами словаре. Таким образом, если словоформы information и distribution появились и в корпусе, и в словаре, тэг ‘noun’, который сопровождал эти словоформы в словаре, автоматически будет перенесен на них в корпусе. Подобно этому, такие формы как lexical и frequent будут помечены как прилагательные, поскольку они всегда являются членами этой категории, the и a будут помечены как артикли, identify и see – как глаголы и т.д. [42].

Читайте также:
Как с помощью программы неро

Этот процесс нахождения соответствующих форм в корпусе и в снабженном пометами словаре не может быть использован для определения категорий всех форм, потому что некоторые формы могут быть членами более чем одной категории. Эта проблема носит название «проблема морфологической неоднозначности (ambiguity)». Например, слова words, forms, can, use, present и process могут быть как существительными, так и глаголами.

Возьмем слово deal в качестве примера. Как словоформа, оно может быть как существительным, так и глаголом. Предположим, что корпус содержал фразу a good deal of trouble, и предположим, что автоматическое совмещение со словарем уже позволило пометить good как прилагательное.

При выборе между тем, предшествует ли прилагательное существительному или глаголу, намного надежнее выбрать существительное, поскольку в английском языке прилагательные обычно предшествуют существительным и обычно не предшествуют глаголам. Так, deal в a good deal of trouble может быть помечено как существительное. Другими словами, поскольку good однозначно является прилагательным, оно будет помечено как adjective на начальном уровне снабжения пометами путем совмещения корпуса со словарем.

Если начинать разметку, размечая только слова, принадлежащие исключительно одной категории, а затем использовать эту информацию для того, чтобы прояснить неоднозначные случаи, многие сложные проблемы смогут быть решены. В обычной практике случается так, что слова снабжаются пометами сначала для всех частей речи, к которым они могут относиться, а затем категории примыкающих слов используются для определения категории слов, у которых есть несколько помет.

Поскольку в английском языке так много форм принадлежит более чем одной категории, точно разметить слова можно благодаря более сложным процедурам, чем автоматическое совмещение со словарем. Конечно, в контексте словоформа принадлежит только одной категории. Следовательно, достичь точной разметки английского корпуса можно путем анализа контекста или анализа более высокого уровня: синтаксического анализа для морфологической разметки, семантического – для синтаксической.

Снятие неодно­значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома­тические и ручные способы.

Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома­тическое разрешение морфологической или синтаксической неоднозначности, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Лингвистическая разметка

Итак, разметка заключается в приписывании текстам и их компонентам специальных тэгов: собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста, и внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика).

Среди лингвистических типов разметки выделяются: морфологическая, синтаксическая, семантическая, анафорическая, просодическая, дискурсная и др. Все они осуществляются в соответствии со следующими принципами:

1) описание (обоснование) схемы разметки;

2) общепринятая система лингвистических понятий;

Читайте также:
Выходные данные программы это

3) известная для пользователя схема анализа;

4) мотивированность введения параметров;

5) теоретически нейтральная (традиционная) схема разметки;

6) следование международным стандартам.

Источник: poisk-ru.ru

1.6. Автоматическая разметка

Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов.

Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче­ского анализа каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен­ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).

1.7. Исправление ошибок и снятие неоднозначности

Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии.

Снятие неодно­значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома­тические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома­тическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

1.8. Форматы данных и стандартизация

Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц.

Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры.

Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Источник: studfile.net

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru