Программа antconc для чего

Содержание

УДК 81’33

КОРПУСНЫЕ ТЕХНОЛОГИИ В ИЗУЧЕНИИ КОЛЛОКАЦИЙ

(НА ПРИМЕРЕ СЕРВИСОВ «ANTCONC» И «SKETCHENGINE»)

Палийчук Д.А.

В данной работе рассматриваются возможности исследования коллокаций посредством корпусных технологий. Приведены определения понятий «корпус» и «корпусный менеджер». Рассмотрено определение «коллокации» в широком смысле и с точки зрения корпусной лингвистики. Проанализированы основные преимущества использования корпусных инструментов для изучения коллокаций. Проведено описание функционала двух наиболее популярных корпусных сервисов: «AntConc» и «SketchEngine».

Ключевые слова: корпус, корпусные технологии, корпусный менеджер, коллокация, AntConc, SketchEngine.

CORPUS TECHNOLOGIES IN THE STUDY OF COLLOCATIONS

(BY THE EXAMPLE OF “ANTCONC” AND “SKETCHENGINE” SERVICES)

Palytchuk D.A.

This work reviews opportunities of studying collocations using corpus technologies. The definitions of the concepts “corpus” and “corpus manager” are given. The definitions of “collocation” in the broad sense and from the corpus linguistics point of view are considered. The main advantages of using corpus instruments for studying collocations are analysed. The description of the functionality of the two most popular corpus services – “AntConc” and “SketchEngine” has been carried out.

Как быстро и эффективно обрабатывать большие объемы текстов?

Keywords: corpus, corpus technology, corpus manager, collocation, AntConc, SketchEngine.

Современный этап развития лингвистической науки характеризуется активным использованием корпусов текстов в исследованиях различных аспектов языка за счёт стремительного развития и внедрения компьютерных и информационных технологий.

Под лингвистическим корпусом текстов мы понимаем большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических или прикладных задач [5, с. 5]. С помощью корпусов становится доступным проведение ускоренного, качественного и достоверного исследования языка, что связано с автоматизацией процессов и обширным функционалом. Корпус – это не только мощный инструмент исследования языка, но и новая идеология, ориентирующая исследователя на текст как главный объект теоретической рефлексии [10, с. 14]. Работа с корпусом текстов проводится посредством корпусного менеджера (корпус-менеджера) – специализированной поисковой системы, включающей программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме [5, c. 50]. Также корпусный менеджер – это мощный инструмент для создания своего собственного корпуса текстов (подкорпуса) или же для загрузки и использования уже существующих массивов данных [4, с. 29].

В современных корпусах предлагается множество инструментов, способных удовлетворить потребности ученых для решения различных лингвистических задач. Посредством корпусных технологий можно осуществить не только точный анализ отдельных фактов реализации языковых единиц, но и выявление общих закономерностей, присущих языковой системе. Эффективное изучение лексической сочетаемости также возможно благодаря корпусным технологиям.

Как анализировать тексты в AntConc

Термин «коллокация» занимает одно из центральных мест в современной лингвистике. В широком смысле коллокация – это комбинация двух и более слов, имеющих тенденцию к совместной встречаемости [6, c. 137]. В настоящее время существует множество подходов к определению данного понятия. Мы придерживаемся определения в рамках корпусной лингвистики, или же статистического подхода, где основополагающим признаком является частота совместной встречаемости: коллокации – статистически устойчивые словосочетания. При этом статистически устойчивое сочетание может быть как фразеологизированным, так и свободным [6, c. 138].

Значительная роль коллокаций и необходимость их исследования очевидны: они встречаются во всех естественных языках; представляют главную особенность языка; коллокация конкретизирует значение слов, которые в нее входят; путь объединения слов в коллокации фундаментален для всего языкового использования; коллокация может «предсказать» окружение главного слова.

Сегодня получить информацию о частоте определенного сочетания в языке стало доступным благодаря большим репрезентативным корпусам текстов. Однако В.П. Захаров и М.В. Хохлова отмечают, что высокой величины частоты совместной встречаемости недостаточно, чтобы говорить о предпочтительной сочетаемости тех или других слов [6, c. 138].

Так были разработаны статистические меры (меры ассоциации, меры ассоциативной связанности), которые позволяют вычислить силу синтагматической связи между элементами внутри коллокации. На данный момент существует значительное количество мер ассоциации. Наиболее распространенными являются MI, t-score, log-likelihood, logDice.

– MI (mutual information) позволяет сравнить зависимые контекстно-связанные частоты с независимыми.

– T-score вычисляет частоту совместной встречаемости ключевого слова и его коллокатами.

Читайте также:

Что за программа sldprt

– Log-likelihood – логарифмическая функция правдоподобия.

– LogDice – нормализованная форма меры Dice, которая основана только на частоте совместной встречаемости и независимых частотах и не учитывает размер корпуса (текста), в отличие от рассмотренных вышеуказанных мер [2, c. 76]. LogDice является более современной мерой ассоциативной связанности.

Некоторая часть корпусных менеджеров позволяет производить вычисление вышеуказанных мер.

На текущий момент корпусные технологии являются актуальным инструментом изучения коллокаций для многих исследователей [см.: 1; 3; 9; 11; 12; 13]. Существует множество корпусных программ и сервисов, предоставляющих возможность осуществить исследования коллокаций. Наиболее популярными среди исследователей в данной области являются «AntConc» и «SketchEngine».

«AntConc» – бесплатная программа, разработанная Лоуренсом Энтони и предназначенная для статистических исследований текстов. Данный сервис позволяет работать с файлами формата .txt.

В «AntConc» предлагается семь инструментов анализа текстовых данных:

1. Concordance – инструмент, демонстрирующий все контексты слова или словосочетания в тексте в формате KWIC (Key Word in Context).

2. Concordance Plot показывает результаты поиска в виде штрих-кода, что позволяет визуально оценить, в какой части текста встречается искомый элемент.

3. File View отображает текст отдельных выбранных файлов с маркировкой цветом указанных в поисковой строке объектов.

4. Clusters / N-grams – инструмент, осуществляющий отбор группы слов с заданным количеством элементов слева и справа от искомого слова.

5. Collocates – позволяет провести статистический анализ по словам, находящимся слева и справа от заданного элемента. Таким образом, данный инструмент дает возможность выявлять коллокации и измерять связность слов в тексте.

6. Word List предназначен для составления упорядоченного по частотности списка словоупотреблений, иными словами, частотного словаря конкретного корпуса.

7. Keyword List – инструмент, определяющий, какие слова отличаются необычно высокой или низкой частотой употребления по сравнению с эталонным корпусом.

Программа «AntConc» оснащена тремя наиболее распространенными мерами ассоциативной связанности (MI, t-score, log-likelihood), а также комбинацией мер MI и log-likelihood.

«SketchEngine» обладает широким набором инструментов и функций, среди которых основными являются:

1. Concordance позволяет осуществлять поиск по словоформе, лемме, словосочетанию и морфосинтаксической метке. При работе сданной функцией можно выбрать формат KWIC: отображение искомого элемента с ограничением по количеству слов слева и справа или Sentence (отображение искомого объекта в целом предложении с возможностью расширения контекста).

2. Word list – инструмент, позволяющий сформировать список слов в корпусе с указанием их частотности (как и в программе «AntConc»). В «SketchEngine» предоставляется возможность выбрать элементы (буквы, буквосочетания), которые должны входить в состав искомых объектов.

3. Keywords and Terms находит ключевые слова и термины (односложные и состоящие из нескольких компонентов) в корпусе.

4. Collocations вычисляет коллокации на основе более современной меры ассоциативной связанности logDice.

5. Word Sketch считается отличительной чертой SketchEngine среди других корпусных менеджеров. Данный инструмент осуществляет автоматическое построение коллокационных профилей или скетчей. Под скетчем понимается описание речевого поведения слова, полученное автоматически путем обобщения информации о всех контекстах, в которых исследуемое слово встретилось в корпусе [7, с. 110]. В скетчах содержится информация о сочетаемости с другими словами и о силе их связи.

6. Word Sketch Differences позволяет сравнить скетчи для двух лексических единиц.

7. Thesaurus – инструмент для автоматического создания дистрибутивного тезауруса.

8. Trends отображает изменения частоты слов в корпусе: частота каких слов возросла или сократилась, а также какие новые слова возникли [8, c. 111]. Данная функция позволяет проводить диахронический анализ лексики.

9. WebBootCaT – инструмент, позволяющий создать собственный корпус на основе текстов из сети Интернет. WebBootCaT производит автоматический поиск данных по Интернету с возможностью управления: пользователь может использовать слова-ключи в качестве исходных данных; устанавливать количество запросов; задавать длину цепочек слов; указывать минимальный и максимальный размер страницы.

Сравнив функционал «AntConc» и «SketchEngine», мы можем прийти к выводу, что данные программы позволяют эффективно работать с языковыми данными, в частности проводить исследование коллокаций. Они дают возможность устанавливать особенности поведения слова в контексте, выявлять коллокации и анализировать их особенности, получать списки наиболее встречаемых лексических сочетаний и др.

Однако, несмотря на схожий набор инструментов и функций, мы можем отметить следующие основания для отличительных черт «AntConc» и «SketchEngine»: наличие свободного доступа, технические характеристики и способы представления данных. Несмотря на отсутствие бесплатного доступа, «SketchEngine» определяет коллокации на основе более современной меры ассоциативной связанности, позволяет работать с файлами различных форматов, а также обладает более удобным для пользователя интерфейсом. На наш взгляд, «SketchEngine» является более эффективным корпусным средством для изучения коллокаций.

Статья «Национальный корпус русского языка. Поиск слов и их анализ»

AntConc – конкордансер, программа для для лингвостатистического анализа текста. Работа с программой на примере поиска слова «судьба».

Скачать:

Предварительный просмотр:

Национальный корпус русского языка. Поиск слов и их анализ

Конкорданс — это список контекстов искомого слова в исследуемом корпусе.

Результаты поиска показываются в формате, который называется KWIC (key word in

AntConc – конкордансер, программа для для лингвостатистического анализа текста,

например, получения списка всех употреблений конкретного слова или выражения или

анализ частотного словаря. Открываем сверху во второй строке меню кнопку «Word List»,

выбираем «Sort by Word», чтобы сортировка слов была в алфавитном порядке, и

нажимаем «Start». Нас интересует употребления словоформы «судьба». В частотном

списке после удаления текстов, не содержащих искомое слово, остаётся 27 текстов. В

простом списке указано, что в начальной форме искомое слово встречается 23 раза, в

остальных формах – 36 раз.

Формат простого списка не даёт возможности снять полисемию и неоднозначность

Корпус-менеджер AntConc

Содержание папки «КОРПУС»:
AntConc.exe — запускаемая программа для Windows
AntConc — запускаемая программа для Mac OS
AntConc.tar — архив запускаемой программы для Linux
*.txt — примеры текстовых файлов для демонстранции работы AntConc

Корпус-менеджер AntConc разработчика Dr. Laurence Anthony предназначен для обработки корпусов первого порядка. Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов. Можно осуществлять поиск контекстов, оценивать их типичности.

С помощю данной программы, в частности, нами была собрана большая часть примеров для демонстранционной словарной статьи ПОН из массива комиязычных эл. текстов.

Рассмотрим работу корпус-менеджера AntConc на примере опубликованных текстов произведений Ивана Белых . Для этого файл сохраним в тексте: belykh.txt .

Открывем файл belykh.txt из верхнего левого меню File / Open file(s) . Название файла появится в левом окне (под фразой «Corpus Files»).

Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов. Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от я до а .

Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне Concordance. Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы напр. пишем пукт — выйдет пукта, пуктіс, пукты и т. п..

Спецпроекты
Песни для детей на удмуртском языке
Сказки народов мира на удмуртском языке
Отправить поздравительную открытку на удмуртском языке

С Днем Рождения!
Поздравляем!
С Новым Годом!
Разные темы

Конвертер с нестандартной кодировки для ОС Windows
Корпус-менеджер AntConc
Литература
Проверка правописания удмуртского языка
Удмуртская раскладка клавиатуры
Удмуртско-русский электронный словарь

Источник: minnac.ru

Статья «Национальный корпус русского языка. Поиск слов и их анализ»

Скачать:

Предварительный просмотр:

Корпус-менеджер AntConc

Для чего нужна программа компилятор

Программа смешанное белье для чего

Токси риск программа для чего

Программа аршин метрология для чего

Программа чек пфр для чего

Для чего предназначена программа стили

Для чего нужна программа тренажер

Для чего нужна программа apkpure