УДК 81’33
КОРПУСНЫЕ ТЕХНОЛОГИИ В ИЗУЧЕНИИ КОЛЛОКАЦИЙ
(НА ПРИМЕРЕ СЕРВИСОВ «ANTCONC» И «SKETCHENGINE»)
Палийчук Д.А.
В данной работе рассматриваются возможности исследования коллокаций посредством корпусных технологий. Приведены определения понятий «корпус» и «корпусный менеджер». Рассмотрено определение «коллокации» в широком смысле и с точки зрения корпусной лингвистики. Проанализированы основные преимущества использования корпусных инструментов для изучения коллокаций. Проведено описание функционала двух наиболее популярных корпусных сервисов: «AntConc» и «SketchEngine».
Ключевые слова: корпус, корпусные технологии, корпусный менеджер, коллокация, AntConc, SketchEngine.
CORPUS TECHNOLOGIES IN THE STUDY OF COLLOCATIONS
(BY THE EXAMPLE OF “ANTCONC” AND “SKETCHENGINE” SERVICES)
Palytchuk D.A.
This work reviews opportunities of studying collocations using corpus technologies. The definitions of the concepts “corpus” and “corpus manager” are given. The definitions of “collocation” in the broad sense and from the corpus linguistics point of view are considered. The main advantages of using corpus instruments for studying collocations are analysed. The description of the functionality of the two most popular corpus services – “AntConc” and “SketchEngine” has been carried out.
Как быстро и эффективно обрабатывать большие объемы текстов?
Keywords: corpus, corpus technology, corpus manager, collocation, AntConc, SketchEngine.
Современный этап развития лингвистической науки характеризуется активным использованием корпусов текстов в исследованиях различных аспектов языка за счёт стремительного развития и внедрения компьютерных и информационных технологий.
Под лингвистическим корпусом текстов мы понимаем большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических или прикладных задач [5, с. 5]. С помощью корпусов становится доступным проведение ускоренного, качественного и достоверного исследования языка, что связано с автоматизацией процессов и обширным функционалом. Корпус – это не только мощный инструмент исследования языка, но и новая идеология, ориентирующая исследователя на текст как главный объект теоретической рефлексии [10, с. 14]. Работа с корпусом текстов проводится посредством корпусного менеджера (корпус-менеджера) – специализированной поисковой системы, включающей программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме [5, c. 50]. Также корпусный менеджер – это мощный инструмент для создания своего собственного корпуса текстов (подкорпуса) или же для загрузки и использования уже существующих массивов данных [4, с. 29].
В современных корпусах предлагается множество инструментов, способных удовлетворить потребности ученых для решения различных лингвистических задач. Посредством корпусных технологий можно осуществить не только точный анализ отдельных фактов реализации языковых единиц, но и выявление общих закономерностей, присущих языковой системе. Эффективное изучение лексической сочетаемости также возможно благодаря корпусным технологиям.
Как анализировать тексты в AntConc
Термин «коллокация» занимает одно из центральных мест в современной лингвистике. В широком смысле коллокация – это комбинация двух и более слов, имеющих тенденцию к совместной встречаемости [6, c. 137]. В настоящее время существует множество подходов к определению данного понятия. Мы придерживаемся определения в рамках корпусной лингвистики, или же статистического подхода, где основополагающим признаком является частота совместной встречаемости: коллокации – статистически устойчивые словосочетания. При этом статистически устойчивое сочетание может быть как фразеологизированным, так и свободным [6, c. 138].
Значительная роль коллокаций и необходимость их исследования очевидны: они встречаются во всех естественных языках; представляют главную особенность языка; коллокация конкретизирует значение слов, которые в нее входят; путь объединения слов в коллокации фундаментален для всего языкового использования; коллокация может «предсказать» окружение главного слова.
Сегодня получить информацию о частоте определенного сочетания в языке стало доступным благодаря большим репрезентативным корпусам текстов. Однако В.П. Захаров и М.В. Хохлова отмечают, что высокой величины частоты совместной встречаемости недостаточно, чтобы говорить о предпочтительной сочетаемости тех или других слов [6, c. 138].
Так были разработаны статистические меры (меры ассоциации, меры ассоциативной связанности), которые позволяют вычислить силу синтагматической связи между элементами внутри коллокации. На данный момент существует значительное количество мер ассоциации. Наиболее распространенными являются MI, t-score, log-likelihood, logDice.
– MI (mutual information) позволяет сравнить зависимые контекстно-связанные частоты с независимыми.
– T-score вычисляет частоту совместной встречаемости ключевого слова и его коллокатами.
– Log-likelihood – логарифмическая функция правдоподобия.
– LogDice – нормализованная форма меры Dice, которая основана только на частоте совместной встречаемости и независимых частотах и не учитывает размер корпуса (текста), в отличие от рассмотренных вышеуказанных мер [2, c. 76]. LogDice является более современной мерой ассоциативной связанности.
Некоторая часть корпусных менеджеров позволяет производить вычисление вышеуказанных мер.
На текущий момент корпусные технологии являются актуальным инструментом изучения коллокаций для многих исследователей [см.: 1; 3; 9; 11; 12; 13]. Существует множество корпусных программ и сервисов, предоставляющих возможность осуществить исследования коллокаций. Наиболее популярными среди исследователей в данной области являются «AntConc» и «SketchEngine».
«AntConc» – бесплатная программа, разработанная Лоуренсом Энтони и предназначенная для статистических исследований текстов. Данный сервис позволяет работать с файлами формата .txt.
В «AntConc» предлагается семь инструментов анализа текстовых данных:
1. Concordance – инструмент, демонстрирующий все контексты слова или словосочетания в тексте в формате KWIC (Key Word in Context).
2. Concordance Plot показывает результаты поиска в виде штрих-кода, что позволяет визуально оценить, в какой части текста встречается искомый элемент.
3. File View отображает текст отдельных выбранных файлов с маркировкой цветом указанных в поисковой строке объектов.
4. Clusters / N-grams – инструмент, осуществляющий отбор группы слов с заданным количеством элементов слева и справа от искомого слова.
5. Collocates – позволяет провести статистический анализ по словам, находящимся слева и справа от заданного элемента. Таким образом, данный инструмент дает возможность выявлять коллокации и измерять связность слов в тексте.
6. Word List предназначен для составления упорядоченного по частотности списка словоупотреблений, иными словами, частотного словаря конкретного корпуса.
7. Keyword List – инструмент, определяющий, какие слова отличаются необычно высокой или низкой частотой употребления по сравнению с эталонным корпусом.
Программа «AntConc» оснащена тремя наиболее распространенными мерами ассоциативной связанности (MI, t-score, log-likelihood), а также комбинацией мер MI и log-likelihood.
«SketchEngine» обладает широким набором инструментов и функций, среди которых основными являются:
1. Concordance позволяет осуществлять поиск по словоформе, лемме, словосочетанию и морфосинтаксической метке. При работе сданной функцией можно выбрать формат KWIC: отображение искомого элемента с ограничением по количеству слов слева и справа или Sentence (отображение искомого объекта в целом предложении с возможностью расширения контекста).
2. Word list – инструмент, позволяющий сформировать список слов в корпусе с указанием их частотности (как и в программе «AntConc»). В «SketchEngine» предоставляется возможность выбрать элементы (буквы, буквосочетания), которые должны входить в состав искомых объектов.
3. Keywords and Terms находит ключевые слова и термины (односложные и состоящие из нескольких компонентов) в корпусе.
4. Collocations вычисляет коллокации на основе более современной меры ассоциативной связанности logDice.
5. Word Sketch считается отличительной чертой SketchEngine среди других корпусных менеджеров. Данный инструмент осуществляет автоматическое построение коллокационных профилей или скетчей. Под скетчем понимается описание речевого поведения слова, полученное автоматически путем обобщения информации о всех контекстах, в которых исследуемое слово встретилось в корпусе [7, с. 110]. В скетчах содержится информация о сочетаемости с другими словами и о силе их связи.
6. Word Sketch Differences позволяет сравнить скетчи для двух лексических единиц.
7. Thesaurus – инструмент для автоматического создания дистрибутивного тезауруса.
8. Trends отображает изменения частоты слов в корпусе: частота каких слов возросла или сократилась, а также какие новые слова возникли [8, c. 111]. Данная функция позволяет проводить диахронический анализ лексики.
9. WebBootCaT – инструмент, позволяющий создать собственный корпус на основе текстов из сети Интернет. WebBootCaT производит автоматический поиск данных по Интернету с возможностью управления: пользователь может использовать слова-ключи в качестве исходных данных; устанавливать количество запросов; задавать длину цепочек слов; указывать минимальный и максимальный размер страницы.
Сравнив функционал «AntConc» и «SketchEngine», мы можем прийти к выводу, что данные программы позволяют эффективно работать с языковыми данными, в частности проводить исследование коллокаций. Они дают возможность устанавливать особенности поведения слова в контексте, выявлять коллокации и анализировать их особенности, получать списки наиболее встречаемых лексических сочетаний и др.
Однако, несмотря на схожий набор инструментов и функций, мы можем отметить следующие основания для отличительных черт «AntConc» и «SketchEngine»: наличие свободного доступа, технические характеристики и способы представления данных. Несмотря на отсутствие бесплатного доступа, «SketchEngine» определяет коллокации на основе более современной меры ассоциативной связанности, позволяет работать с файлами различных форматов, а также обладает более удобным для пользователя интерфейсом. На наш взгляд, «SketchEngine» является более эффективным корпусным средством для изучения коллокаций.
Список литературы:
1. Андрианова Д.В. О некоторых возможностях выявления коллокаций с помощью интернет-технологий // Вестник Воронежского государственного университета. Серия: филология. Журналистика. 2019. № 3. С. 8-10.
2. Богоявленская Ю.В., Палийчук Д.А. Меры ассоциации для установления силы семантико-синтагматической связи элементов словосочетания // Гуманитарные исследования. История и филология. 2022. № 5. С. 69-78.
3. Горина О.Г. Применение методов корпусной лингвистики для определения контекстно-специфических слов и коллокаций // Вестник Ленинградского государственного университета им. А.С. Пушкина. 2011.
Т. 7. № 3. С. 27-36.
4. Долгих З.Б. Обзор ряда корпусных возможностей в сфере лингвистических исследований (на примере анализа средств градуирования в португальском языке) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2018. № 5 (795). С. 21-32.
5. Захаров В.П., Богданова С.Ю. Корпусная лингвистика: учебник для студентов, обучающихся по направлению подготовки бакалавров и магистров 035700 «Лингвистика». 2-е изд., перераб. и доп., Иркутск: СПбГУ, 2013. 144, [3] с.
6. Захаров В.П., Хохлова М.В. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. Вып. 9 (16). М.: РГГУ, 2010.
С. 137-142.
7. Котюрова И.А. Корпусные исследования с помощью сервиса AntConc в условиях работы в вузе // Язык и культура. 2020. № 52. С. 36-50.
8. Кротова Е.Б. Sketch Engine для лингвистических исследований // Германистика сегодня: материалы Международной практической конференции (Казань, 16-17 октября 2018 г.) / Под ред. М.А. Кульковой. Казань: Изд-во Казан. ун-та, 2019.
С. 107-112.
9. Павельева Т.Ю. Изучение коллокаций на основе лингвистических корпусов текстов // Вестник Тамбовского университета. Серия: Гуманитарные науки. 2016. Т. 21. №. 3-4 (155-156).
С. 56-61.
10. Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 2 (16). С. 7-20.
11. Трифонова И.С., Левенкова А.Ю. Формирование коллокационной компетенции у студентов направления «Международные отношения» с использованием методов корпусной лингвистики // Вестник Томского государственного университета. 2020. № 452. С. 219-228.
12. Хохлова М.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia. Серия: Инструментарий русистики: корпусные подходы. Хельсинки, 2008. № 34. С. 343-357.
13. Ягунова E.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Научно-техническая информация. Серия 2: информационные процессы и системы. 2010. № 6. С. 30-40.
Сведения об авторе:
Палийчук Дарья Александровна – ассистент кафедры лингвистики и профессиональной коммуникации на иностранных языках Уральского федерального университета имени первого Президента России Б.Н. Ельцина (Екатеринбург, Россия).
Data about the author:
Palytchuk Darya Alexandrovna – Assistant Professor of Department of Linguistics and Professional Communication in Foreign Languages, Ural Federal University named after the first President of Russia B.N. Yeltsin (Yekaterinburg, Russia).
Источник: st-hum.ru
Статья «Национальный корпус русского языка. Поиск слов и их анализ»
AntConc – конкордансер, программа для для лингвостатистического анализа текста. Работа с программой на примере поиска слова «судьба».
Скачать:
Предварительный просмотр:
Национальный корпус русского языка. Поиск слов и их анализ
Конкорданс — это список контекстов искомого слова в исследуемом корпусе.
Результаты поиска показываются в формате, который называется KWIC (key word in
AntConc – конкордансер, программа для для лингвостатистического анализа текста,
например, получения списка всех употреблений конкретного слова или выражения или
анализ частотного словаря. Открываем сверху во второй строке меню кнопку «Word List»,
выбираем «Sort by Word», чтобы сортировка слов была в алфавитном порядке, и
нажимаем «Start». Нас интересует употребления словоформы «судьба». В частотном
списке после удаления текстов, не содержащих искомое слово, остаётся 27 текстов. В
простом списке указано, что в начальной форме искомое слово встречается 23 раза, в
остальных формах – 36 раз.
Формат простого списка не даёт возможности снять полисемию и неоднозначность
грамматического класса слова, поэтому находим в списке нужное слово «судьба» и
нажимаем на него. Автоматически начинается его поиск в окне Concordance. Конкорданс –
это список всех употреблений заданного языкового выражения в контексте. Нас
интересует количество употреблений данного слова, а, соответственно, все его формы,
поэтому убираем маркер возле слова Words, а в слове судьба убираем окончание, чтобы в
окне Concordance было выведено большинство форм искомого слова «судьба». Найдено
57 совпадений. Необходимо учитывать и чередование в корне слова «судьба» во
множественном числе. Поэтому через специальный маркер «|» обозначаем варианты
«судьб|судеб» и находим все словоформы существительного «судьба». Найдено 59
совпадений; указан контекст каждого. Через ключевое слово можно перейти в исходный
файл и скопировать необходимый для работы фрагмент.
С помощью программы AntConc мы отобрали 27 поэтических и прозаических текстов
общеобразовательных программ для 5 – 6 классов, в которых в разной степени
частотности употреблена словоформа «судьба». На основе этих данных можно строить
работу с конкретными текстами, извлекая из них материал для наполнения содержания
Конкордансы полезны для изучения устойчивых словосочетаний (коллокаций). Нам
это необходимо для прорабатывания ассоциативного поля у обучающихся при
употреблении концепта «судьба». Результаты поиска можно по-разному сортировать.
Можно настроить AntConc на демонстрацию того или иного количества слов справа и
слева от искомого слова. Также можно изменять порядок строк конкорданса. Мы
отсортировали в алфавитном порядке слова, непосредственно следующие до слова
поиска (то есть слева), расположив на панели KWIC (key word in context) уровни
ближайших трёх слов от искомого на позицию L (left). Это помогло найти подходящие
дополнения, которые можно употреблять с этим существительным.
Источник: nsportal.ru
Корпус-менеджер AntConc
Содержание папки «КОРПУС»:
AntConc.exe — запускаемая программа для Windows
AntConc — запускаемая программа для Mac OS
AntConc.tar — архив запускаемой программы для Linux
*.txt — примеры текстовых файлов для демонстранции работы AntConc
Корпус-менеджер AntConc разработчика Dr. Laurence Anthony предназначен для обработки корпусов первого порядка. Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов. Можно осуществлять поиск контекстов, оценивать их типичности.
С помощю данной программы, в частности, нами была собрана большая часть примеров для демонстранционной словарной статьи ПОН из массива комиязычных эл. текстов.
Рассмотрим работу корпус-менеджера AntConc на примере опубликованных текстов произведений Ивана Белых . Для этого файл сохраним в тексте: belykh.txt .
Открывем файл belykh.txt из верхнего левого меню File / Open file(s) . Название файла появится в левом окне (под фразой «Corpus Files»).
Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов. Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от я до а .
Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне Concordance. Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы напр. пишем пукт — выйдет пукта, пуктіс, пукты и т. п..
- Спецпроекты
- Песни для детей на удмуртском языке
- Сказки народов мира на удмуртском языке
- Отправить поздравительную открытку на удмуртском языке
- С Днем Рождения!
- Поздравляем!
- С Новым Годом!
- Разные темы
- Конвертер с нестандартной кодировки для ОС Windows
- Корпус-менеджер AntConc
- Литература
- Проверка правописания удмуртского языка
- Удмуртская раскладка клавиатуры
- Удмуртско-русский электронный словарь
Источник: minnac.ru