1 Для создания своего собственного корпуса необходимо скачать программу конкорданс (например, AntConc http://www.laurenceanthony.net/software.html или TextSTAT http://neon.niederlandistik.fu-berlin.de/textstat/). Другие программы конкордансы Вы можете найти, пройдя по ссылке http://nit-for-you.wikispaces.com/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0. Изучите краткую информацию о рекомендованных программах.
AntConc – это бесплатная, мультиплатформенная программа для проведения корпусных лингвистических исследований и управления данными. Она работает на любом компьютере под управлением Microsoft Windows (проверено на Win 98/Me/2000/NT, XP, Vista, Windows 7, Linux. AntConc содержит семь инструментов, к которым можно получить доступ, нажав на клавишу табуляции в меню инструментов, или используя функциональные клавиши F1-F7.
В качестве источников текстов для корпуса можно использовать как цифровые, так и не цифровые носители. Естественно, в последнем случае понадобится каким-то образом ввести текст в компьютер: заново набрать его, либо отсканировать и распознать (конечно, с последующим редактированием).
Antconc Tutorial 1 | Concordance Tool | Basic Features | Corpus Tools Tutorials [English]
Храните тексты для корпуса в простом текстовом формате (plain text, *.txt). Во-первых, он занимает меньше места, чем сложные форматы типа MS Word. Во-вторых, хотя современные программы анализа корпусов обычно могут работать с документами в формате HTML (XML), но всё-таки это менее надёжно, чем простой текст. Plain text — это простоя последовательность букв, пробелов и знаков пунктуации.
Не храните Ваши корпусы в MS Word — это не имеет никакого смысла! Не забывайте про резервные копии. Ещё один тонкий момент — кодировка ваших файлов. Существует несколько так называемых «кодировок» (англ. encodings), которые описывают русский алфавит — среди них koi8-r или cp1251. Ни одну из них нельзя назвать стандартом.
Кроме того, не так давно появилась кодировка Unicode, которая поддерживает символы всех алфавитов всех языков мира, включая даже египетские иероглифы. Но пока не все программы готовы с ней работать. Любой текстовый файл сохранён в одной из этих кодировок.
Соответственно, если программа анализа корпуса считает, что кодировка одна, а на самом деле она другая — то файл будет прочитан неверно и вместо слов Вы получите бессмысленные наборы символов. Рекомендуется пользоваться либо Unicode (предпочтительнее), либо CP-1251. CP-1251 является стандартной кодировкой для MS Windows, а Unicode удобнее, поскольку может использоваться для любого языка.
Анализируя текст в AntConc, Вы можете указать кодировку для файлов, которые загружаете в него (в меню Global Settings — Encodings). Corsis воспринимает кириллические тексты только если они сохранены в кодировке Unicode. Dialing, напротив, считает, что кириллические тексты должны быть только в CP-1251. Вы можете сохранять один и тот же текст сколько угодно раз в различных кодировках. С английскими текстами таких проблем нет, они будут нормально читаться и анализироваться вне зависимости от кодировки.
Как быстро и эффективно обрабатывать большие объемы текстов?
TextSTAT- это простая программа для анализирования текстов, читающая текстовые файлы и файлы расширения HTML (непосредственно из Интернета). Она выдает лист частоты встречаемости слов и конкордансы этих файлов. Данная версия включает в себя вэб-паука, который читает так много страниц, сколько вы захотите с какого-либо выбранного сайта и переносит их в программу.
А новинка «читатель новостей» так же находит самостоятельно информацию и помещает их в окно программы TextSTAT. TextSTAT читает MS Word и OpenOffice файлы. Нет никакой нужды в преобразовании, просто добавьте файлы в корпус программы.
В программе можно использовать регулярные выражения, обеспечивающие вас возможностями мощного поиска. Программа многоязыковая. TextSTAT может справиться с множеством различных языков и кодировок файлов.
2 С оберите корпус не менее 10 тысяч словоупотреблений. Прежде чем начать планирование корпуса, определите, что именно Вы будете исследовать. Какова логическая идея, которая положена в основу корпуса? С каким объёмом данных Вы будете работать при составлении корпуса? Насколько это необходимо и реалистично?
Что Вы будете использовать: отрывки из текстов, полные тексты или то и другое? Какова процедура отбора текстов в корпус? При наборе текстов в корпус всегда желательно учитывать такие экстралингвистические факторы, как источники текстов, их авторы (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.
3 Проведите анализ исследуемого корпуса, рассмотрев употребление конкретных лексем, словосочетаний и изучив все возможные функции конкорданса.
13 Лабораторная работа №13 «Работа с приложением Wordfast»
1 Ознакомьтесь с краткой информацией о программе атоматизированного перевода Wordfast (Computer-Aided Translation — CAT), которая объединяет в себе две технологии: сегментирование и накопитель переводов (translation memory — TM).
В состав Wordfast входит средство контроля качества (quality check — QC) в реальном времени, включающее функции проверки правописания[1] и типографской разметки текста, а также сверки с глоссарием. Эти функции с широкими возможностями настройки позволяют контролировать типографскую и терминологическую точность перевода, что является очень важным достижением в области CAT. Иными словами, в Wordfast можно легко задать важную для заказчика терминологию, и все сегменты в ходе перевода будут проверяться на соответствие этой терминологии. Кроме того, контроль качества можно выполнить над многими документами в пакетном режиме, благодаря чему руководитель проекта может получить подробный отчет о качестве перевода обрабатываемых документов с точки зрения типографской разметки и терминологии.
Wordfast работает из MS Word, но можно переводить и другие документы MS Office™, такие как файлы MS Excel™, MS Access™, MS PowerPoint™, а также файлы HTML. Накопители переводов Wordfast имеют открытый формат — их можно просматривать и/или редактировать в Word™, Excel™, Access™ и многих других распространенных программах. Кроме того, Wordfast открывает файлы внутреннего формата Trados Workbench TMW и формата экспорта TXT, накопители переводов стандарта TMX (создаваемые в Trados, DejaVu, Star Transit и SDLX), а также EXP -файлы IBM Translation Manager. Наконец, Wordfast совместим со стандартными форматами разметки (tagging), благодаря чему его можно применять для перевода файлов, подготовленных программами разметки (утилитой RWS Rainbow, средствами из набора Trados и т.д.).
Wordfast работает в MS Word™ 97, MS Word™ 2000 и MS Word 2002 (XP) для PC, MS Word™ 98 и MS Word™ 2001 для Macintosh. С одним накопителем переводов через локальную сеть могут совместно и одновременно работать до 20 пользователей.
К Wordfast также можно подключить (локально или через сеть) программу или сервер машинного перевода (MT), что позволит получать машинный перевод, если в TM не найдено соответствий.
Дополнительные функции позволяют опытным пользователям выполнять сложные операции промышленного уровня, такие как извлечение сегментов из файлов Word, Access, PowerPoint или Excel, их предварительный перевод, оптимизация накопителей перевода, анализ проектов, контроль за использованием терминологии различными переводчиками, разработка специальных расширений для конкретных проектов и т.д.
2. Установите приложение Wordfast. Wordfast.dot не следует открывать как документ; его надо добавить в список шаблонов MS Word.
Пошаговая инструкция установки приложения:
1) Закройте MS Word. Скопируйте файл Wordfast.dot в папку автозагрузки (Startup) MS Word. Эта папка может находиться в следующих местах:
MS Word 97. Program FilesMicrosoft OfficeOfficeStartup
MS Word 2000. WindowsApplication DataMicrosoftWordStartup
Windows NT. WinNtProfilesИмяПользователяApplicationdataMicrosoftStartup
Windows 2000. Documents and settingsИмяПользователяApplication dataMicrosoftWordStartup
Mac. Microsoft Office 98:Startup
Примечание 1: Если когда-нибудь MS Word предложит «сохранить» изменения, сделанные в шаблоне Wordfast, не делайте этого. Шаблон Wordfast не должен подвергаться изменениям.
Примечание 2: Если вам трудно найти папку Startup, запустите MS Word и в диалоге «сервис/Параметры (Tools/Options)» посмотрите на вкладку «расположение» (File Locations). Запомните полное имя папки «автозагружаемые» (startup).
Примечание 3: Если Wordfast.dot находится в папке Startup, Wordfast будет активизироваться при запуске MS Word™. Если Wordfast.dot скопирован в папку шаблоны (Templates), надо будет открыть диалоговое окно «сервис/шаблоны» (Tools/Templates), нажать кнопку Добавить (Add), выбрать Wordfast.dot и нажать Oк. Не следует открывать Wordfast.dot как документ.
Примечание 4: В Word 2000 и выше установите в диалоге «сервис/параметры/безопасность» (Tools/Macro/Security) низкий (low) уровень безопасности и перезапустите MS Word.
Примечание 5: Если на одном компьютере установлены две разные версии MS Word, рекомендуется установить две копии Wordfast — каждую в папке Startup или Templates соответствующей версии Word. Таким образом у каждого шаблона wordfast.dot будет отдельный INI-файл, где будет храниться отдельный номер лицензии. В каждой версии MS Word генерируется отдельный инсталляционный номер для Wordfast, поэтому нужно запросить на сайте Wordfast два (или больше) номера лицензии.
2) Запустите MS Word.
Должна появиться следующая панель инструментов (рисунок 13):
Обычно панель Wordfast появляется свернутой в значок End . Чтобы развернуть ее, щелкните этот значок.
Примечание 1. В некоторых системах панель разворачивается, только если в Word уже открыт какой-то (можно пустой) документ.
Примечание 2. Часто шаблоны Wordfast и Trados не «уживаются» друг с другом. Поэтому после инсталляции Wordfast рекомендуется отключить в диалоге Word «сервис/шаблоны и надстройки» (Tools/Templates https://cyberpedia.su/3x89b4.html» target=»_blank»]cyberpedia.su[/mask_link]
Name already in use
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Cancel Create
text_analysis_2023 / Seminar_3 / Seminar_3_AntConc.md
- Go to file T
- Go to line L
- Copy path
- Copy permalink
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Cannot retrieve contributors at this time
107 lines (67 sloc) 10.3 KB
- Open with Desktop
- View raw
- Copy raw contents Copy raw contents Copy raw contents
Copy raw contents
Конкордансеры. Практикум AncConc
AntConc — корпусный менеджер. Это программа с пользовательским интерфейсом, которая позволяет достаточно простым образом собрать корпус из имеющихся файлов и предлагает широкий инструментарий для работы с ними.
- Страница программы, где её можно скачать и посмотреть инструкции
Материал для работы на семинаре
Война и Мир, т. 1: plain text
В задании использованы материалы О. Н. Ляшевской.
Знакомство с основными функциями
- Быстрый способ загрузать файлы: File — Open File(s) as Quick Corpus
- Если нужны более точные настройки: File — Open Corpus Manager
- Во вкладке Raw File(s) можно создавать корпуса и давать им имена
- Затем их можно найти во вкладке Corpus Database
- Создавай корпусы из Raw File(s), можно регулировать всякие настройки
- Чтобы слова с дефисами считались одним токеном, выберите Connector и Dash в меню Basic Settings — Show Token Definition Settings — Unicode Punctuation
- Там же можно указать, какого поведения вы хотите от других знаков — скобок, пунктуации и т. д. (наличие галочке означает, что они присоединяются к слову)
- Если нужно, там же (Open Corpus Manager — Raw File(s)) настройте кодировку (на этом занятии не нужно)
- Работая с файлами, в которых приводятся леммы и части речи (лемма_POS), выберите там же настройку Indexer — simple_pos_headword_indexer — это понадобится нам позже
- Загрузив корпус с любым романом, постройте частотный список слов для него (вкладка Word List, нажмите кнопку Start). Кликнув на слово, вы сможете попасть в конкорданс, построенный для этого слова.
- В Word List отсортируйте частотный список по алфавиту (Sort by Word внизу страницы).
- Постройте частотный список двух-, трех- и т.д. -словных словосочетаний (вкладка Cluster/N-Grams, поставьте галочку на N-Grams, укажите, сколько слов в ngram-е вы хотите видеть, например, Min:3, Max:3, установите порог вхождений в корпусе, например, 10). Кликнув на n-грам, вы также можете попасть в его конкорданс.
- Постройте списки коллокатов выбранного вами слова (вкладка Collocates), указав границы окна справа / слева.
Работа с регулярными выражениями
- Конкордансы и частотные списки можно строить с использованием Regex в Search Term. Например, w+ну найдет любое слово, содержащее -ну, но не частицу ну. Вот так можно найти все глаголы на -ну-.
Ключевые слова (лексические маркеры)
Чтобы определить характерные для некоторого корпуса слова, мы должны сравнить их частоты в данном корпусе с частотами в другом корпусе — reference corpus.
- Загрузите SynTagRus в качестве reference corpus: откройте Corpus Manager, создайте в окне Raw File(s) необходимые корпуса, во вкладке Corpus Databases выберите (справа) Target Corpus и Reference Corpus
- Во вкладке Settings — Tool Sattings — Keyword установите Log-Likelyhood (4-term) в качестве статистической метрики определения keyness и длину списка в 1000 слов (Threshold). — Apply
- Перейдите на вкладку Keyword List > Start Для новых файлов AntConc начнет генерацию словника (выдаст предупреждение jump to Word List). В результате на вкладке Keyword List появится список ключевых слов, отсортированный по убыванию метрики Keyness (Log-Likelyhood).
- На ключевое слово можно кликнуть, чтобы получить конкорданс
- Любую часть таблицы с ключевыми словами можно выделить и скопировать в Excel, и после этого работать с ней как с обычной электронной таблицей: сортировать, искать и т. д.
Частотные списки лемм и списки ключевых слов-леммы
Чтобы построить частотный список лемм, ваш корпус должен быть лемматизирован (reference corpus, естественно, тоже). Мы будем использовать версии корпусов с подстановкой вместо токена метки леммы и части речи (в формате lemma_POS).
У вас может возникнуть вопрос — как такие размеченные файлы добыть? Это можно сделать различными готовыми программами, например Mystem, или же сделать такой файл в Python.
- Работая с файлами, в которых приводятся леммы и части речи (лемма_POS), при загрузке корпуса выбирайте в Corpus Manager’е настройку Indexer — simple_pos_headword_indexer
- Во вкладке Settings — Global Settings — Tags можно выбрать, в каком виде вы хотите выбрать токены для файлов с тегами
Самостоятельное исследование корпуса устной спонтанной речи.
С помощью AntConc постройте частотные списки словоформ и лемм корпуса LiveCorpus. Определите лексические маркеры этого корпуса. (Для сравнения мы снова возьмем SynTagRus).
Еще одно полезное онлайн-приложение, которое активно используют литературоведы и историки — Voyant Tools.
- Изучите основные возможности инструмента на примере романов Дж. Остин > Open > Choose a corpus > Austen’s Novels
- Voyant Tools умеет строить облака слов (для всего корпуса и отдельных документов)
- показывает распределение частоты слов в документах
- показывает свойства документов, такие как длина в словах, среднее количество слов в предложении и т. д. пример
- вернувшись на исходную страницу, вы можете загрузить и исследовать свой пользовательский корпус
- Мануал (на английском)
- Видео-тьюториал от автора
- Тьюториал для семинара
- Справка по Voyant Tools
Источник: github.com
Корпус-менеджер AntConc
Содержание папки «КОРПУС»:
AntConc.exe — запускаемая программа для Windows
AntConc — запускаемая программа для Mac OS
AntConc.tar — архив запускаемой программы для Linux
*.txt — примеры текстовых файлов для демонстранции работы AntConc
Корпус-менеджер AntConc разработчика Dr. Laurence Anthony предназначен для обработки корпусов первого порядка. Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов. Можно осуществлять поиск контекстов, оценивать их типичности.
С помощю данной программы, в частности, нами была собрана большая часть примеров для демонстранционной словарной статьи ПОН из массива комиязычных эл. текстов.
Рассмотрим работу корпус-менеджера AntConc на примере опубликованных текстов произведений Ивана Белых . Для этого файл сохраним в тексте: belykh.txt .
Открывем файл belykh.txt из верхнего левого меню File / Open file(s) . Название файла появится в левом окне (под фразой «Corpus Files»).
Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов. Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от я до а .
Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне Concordance. Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы напр. пишем пукт — выйдет пукта, пуктіс, пукты и т. п..
- Спецпроекты
- Песни для детей на удмуртском языке
- Сказки народов мира на удмуртском языке
- Отправить поздравительную открытку на удмуртском языке
- С Днем Рождения!
- Поздравляем!
- С Новым Годом!
- Разные темы
- Конвертер с нестандартной кодировки для ОС Windows
- Корпус-менеджер AntConc
- Литература
- Проверка правописания удмуртского языка
- Удмуртская раскладка клавиатуры
- Удмуртско-русский электронный словарь
Источник: minnac.ru