Что лежит в основе разработки компьютерных словарей и программ переводчиков

Машинная, компьютерная лексикография — (создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ).

Основные направления компьютерной лексикографии:1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.) 2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing) 3. создание словарей, являющихся машинными версиями традиционных словарей.

Компьютерная лексикография представляет собой:

  • быстро развивающуюся отрасль компьютерной индустрии;
  • прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.

Компьютерная лексикография — совокупность методов и программных средств обработки текстовой информации для создания словарей.

1. Важнейшая часть любой системы машинного перевода.

НЕ ПОЛЬЗУЙТЕСЬ ГУГЛ ПЕРЕВОДЧИКОМ! ТОП 5 СЛОВАРЕЙ ДЛЯ ИЗУЧЕНИЯ АНГЛИЙСКОГО

2. Любой упорядоченный, относительно конечный массив лексической информации, представленный в виде списка, таблицы или перечня, удобного для размещения в памяти ЭВМ, снабженного программами автоматической обработки и пополнения.

3. Словарный массив, организованный специальным образом в целях осуществления машинного поиска необходимой информации о словах. Часто под машинный словарем понима ют также устройство для хранения и выдачи информации о словах, необходимой при осуществлении автоматической обработки текста.

Билет10 Практическое построение систем машинного перевода. Алгоритм задачи машинного перевода текста.

Практическое постоение системы компьютерного перевода. Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществлять срочно, и нет времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду), с другой стороны, переводить Web-страницы «на лету», в режиме реального времени.

Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном «знании»: синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы компьютерного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

Переводческие инструменты и программы

Алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования.

Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» – это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» – определение к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

Читайте также:
Программа которая блокирует компьютер

То есть машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык.

Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов.

Источник: studfile.net

Инструменты распознавания текстов и компьютерного перевода

Кроме текстовых процессоров, предназначенных для создания и обработки текстов на компьютере, существует ряд программ, позволяющих автоматизировать работу человека с текстовой информацией.

Очень часто возникает необходимость ввести в компьютер несколько страниц текста из книги, статью из журнала или газеты и т. д. Конечно, можно затратить определённое время и просто набрать этот текст с помощью клавиатуры. Но чем больше исходный текст, тем больше времени будет затрачено на его ввод в память компьютера.

Судите сами. Предположим, кто-то из ваших одноклассников, освоивших клавиатурный тренажёр, может вводить текстовую информацию со скоростью 150 символов в минуту. Выясним, сколько времени ему понадобится для того, чтобы ввести в память компьютера текст романа А. Дюма «Три мушкетёра». Одно из изданий этого романа выполнено на 590 страницах; каждая страница содержит 48 строк, в каждую строку входит в среднем 53 символа.

Читайте также:
Программа индивидуальной профилактической работы пример

Вычислим общее количество символов в романе:

590 • 48 • 53 = 1 500 960 символов.

Вычислим время, необходимое для ввода этого массива символов в память компьютера: 1 500 960 : 150 ? 10 000 мин. А это приблизительно 167 часов.

При этом мы не обсуждаем вопрос о времени на исправление возможных ошибок при таком способе ввода текста, не принимаем в расчёт усталость человека.

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов. Одной из наиболее известных программ такого типа является ABBYY FineReader. Упрощённо работу с подобными программами можно представить так:

1. Бумажный носитель помещается под крышку сканера.
2. В программе отдаётся команда Сканировать и распознать. Сначала создаётся цифровая копия исходного документа в формате графического изображения. Затем программа анализирует структуру документа, выделяя на его страницах блоки текста, таблицы, картинки и т. п. Строки разбиваются на слова, а слова — на отдельные буквы.

После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр, хранящимися в её памяти. Программа рассматривает различные варианты разделения строк на слова и слов на символы. В программу встроены словари, обеспечивающие более точный анализ и распознавание, а также проверку распознанного текста. Проанализировав огромное число возможных вариантов, программа принимает окончательное решение и выдает пользователю распознанный текст.
3. Распознанный текст переносится в окно текстового редактора (например, Microsoft Word).

Вместо сканера можно использовать цифровой фотоаппарат или камеру мобильного телефона. Например, при работе с книгами в библиотеке вы можете сфотографировать интересующие вас страницы. Скопировав снимки на компьютер, вы можете запустить ABBYY FineReader, распознать тексты и продолжить работу с ними в текстовом процессоре (рис. 4.20).

Инструменты распознавания текстов и компьютерного перевода

4.5.2. Компьютерные словари и программы-переводчики

Возможности современных компьютеров по хранению больших массивов данных и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков.

В обычном словаре, содержащем несколько сотен страниц, поиск нужного слова является длительным и трудоёмким процессом. Компьютерные словари обеспечивают мгновенный поиск словарных статей. Многие словари предоставляют пользователям возможность прослушивания слов в исполнении носителей языка.

Компьютерные словари (русско-английские и англо-русские, русско-французские, русско-немецкие и др.) могут быть установлены на компьютер как самостоятельные программы, бывают встроены в текстовые процессоры, существуют в on-line-режиме в сети Интернет.

Сервис Яндекс-переводчик (https://translate.yandex.ru/) обеспечивает перевод слов с семи иностранных языков на русский и обратно. Вы можете получить полную информацию о правильном произношении и написании иностранных слов, синонимах и примерах использования.

Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики. Они основаны на формальном знании языка — правил словообразования и правил построения предложений. Программа-переводчик сначала анализирует текст на исходном языке, а затем конструирует этот текст на том языке, на который его требуется перевести.

С помощью программ-переводчиков можно успешно переводить техническую документацию, деловую переписку и другие текстовые материалы, написанные «сухим» языком. Перевод художественных текстов, эмоционально окрашенных, богатых гиперболами, метафорами и др., в полной мере может выполнить только человек.

Сервис Переводчик текста (https://www.translate.ru/Default.aspx/Text) предназначен для автоматизированного перевода небольших (не более 3000 символов) фрагментов текстовой информации с одного языка на другой. В нём поддерживаются английский, русский, немецкий, французский, испанский, португальский, итальянский и литовский языки; обеспечивается 26 направлений перевода (англо-русский и русско-английский; немецко-русский и русско-немецкий; французско-русский и русско-французский и т. д.).

САМОЕ ГЛАВНОЕ

Для ввода текстов в память компьютера с бумажных носителей используют сканеры и программы распознавания символов.

Возможности современных компьютеров по хранению больших массивов информации и осуществлению в них быстрого поиска положены в основу разработки компьютерных словарей и программ-переводчиков. Компьютерные словари выполняют перевод отдельных слов и словосочетаний. Для перевода текстовых документов применяются программы-переводчики.

Вопросы и задания

1. Ознакомьтесь с материалами презентации к параграфу, содержащейся в электронном приложении к учебнику. Дополняет ли презентация информацию содержащуюся в тексте параграфа.

§ 4.5. Инструменты распознавания текстов и компьютерного перевода

Источник: murnik.ru

Тест с ответами: «Распознавание текста и компьютерный перевод»

3. В чем преимущество программ распознавания текста перед ручным вводом, помимо скорости выполнения:
а) программы автоматически исправляют орфографические и пунктуационные ошибки в тексте
б) программы всегда успешно распознают даже самый неразборчивый рукописный тек
в) при ручном вводе появляется возможность ошибок и опечаток при вводе данных, а также необходимо учитывать физическое состояние человека при работе +

4. Почему программе-переводчику сложно переводить художественные тексты:
а) программе-переводчику не передать в полной мере средства художественной выразительности +
б) программа-переводчик обладает меньшим словарным запасом, чем человек
в) сложность перевода художественных текстов программой-переводчика зависит от конкретного языка

Читайте также:
Как внести программу в список исключений антивируса

5. Какие возможности не предоставляют компьютерные словари:
а) предоставления примеров употребления
б) прослушивания слов
в) качественного перевода текстов +

6. Из предложенных названий программных продуктов выберите программу-переводчик:
а) Abbyy FineReader
б) ABBYY Lingvo +
в) Adobe Photoshop

7. Что лежит в основе разработки компьютерных словарей и программ-переводчиков:
а) возможность компьютеров осуществлять мгновенный поиск и обрабатывать найденную информацию
б) возможность компьютеров осуществлять мгновенный поиск в интернете
в) возможность компьютеров хранить большие объемы данных и осуществлять в них мгновенный поиск +

8. В каком порядке работает программа распознавания текста:
а) создает графическое изображение, анализирует структуру документа, разбивает слова на отдельные буквы, сравнивает символы с шаблонными изображениями букв и цифр, хранящихся в ее памяти, выдаёт распознанный текст +
б) создает графическое изображение, разбивает слова на отдельные буквы, сравнивает символы с шаблонными изображениями букв и цифр, хранящихся в ее памяти, выдаёт распознанный текст
в) создает графическое изображение, разбивает строки на отдельные слова, а слова — на буквы, сравнивает символы с шаблонными изображениями букв и цифр, хранящихся в ее памяти, исправляет ошибки и опечатки, выдаёт распознанный текст

9. Системы распознавания текстов представляют собой:
а) программы, предназначенные для редактирования и форматирования текстов
б) программы, обязательные для работы сканера
в) программы, предназначенные для перевода изображений в редактируемый формат doc +

10. Что используется для ввода текста с бумажного носителя в память компьютера:
а) ручной набор текста
б) программы распознавания символов и сканеры +
в) сканеры

11. Чем отличаются программы-переводчики от компьютерных словарей:
а) программы-переводчики могут переводить большие текстовые документы +
б) программы-переводчики могут переводить словосочетания
в) программы-переводчики содержат больший объём иностранных слов

12. Системы перевода текстов предназначены для автоматизированного перевода:
а) текста в формат разметки гипертекста html
б) текста с одного естественного языка на другой +
в) текста с формата pdf в формат doc

13. Какой текст не стоит переводить с помощью программ-переводчиков:
а) художественный текст +
б) юридический текст
в) технический текст

14. Какая программа распознавания текста является наиболее известной:
а) Adobe Acrobat Reader
б) Foxit Reader
в) ABBYY FineReader +

15. На чём основаны программы-переводчики:
а) на знании правил словообразования и построения предложений (на формальном знании языка) +
б) на знании лексики иностранного языка
в) на знании правил орфографии, пунктуации, лексики, грамматики, словообразования, истории и особенностей иностранного языка

16. Установите соответствие между названием программы и её назначением:
Microsoft Word:
а) Создание текстовых документов
б) Создание текстовых документов +
в) Перевод текста с одного языка на другой

17. Установите соответствие между названием программы и её назначением:
ABBYY Fine Reader:
а) Перевод текста с одного языка на другой
б) Формирование навыков печати
в) Распознавание текста +

18. Установите соответствие между названием программы и её назначением:
PROMT:
а) Распознавание текста
б) Перевод текста с одного языка на другой +
в) Создание текстовых документов

19. Установите соответствие между названием программы и её назначением:
OppenOffice.org Writer:
а) Формирование навыков печати
б) Создание текстовых документов
в) Создание текстовых документов +

20. Установите соответствие между названием программы и её назначением:
Руки солиста:
а) Распознавание текста
б) Формирование навыков печати +
в) Создание текстовых документов

21. Компьютерные словари обеспечивают мгновенный поиск словарных:
а) статей +
б) знаков
в) символов

22. Для перевода текстовых документов применяются:
а) программы-переводители
б) программы-переводчики +
в) переводческие программы

23. Для ввода текстов в память компьютера с бумажных носителей используют:
а) клавиатуру
б) принтеры
в) сканеры +

24. После обработки документа сканером получается такое изображение документа:
а) визуальное
б) графическое +
в) рисованное

25. Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках (на 179 языках), а также для распознавания смешанных двуязычных текстов:
а) Adobe Acrobat Reader
б) Foxit Reader
в) ABBY FineReader +

26. Одна из возможностей программы ABBY FineReader:
а) работает с одними моделями сканеров
б) работает с разными моделями сканеров +
в) работает без остановки

27. Одна из возможностей программы ABBY FineReader:
а) позволяет из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст +
б) не позволяет из бумажных документов, PDF-файлов и цифровых фото сделать редактируемый текст
в) оба варианта не верны

28. Одна из возможностей программы ABBY FineReader:
а) не позволяет редактировать распознанный текст и проверять его орфографию
б) оба варианта не верны
в) позволяет редактировать распознанный текст и проверять его орфографию +

29. Процесс распознавания текста после сегментации начинается с щелчка на кнопке:
а) Распознать +
б) Начать
в) Указать

30. С точки зрения компьютера, документ после сканирования превращается в набор таких точек:
а) серых
б) разноцветных +
в) черно-белых

Источник: liketest.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru