Если вам необходимо перевести ранее напечатанный текст в электронную форму, то сегодня вам не потребуется набирать его на клавиатуре. Современные технологии существенно упрощают этот процесс. Достаточно отсканировать его или сфотографировать, и обработать специальной программой — распознавателем текста.
Давно прошло то время, когда для получения электронной копии печатного текста, приходилось набирать его на клавиатуре, символ за символом, буква за буквой. Сегодня печатный текст достаточно положить на сканер, нажать одну кнопку, и уже через несколько секунд у вас будет его электронная копия, как будто кто-то уже набрал его для вас. Как же это стало возможным? Как работает распознавание текста?
Системы распознавания текста или OCR-системы (Optical Character Recognition) предназначены для автоматического ввода документов в компьютер. Это может быть страница книги, журнала, словаря, какой-то документ — все, что угодно, что было уже напечатано, и должно быть преобразовано обратно в электронную форму.
Программа для распознавания текста на Android
OCR-системы распознают текст и различные его элементы (картинки, таблицы) с электронного изображения. Изображение получается обычно путем сканирования документа и реже — его фотографированием. Поступившее изображение обрабатывается алгоритмом OCR-программы, выделяются области текста, изображений, таблиц, отделяется мусор от нужных данных.
На следующем этапе каждый символ сравнивается со специальным словарем символов, и если находится соответствие, то этот символ считается распознанным. В итоге вы получаете набор распознанных символов, то есть искомый текст.
Современные OCR-системы представляют собой достаточно сложные программные решения. Ведь текст может быть замусорен, искажен, загрязнен, и программа должна это учитывать и уметь правильно обрабатывать такие ситуации. Кроме того, современные OCR-системы позволяют также получить копию печатного документа в электронном виде с сохранением форматирования, стилей, размеров текста и видов шрифтов и т.д.
ABBYY FineReader 9.0 Home Edition
Разработчик: | ABBYY |
Тип лицензии: | Trial, только для домашнего использования |
Требования: | Windows 2000/XP/Vista, 250-512 Mb свободного места, сканер |
Система распознавания текста ABBYY FineReader — это многофункциональная программа для перевода бумажных документов, pdf-файлов, фотографий в редактируемые форматы. Эта версия известной программы для распознавания текста специально предназначена для домашнего пользователя, простая и удобная в использовании. В ней отсутствуют лишние функции и сложные настройки, а интерфейс рассчитан даже на неподготовленного пользователя. Если вам нужно время от времени быстро получать электронные копии страниц каких-то учебников, книг, документов — эта версия OCR-программы для вас. Подробнее о FineReader 9.0 Home Edition →
ABBYY FineReader 9.0 Professional Edition
Разработчик: | ABBYY |
Тип лицензии: | Trial |
Требования: | Windows 2000/XP/Vista, 250-512 Mb свободного места, сканер |
Эта версия программы ABBYY FineReader для распознавания текста подойдет для использования в офисе или в учебном заведении, а также для продвинутых пользователей, кто хотел бы иметь возможность задавать множество настроек и активно участвовать в процессе распознавания текста. Возможности программы позволяют вам отсканировать и распознать документы, проверить результат распознавания на ошибки, исправить их автоматически или вручную, и сохранить документ в одном из множества форматов (txt, doc, pdf и др.). Программа умеет работать с сетью: пересылать документы по электронной почте, размещать их в хранилища информации, использовать сетевое оборудование (сканеры и МФУ). Подробнее о FineReader 9.0 Professional Edition →
ABBYY FineReader 9.0 Corporate Edition
Разработчик: | ABBYY |
Тип лицензии: | для корпоративного использования |
Требования: | Windows 2000/XP/Vista, 250-512 Mb свободного места, сканер |
Специальная версия программы ABBYY FineReader для распознавания текста, предназначенная для использования в крупных фирмах, для организации электронных архивов документов. Система позволяет организовать полноценную работу по распознаванию текста внутри большой компании, размещение результатов в электронных хранилищах, использование сетевого оборудования. Подробнее о FineReader 9.0 Corporate Edition →
ABBYY Business Card Reader
Разработчик: | ABBYY |
Тип лицензии: | Trial 1 день |
Требования: | Nokia (модели N73, N78, N79, N82, N85, N86 8MP, N93, N93i, N95, N95-3 NAM, N95 8GB, N96, N96-3, E90 Communicator, 6210 Navigator, E71, E66, E63, E75, 6220 classic, 6720 classic, 5730 XpressMusic, 6710 Navigator, 5800 XpressMusic) |
Эта программа предназначена для мобильных устройств (смартфонов), позволяющая быстро вводить в записную книжку контактную информацию с визитных карточек. ABBYY Business Card Reader будет удобна для деловых людей, бизнесменов, менеджеров, всех, кто часто сталкивается с визитными карточками. Программа поддерживает 16 языков. Подробнее о ABBYY Business Card Reader →
Readiris 12 Pro
Разработчик: | I.R.I.S. s.a. |
Тип лицензии: | Trial |
Требования: | Windows 200/XP/Vista или Mac, 256 Mb RAM, 150-250 Mb свободного места, сканер |
Readiris Pro — многофункциональная OCR-система, которая подойдет как домашним пользователям, так и профессионалам. При помощи этой программы вы можете быстро преобразовать любой документ, PDF-файл, изображение в редактируемый текст, и затем сохранить его в один из множества популярных форматов. Программа имеет простой и приятный интерфейс со множеством дополнительных возможностей и полезных инструментов: сжатие файлов, работа с изображениями, функции экспорта, и др. Подробнее о Readiris 12 Pro →
Readiris 12 Corporate
Разработчик: | I.R.I.S. s.a. |
Тип лицензии: | Trial |
Требования: | Windows 200/XP/Vista или Mac, 256 Mb RAM, 150-250 Mb свободного места, сканер |
Пишем программу на Python для распознавания текста
Readiris Corporate — OCR-система, которая специально предназначена для использования в крупных компаниях, офисах, а также для создания электронных архивов. Программа обладает теми же возможностями, что и версия Readiris Pro, плюс еще дополнительные инструменты и настройки для работы с сетью и сетевым оборудованием. Поддерка азиатских языков, иврита, фарси устанавливается отдельно. Подробнее о Readiris 12 Corporate →
SimpleOCR
Разработчик: | SimpleSoftware |
Тип лицензии: | Freeware |
Требования: | Windows 95/98/NT4/2000/XP/Vista, 50 Mb свободного места, сканер, TWAIN driver |
SimpleOCR — OCR-система, которая распространяется совершенно бесплатно. Программа обладает множеством возможностей, практически не уступая коммерческим версиям. В данный момент SimpleOCR умеет распознавать тексты на английском и французском языках. Подробнее о SimpleOCR →
Ввод китайских иероглифов при помощи мыши или планшета
Разработчик: | NJStar Software Corp. |
Тип лицензии: | trial на 30 дней |
NJStar Chinese Pen — полезная программа для тех, кто работает с китайским языком. NJStar Chinese Pen позволяет вводить китайские иероглифы простым рисования их при помощи мыши или планшета. Это намного быстрее и удобнее, чем набирать иероглифы на клавиатуре по определенным правилам.
Программа поддерживает как китайский традиционный, так и китайский упрощенный. Набранный текст можно озвучивать (произносить) при помощи встроенного speech-движка. Все параметры программы полностью настраиваются.
NJStar Chinese Pen поддерживает все версии операционной системы Windows. Для работы программы требуется примерно 50 Мб свободного места на жестком диске.
rite Pen
Разработчик: | Evernote Corp. |
Тип лицензии: | trial на 30 дней |
rite Pen — программа для ускорения ввода текста в текстовые редакторы, формы, для быстрого заполнения форм и сохранения заметок. Вы можете вводить текст, просто рисуя рукописные символы при помощи мыши или планшета в любом месте экрана. Программа автоматически их распознает и введет в указанную программу или форму, или просто сохранит в своей базе данных.
Вы также можете добавлять заметки прямо на экран, выделять области экрана, и сохранять их для дальнейшего использования. Еще одна полезная возможность — создание меток. Запрограммируйте определенное слово или рисунок (метку) за вводом определенного текста, и как только вы нарисуете эту метку на экране, тут же будет вставлен нужный текст. Подробнее о rite Pen →
ArioForm
Разработчик: | Ariolis |
Тип лицензии: | trial на 30 дней |
ArioForm — решение для обработки большого объема данных, оформленных по определенному шаблону (таких как результаты тестов и опросов, бланки, отчеты, различные формы). Возможности программы позволяют вам создавать и распознавать формы практически любой сложности, содержащие печатный текст, поля ввода рукописного текста, поля выбора одного или нескольких параметров, графические элементы. Программа также имеет набор уже созданных шаблонов. Подробнее о ArioForm →
MyScript Studio
Разработчик: | Vision Objects |
Тип лицензии: | trial на 30 дней |
MyScript Studio — решение для оцифровки документов и заметок, созданных «от руки». Программа будет полезна всем деловым людям, менеджерам, журналистам, и всем остальным, кто часто делает рукописные заметки. При помощи этой программы вы сможете быстро перевести в электронную форму все ваши заметки, записи и рукописные документы, распознать текст и организовать электронный архив. Подробнее о MyScript Studio →
Распознавание рукописного текста MyScript Stylus
Разработчик: | Vision Objects |
Тип лицензии: | trial на 30 дней |
Требования: | Windows, Mac или Linux, 400 Мб свободного места |
MyScript Stylus — программа для распознавания рукописного текста. Текст можно вводить при помощи мыши или планшета. Программа распознает текст по технологии, применяющейся в кпк, и может использоваться там, где нет возможности использовать стандартную клавиатуру или ее использование затруднено (например, если компьютер используется как терминал для ввода/вывода информации, как платежный терминал). Вы можете закрепить MyScript Stylus за определенной программой, и весь распознаваемый текст будет передаваться ей, как-будто текст вводится стандартным способом. MyScript Stylus поддерживает 26 языков. Подробнее о MyScript Stylus →
PenOffice
Разработчик: | PhatWare Corporation |
Тип лицензии: | trial на 30 дней |
Требования: | Windows XP/Vista, 50 Мб свободного места |
PenOffice — программа для распознавания рукописного текста. PenOffice был специально создан для интеграции с программами пакетов Microsoft Office и OpenOffice, но позволяет вводить распознанный текст также и в другие программы. Программа позволяет распознавать 9 языков: английский, испанский, итальянский, голландский, французский, немецкий, норвежский, португальский и шведский. Подробнее о PenOffice →
CalliGrapher
Разработчик: | PhatWare Corporation |
Тип лицензии: | trial на 30 дней |
Требования: | Windows Mobile 4/5/6/6.1, 3.8 Мб свободного места, ActiveSync 4.0 |
CalliGrapher — программа ввода рукописного текста для кпк и смартфонов под управлением Windows Mobile. Программа распознает рукописный текст и сразу же вводит его в текстовый редактор в выбранном стиле. Вы можете писать текст в любом месте экрана. CalliGrapher имеет встроенную виртуальную клавиатуру, систему проверки правописания и многоязыковую поддержку. Подробнее о CalliGrapher →
Источник: mrtranslate.ru
Программы автоматического распознавания текста.
Основным методом перевода бумажных документов в электронную форму является сканирование. Сканирование — это технологический процесс, в результате которого создается графический образ бумажного документа. Существует несколько разных видов сканеров, но в их основе лежит один и тот же принцип.
Документ освещается светом от специального источника, а отраженный свет воспринимается светочувствительным элементом. Минимальный элемент изображения интерпретируется сканером как цветная (или серая) точка. Таким образом, в результате сканирования документа создается графический файл, в котором хранится растровое изображение исходного документа. Растровое изображение состоит, как известно, из точек. Количество точек определяется как размером изображения, так и разрешением сканера.
5.2. Автоматическое распознавание текстов
После обработки документа сканером получается графическое изображение документа (графический образ), который не является текстовым документом. Человеку достаточно взглянуть на лист бумаги с текстом, чтобы понять, что на нем написано. С точки зрения компьютера, документ после сканирования превращается в набор разноцветных точек, а вовсе не в текстовый документ.
Проблема распознавания текста в составе точечного графического изображения решается с помощью специальных программных средств, называемых средствами распознавания образов. Сначала распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера).
Авторы программ задавали критерий «похожести», используемый при идентификации символов. Подобные системы назывались ОСR. (оптическое распознавание символов) и опирались на специально разработанные шрифты. Современные программы вполне могут справляться с различными (и весьма вычурными) шрифтами без перенастройки. Многие распознают даже рукописный текст.
5.3. Программы распознавания текстов
Программы распознавания текстов должны выполнять следующие операции: 1. Сканирование;
4. Проверка орфографии;
Нас, прежде всего, интересуют программы, способные распознавать текст, напечатанный на русском языке. Такие программы выпускаются отечественными производителями. Наиболее широко известны и распространены программы Fine Reader (АВВУУ) и CuneiForm (Coginitive).
Fine Reader обеспечивает высокое качество распознавания и удобство применения. Она позволяет объединять сканирование и распознавание в одну операцию. Существуют различные версии Fine Reader. Самая простая модификация поставляется бесплатно вместе со сканером.
Профессиональная версия Fine Reader Pro может грамотно обработать таблицы и изображения, читать штрих-коды, добавлять в базу данных новые языки. Самая мощная и дорогостоящая версия — Fine Reader Office может распознавать любые бланки и формы. Fine Reader поддерживает почти 200 языков распознавания, в числе которых можно найти экзотические и древние языки и даже некоторые языки программирования (Basic, C/C++, COBOL, Фортран, Паскаль). Недостаток программы Fine Reader – стоимость.
Программа CuneiForm содержит гораздо меньше функциональных возможностей и поддерживает всего 20 языков. Но зато CuneiForm предлагает только полезные и необходимые услуги. Цена программы является преимуществом.
Обе программы можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов.
Компьютерная графика.
Виды компьютерной графики
Различают всего три вида компьютерной графики. Это растровая графика, векторная графика и фрактальная графика. Они отличаются принципами формирования изображения при отображении на экране монитора или при печати на бумаге.
6.1. Растровая графика
Основным элементом растрового изображения является точка. Если изображение экранное, то эта точка называется пикселем. В зависимости от того, на какое графическое разрешение экрана настроена операционная система компьютера, на экране могут размещаться изображения, имеющие 640х480, 800х600, 1024х768 и более пикселей.
С размером изображения непосредственно связано его разрешение. Этот параметр измеряется в точках на дюйм (dpi).
1. Большие объемы данных
2. Невозможность увеличения изображения для рассмотрения деталей. Поскольку изображение состоит из точек, то увеличение изображения приводит только к тому, что эти точки становятся крупнее. Более того, увеличение точек растра визуально искажает иллюстрацию и делает ее грубой. Этот эффект называется пикселизацией.
6.2. Векторная графика
В векторной графике основным элементом изображения является линия (при этом не важно, прямая это линия или кривая).
В растровой графике тоже существуют линии, но там они рассматриваются как комбинации точек. Для каждой точки линии в растровой графике отводится одна или несколько ячеек памяти (чем больше цветов могут иметь точки, тем больше ячеек им выделяется). Соответственно, чем длиннее растровая линия, тем больше памяти она занимает.
В векторной графике объем памяти, занимаемый линией, не зависит от размеров линии, поскольку линия представляется в виде формулы, а точнее говоря, в виде нескольких параметров. Что бы мы ни делали с этой линией, меняются только ее параметры, хранящиеся в ячейках памяти. Количество же ячеек остается неизменным для любой линии. Линия — это элементарный объект векторной графики. Все, что есть в векторной иллюстрации, состоит из линий.
Как и все объекты, линии имеют свойства. К этим свойствам относятся: форма линии, ее толщина, цвет, характер линии (сплошная, пунктирная и т. п.). Замкнутые линии имеют свойство заполнения. Внутренняя область замкнутого контура может быть заполнена цветом, текстурой, картой. Простейшая линия, если она не замкнута, имеет две вершины, которые называются узлами.
Узлы тоже имеют свойства, от которых зависит, как выглядит вершина линии и, как две линии сопрягаются между собой.
6.3. Понятие о фрактальной графике
Фрактальная графика, как и векторная — вычисляемая, но отличается от нее тем, что никакие объекты в памяти компьютера не хранятся. Изображение строится по уравнению (или по системе уравнений), поэтому ничего, кроме формулы, хранить не надо. Изменив коэффициенты в уравнении, можно получить совершенно другую картину.
Источник: megaobuchalka.ru
Системы автоматического распознавания форм
Человечество постоянно борется за снижение доли ручного труда. Можно сказать, что в области офисной автоматизации оно достигло особенного прогресса.
Но одно дело разработать технологию, а другое — повсеместно ее внедрить. Ярким примером здесь является система автоматического распознавания форм — технология, которая позволяет переложить монотонный многочасовой труд машинистки на компьютерное оборудование.
Сущность системы распознавания форм (на Западе используют термин Document Capturing — «захват документа») сводится к распознаванию документа определенного формата в общем случае с печатным или рукопечатным заполнением. Задача распознавания состоит в нахождении неких известных полей, а результатом работы программы обычно является не просто текстовый документ, а определенная запись в некоторой базе данных.
Задача очень насущная и возникает практически везде, где человек сталкивается с необходимостью автоматизированной компьютерной обработки однотипных документов. В общем приближении рынок Document Capturing (только его программная часть) в мире оценивается примерно в 300 млн. долл., при этом довольно быстро развиваясь. Больших успехов в этом направлении достигли российские компании. Необходимо отметить, что в области систем распознавания (которые можно отнести к системам искусственного интеллекта) у нас очень сильная отечественная школа.
Однако подчас неосведомленность начальства и неэффективная организация работы приводят к тому, что по старинке в компьютер вручную вбиваются тысячи однотипных печатных и рукопечатных форм. Объемы подобного труда поистине огромны. В стране функционируют сотни организаций, работающих с физическими и юридическими лицами, которые в своей повседневной деятельности обрабатывают несметные потоки документов: платежные поручения, анкеты, декларации, квитанции и т.д.
Суммарное количество документов, которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации, может достигать нескольких тысяч и даже десятков тысяч в день. Можно себе представить, в каком масштабе подобные работы производятся в целом по стране. На это тратятся огромные средства, в то время как проблема может быть решена намного более эффективно.
В данной статье мы планируем рассказать о двух решениях отечественных компаний, специализирующихся на рынке автоматизированного ввода данных: о программе «ABBYY FineReader Рукопись» и программе Cognitive Forms. Надеемся, что наша статья поможет распространению информации об автоматизированных системах и будет способствовать более широкому внедрению системы распознавания форм, что, в свою очередь, не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию, снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных.
«ABBYY FineReader Рукопись»
Система «ABBYY FineReader Рукопись» предназначена для offline-распознавания 1 рукопечатных и печатных форм различного типа, включая даже те формы, которые изначально не были предназначены для машинной обработки.
Система обладает возможностью распознавания печатных текстов на 50 языках и рукопечатных текстов на шести языках. Благодаря различным методам удаления изображения формы помимо традиционных цветных и растровых форм «FineReader Рукопись» может распознавать информацию и с черно-белых форм с различными типами разметки полей.
Программа позволяет осуществлять ввод форм различной степени сложности, включая многостраничные формы. Масштабируемость системы делает ее пригодной для ввода практически любых объемов информации — от простейших систем для ввода сотен документов в день и до комплексов из десятков компьютеров для ввода сотен тысяч документов ежедневно.
Благодаря технологии FlexiForm, реализованной в «FineReader Рукопись», возможна обработка даже не машиночитаемых — так называемых гибких — форм.
Под задачей ввода гибких форм (FlexiForms) понимают задачу ввода одинаковых форм, напечатанных на не строго однотипных бланках. Например, это могут быть документы, распечатанные на различных принтерах, в различных организациях, то есть однотипная информация на которых расположена по-разному.
В категорию гибких форм входят все формы, расположение полей в которых не зафиксировано геометрически, что типично практически для всех финансовых документов, используемых в России: платежных поручений, балансовых отчетов, справок о доходах, счетов, накладных и пр.
Весьма условно алгоритм определения расположения полей на каждой конкретной форме можно описать следующим образом: «Слева от поля есть надпись “индекс”». Однако возможна ситуация, когда такая пометка встречается не на всех формах — в этом случае алгоритм нужно дополнить другими «приметами» поля, например: «скорее всего слева от поля будет вертикальная линия, а ниже поля должен быть текст “адрес”».
Технология FlexiForm нашла свое применение во множестве различных систем по вводу документов, включая русские платежные поручения; польские рукописные банковские чеки; международные карточки VISA; украинские платежные поручения; литовские библиотечные карточки; межбанковские переводы в Бельгии и многие другие.
В тех случаях, когда форма не содержит исправлений и заполнена аккуратно, программа распознает рукописные символы, допуская менее пяти ошибок на 1000 символов, что более чем в пять раз меньше, чем делает профессиональная машинистка.
Повышенная точность объясняется автоматическим контролем результатов распознавания на основе проверок по словарям и базам данных. Программа автоматически проверяет корректность результатов распознавания по базам данных, словарям, с помощью перекрестных проверок полей, проверок сумм, форматов дат и т.д. Открытый интерфейс позволяет пользователю создавать собственные правила автоматического контроля.
На основе FineReader API 2 можно настраивать интерфейс системы, запускать программу из других приложений и легко интегрировать ее в любую другую систему обработки информации.
Используя FineReader Developer Edition, можно писать свои приложения на основе программы «FineReader Рукопись».
FineReader распознает формы, заполненные от руки, на печатной машинке или принтере, а также пункты (checkmarks) и штрих-коды. После распознавания FineReader выделяет цветом все неуверенно распознанные символы и подает их на верификацию. Оператор тратит лишь секунды, проверяя отдельные символы, вместо того чтобы тратить минуты на полный ввод всей формы.
В России имеется целый ряд авторитетных организаций, которые уже использовали описанную систему в своей работе. Среди них Министерство по налогам и сборам (МНС) РФ, Пенсионный фонд РФ, Федеральный центр тестирования и ряд других организаций. Например, обработка налоговых деклараций москвичей велась при помощи программы «FineReader Рукопись». Это позволило МНС значительно сократить сроки и стоимость обработки налоговых деклараций. Наверняка список клиентов, использующих данное программное обеспечение, будет расти.
Система Cognitive Forms
Система Cognitive Forms принадлежит к классу OCR/ICR/OMR (Optical Charachter Recognition/Intelligent Character Recognition/Optical Mark Recognition 3 ) и позволяет осуществлять потоковый ввод стандартных форм с печатным, рукописным заполнением и отметками (checkbox) в компьютерные БД и корпоративные информационные системы.
В системе Cognitive Forms реализована так называемая трехуровневая технология распознавания:
1. Распознавание отдельного символа. Здесь применяется комбинация нескольких методов распознавания (композитивный метод):
- нейротехнологии;
- структурный метод (скелетон);
- древовидное распознавание;
- метод, базирующийся на кластерном анализе (событийное распознавание 4 ).
Кроме того, существуют алгоритмы, которые позволяют работать с текстами низкого качества. Так, для разрезания «склеенных» символов существует алгоритм оценки оптимальных разбиений (технология FustCut и ее усовершенствованный вариант PowerCut). Наоборот, для соединения «рассыпанных» элементов существует алгоритм их соединения.
2. Распознавание поля знаков (методы распознавания базируются на варианте 1 и на методах динамического программирования).
3. Лингвистическая поддержка. Включает в себя словарную обработку, микролингвистику и частотный словарь. Данный уровень необходим для повышения точности распознавания. Часть полей бланка поддерживается специальными словарями. Например, результат распознавания поля «имя» может быть скорректирован с использованием словаря имен, в цифровом поле не может появиться буква, и наоборот.
Разработанный Cognitive Technologies частотный словарь имеет возможность корректировать ошибки благодаря наличию статистики оценок вероятности появления соседних символов. Иными словами, вероятность появления «ъ» после гласной буквы равна нулю.
Таким образом, на первом этапе система распознает структуру документа (линии разграфки и текст), затем анализирует расположение его полей (символы, совокупности символов) и, наконец, проводит лингвистическую обработку результатов распознавания.
В случае если форма занимает несколько страниц, с успехом применяются так называемые самообучающиеся, или адаптивные, методы распознавания. Принцип их работы состоит в следующем. В каждом тексте присутствуют четко и нечетко прописанные символы.
После того как система распознала текст (как это делает обычная OCR-система) и получила точность меньше пороговой, производится дораспознавание текста на основе шрифта, который самогенерируется системой по хорошо пропечатанным символам. В этом подходе разработчики соединили достоинства двух типов систем распознавания: omnifont и multifont. Напомним, что первые позволяют распознавать любые шрифты без дополнительного обучения, а вторые более устойчивы при распознавании низкокачественных текстов. Использование самообучающихся алгоритмов позволяет поднять точность распознавания низкокачественных текстов в четыре-пять раз. Но главное, пожалуй, в том, что у самообучающихся систем больше потенциал повышения точности распознавания.
Стоит отметить, что технология Cognitive Forms не принадлежит к классу так называемых коробочных продуктов. Каждая ее инсталляция сопровождается адаптацией в соответствии с требованиями заказчика. Введение этой процедуры позволяет получить необходимое качество распознавания.
Процесс работы с Cognitive Forms осуществляется следующим образом. Оператор на станции сканирования помещает пачку документов в устройство автоматической подачи сканера (как правило, это высокопроизводительный сканер Kodak, Banctech, Bell+Howell, Hewlett-Packard, Fujitsu). По нажатию клавиши запускается процесс потокового сканирования документов.
Подсистема распознавания — Cognitive FormReader — в автоматическом режиме управляет распознаванием и контекстной проверкой правильности распознавания.
На станции визуального контроля (модуль редактирования Cognitive FormEditor) оператор имеет возможность визуально контролировать и редактировать распознанные поля форм перед экспортом в базу данных.
В подсистеме создания описания форм (Cognitive FormDesigner) создается компьютерное описание обрабатываемых форм, используемое на всех этапах процесса ввода — от распознавания до экспорта в базу данных.
Подсистема экспорта результатов формирует текстовое представление документа перед его записью в базу данных, с окончательной проверкой на допустимость значений экспортируемых данных. Регистрация записи осуществляется пользователем после ввода и проверки определенного количества документов.
Подсистема экспорта в базу данных позволяет экспортировать распознанные документы через ODBC в SQL-серверы, сохранять результаты распознавания в форматах DBF, XLS, CSV, TXT, RTF, DOC и т.д.
Одним из важных элементов Cognitive Forms является система контроля за правильностью ввода информации. Ее основная функция состоит в том, чтобы точность распознавания на выходе составляла 100%, при этом обеспечивая минимальную степень утомляемости оператора. Система контроля правильности ввода документов разработана с учетом требований эргономики и повышения производительности труда. Контролю со стороны человека подлежат лишь те данные, которые не удовлетворяют требованиям правильности распознавания.
Массовый вводплатежных поручений
Оперативность ввода платежных поручений (ПП) во много раз увеличивает объем информации, обрабатываемой банком, и в значительной степени уменьшает количество ошибок, неизбежно допускаемых при традиционном способе ввода ПП.
Эффективный ввод ПП клиентов банка в автоматизированную банковскую систему обеспечивает система автоматизации обработки платежных поручений — частный случай Cognitive Forms (CF:ВПП).
Важно отметить, что CF:ВПП автоматизирует не только ввод документа (его перевод с бумажного в электронный формат), но и весь последующий процесс до операции проведения платежа. Система предусматривает следующие этапы обработки платежных поручений:
- ввод (сканирование заполненной формы произвольного форматирования);
- проверка (производится распознавание документа и его автоматическая верификация);
- отправка на выполнение (экспорт документа в автоматизированную банковскую систему в требуемом формате).
- ПК и комплектующие
- Настольные ПК и моноблоки
- Портативные ПК
- Серверы
- Материнские платы
- Корпуса
- Блоки питания
- Оперативная память
- Процессоры
- Графические адаптеры
- Жесткие диски и SSD
- Оптические приводы и носители
- Звуковые карты
- ТВ-тюнеры
- Контроллеры
- Системы охлаждения ПК
- Моддинг
- Аксессуары для ноутбуков
- Принтеры, сканеры, МФУ
- Мониторы и проекторы
- Устройства ввода
- Внешние накопители
- Акустические системы, гарнитуры, наушники
- ИБП
- Веб-камеры
- KVM-оборудование
- Сетевые медиаплееры
- HTPC и мини-компьютеры
- ТВ и системы домашнего кинотеатра
- Технология DLNA
- Средства управления домашней техникой
- Планшеты
- Смартфоны
- Портативные накопители
- Электронные ридеры
- Портативные медиаплееры
- GPS-навигаторы и трекеры
- Носимые гаджеты
- Автомобильные информационно-развлекательные системы
- Зарядные устройства
- Аксессуары для мобильных устройств
- Цифровые фотоаппараты и оптика
- Видеокамеры
- Фотоаксессуары
- Обработка фотографий
- Монтаж видео
- Операционные системы
- Средства разработки
- Офисные программы
- Средства тестирования, мониторинга и диагностики
- Полезные утилиты
- Графические редакторы
- Средства 3D-моделирования
- Веб-браузеры
- Поисковые системы
- Социальные сети
- «Облачные» сервисы
- Сервисы для обмена сообщениями и конференц-связи
- Разработка веб-сайтов
- Мобильный интернет
- Полезные инструменты
- Средства защиты от вредоносного ПО
- Средства управления доступом
- Защита данных
- Проводные сети
- Беспроводные сети
- Сетевая инфраструктура
- Сотовая связь
- IP-телефония
- NAS-накопители
- Средства управления сетями
- Средства удаленного доступа
- Системная интеграция
- Проекты в области образования
- Электронный документооборот
- «Облачные» сервисы для бизнеса
- Технологии виртуализации
1999 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2000 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2001 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2002 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2003 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2004 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2005 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2006 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2007 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2008 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2009 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2010 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2011 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2012 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
2013 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Источник: compress.ru