Intellectual character recognition system1

Intellectual character recognition system
the new algorithm - new opportunities

Программы распознавания текста
Системы оптического распознавания текста (Optical character recognition – OCR) широко
используются как на бытовом так и на промышленном уровне. В настоящее время на рынке
имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую
известность получили такие OCR-программы как:
 RecognitaPlusDTK;
 TextBridge;
 TypeReader;
 СharacterEyes;
 IRIS OCR;
 EasyReader;
 OmniPageProfessional и WordScanPlus;
 ABBYY FineReader;
 OCR CuneiForm
Все эти программы используют самые различные алгоритмы распознавания каждый из
которых обладает как преимуществами так и определенными недостатками. Не редкостью
является использование комбинации нескольких алгоритмов в одной программе. Однако не
смотря на это проблема качества распознавания графического текста остается по-прежнему
актуальной, так как пока ни одна из программ не дает абсолютного качества.

Основные алгоритмы распознавания текста
 Растровый
пиксельное сравнение изображения с шаблоном
Преимущества:
- Простота реализации;
- Быстродействие;
- Устойчивость к случайным дефектам изображения при распозновании.
Недостатки:
- Невысокая точность распознавания.

 Признаковый
определение типичных признаков символа отличающих его от других символов.
- Высокая точность распознавания;
- Усложненная реализация.
- Низкое быстродействие.

 Структурный
определение основных линий буквы, их направления и взаимного расположения
- Простота реализации;
- Устойчивость к искажениям формы символа;
- Хорошее качество распознавания;
- Низкая устойчивость к дефектам изображения.

A-sense
Алгоритм который планируется использовать в программе A-sense не имеет
ничего общего с алгоритмами описанными в предыдущих слайдах.
Его реализация была опробована в опытной программе (детальная разработка
которой еще предстоит). Результаты испытаний показали что данный
алгоритм распознавания:
- Более устойчив к различным дефектам букв;
- Более качественно определяет элементы текста (строки, слова, буквы);
- Имеет значительный потенциал для дальнейшего совершенствования;
- Прост в реализации;
- Обладает высоким быстродействием.
Тест алгоритма проводился с использованием только 30 букв русского
алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой
программе не использовались (шаблоны пока не заданы). Вывод текста после
распознавания осуществлялся без разделения букв на строчные и прописные.
Результаты тестирования отражены в последующих слайдах. Для сравнения
результатов тестирования представлены также результаты полученные при
использовании других OCR-программ.

Часть исходной тестируемой на распознавание страницы

Результат распознавания 7-й версией Abbyy Finereader

Результат распознавания одной из on-line OCR-программой

Результат распознавания экспериментальным прототипом алгоритма
A-sense

Контактная информация
 email: isca1@yandex.ru

Intellectual character recognition system1

More Related Content

What's hot

Intellectual character recognition system1