2. Программы распознавания текста
Системы оптического распознавания текста (Optical character recognition – OCR) широко
используются как на бытовом так и на промышленном уровне. В настоящее время на рынке
имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую
известность получили такие OCR-программы как:
RecognitaPlusDTK;
TextBridge;
TypeReader;
СharacterEyes;
IRIS OCR;
EasyReader;
OmniPageProfessional и WordScanPlus;
ABBYY FineReader;
OCR CuneiForm
Все эти программы используют самые различные алгоритмы распознавания каждый из
которых обладает как преимуществами так и определенными недостатками. Не редкостью
является использование комбинации нескольких алгоритмов в одной программе. Однако не
смотря на это проблема качества распознавания графического текста остается по-прежнему
актуальной, так как пока ни одна из программ не дает абсолютного качества.
3. Основные алгоритмы распознавания текста
Растровый
пиксельное сравнение изображения с шаблоном
Преимущества:
- Простота реализации;
- Быстродействие;
- Устойчивость к случайным дефектам изображения при распозновании.
Недостатки:
- Невысокая точность распознавания.
4. Признаковый
определение типичных признаков символа отличающих его от других символов.
Преимущества:
- Высокая точность распознавания;
- Усложненная реализация.
Недостатки:
- Низкое быстродействие.
Основные алгоритмы распознавания текста
5. Основные алгоритмы распознавания текста
Структурный
определение основных линий буквы, их направления и взаимного расположения
Преимущества:
- Простота реализации;
- Устойчивость к искажениям формы символа;
- Хорошее качество распознавания;
Недостатки:
- Низкая устойчивость к дефектам изображения.
6. A-sense
Алгоритм который планируется использовать в программе A-sense не имеет
ничего общего с алгоритмами описанными в предыдущих слайдах.
Его реализация была опробована в опытной программе (детальная разработка
которой еще предстоит). Результаты испытаний показали что данный
алгоритм распознавания:
- Более устойчив к различным дефектам букв;
- Более качественно определяет элементы текста (строки, слова, буквы);
- Имеет значительный потенциал для дальнейшего совершенствования;
- Прост в реализации;
- Обладает высоким быстродействием.
Тест алгоритма проводился с использованием только 30 букв русского
алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой
программе не использовались (шаблоны пока не заданы). Вывод текста после
распознавания осуществлялся без разделения букв на строчные и прописные.
Результаты тестирования отражены в последующих слайдах. Для сравнения
результатов тестирования представлены также результаты полученные при
использовании других OCR-программ.