Intellectual character recognition system
the new algorithm - new opportunities
Программы распознавания текста
Системы оптического распознавания текста (Optical character recognition – OCR) широко
используются как на бытовом так и на промышленном уровне. В настоящее время на рынке
имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую
известность получили такие OCR-программы как:
 RecognitaPlusDTK;
 TextBridge;
 TypeReader;
 СharacterEyes;
 IRIS OCR;
 EasyReader;
 OmniPageProfessional и WordScanPlus;
 ABBYY FineReader;
 OCR CuneiForm
Все эти программы используют самые различные алгоритмы распознавания каждый из
которых обладает как преимуществами так и определенными недостатками. Не редкостью
является использование комбинации нескольких алгоритмов в одной программе. Однако не
смотря на это проблема качества распознавания графического текста остается по-прежнему
актуальной, так как пока ни одна из программ не дает абсолютного качества.
Основные алгоритмы распознавания текста
 Растровый
пиксельное сравнение изображения с шаблоном
Преимущества:
- Простота реализации;
- Быстродействие;
- Устойчивость к случайным дефектам изображения при распозновании.
Недостатки:
- Невысокая точность распознавания.
 Признаковый
определение типичных признаков символа отличающих его от других символов.
Преимущества:
- Высокая точность распознавания;
- Усложненная реализация.
Недостатки:
- Низкое быстродействие.
Основные алгоритмы распознавания текста
Основные алгоритмы распознавания текста
 Структурный
определение основных линий буквы, их направления и взаимного расположения
Преимущества:
- Простота реализации;
- Устойчивость к искажениям формы символа;
- Хорошее качество распознавания;
Недостатки:
- Низкая устойчивость к дефектам изображения.
A-sense
Алгоритм который планируется использовать в программе A-sense не имеет
ничего общего с алгоритмами описанными в предыдущих слайдах.
Его реализация была опробована в опытной программе (детальная разработка
которой еще предстоит). Результаты испытаний показали что данный
алгоритм распознавания:
- Более устойчив к различным дефектам букв;
- Более качественно определяет элементы текста (строки, слова, буквы);
- Имеет значительный потенциал для дальнейшего совершенствования;
- Прост в реализации;
- Обладает высоким быстродействием.
Тест алгоритма проводился с использованием только 30 букв русского
алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой
программе не использовались (шаблоны пока не заданы). Вывод текста после
распознавания осуществлялся без разделения букв на строчные и прописные.
Результаты тестирования отражены в последующих слайдах. Для сравнения
результатов тестирования представлены также результаты полученные при
использовании других OCR-программ.
Часть исходной тестируемой на распознавание страницы
Результат распознавания 7-й версией Abbyy Finereader
Результат распознавания одной из on-line OCR-программой
Результат распознавания экспериментальным прототипом алгоритма
A-sense
Контактная информация
 email: isca1@yandex.ru

Intellectual character recognition system1

  • 1.
    Intellectual character recognitionsystem the new algorithm - new opportunities
  • 2.
    Программы распознавания текста Системыоптического распознавания текста (Optical character recognition – OCR) широко используются как на бытовом так и на промышленном уровне. В настоящее время на рынке имеется довольно широкий спектр программ такого назначения. Однако наиболее широкую известность получили такие OCR-программы как:  RecognitaPlusDTK;  TextBridge;  TypeReader;  СharacterEyes;  IRIS OCR;  EasyReader;  OmniPageProfessional и WordScanPlus;  ABBYY FineReader;  OCR CuneiForm Все эти программы используют самые различные алгоритмы распознавания каждый из которых обладает как преимуществами так и определенными недостатками. Не редкостью является использование комбинации нескольких алгоритмов в одной программе. Однако не смотря на это проблема качества распознавания графического текста остается по-прежнему актуальной, так как пока ни одна из программ не дает абсолютного качества.
  • 3.
    Основные алгоритмы распознаваниятекста  Растровый пиксельное сравнение изображения с шаблоном Преимущества: - Простота реализации; - Быстродействие; - Устойчивость к случайным дефектам изображения при распозновании. Недостатки: - Невысокая точность распознавания.
  • 4.
     Признаковый определение типичныхпризнаков символа отличающих его от других символов. Преимущества: - Высокая точность распознавания; - Усложненная реализация. Недостатки: - Низкое быстродействие. Основные алгоритмы распознавания текста
  • 5.
    Основные алгоритмы распознаваниятекста  Структурный определение основных линий буквы, их направления и взаимного расположения Преимущества: - Простота реализации; - Устойчивость к искажениям формы символа; - Хорошее качество распознавания; Недостатки: - Низкая устойчивость к дефектам изображения.
  • 6.
    A-sense Алгоритм который планируетсяиспользовать в программе A-sense не имеет ничего общего с алгоритмами описанными в предыдущих слайдах. Его реализация была опробована в опытной программе (детальная разработка которой еще предстоит). Результаты испытаний показали что данный алгоритм распознавания: - Более устойчив к различным дефектам букв; - Более качественно определяет элементы текста (строки, слова, буквы); - Имеет значительный потенциал для дальнейшего совершенствования; - Прост в реализации; - Обладает высоким быстродействием. Тест алгоритма проводился с использованием только 30 букв русского алфавита. Цифры, спецсимволы, знаки пунктации и т.д. в тестовой программе не использовались (шаблоны пока не заданы). Вывод текста после распознавания осуществлялся без разделения букв на строчные и прописные. Результаты тестирования отражены в последующих слайдах. Для сравнения результатов тестирования представлены также результаты полученные при использовании других OCR-программ.
  • 7.
    Часть исходной тестируемойна распознавание страницы
  • 8.
  • 9.
    Результат распознавания однойиз on-line OCR-программой
  • 10.
  • 11.