More Related Content
More from Computer Science Club
More from Computer Science Club (20)
20120408 text detection_vasilieva
- 2. 2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 3. Зачем?
• Необходимо для дальнейшего распознавания текста (OCR)
• Документы – page layout analysis
• Фотографии, чертежи, графики – text detection and localization
• Самостоятельные приложения
• Автоматическое построение коллажей
• Автоматическое изменение размера изображений
3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 4. Компоненты системы извлечения текста
+ Text Enhancement
4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: J. Gllavata
- 5. Приложения
• Оцифровка документов
• Индексирование и извлечение информации из графиков и чертежей
• Индексирование и поиск изображений, автоматическое построение аннотаций
• Переводчик в кармане
пример: Word Lens (http://questvisual.com/)
• Помощь слабовидящим
Fig. credit: N. Ezaki et al.
• Навигация роботов в помещениях, в городских условиях
5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 6. 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 7. 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 8. 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 9. Обнаружение текста – газеты, журналы, книги
• обнаружение текстовых областей
• определение угла поворота текста (skew detection)
• определение порядка чтения
9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 10. Обнаружение текста – произвольные
изображения
Исходное
изображение
Возможные результаты работы алгоритмов
обнаружения текста
10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 11. Обнаружение текста – чертежи и графики
• Обнаружение текстовых областей
• Определение угла поворота текстовых строк
• Короткие фрагменты текста
фотографии
• Разнообразие шрифтов, текст под разными углами
• Однородный фон
печатные документы
• Высокая контрастность
11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 12. План лекции
• Зачем нужны алгоритмы обнаружения текста?
• Что такое цифровое изображение?
– Представление цифровых изображений
– Границы, компоненты связности, бинаризация, преобразование Хафа
• Печатные документы (document images)
• Фотографии (natural scenes)
• Чертежи, графики, обложки
12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 13. Представление цифровых изображений
Растровое изображение
0 f (x , y ) L, and typically L 255
13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 14. Представление цифровых изображений
Цветное растровое изображение:
RGB – распространенная модель цвета
Каждый пиксель задается тремя значениями: red, green, blue
14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 15. Обнаружение границ
15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 16. Градиент изображения
Градиент направлен в сторону
наибольшего изменения
интенсивности
Направление градиента: Величина градиента:
16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 17. Вычисление градиента изображения
Дискретный случай:
Roberts: Prewitt: Sobel:
17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 18. Выделение границ: примеры
Исходное Sobe Canny
l
18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 19. Компоненты связности
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 2 2 0 0 3 3 0 0 4 4 0
0 1 1 1 1 1 1 1 1 0 0 3 3 3 3 0 0
0 0 0 1 1 1 1 0 0 0 3 3 3 3 0 0 0
0 0 1 1 1 1 0 0 0 3 3 3 0 0 3 3 0
0 1 1 1 0 0 1 1 0 0 0 3 3 3 0 0 0
0 0 1 1 0 0 0 0 0 5 3 0 0 0 3 3 0
0 0 0 0 0 0 6 6 5 3 0 0 7 3 3 3 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 20. Компоненты связности
20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 21. Пороговая бинаризация
Светлый объект
на темном фоне
Два светлых
объекта на темном
фоне
Глобальная – порог единый для всех точек изображения
Локальная или Динамическая – когда порог зависит от координат точки (x,y)
Адаптивная – когда порог зависит от значения яркости в точке I(x,y)
21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 22. Бинаризация
22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 23. Преобразование Хафа (Hough transform)
y b
b0
x m0 m
image space Hough space
• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b
23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 24. Преобразование Хафа (Hough transform)
y b
y0
x0 x m
image space Hough space
• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b
• Точке (x0, y0) соответсвует прямая в пространстве Хафа: b = –x0m + y0
Обычно, используют полярные координаты:
24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 25. План лекции
• Зачем нужны алгоритмы обнаружения текста?
• Что такое цифровое изображение?
– Представление цифровых изображений
– Границы, компоненты связности, бинаризация, преобразование Хафа
• Печатные документы (document images)
• Фотографии (natural scenes)
• Графики, диаграммы, обложки
25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 26. Печатные документы
Основные задачи
• Анализ структуры страницы
(layout analysis, geometric structure analysis, page segmentation, region classification)
26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: Y.Y. Tang et al.
- 27. Печатные документы
Основные задачи
• Анализ структуры страницы
(layout analysis, geometric structure analysis, page segmentation, region classification)
• Методы
• «Сверху-вниз» (top-down)
• XY-cuts, whitespace segmentation
• «Снизу-вверх» (bottom-up)
• группировка ближайших соседей, диаграммы Вороного
27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: Y.Y. Tang et al.
- 28. Projection profiles and XY-cuts
Вертикальна
я проекция
Горизонтальна
я проекция
28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: Y.Y. Tang et al.
- 29. Методы «снизу-вверх»
Результат алгоритма Docstrum
29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: A. Namboodiri et al.
- 30. Методы «снизу-вверх»
Использование диаграмм Вороного
30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Fig. credit: A. Namboodiri et al.
- 31. Печатные документы
Основные задачи
• Определение поворота текста
(page rotation, skew detection)
• Projection profiles
(для исходного изображения или компонент связности)
• Использование преобразования Хафа
• Определение угла наклона тектовых строк
• Обнаружение текстовых строк
(text line finding, baseline finding)
31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 32. План лекции
• Зачем нужны алгоритмы обнаружения текста?
• Что такое цифровое изображение?
– Представление цифровых изображений
– Границы, компоненты связности, бинаризация, преобразование Хафа
• Печатные документы (document images)
• Фотографии (natural scenes)
• Графики, диаграммы, обложки
32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 33. Фотографии
Почему не работают традиционные методы?
• Большое разнообразие шрифтов
• Разнообразие расположений и направлений текстовых строк
• Короткие текстовые строки
• Разнообразие условий съемки (освещение, фокусное расстояние)
• Сложный фон
• Нет определенной структуры страницы
• Наложение объектов (occlusions)
33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 34. Фотографии
Классификация подходов
Text detection and
localization
Texture-based Region-based
CC-based Edge-based
K. Jung et al.
34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 35. Фотографии
Методы, основанные на анализе текстуры
Text
NoText
Объединение
результатов
Извлечение Классификация
Построение пирамиды текстурных признаков регионов
изображений (Gabor, Wevelets, DCT (SVM)
)
35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 36. Фотографии
Методы, основанные на анализе текстуры
+
• Сложный фон
–
• Вычислительно сложные (обработка нескольких масштабов, операции
свертки)
• Произвольная направленность текста (негоризонтальный текст)
• Произвольный размер шрифта
36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 37. Фотографии
Region-based methods (bottom-up)
• Выделение компонент связности на основе локальных признаков (близкий
цвет или принадлежность границе)
• Объединение выделенных компонент связности в группы по признакам
близкого расположения и схожих локальных признаков (размер, цвет)
37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 38. Фотографии
Region-based methods
+
• Произвольный размер шрифта
• Произвольная направленность текста
• Просты в реализации
–
• Сложный фон
• Шум и нерезкость изображения
• Используют большое количество эвристик
38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 39. Stroke Width Transform (SWT)
Исходное Результат SWT После фильтрации Найденный текст
изображение по признаку постоянства
ширины штриха
B. Epshtein et al.
39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 40. Обнаружение текста при помощи SWT
B. Epshtein et al.
40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 41. Вычисление SWT
(a) Фрагмент штриха
(b) p – пиксель на границе штриха,
q – пиксель на противоположной стороне штриха
(градиенты в p и q направлены друг на друга)
(c) Всем пикселям вдоль луча pq присваивается значение ширины
штриха
B. Epshtein et al.
41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 42. Обнаружение текста с помощью SWT
• Границы для нерезких изображений, низкого разрешения –
• Погрешность SWT на стыках штрихов –
• Эвристики для фильтрации компонент –
• Двойной проход и интеграция результатов –
42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 43. Комбинированные методы
Y.-F. Pan et al.
43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 44. Комбинированные методы
Шаг 1 – анализ текстуры
Y.-F. Pan et al.
44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 45. Комбинированные методы
Шаг 2 – анализ компонент связности
Y.-F. Pan et al.
45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 46. Комбинированные методы
Шаг 3 – выделение текстовых строк и слов
• построение
минимального
остовного дерева
• решение
оптимизационной
задачи
46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Y.-F. Pan et al.
- 47. ICDAR (2003, 2005, 2009, 2011)
Robust Reading Competitions
• Распознавание символов
• Распознавание слов
• Локализация текста
• Распознавание текста
47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 48. План лекции
• Зачем нужны алгоритмы обнаружения текста?
• Что такое цифровое изображение?
– Представление цифровых изображений
– Границы, компоненты связности, бинаризация, преобразование Хафа
• Печатные документы (document images)
• Фотографии (natural scenes)
• Графики, диаграммы, обложки
48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 49. Графики и диаграммы
Анализ компонент связности по цвету
49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 50. Экспериментальная оценка
Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool
LRR LPR TRR TPR LocationRecognitionRate = NLoc/NG
Preprocess 79.0% 88.7% 44.7% 44.6% LocationPrecisionRate = NLoc/NF
NoPreprocess 33.7% 84.2% 2.5% 2.9% TextRecognitionRate = NTxt/NG
TextPrecisionRate = NTxt/NF
NLoc – the number of correctly localized text blocks NG – the total number of text blocks
NTxt – the number of correctly recognized text blocks NF – the total number of detected text blocks
50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 51. Screenshots
– Выделение границ и пороговая
бинаризация
– Удаление длинных
горизонтальных и вертикальных
границ
– Выделение компонент связности
– Классификация компонент
связности и адаптивная
бинаризация бинаризация
(+) Быстрая
− Время обработки изображения1600x1008
• Tesseract OCR: ~6.56 секунд
• Данный алгоритм: ~0.45 seconds
(–) Требует фильтрации
компонент
− Naïve Bayes
51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
- 52. Заключение
• Зачем нужны алгоритмы обнаружения текста?
– Распознавание текста: оцифровка, индексирование, извлечение
информации, автоматический перевод, text to speech, навигация
• Печатные документы (document images)
– Анализ структуры документа, определение поворота, выделение текстовых строк
• Фотографии (natural scenes)
– Texture-based & region-based
– Stroke Width Transform, Hybrid approach
• Графики, диаграммы, обложки
52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.