Анализ изображений и видеоЛекция 8: Обнаружение текста на изображенияхНаталья Васильеваnvassilieva@hp.comHP Labs Russia23 ...
Вопросы (разбор ответов)1. Преобразуйте цепной код 1527650432 так, чтобы он стал инвариантным по   отношению к выбору нача...
Организационные объявления• 30 ноября: семинар по последнему домашнему заданию• 7 декабря: зачет по чтению статей  • (мне ...
4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without...
Зачем?• Необходимо для дальнейшего распознавания текста (OCR)    • Документы (document images):        •   page layout ana...
Компоненты системы извлечения текста                                                                                      ...
Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск из...
8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without...
9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without...
Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск из...
11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change withou...
Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск из...
Обнаружение текста – газеты, журналы, книги                                                                  • обнаружение...
Печатные документыОсновные задачи• Анализ структуры страницы    (layout analysis, geometric structure analysis, page segme...
Печатные документыОсновные задачи• Анализ структуры страницы    (layout analysis, geometric structure analysis, page segme...
Projection profiles and XY-cuts                                                                                           ...
Методы «снизу-вверх»Результат алгоритма Docstrum17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The informat...
Методы «снизу-вверх»Использование диаграмм Вороного18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The infor...
Печатные документыОсновные задачи• Определение поворота текста    (page rotation, skew detection)                         ...
Преобразование Хафа (Hough transform) Основная идея• Каждая прямая задается уравнением• Через произвольную точку проходит ...
Преобразование Хафа                                                    y=ax+b                             image space     ...
Преобразование Хафа• Разбиваем пространство параметров на  «ячейки накопления»• Для каждой точки из заданного  множества т...
Преобразование Хафа             Обычно, используют полярные координаты:23 © Copyright 2012 Hewlett-Packard Development Com...
Преобразование Хафа                                                                                                       ...
Печатные документыОсновные задачи• Определение поворота текста    (page rotation, skew detection)                         ...
Обнаружение текста – произвольные изображенияИсходноеизображение                                                          ...
ФотографииКлассификация подходов                                                                              Text detecti...
ФотографииМетоды, основанные на анализе текстуры                                                                          ...
ФотографииМетоды, основанные на анализе текстуры+• Сложный фон–• Вычислительно сложные (обработка нескольких масштабов, оп...
ФотографииRegion-based methods (bottom-up)• Выделение компонент связности на основе локальных признаков (близкий цвет  или...
ФотографииRegion-based methods+• Произвольный размер шрифта• Произвольная направленность текста• Просты в реализации–• Сло...
Stroke Width Transform (SWT)         Исходное                                         Результат SWT                       ...
Обнаружение текста при помощи SWT B. Epshtein et al.33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The info...
Вычисление SWT    (a) Фрагмент штриха    (b) p – пиксель на границе штриха,        q – пиксель на противоположной стороне ...
Обнаружение текста с помощью SWT•     Границы для нерезких изображений, низкого разрешения – •     Погрешность SWT на сты...
36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change withou...
Комбинированные методы Y.-F. Pan et al., 201137 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information...
Комбинированные методыШаг 1 – анализ текстурыY.-F. Pan et al.38 © Copyright 2012 Hewlett-Packard Development Company, L.P....
Комбинированные методыШаг 2 – анализ компонент связности                                                                  ...
Комбинированные методыШаг 3 – выделение текстовых строк и слов                                                            ...
ICDAR (2003, 2005, 2009, 2011)Robust Reading Competitions•   Распознавание символов•   Распознавание слов•   Локализация т...
Text detection with unsupervised feature learning1. Построение словаря признаков    •       Кластеризация фрагментов 8x8  ...
Обнаружение текста – чертежи и графики• Обнаружение текстовых областей• Определение угла поворота текстовых строк• Коротки...
Графики и диаграммыАнализ компонент связности по цвету44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The in...
Экспериментальная оценкаТестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool                                   ...
Screenshots                                                                                                            – В...
Script dependencyStroke Width Transform47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information conta...
Script dependencyAdaptive binarization48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contai...
Script dependencyStroke Width Transform49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information conta...
Script dependencyAdaptive binarization50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contai...
Заключение• Зачем нужны алгоритмы обнаружения текста?    – Распознавание текста: оцифровка, индексирование, извлечение инф...
Upcoming SlideShare
Loading in …5
×

2012 11-23 image-videoanalysis_lecture09

947 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
947
On SlideShare
0
From Embeds
0
Number of Embeds
499
Actions
Shares
0
Downloads
41
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

2012 11-23 image-videoanalysis_lecture09

  1. 1. Анализ изображений и видеоЛекция 8: Обнаружение текста на изображенияхНаталья Васильеваnvassilieva@hp.comHP Labs Russia23 ноября 2012, Computer Science Center
  2. 2. Вопросы (разбор ответов)1. Преобразуйте цепной код 1527650432 так, чтобы он стал инвариантным по отношению к выбору начальной точки и к повороту.2. Дано изображение шахматного поля с клетками размером nxn пикселей. Какие параметры сдвига будут порождать матрицу смежности диагонального вида?3. К каким трансформациям изображения не инвариантен детектор Харриса?4. Какая индексная структура требует меньшего объема памяти для организации индекса: kD-tree или Vocabulary tree?5. Какова вероятность коллизии для двух объектов x и y при использовании b- битных хеш-кодов и t независимых хеш-таблиц, если известно что sim(x,y)=p? a) pt b) 1 – (1 – pb)t c) b(1 – pt)2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  3. 3. Организационные объявления• 30 ноября: семинар по последнему домашнему заданию• 7 декабря: зачет по чтению статей • (мне никто не присылал запросы на скачивание статей!!!)• 14 декабря: консультация, досдача домашних заданий• 21 декабря: экзамен (начало в 18:30?)3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  4. 4. 4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  5. 5. Зачем?• Необходимо для дальнейшего распознавания текста (OCR) • Документы (document images): • page layout analysis • Фотографии, чертежи, графики (scene images, charts, plots, diagrams): • text detection and localization• Самостоятельные приложения • Автоматическое построение коллажей • Автоматическое изменение размера изображений5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  6. 6. Компоненты системы извлечения текста + Text Enhancement6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: J. Gllavata
  7. 7. Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск изображений, автоматическое построение аннотаций7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  8. 8. 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  9. 9. 9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  10. 10. Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск изображений, автоматическое построение аннотаций• Переводчик в кармане пример: Word Lens (http://questvisual.com/)10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  11. 11. 11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  12. 12. Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск изображений, автоматическое построение аннотаций• Переводчик в кармане пример: Word Lens (http://questvisual.com/)• Помощь слабовидящим Fig. credit: N. Ezaki et al.• Навигация роботов в помещениях, в городских условиях12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  13. 13. Обнаружение текста – газеты, журналы, книги • обнаружение текстовых областей • определение угла поворота текста (skew detection) • определение порядка чтения13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  14. 14. Печатные документыОсновные задачи• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  15. 15. Печатные документыОсновные задачи• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)• Методы • «Сверху-вниз» (top-down) • XY-cuts, whitespace segmentation • «Сверху-вниз» (bottom-up) • группировка ближайших соседей, диаграммы Вороного15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  16. 16. Projection profiles and XY-cuts Вертикальная проекция Горизонтальная проекция16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  17. 17. Методы «снизу-вверх»Результат алгоритма Docstrum17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  18. 18. Методы «снизу-вверх»Использование диаграмм Вороного18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  19. 19. Печатные документыОсновные задачи• Определение поворота текста (page rotation, skew detection) • Projection profiles (для исходного изображения или компонент связности) • Использование преобразования Хафа • Определение угла наклона тектовых строк19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  20. 20. Преобразование Хафа (Hough transform) Основная идея• Каждая прямая задается уравнением• Через произвольную точку проходит бесконечное число прямых• Преобразование Хафа основано на «голосовании» точек за те линии, на которых они могут лежать• Линии с максимальным числом голосов выигрывают20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  21. 21. Преобразование Хафа y=ax+b image space Hough space• Для данного набора точек (x, y) найти все точки (a, b), такие что y = ax+b• Точке (xi, yi) соответсвует прямая в пространстве Хафа: b = –xia + yi21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  22. 22. Преобразование Хафа• Разбиваем пространство параметров на «ячейки накопления»• Для каждой точки из заданного множества точек на плоскости перебираем все значения параметра a и вычисляем соответствующее значение параметра b, увеличиваем счетчик соответствующей ячейки• Выбираем ячейки с большим значением счетчика22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  23. 23. Преобразование Хафа Обычно, используют полярные координаты:23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  24. 24. Преобразование Хафа Диапазон θ: [-90°, 90°] Диапазон ρ: [-D√2, D√2]24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  25. 25. Печатные документыОсновные задачи• Определение поворота текста (page rotation, skew detection) • Projection profiles (для исходного изображения или компонент связности) • Использование преобразования Хафа • Определение угла наклона тектовых строк• Обнаружение текстовых строк (text line finding, baseline finding)25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  26. 26. Обнаружение текста – произвольные изображенияИсходноеизображение Возможные результаты работы алгоритмов обнаружения текста26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  27. 27. ФотографииКлассификация подходов Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  28. 28. ФотографииМетоды, основанные на анализе текстуры Text NoText Объединение результатов Извлечение текстурных КлассификацияПостроение пирамиды признаков регионовизображений (Gabor, Wevelets, DCT) (SVM)28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  29. 29. ФотографииМетоды, основанные на анализе текстуры+• Сложный фон–• Вычислительно сложные (обработка нескольких масштабов, операции свертки)• Произвольная направленность текста (негоризонтальный текст)• Произвольный размер шрифта29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  30. 30. ФотографииRegion-based methods (bottom-up)• Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)• Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  31. 31. ФотографииRegion-based methods+• Произвольный размер шрифта• Произвольная направленность текста• Просты в реализации–• Сложный фон• Шум и нерезкость изображения• Используют большое количество эвристик31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  32. 32. Stroke Width Transform (SWT) Исходное Результат SWT После фильтрации Найденный текст изображение по признаку постоянства ширины штриха B. Epshtein et al.32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  33. 33. Обнаружение текста при помощи SWT B. Epshtein et al.33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  34. 34. Вычисление SWT (a) Фрагмент штриха (b) p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга) (c) Всем пикселям вдоль луча pq присваивается значение ширины штриха B. Epshtein et al.34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  35. 35. Обнаружение текста с помощью SWT• Границы для нерезких изображений, низкого разрешения – • Погрешность SWT на стыках штрихов – • Эвристики для фильтрации компонент – • Двойной проход и интеграция результатов –  35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  36. 36. 36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Saurav Kumar, Andrew Perrault
  37. 37. Комбинированные методы Y.-F. Pan et al., 201137 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  38. 38. Комбинированные методыШаг 1 – анализ текстурыY.-F. Pan et al.38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  39. 39. Комбинированные методыШаг 2 – анализ компонент связности Y.-F. Pan et al.39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  40. 40. Комбинированные методыШаг 3 – выделение текстовых строк и слов • построение минимального остовного дерева • решение оптимизационной задачи40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Y.-F. Pan et al.
  41. 41. ICDAR (2003, 2005, 2009, 2011)Robust Reading Competitions• Распознавание символов• Распознавание слов• Локализация текста• Распознавание текста41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  42. 42. Text detection with unsupervised feature learning1. Построение словаря признаков • Кластеризация фрагментов 8x8 пикселей (аналог k-Means) • Словарь в виде матрицы D (64хd)2. Представление произвольного фрагмента изображения 8х8 пикселей при помощи словаря: • z=max{0, |Dx|-α}3. Представление фрагмента 32х32 пикселя: каждый пиксель как центр окрестности 8x8 пикселей, суммирование векторов для блоков изображения: финальная размерность признаков изображения = 9d4. Классификация фрагментов42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  43. 43. Обнаружение текста – чертежи и графики• Обнаружение текстовых областей• Определение угла поворота текстовых строк• Короткие фрагменты текста фотографии• Разнообразие шрифтов, текст под разными углами• Однородный фон печатные документы• Высокая контрастность43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  44. 44. Графики и диаграммыАнализ компонент связности по цвету44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  45. 45. Экспериментальная оценкаТестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool LRR LPR TRR TPR LocationRecognitionRate = NLoc/NG Preprocess 79.0% 88.7% 44.7% 44.6% LocationPrecisionRate = NLoc/NF NoPreprocess 33.7% 84.2% 2.5% 2.9% TextRecognitionRate = NTxt/NG TextPrecisionRate = NTxt/NF NLoc – the number of correctly localized text blocks NG – the total number of text blocks NTxt – the number of correctly recognized text blocks NF – the total number of detected text blocks45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  46. 46. Screenshots – Выделение границ и пороговая бинаризация – Удаление длинных горизонтальных и вертикальных границ – Выделение компонент связности – Классификация компонент связности и адаптивная бинаризация (+) Быстрая бинаризация − Время обработки изображения1600x008 • Tesseract OCR: ~6.56 секунд • Данный алгоритм: ~0.45 seconds (–) Требует фильтрации компонент − Naïve Bayes46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  47. 47. Script dependencyStroke Width Transform47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  48. 48. Script dependencyAdaptive binarization48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  49. 49. Script dependencyStroke Width Transform49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  50. 50. Script dependencyAdaptive binarization50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  51. 51. Заключение• Зачем нужны алгоритмы обнаружения текста? – Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация• Печатные документы (document images) – Анализ структуры документа, определение поворота, выделение текстовых строк• Фотографии (natural scenes) – Texture-based & region-based – Stroke Width Transform• Графики, диаграммы, обложки51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

×