20120408 text detection_vasilieva

801 views
736 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
801
On SlideShare
0
From Embeds
0
Number of Embeds
231
Actions
Shares
0
Downloads
34
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

20120408 text detection_vasilieva

  1. 1. Обнаружение текстана изображенияхНаталья Васильеваnvassilieva@hp.comHP Labs Russia8 апреля 2012, Computer Science клуб
  2. 2. 2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  3. 3. Зачем?• Необходимо для дальнейшего распознавания текста (OCR) • Документы – page layout analysis • Фотографии, чертежи, графики – text detection and localization• Самостоятельные приложения • Автоматическое построение коллажей • Автоматическое изменение размера изображений3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  4. 4. Компоненты системы извлечения текста + Text Enhancement4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: J. Gllavata
  5. 5. Приложения• Оцифровка документов• Индексирование и извлечение информации из графиков и чертежей• Индексирование и поиск изображений, автоматическое построение аннотаций• Переводчик в кармане пример: Word Lens (http://questvisual.com/)• Помощь слабовидящим Fig. credit: N. Ezaki et al.• Навигация роботов в помещениях, в городских условиях5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  6. 6. 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  7. 7. 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  8. 8. 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  9. 9. Обнаружение текста – газеты, журналы, книги • обнаружение текстовых областей • определение угла поворота текста (skew detection) • определение порядка чтения9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  10. 10. Обнаружение текста – произвольныеизображенияИсходноеизображение Возможные результаты работы алгоритмов обнаружения текста10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  11. 11. Обнаружение текста – чертежи и графики• Обнаружение текстовых областей• Определение угла поворота текстовых строк• Короткие фрагменты текста фотографии• Разнообразие шрифтов, текст под разными углами• Однородный фон печатные документы• Высокая контрастность11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  12. 12. План лекции• Зачем нужны алгоритмы обнаружения текста?• Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа• Печатные документы (document images)• Фотографии (natural scenes)• Чертежи, графики, обложки12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  13. 13. Представление цифровых изображений Растровое изображение 0 f (x , y ) L, and typically L 25513 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  14. 14. Представление цифровых изображений Цветное растровое изображение: RGB – распространенная модель цвета Каждый пиксель задается тремя значениями: red, green, blue14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  15. 15. Обнаружение границ15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  16. 16. Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента:16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  17. 17. Вычисление градиента изображения Дискретный случай: Roberts: Prewitt: Sobel:17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  18. 18. Выделение границ: примеры Исходное Sobe Canny l18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  19. 19. Компоненты связности 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 2 2 0 0 3 3 0 0 4 4 0 0 1 1 1 1 1 1 1 1 0 0 3 3 3 3 0 0 0 0 0 1 1 1 1 0 0 0 3 3 3 3 0 0 0 0 0 1 1 1 1 0 0 0 3 3 3 0 0 3 3 0 0 1 1 1 0 0 1 1 0 0 0 3 3 3 0 0 0 0 0 1 1 0 0 0 0 0 5 3 0 0 0 3 3 0 0 0 0 0 0 0 6 6 5 3 0 0 7 3 3 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 019 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  20. 20. Компоненты связности20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  21. 21. Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном фоне Глобальная – порог единый для всех точек изображения Локальная или Динамическая – когда порог зависит от координат точки (x,y) Адаптивная – когда порог зависит от значения яркости в точке I(x,y)21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  22. 22. Бинаризация22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  23. 23. Преобразование Хафа (Hough transform) y b b0 x m0 m image space Hough space• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  24. 24. Преобразование Хафа (Hough transform) y b y0 x0 x m image space Hough space• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b• Точке (x0, y0) соответсвует прямая в пространстве Хафа: b = –x0m + y0 Обычно, используют полярные координаты:24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  25. 25. План лекции• Зачем нужны алгоритмы обнаружения текста?• Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа• Печатные документы (document images)• Фотографии (natural scenes)• Графики, диаграммы, обложки25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  26. 26. Печатные документыОсновные задачи• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  27. 27. Печатные документыОсновные задачи• Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification)• Методы • «Сверху-вниз» (top-down) • XY-cuts, whitespace segmentation • «Снизу-вверх» (bottom-up) • группировка ближайших соседей, диаграммы Вороного27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  28. 28. Projection profiles and XY-cuts Вертикальна я проекция Горизонтальна я проекция28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  29. 29. Методы «снизу-вверх»Результат алгоритма Docstrum29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  30. 30. Методы «снизу-вверх»Использование диаграмм Вороного30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  31. 31. Печатные документыОсновные задачи• Определение поворота текста (page rotation, skew detection) • Projection profiles (для исходного изображения или компонент связности) • Использование преобразования Хафа • Определение угла наклона тектовых строк• Обнаружение текстовых строк (text line finding, baseline finding)31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  32. 32. План лекции• Зачем нужны алгоритмы обнаружения текста?• Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа• Печатные документы (document images)• Фотографии (natural scenes)• Графики, диаграммы, обложки32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  33. 33. ФотографииПочему не работают традиционные методы?• Большое разнообразие шрифтов• Разнообразие расположений и направлений текстовых строк• Короткие текстовые строки• Разнообразие условий съемки (освещение, фокусное расстояние)• Сложный фон• Нет определенной структуры страницы• Наложение объектов (occlusions)33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  34. 34. ФотографииКлассификация подходов Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al.34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  35. 35. ФотографииМетоды, основанные на анализе текстуры Text NoText Объединение результатов Извлечение КлассификацияПостроение пирамиды текстурных признаков регионовизображений (Gabor, Wevelets, DCT (SVM) )35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  36. 36. ФотографииМетоды, основанные на анализе текстуры+• Сложный фон–• Вычислительно сложные (обработка нескольких масштабов, операции свертки)• Произвольная направленность текста (негоризонтальный текст)• Произвольный размер шрифта36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  37. 37. ФотографииRegion-based methods (bottom-up)• Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе)• Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет)37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  38. 38. ФотографииRegion-based methods+• Произвольный размер шрифта• Произвольная направленность текста• Просты в реализации–• Сложный фон• Шум и нерезкость изображения• Используют большое количество эвристик38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  39. 39. Stroke Width Transform (SWT) Исходное Результат SWT После фильтрации Найденный текст изображение по признаку постоянства ширины штриха B. Epshtein et al.39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  40. 40. Обнаружение текста при помощи SWT B. Epshtein et al.40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  41. 41. Вычисление SWT (a) Фрагмент штриха (b) p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга) (c) Всем пикселям вдоль луча pq присваивается значение ширины штриха B. Epshtein et al.41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  42. 42. Обнаружение текста с помощью SWT• Границы для нерезких изображений, низкого разрешения – • Погрешность SWT на стыках штрихов – • Эвристики для фильтрации компонент – • Двойной проход и интеграция результатов –  42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  43. 43. Комбинированные методы Y.-F. Pan et al.43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  44. 44. Комбинированные методыШаг 1 – анализ текстурыY.-F. Pan et al.44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  45. 45. Комбинированные методыШаг 2 – анализ компонент связности Y.-F. Pan et al.45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  46. 46. Комбинированные методыШаг 3 – выделение текстовых строк и слов • построение минимального остовного дерева • решение оптимизационной задачи46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Y.-F. Pan et al.
  47. 47. ICDAR (2003, 2005, 2009, 2011)Robust Reading Competitions• Распознавание символов• Распознавание слов• Локализация текста• Распознавание текста47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  48. 48. План лекции• Зачем нужны алгоритмы обнаружения текста?• Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа• Печатные документы (document images)• Фотографии (natural scenes)• Графики, диаграммы, обложки48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  49. 49. Графики и диаграммыАнализ компонент связности по цвету49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  50. 50. Экспериментальная оценкаТестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool LRR LPR TRR TPR LocationRecognitionRate = NLoc/NG Preprocess 79.0% 88.7% 44.7% 44.6% LocationPrecisionRate = NLoc/NF NoPreprocess 33.7% 84.2% 2.5% 2.9% TextRecognitionRate = NTxt/NG TextPrecisionRate = NTxt/NF NLoc – the number of correctly localized text blocks NG – the total number of text blocks NTxt – the number of correctly recognized text blocks NF – the total number of detected text blocks50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  51. 51. Screenshots – Выделение границ и пороговая бинаризация – Удаление длинных горизонтальных и вертикальных границ – Выделение компонент связности – Классификация компонент связности и адаптивная бинаризация бинаризация (+) Быстрая − Время обработки изображения1600x1008 • Tesseract OCR: ~6.56 секунд • Данный алгоритм: ~0.45 seconds (–) Требует фильтрации компонент − Naïve Bayes51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  52. 52. Заключение• Зачем нужны алгоритмы обнаружения текста? – Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация• Печатные документы (document images) – Анализ структуры документа, определение поворота, выделение текстовых строк• Фотографии (natural scenes) – Texture-based & region-based – Stroke Width Transform, Hybrid approach• Графики, диаграммы, обложки52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

×