SlideShare a Scribd company logo
1 of 52
Обнаружение текста
на изображениях

Наталья Васильева
nvassilieva@hp.com
HP Labs Russia




8 апреля 2012, Computer Science клуб
2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Зачем?


• Необходимо для дальнейшего распознавания текста (OCR)
    • Документы – page layout analysis
    • Фотографии, чертежи, графики – text detection and localization

• Самостоятельные приложения
    • Автоматическое построение коллажей
    • Автоматическое изменение размера изображений




3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Компоненты системы извлечения текста




                                                                                                                                     + Text Enhancement




4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
 Fig. credit: J. Gllavata
Приложения
• Оцифровка документов
• Индексирование и извлечение информации из графиков и чертежей
• Индексирование и поиск изображений, автоматическое построение аннотаций
• Переводчик в кармане
  пример: Word Lens (http://questvisual.com/)
• Помощь слабовидящим




                                                                                                                                     Fig. credit: N. Ezaki et al.



• Навигация роботов в помещениях, в городских условиях
5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение текста – газеты, журналы, книги




                                                                 • обнаружение текстовых областей
                                                                 • определение угла поворота текста (skew detection)
                                                                 • определение порядка чтения
9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение текста – произвольные
изображения




Исходное
изображение

                                                                         Возможные результаты работы алгоритмов
                                                                         обнаружения текста

10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение текста – чертежи и графики




• Обнаружение текстовых областей
• Определение угла поворота текстовых строк

•   Короткие фрагменты текста
                                                   фотографии
•   Разнообразие шрифтов, текст под разными углами
•   Однородный фон
                                                   печатные документы
•   Высокая контрастность
11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
План лекции



• Зачем нужны алгоритмы обнаружения текста?

• Что такое цифровое изображение?
    – Представление цифровых изображений

    – Границы, компоненты связности, бинаризация, преобразование Хафа

• Печатные документы (document images)

• Фотографии (natural scenes)

• Чертежи, графики, обложки




12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Представление цифровых изображений


   Растровое изображение



                                                                                                                  0       f (x , y ) L,   and typically   L 255




13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Представление цифровых изображений

   Цветное растровое изображение:
 RGB – распространенная модель цвета
 Каждый пиксель задается тремя значениями: red, green, blue




14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение границ




15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Градиент изображения

                                                                                    Градиент направлен в сторону
                                                                                    наибольшего изменения
                                                                                    интенсивности




       Направление градиента:                                                                             Величина градиента:




16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Вычисление градиента изображения

   Дискретный случай:




        Roberts:                                  Prewitt:                                                               Sobel:




17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Выделение границ: примеры




                 Исходное                                                                     Sobe                                    Canny
                                                                                              l


18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Компоненты связности

   0           0          0           0           0           0           0          0           0           0           0            0   0   0   0   0   0

   0           0          1           1           0           0           2          2           0           0           3            3   0   0   4   4   0

   0           1          1           1           1           1           1          1           1           0           0            3   3   3   3   0   0

   0           0          0           1           1           1           1          0           0           0           3            3   3   3   0   0   0

   0           0          1           1           1           1           0          0           0           3           3            3   0   0   3   3   0

   0           1          1           1           0           0           1          1           0           0           0            3   3   3   0   0   0

   0           0          1           1           0           0           0          0           0           5           3            0   0   0   3   3   0

   0           0          0           0           0           0           6          6           5           3           0            0   7   3   3   3   0

   0           0          0           0           0           0           0          0           0           0           0            0   0   0   0   0   0



19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Компоненты связности




20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Пороговая бинаризация
                  Светлый объект
                  на темном фоне
                                                                                                        Два светлых
                                                                                                        объекта на темном
                                                                                                        фоне




   Глобальная – порог единый для всех точек изображения
   Локальная или Динамическая – когда порог зависит от координат точки (x,y)
   Адаптивная – когда порог зависит от значения яркости в точке I(x,y)


21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Бинаризация




22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Преобразование Хафа (Hough transform)

                 y                                                                                                  b




                                                                                                                  b0

                                                                     x                                                                m0    m
                             image space                                                                                      Hough space
• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b




23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Преобразование Хафа (Hough transform)

                 y                                                                                                  b




               y0

                                 x0                                  x                                                                      m
                             image space                                                                                      Hough space
• Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b
• Точке (x0, y0) соответсвует прямая в пространстве Хафа: b = –x0m + y0


                                                          Обычно, используют полярные координаты:




24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
План лекции



• Зачем нужны алгоритмы обнаружения текста?

• Что такое цифровое изображение?
    – Представление цифровых изображений

    – Границы, компоненты связности, бинаризация, преобразование Хафа

• Печатные документы (document images)

• Фотографии (natural scenes)

• Графики, диаграммы, обложки




25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Печатные документы
Основные задачи
• Анализ структуры страницы
    (layout analysis, geometric structure analysis, page segmentation, region classification)




26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Fig. credit: Y.Y. Tang et al.
Печатные документы
Основные задачи
• Анализ структуры страницы
    (layout analysis, geometric structure analysis, page segmentation, region classification)




• Методы
    • «Сверху-вниз» (top-down)
        • XY-cuts, whitespace segmentation
    • «Снизу-вверх» (bottom-up)
        • группировка ближайших соседей, диаграммы Вороного


27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Fig. credit: Y.Y. Tang et al.
Projection profiles and XY-cuts

                                                                                                                                          Вертикальна
                                                                                                                                          я проекция




                                                                                                                                            Горизонтальна
                                                                                                                                            я проекция




28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Fig. credit: Y.Y. Tang et al.
Методы «снизу-вверх»
Результат алгоритма Docstrum




29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Fig. credit: A. Namboodiri et al.
Методы «снизу-вверх»
Использование диаграмм Вороного




30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Fig. credit: A. Namboodiri et al.
Печатные документы
Основные задачи
• Определение поворота текста
    (page rotation, skew detection)

                                                                 • Projection profiles
                                                                   (для исходного изображения или компонент связности)
                                                                 • Использование преобразования Хафа
                                                                 • Определение угла наклона тектовых строк



• Обнаружение текстовых строк
    (text line finding, baseline finding)




31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
План лекции



• Зачем нужны алгоритмы обнаружения текста?

• Что такое цифровое изображение?
    – Представление цифровых изображений

    – Границы, компоненты связности, бинаризация, преобразование Хафа

• Печатные документы (document images)

• Фотографии (natural scenes)

• Графики, диаграммы, обложки




32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Почему не работают традиционные методы?


•   Большое разнообразие шрифтов
•   Разнообразие расположений и направлений текстовых строк
•   Короткие текстовые строки
•   Разнообразие условий съемки (освещение, фокусное расстояние)
•   Сложный фон
•   Нет определенной структуры страницы
•   Наложение объектов (occlusions)




33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Классификация подходов


                                                                            Text detection and
                                                                               localization




                                Texture-based                                                                              Region-based




                                                                                                     CC-based                         Edge-based



   K. Jung et al.


34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Методы, основанные на анализе текстуры




                                                                                                                            Text



                                                                                                                        NoText

                                                                                                                                      Объединение
                                                                                                                                      результатов


                                                                Извлечение                                            Классификация
Построение пирамиды                                             текстурных признаков                                  регионов
изображений                                                     (Gabor, Wevelets, DCT                                 (SVM)
                                                                )


35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Методы, основанные на анализе текстуры

+
• Сложный фон


–
• Вычислительно сложные (обработка нескольких масштабов, операции
  свертки)
• Произвольная направленность текста (негоризонтальный текст)
• Произвольный размер шрифта




36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Region-based methods (bottom-up)

• Выделение компонент связности на основе локальных признаков (близкий
  цвет или принадлежность границе)
• Объединение выделенных компонент связности в группы по признакам
  близкого расположения и схожих локальных признаков (размер, цвет)




37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Фотографии
Region-based methods

+
• Произвольный размер шрифта
• Произвольная направленность текста
• Просты в реализации

–
• Сложный фон
• Шум и нерезкость изображения
• Используют большое количество эвристик




38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Stroke Width Transform (SWT)




         Исходное                                        Результат SWT                              После фильтрации                  Найденный текст
        изображение                                                                              по признаку постоянства
                                                                                                     ширины штриха


 B. Epshtein et al.

39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение текста при помощи SWT




 B. Epshtein et al.

40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Вычисление SWT




    (a) Фрагмент штриха

    (b) p – пиксель на границе штриха,
        q – пиксель на противоположной стороне штриха
        (градиенты в p и q направлены друг на друга)

  (c) Всем пикселям вдоль луча pq присваивается значение ширины
      штриха
 B. Epshtein et al.
41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Обнаружение текста с помощью SWT




•     Границы для нерезких изображений, низкого разрешения – 
•     Погрешность SWT на стыках штрихов – 
•     Эвристики для фильтрации компонент – 
•     Двойной проход и интеграция результатов – 




    42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Комбинированные методы




 Y.-F. Pan et al.
43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Комбинированные методы
Шаг 1 – анализ текстуры




Y.-F. Pan et al.
44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Комбинированные методы
Шаг 2 – анализ компонент связности




                                                                                                                                      Y.-F. Pan et al.
45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Комбинированные методы
Шаг 3 – выделение текстовых строк и слов
                                                                                                                                      • построение
                                                                                                                                      минимального
                                                                                                                                      остовного дерева

                                                                                                                                      • решение
                                                                                                                                      оптимизационной
                                                                                                                                      задачи




46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
                                                                                                                                      Y.-F. Pan et al.
ICDAR (2003, 2005, 2009, 2011)
Robust Reading Competitions
•   Распознавание символов
•   Распознавание слов
•   Локализация текста
•   Распознавание текста




47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
План лекции



• Зачем нужны алгоритмы обнаружения текста?

• Что такое цифровое изображение?
    – Представление цифровых изображений

    – Границы, компоненты связности, бинаризация, преобразование Хафа

• Печатные документы (document images)

• Фотографии (natural scenes)

• Графики, диаграммы, обложки




48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Графики и диаграммы
Анализ компонент связности по цвету




49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Экспериментальная оценка




Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool
                                       LRR                LPR              TRR               TPR                   LocationRecognitionRate = NLoc/NG
 Preprocess                           79.0%             88.7%             44.7%             44.6%                  LocationPrecisionRate = NLoc/NF

 NoPreprocess                         33.7%             84.2%                2.5%             2.9%                 TextRecognitionRate = NTxt/NG
                                                                                                                   TextPrecisionRate = NTxt/NF

    NLoc – the number of correctly localized text blocks                                                  NG – the total number of text blocks
    NTxt – the number of correctly recognized text blocks                                                 NF – the total number of detected text blocks

50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Screenshots
                                                                                                          – Выделение границ и пороговая
                                                                                                            бинаризация
                                                                                                          – Удаление длинных
                                                                                                            горизонтальных и вертикальных
                                                                                                            границ
                                                                                                          – Выделение компонент связности
                                                                                                          – Классификация компонент
                                                                                                            связности и адаптивная
                                                                                                            бинаризация бинаризация
                                                                                                            (+) Быстрая
                                                                                                                          − Время обработки изображения1600x1008
                                                                                                                                 •    Tesseract OCR: ~6.56 секунд
                                                                                                                                 •    Данный алгоритм: ~0.45 seconds

                                                                                                                 (–) Требует фильтрации
                                                                                                                      компонент
                                                                                                                          − Naïve Bayes


51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Заключение


• Зачем нужны алгоритмы обнаружения текста?
    – Распознавание текста: оцифровка, индексирование, извлечение
      информации, автоматический перевод, text to speech, навигация

• Печатные документы (document images)
    – Анализ структуры документа, определение поворота, выделение текстовых строк

• Фотографии (natural scenes)
    – Texture-based & region-based

    – Stroke Width Transform, Hybrid approach

• Графики, диаграммы, обложки



52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

More Related Content

Viewers also liked

20081104 auctions nikolenko_lecture06
20081104 auctions nikolenko_lecture0620081104 auctions nikolenko_lecture06
20081104 auctions nikolenko_lecture06Computer Science Club
 
certificate
certificatecertificate
certificateErshad M
 
Michal Fojtík (Letní škola 2013)
Michal Fojtík (Letní škola 2013)Michal Fojtík (Letní škola 2013)
Michal Fojtík (Letní škola 2013)KISK FF MU
 
One piece volume 37(347-357)
One piece volume 37(347-357)One piece volume 37(347-357)
One piece volume 37(347-357)Marcos Donato
 
Amazing Photography By Simona Smrckova
Amazing Photography By Simona SmrckovaAmazing Photography By Simona Smrckova
Amazing Photography By Simona Smrckovamaditabalnco
 
One piece volume 44(420-430)
One piece volume 44(420-430)One piece volume 44(420-430)
One piece volume 44(420-430)Marcos Donato
 
4912afe85e254eb5bded4b255c7f5b6b
4912afe85e254eb5bded4b255c7f5b6b4912afe85e254eb5bded4b255c7f5b6b
4912afe85e254eb5bded4b255c7f5b6bTim Flint
 
20081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture0520081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture05Computer Science Club
 
talking about health and fitness in French.
talking about health and fitness in French.talking about health and fitness in French.
talking about health and fitness in French.alice ayel
 
Indicatii Pentru Detalierea Elementelor Pm
Indicatii Pentru Detalierea Elementelor PmIndicatii Pentru Detalierea Elementelor Pm
Indicatii Pentru Detalierea Elementelor Pmguestc3bede
 
Blok expertu: prezentace Zit Brno
Blok expertu: prezentace Zit BrnoBlok expertu: prezentace Zit Brno
Blok expertu: prezentace Zit BrnoKISK FF MU
 
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikar
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas KashalikarBhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikar
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikarshivsr5
 
Arezzo Frameless Bypass Door Catalog Sheet
Arezzo Frameless Bypass Door Catalog SheetArezzo Frameless Bypass Door Catalog Sheet
Arezzo Frameless Bypass Door Catalog SheetMeghan (Cory) Morgan
 
Natálie Bartasová (Letní škola 2013)
Natálie Bartasová (Letní škola 2013)Natálie Bartasová (Letní škola 2013)
Natálie Bartasová (Letní škola 2013)KISK FF MU
 
هل ستيفين ساكر مقدم برنامج "هارد توك" متحيز بلغة جسده ضد خالد مشعل؟؟
هل ستيفين ساكر مقدم برنامج "هارد توك"  متحيز بلغة جسده ضد خالد مشعل؟؟هل ستيفين ساكر مقدم برنامج "هارد توك"  متحيز بلغة جسده ضد خالد مشعل؟؟
هل ستيفين ساكر مقدم برنامج "هارد توك" متحيز بلغة جسده ضد خالد مشعل؟؟اسماء الشرباتي
 
3. formato normal. gradacion. carlos riera
3. formato normal. gradacion. carlos riera3. formato normal. gradacion. carlos riera
3. formato normal. gradacion. carlos rieraCARLOS-RIERA
 
Service Map API, Smart City API, Open Data API
Service Map API, Smart City API, Open Data APIService Map API, Smart City API, Open Data API
Service Map API, Smart City API, Open Data APIPaolo Nesi
 

Viewers also liked (20)

20081104 auctions nikolenko_lecture06
20081104 auctions nikolenko_lecture0620081104 auctions nikolenko_lecture06
20081104 auctions nikolenko_lecture06
 
certificate
certificatecertificate
certificate
 
Michal Fojtík (Letní škola 2013)
Michal Fojtík (Letní škola 2013)Michal Fojtík (Letní škola 2013)
Michal Fojtík (Letní škola 2013)
 
20130922 lecture3 matiyasevich
20130922 lecture3 matiyasevich20130922 lecture3 matiyasevich
20130922 lecture3 matiyasevich
 
One piece volume 37(347-357)
One piece volume 37(347-357)One piece volume 37(347-357)
One piece volume 37(347-357)
 
Amazing Photography By Simona Smrckova
Amazing Photography By Simona SmrckovaAmazing Photography By Simona Smrckova
Amazing Photography By Simona Smrckova
 
One piece volume 44(420-430)
One piece volume 44(420-430)One piece volume 44(420-430)
One piece volume 44(420-430)
 
4912afe85e254eb5bded4b255c7f5b6b
4912afe85e254eb5bded4b255c7f5b6b4912afe85e254eb5bded4b255c7f5b6b
4912afe85e254eb5bded4b255c7f5b6b
 
20081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture0520081104 auctions nikolenko_lecture05
20081104 auctions nikolenko_lecture05
 
т
тт
т
 
talking about health and fitness in French.
talking about health and fitness in French.talking about health and fitness in French.
talking about health and fitness in French.
 
Indicatii Pentru Detalierea Elementelor Pm
Indicatii Pentru Detalierea Elementelor PmIndicatii Pentru Detalierea Elementelor Pm
Indicatii Pentru Detalierea Elementelor Pm
 
Blok expertu: prezentace Zit Brno
Blok expertu: prezentace Zit BrnoBlok expertu: prezentace Zit Brno
Blok expertu: prezentace Zit Brno
 
Ozone126
Ozone126Ozone126
Ozone126
 
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikar
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas KashalikarBhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikar
Bhovara (Marathi Bestseller Autofiction) Dr. Shriniwas Kashalikar
 
Arezzo Frameless Bypass Door Catalog Sheet
Arezzo Frameless Bypass Door Catalog SheetArezzo Frameless Bypass Door Catalog Sheet
Arezzo Frameless Bypass Door Catalog Sheet
 
Natálie Bartasová (Letní škola 2013)
Natálie Bartasová (Letní škola 2013)Natálie Bartasová (Letní škola 2013)
Natálie Bartasová (Letní škola 2013)
 
هل ستيفين ساكر مقدم برنامج "هارد توك" متحيز بلغة جسده ضد خالد مشعل؟؟
هل ستيفين ساكر مقدم برنامج "هارد توك"  متحيز بلغة جسده ضد خالد مشعل؟؟هل ستيفين ساكر مقدم برنامج "هارد توك"  متحيز بلغة جسده ضد خالد مشعل؟؟
هل ستيفين ساكر مقدم برنامج "هارد توك" متحيز بلغة جسده ضد خالد مشعل؟؟
 
3. formato normal. gradacion. carlos riera
3. formato normal. gradacion. carlos riera3. formato normal. gradacion. carlos riera
3. formato normal. gradacion. carlos riera
 
Service Map API, Smart City API, Open Data API
Service Map API, Smart City API, Open Data APIService Map API, Smart City API, Open Data API
Service Map API, Smart City API, Open Data API
 

More from Computer Science Club

20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugsComputer Science Club
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugsComputer Science Club
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12Computer Science Club
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11Computer Science Club
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10Computer Science Club
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09Computer Science Club
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02Computer Science Club
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01Computer Science Club
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04Computer Science Club
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01Computer Science Club
 

More from Computer Science Club (20)

20141223 kuznetsov distributed
20141223 kuznetsov distributed20141223 kuznetsov distributed
20141223 kuznetsov distributed
 
Computer Vision
Computer VisionComputer Vision
Computer Vision
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs20140531 serebryany lecture02_find_scary_cpp_bugs
20140531 serebryany lecture02_find_scary_cpp_bugs
 
20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs20140531 serebryany lecture01_fantastic_cpp_bugs
20140531 serebryany lecture01_fantastic_cpp_bugs
 
20140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture1220140511 parallel programming_kalishenko_lecture12
20140511 parallel programming_kalishenko_lecture12
 
20140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture1120140427 parallel programming_zlobin_lecture11
20140427 parallel programming_zlobin_lecture11
 
20140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture1020140420 parallel programming_kalishenko_lecture10
20140420 parallel programming_kalishenko_lecture10
 
20140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture0920140413 parallel programming_kalishenko_lecture09
20140413 parallel programming_kalishenko_lecture09
 
20140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture0220140329 graph drawing_dainiak_lecture02
20140329 graph drawing_dainiak_lecture02
 
20140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture0120140329 graph drawing_dainiak_lecture01
20140329 graph drawing_dainiak_lecture01
 
20140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-0420140310 parallel programming_kalishenko_lecture03-04
20140310 parallel programming_kalishenko_lecture03-04
 
20140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-0320140223-SuffixTrees-lecture01-03
20140223-SuffixTrees-lecture01-03
 
20140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture0120140216 parallel programming_kalishenko_lecture01
20140216 parallel programming_kalishenko_lecture01
 
20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich20131106 h10 lecture6_matiyasevich
20131106 h10 lecture6_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich20131027 h10 lecture5_matiyasevich
20131027 h10 lecture5_matiyasevich
 
20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich20131013 h10 lecture4_matiyasevich
20131013 h10 lecture4_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 
20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich20131006 h10 lecture3_matiyasevich
20131006 h10 lecture3_matiyasevich
 

20120408 text detection_vasilieva

  • 1. Обнаружение текста на изображениях Наталья Васильева nvassilieva@hp.com HP Labs Russia 8 апреля 2012, Computer Science клуб
  • 2. 2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 3. Зачем? • Необходимо для дальнейшего распознавания текста (OCR) • Документы – page layout analysis • Фотографии, чертежи, графики – text detection and localization • Самостоятельные приложения • Автоматическое построение коллажей • Автоматическое изменение размера изображений 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 4. Компоненты системы извлечения текста + Text Enhancement 4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: J. Gllavata
  • 5. Приложения • Оцифровка документов • Индексирование и извлечение информации из графиков и чертежей • Индексирование и поиск изображений, автоматическое построение аннотаций • Переводчик в кармане пример: Word Lens (http://questvisual.com/) • Помощь слабовидящим Fig. credit: N. Ezaki et al. • Навигация роботов в помещениях, в городских условиях 5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 6. 6 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 7. 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 8. 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 9. Обнаружение текста – газеты, журналы, книги • обнаружение текстовых областей • определение угла поворота текста (skew detection) • определение порядка чтения 9 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 10. Обнаружение текста – произвольные изображения Исходное изображение Возможные результаты работы алгоритмов обнаружения текста 10 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 11. Обнаружение текста – чертежи и графики • Обнаружение текстовых областей • Определение угла поворота текстовых строк • Короткие фрагменты текста фотографии • Разнообразие шрифтов, текст под разными углами • Однородный фон печатные документы • Высокая контрастность 11 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 12. План лекции • Зачем нужны алгоритмы обнаружения текста? • Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа • Печатные документы (document images) • Фотографии (natural scenes) • Чертежи, графики, обложки 12 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 13. Представление цифровых изображений Растровое изображение 0 f (x , y ) L, and typically L 255 13 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 14. Представление цифровых изображений Цветное растровое изображение: RGB – распространенная модель цвета Каждый пиксель задается тремя значениями: red, green, blue 14 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 15. Обнаружение границ 15 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 16. Градиент изображения Градиент направлен в сторону наибольшего изменения интенсивности Направление градиента: Величина градиента: 16 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 17. Вычисление градиента изображения Дискретный случай: Roberts: Prewitt: Sobel: 17 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 18. Выделение границ: примеры Исходное Sobe Canny l 18 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 19. Компоненты связности 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 2 2 0 0 3 3 0 0 4 4 0 0 1 1 1 1 1 1 1 1 0 0 3 3 3 3 0 0 0 0 0 1 1 1 1 0 0 0 3 3 3 3 0 0 0 0 0 1 1 1 1 0 0 0 3 3 3 0 0 3 3 0 0 1 1 1 0 0 1 1 0 0 0 3 3 3 0 0 0 0 0 1 1 0 0 0 0 0 5 3 0 0 0 3 3 0 0 0 0 0 0 0 6 6 5 3 0 0 7 3 3 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 19 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 20. Компоненты связности 20 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 21. Пороговая бинаризация Светлый объект на темном фоне Два светлых объекта на темном фоне Глобальная – порог единый для всех точек изображения Локальная или Динамическая – когда порог зависит от координат точки (x,y) Адаптивная – когда порог зависит от значения яркости в точке I(x,y) 21 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 22. Бинаризация 22 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 23. Преобразование Хафа (Hough transform) y b b0 x m0 m image space Hough space • Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b 23 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 24. Преобразование Хафа (Hough transform) y b y0 x0 x m image space Hough space • Для данного набора точек (x, y) найти все точки (m, b), такие что y = mx+b • Точке (x0, y0) соответсвует прямая в пространстве Хафа: b = –x0m + y0 Обычно, используют полярные координаты: 24 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 25. План лекции • Зачем нужны алгоритмы обнаружения текста? • Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа • Печатные документы (document images) • Фотографии (natural scenes) • Графики, диаграммы, обложки 25 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 26. Печатные документы Основные задачи • Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification) 26 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  • 27. Печатные документы Основные задачи • Анализ структуры страницы (layout analysis, geometric structure analysis, page segmentation, region classification) • Методы • «Сверху-вниз» (top-down) • XY-cuts, whitespace segmentation • «Снизу-вверх» (bottom-up) • группировка ближайших соседей, диаграммы Вороного 27 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  • 28. Projection profiles and XY-cuts Вертикальна я проекция Горизонтальна я проекция 28 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: Y.Y. Tang et al.
  • 29. Методы «снизу-вверх» Результат алгоритма Docstrum 29 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  • 30. Методы «снизу-вверх» Использование диаграмм Вороного 30 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Fig. credit: A. Namboodiri et al.
  • 31. Печатные документы Основные задачи • Определение поворота текста (page rotation, skew detection) • Projection profiles (для исходного изображения или компонент связности) • Использование преобразования Хафа • Определение угла наклона тектовых строк • Обнаружение текстовых строк (text line finding, baseline finding) 31 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 32. План лекции • Зачем нужны алгоритмы обнаружения текста? • Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа • Печатные документы (document images) • Фотографии (natural scenes) • Графики, диаграммы, обложки 32 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 33. Фотографии Почему не работают традиционные методы? • Большое разнообразие шрифтов • Разнообразие расположений и направлений текстовых строк • Короткие текстовые строки • Разнообразие условий съемки (освещение, фокусное расстояние) • Сложный фон • Нет определенной структуры страницы • Наложение объектов (occlusions) 33 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 34. Фотографии Классификация подходов Text detection and localization Texture-based Region-based CC-based Edge-based K. Jung et al. 34 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 35. Фотографии Методы, основанные на анализе текстуры Text NoText Объединение результатов Извлечение Классификация Построение пирамиды текстурных признаков регионов изображений (Gabor, Wevelets, DCT (SVM) ) 35 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 36. Фотографии Методы, основанные на анализе текстуры + • Сложный фон – • Вычислительно сложные (обработка нескольких масштабов, операции свертки) • Произвольная направленность текста (негоризонтальный текст) • Произвольный размер шрифта 36 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 37. Фотографии Region-based methods (bottom-up) • Выделение компонент связности на основе локальных признаков (близкий цвет или принадлежность границе) • Объединение выделенных компонент связности в группы по признакам близкого расположения и схожих локальных признаков (размер, цвет) 37 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 38. Фотографии Region-based methods + • Произвольный размер шрифта • Произвольная направленность текста • Просты в реализации – • Сложный фон • Шум и нерезкость изображения • Используют большое количество эвристик 38 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 39. Stroke Width Transform (SWT) Исходное Результат SWT После фильтрации Найденный текст изображение по признаку постоянства ширины штриха B. Epshtein et al. 39 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 40. Обнаружение текста при помощи SWT B. Epshtein et al. 40 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 41. Вычисление SWT (a) Фрагмент штриха (b) p – пиксель на границе штриха, q – пиксель на противоположной стороне штриха (градиенты в p и q направлены друг на друга) (c) Всем пикселям вдоль луча pq присваивается значение ширины штриха B. Epshtein et al. 41 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 42. Обнаружение текста с помощью SWT • Границы для нерезких изображений, низкого разрешения –  • Погрешность SWT на стыках штрихов –  • Эвристики для фильтрации компонент –  • Двойной проход и интеграция результатов –  42 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 43. Комбинированные методы Y.-F. Pan et al. 43 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 44. Комбинированные методы Шаг 1 – анализ текстуры Y.-F. Pan et al. 44 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 45. Комбинированные методы Шаг 2 – анализ компонент связности Y.-F. Pan et al. 45 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 46. Комбинированные методы Шаг 3 – выделение текстовых строк и слов • построение минимального остовного дерева • решение оптимизационной задачи 46 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Y.-F. Pan et al.
  • 47. ICDAR (2003, 2005, 2009, 2011) Robust Reading Competitions • Распознавание символов • Распознавание слов • Локализация текста • Распознавание текста 47 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 48. План лекции • Зачем нужны алгоритмы обнаружения текста? • Что такое цифровое изображение? – Представление цифровых изображений – Границы, компоненты связности, бинаризация, преобразование Хафа • Печатные документы (document images) • Фотографии (natural scenes) • Графики, диаграммы, обложки 48 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 49. Графики и диаграммы Анализ компонент связности по цвету 49 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 50. Экспериментальная оценка Тестовое множество: 1000 диаграмм, сгенерированных SWF/XML tool LRR LPR TRR TPR LocationRecognitionRate = NLoc/NG Preprocess 79.0% 88.7% 44.7% 44.6% LocationPrecisionRate = NLoc/NF NoPreprocess 33.7% 84.2% 2.5% 2.9% TextRecognitionRate = NTxt/NG TextPrecisionRate = NTxt/NF NLoc – the number of correctly localized text blocks NG – the total number of text blocks NTxt – the number of correctly recognized text blocks NF – the total number of detected text blocks 50 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 51. Screenshots – Выделение границ и пороговая бинаризация – Удаление длинных горизонтальных и вертикальных границ – Выделение компонент связности – Классификация компонент связности и адаптивная бинаризация бинаризация (+) Быстрая − Время обработки изображения1600x1008 • Tesseract OCR: ~6.56 секунд • Данный алгоритм: ~0.45 seconds (–) Требует фильтрации компонент − Naïve Bayes 51 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
  • 52. Заключение • Зачем нужны алгоритмы обнаружения текста? – Распознавание текста: оцифровка, индексирование, извлечение информации, автоматический перевод, text to speech, навигация • Печатные документы (document images) – Анализ структуры документа, определение поворота, выделение текстовых строк • Фотографии (natural scenes) – Texture-based & region-based – Stroke Width Transform, Hybrid approach • Графики, диаграммы, обложки 52 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.