SlideShare a Scribd company logo
1 of 32
Download to read offline
Технология извлечения табличной информации
из электронных документов разных форматов
Диссертация на соискание учёной степени
кандидата технических наук по специальности
05.25.05 — информационные системы и процессы
Алексей Олегович Шигаров
shigarov@icc.ru
Институт динамики систем и теории управления СО РАН
Научный руководитель: чл.-к. РАН, д.т.н.
Игорь Вячеславович Бычков
ИВТ СО РАН, февраль 2010
1/32
Статистические таблицы
«Таблицы статистические, способ оформления статистических данных в виде
систематически расположенных чисел, характеризующих те или иные массовые
явления или процессы. [. . . ] Пересечение горизонтальных и вертикальных линий
образует клетки таблицы, в которых располагаются цифровые данные. Содержание
каждой цифры раскрывается заголовками соответствующих строк и граф. [. . . ]»
«Большая советская энциклопедия. Изд. 3-е» – М.: Советская энциклопедия.
Т.25 «Струнино-Тихорецк». 1976. С. 161–162.
«Статистические таблицы — способы рационального изложения и наглядного
представления статистических данных; систематическое размещение числовых данных
в серии рядов и колонок с целью обеспечения понимания и сопоставления данных.
[...]»
Официальный сайт СТАТИСТИКА.ру: Госкомстат, Росстат и государственные
службы статистики РФ, http://statistika.ru
2/32
Актуальность исследования
Таблицы из документов часто являются основным источником необходимой
информации
Базы данных не всегда есть, доступны, открыты, содержат полную информацию
Актуальность приобретают методы и системы извлечения табличной информации
из документов
Позволяют преобразовать эту информацию к структурированому виду,
например, к отношениям в реляционных базах данных
Актуальность данной проблематики подчеркивается в обзорах авторов
Embley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000),
Lopresti D. и Nagy G (1999, 2000), Zanibbi R. (2004)
3/32
Актуальность исследования
Задачи извлечения табличной информации из документов
1 Обнаружение таблиц
2 Сегментация таблицы
3 Анализ функций ячеек таблицы
4 Структурный анализ таблицы
Известные методы и системы извлечения табличной информации обычно
1 Решают только отдельные из перечисленных задач
2 Ориентированы на определённые структуры и особенности таблиц и документов
3 Ориентированы на определённые форматы входных данных
4/32
Актуальность исследования
Программные продукты
Системы оптического распознавания текста («FineReader», «Cuneiform», «OmniPage»)
Системы преобразования документов из PDF в Excel («PDF2XL», «Solid Converter PDF»)
Выполняют только обнаружение и сегментацию таблиц
Ориентированы на «решёточную» структуру таблиц, как в Excel
Актуальной задачей является разработка технологии извлечения табличной
информации, которая
1 ориентирована на структуру и особенности статистических таблиц, в частности,
публикуемых Росстатом
2 ориентирована на таблицы, представленные в виде машиночитаемого текста
в электронных документах разных форматов
3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализ
функций ячеек и 4) структурный анализ таблиц
5/32
Цель и основные задачи диссертационной работы
Цель
состоит в создании технологии извлечения табличной информации из электронных
документов разных форматов, которая автоматизирует обнаружение, сегментацию, анализ
функций ячеек и структурный анализ статистических таблиц
Основные задачи
1 Анализ представления статистических таблиц в документах
2 Разработка моделей страницы документа и таблицы, предназначенных для представления
данных в процессе извлечения табличной информации
3 Разработка методов автоматического обнаружения, сегментации, анализа функций ячеек
и структурного анализа статистических таблиц
4 Разработка информационной системы извлечения табличной информации из электронных
документов
5 Проверка созданной технологии на задачах автоматизации ввода больших объёмов
табличной информации из электронных статистических отчётов в базы данных
6/32
Научная новизна
Впервые предложена технология извлечения табличной информации из электронных
документов разных форматов, которая
1 ориентирована на структуру и особенности статистических таблиц, в частности,
публикуемых Росстатом
2 ориентирована на таблицы, представленные в виде машиночитаемого текста
3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализ
функций ячеек и 4) структурный анализ таблиц
7/32
Практическая значимость
Результаты диссертационной работы могут использоваться в задачах извлечения
информации и управления данными
Предлагаемая технология может использоваться для автоматизации ввода в базы
данных табличной информации из электронных документов разных форматов
Работа выполнена при поддержке РФФИ, грант 09-07-12017-офи_м
8/32
Использование результатов диссертации на практике
Министерство сельского хозяйства Иркутской области
Автоматизация ввода информации из электронных статистических отчётов
Иркутскстата в базу данных статистической информации по сельскому хозяйству
информационной системы «Каскад»
Институт систем энергетики им. Л.А. Мелентьева СО РАН
Автоматизация ввода информации из электронных статистических отчётов
в хранилище данных в составе информационной инфраструктуры исследований
в энергетике
9/32
Защищаемые положения
1 Модель страницы документа, которая служит для представления данных страницы
в процессе извлечения табличной информации
2 Модель структурного описания таблицы, которая предназначена для представления
табличных заголовков и данных, и связей между ними
3 Методы обнаружения, сегментации, анализа функций ячеек и структурного
анализа статистических таблиц, которые обеспечивают извлечение
и структурирование табличной информации, содержащейся в электронных документах
10/32
Глава 1. Анализ процесса извлечения табличной информации
Структура и особенности статистических таблиц
Предлагаемая технология ориентирована на структуру и особенности статистических
таблиц
«ГОСТ 2.105-95 ЕСКД», «The Chicago Manual of Style»
-----------------------T-------------T-------------¬
¦ ¦На ¦На ¦
¦ ¦ а, ¦ а, 1 а¦
¦ +------T------+------T------+
¦ ¦ ¦ ¦ ¦ ¦
¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦
¦ ¦ ¦ ¦ ¦ ¦
L----------------------+------+------+------+-------
Х а а
И а а 7250 9334 30 20
Б а а 640 977 18 16
За а а 100 141 17 13
З а 292 1309 25 28
И а 799 942 16 18
Kа а 61 98 20 15
K а 414 722 19 20
/
И а а 3221 5237 23 24
Б а а 159 488 19 17
За а а 56 121 18 22
Т
Ша а
Б
П
О а а
а
В
а
В
а
а
Ра а а, . . а ( а а)
О а а
а
а
Э
а
Ба а а
а а
11/32
Глава 1. Анализ процесса извлечения табличной информации
Форматы входных данных
Известные методы и системы извлечения табличной информации в основном
используют в качестве входных данных
ASCII-текст (plain-text) (не поддерживает графическое форматирование)
Растровые изображения документов (требуют оптического распознавания текста)
Web-страницы HTML (таблицы часто используются для компоновки Web-страниц)
Предлагаемая технология ориентирована на Метафайлы EMF (Enhanced MetaFile)
Документы разных форматов: DOC (Word), XLS (Excel), HTML, ASCII-текст, могут
печататься в метафайлы
Машиночитаемый текст документов остается в метафайлах машиночитаемым
В отличии от файлов PDF, PostScript метафайлы могут интерпретироваться с помощью
GDI (Graphics Device Interface, часть Windows API)
12/32
Технология извлечения табличной информации
ЭЛЕКТРОННЫЕ
ДОКУМЕНТЫ
П а а а а
А а а
С а а
О а а а а
С а а а
В а
EMF
И а
а а ,
а а а а
а
ЗАДАЧИ ПРЕДМЕТНЫХ
ОБЛАСТЕЙ
М а а
EMF
EMF EMF
EMF
С а
( ,
а а а)
С а
а а
а а
О а а
а
Та
( ,
)
Та
( а а, ,
, )
XML XML XML XML XML
С а а
HTML
ASCII
PDF
Word
(DOC)
Excel
(XLS)
Ба
а
Х а а
а
Фа
Excel
(XLS)
13/32
Глава 2. Обработка страниц документов
Модель страницы документа
Объекты страницы документа
О а а
В а
О а а
Russian Federation 6,406 8,801 29,026 47,781 1,173 5,123
Switzerland 1,902 2,899 13,713 21,090 144 58 878 447
Japan 13,352 9,117 90,901 52,604 107 76 550 313
В М
а
П
а
На
а
В а
В а О а а
В а 2008
а Т
2000 99,263 18,022 12,798 138 4,749 337 81,241
By use
Total Saw-logs Plywood
Pulp and
Chips
Others
Year Total
Imported
logs 1)
337
Т
Т
Т
С
Та
1993 1994 1995 1996 1997 1998
Х а а
С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5
Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7
Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8
С
С 136.6 684.2 163.1 292.6 237.6 137.7
Ра 58.0 278.8 572.1 841.7 969.4 856.5
Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2
О а а а
Та а
а
14/32
Глава 2. Обработка страниц документов
Модель страницы документа
Объекты на странице формируются снизу вверх
Та
Та а а
С а а а
Л а
С а
. . .
. . .
. . .
... . . .
Т
Т
...Т
Т
Т
...Т
С а
Та
Л а
Та а
а
15/32
Глава 2. Обработка страниц документов
Сегментация пустого места на странице документа
1 Сегментация пустого места внутри страницы
О а а
В а
а
2 Выделение вертикальных промежутков среди сегментов пустого места
В а
16/32
Глава 2. Обработка страниц документов
Обнаружение таблиц на странице документа
1 По записям метафайла формируются 1) текстовые элементы (соответствуют
отдельным «словам») и 2) линейки (линии разграфки)
2 Предобработка страницы
Исключение из текста текстовой разграфки (псевдографики)
3 Текстовые элементы группируются в текстовые блоки
4 Текстовые блоки группируются в строки
Т а а
В а В а
а
а
Т Т
О а а
О а а
2)1)
Trends in Research and Development
1997 a) 721 a) 9.8 1996 a) 15,079 506,480
1998 731 10.2 1997 15,742 510,460
(1,000)
GDP
(billion yen)
Year
Researchers Females
(%)
Fiscal
year
R&D
expenditures
(billion yen)
C
17/32
Глава 2. Обработка страниц документов
Обнаружение таблиц на странице документа
1 Строки табличного вида группируются в табличные регионы
1993 1994 1995 1996 1997 1998
Х а а
С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5
Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7
Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8
С
С 136.6 684.2 163.1 292.6 237.6 137.7
Ра 58.0 278.8 572.1 841.7 969.4 856.5
Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2
О а а
а
В а
а
Та
2 Табличные регионы группируются в табличные области
1993 1994 1995 1996 1997 1998
Х а а
С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5
Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7
Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8
С
С 136.6 684.2 163.1 292.6 237.6 137.7
Ра 58.0 278.8 572.1 841.7 969.4 856.5
Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2
О а а
а а
В а
а
Таа
а
18/32
Глава 3. Анализ и обработка таблиц
Анализ функций ячеек таблицы
Функция (роль) ячейки зависит от её расположения относительно
базовой точки тела таблицы
Поиск базовой точки тела таблицы
1 Область поиска сегментируется на ячейки
2 С помощью регулярных выражений и эвристик о заголовках непустые ячейки
классифицируются на «Даты», «Числа» и «Текст»
3 Тело содержит только «Числа», специальные обозначения и пустые ячейки
-----------------------T-------------T-------------¬
¦ ¦На ¦На ¦
¦ ¦ а, ¦ а, 1 а¦
¦ +------T------+------T------+
¦ ¦ ¦ ¦ ¦ ¦
¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦
¦ ¦ ¦ ¦ ¦ ¦
L----------------------+------+------+------+-------
Х а а
И а а 7250 9334 30 20
Б а а 640 977 18 16
За а а 100 141 17 13
З а 292 1309 25 28
И а 799 942 16 18
Kа а 61 98 20 15
K а 414 722 19 20
/
И а а 3221 5237 23 24
Б а а 159 488 19 17
За а а 56 121 18 22
Ба а а
а а
О а а
а
а а
Я «Ч а »
Я «Т »
Я «Да а »
19/32
Глава 3. Анализ и обработка таблиц
Сегментация таблицы
Таблица сегментирована, если имеет полную разграфку
Выполняется восстановление недостающей разграфки
1 Вертикальные линейки восстанавливаются по вертикальным промежуткам таблицы
2 Горизонтальные линейки восстанавливаются 1) в шапке по горизонтальным промежуткам
таблицы 2) под шапкой по табличным строкам
3 Восстановленная разграфка таблицы корректируется с помощью её исходных линеек
Ба а а а а
В а /
В а
Т134
Г а
/
Г а
-------------------------------------------------------------------------------------
| | | Х а | К
| | | а |
|---------------------------------------------------------------------------
| | - | | У а - |Ва | У а - |Ва | У а -
| | | | | | | |
| . | |
В а С
Ва У а Ва
1 а . . | 1 а| . | 1 а| . | 1 а
-------------------------------------------------------------------------------------
ЗЕРНОВЫЕ И ЗЕРНОБОБВЫЕ КУЛЬТУРЫ
1997 . 7405 11,6 7152 11,6 19 9,7 134 9,7
1998 . 7419 12,2 7155 12,2 20 11,5 234 11,1
КАРТОФЕЛЬ
1997 . 9939 148 385 124 9652 149 102 145
1998 . 9834 137 322 104 8645 139 67 89
20/32
Глава 3. Анализ и обработка таблиц
Структурный анализ таблицы
Модель структурного описания таблицы
К
а а
С а а
а а а
-----------------------T-------------T-------------¬
¦ ¦ ¦ ¦
¦ ¦ ¦
¦ +------T------+------T------+
¦ ¦ ¦ ¦ ¦ ¦
¦ ¦ ¦ ¦ ¦ ¦
¦ ¦ ¦ ¦ ¦ ¦
L----------------------+------+------+------+-------
На На
а, а, 1 а¦
2004 2005 2004 2005
Х а а
И а а 7250 9334 30 20
Б а а 640 977 18 16
За а а 100 141 17 13
З а 292 1309 25 28
И а 799 942 16 18
Kа а 61 98 20 15
K а 414 722 19 20
/
И а а 3221 5237 23 24
Б а а 159 488 19 17
За а а 56 121 18 22
-----------------------T-------------T-------------¬
¦ ¦На ¦На ¦
¦ ¦ а, ¦ а, 1 а¦
¦ +------T------+------T------+
¦ ¦ ¦ ¦ ¦ ¦
¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦
¦ ¦ ¦ ¦ ¦ ¦
L----------------------+------+------+------+-------
Д
а
Д
а
Д
М
а
hc0
hc1
hc2
hc3
hc4
hc5
hc6
ho0
ho1
ho2
hr0
hr1
hr2
hr3
hr4
hr5
hr6
hr7
hr8
hr9
hr10
d7
d1 d2 d3 d4
d5 d6 d8
d9
d13 d14 d15 d16
d10 d11 d12
d17 d18 d19 d20
d21 d22 d23 d24
d25
d29 d30 d31 d32
d26 d27 d28
d33
d37 d38 d39 d40
d34 d35 d36
hci — За
hrj — За
hok — П
dl — Э а
Структурный анализ таблицы включает
1 формирование 1) дерева заголовков столбцов, 2) дерева заголовков строк,
3) дерева перерезов и 4) множества элементов данных
2 связывание элементов данных с заголовками
21/32
Экспериментальная оценка
Экспериментальные данные
государственные статистические отчёты России, США, Евросоюза, Японии, финансовые
отчёты различных компаний
форматы: DOC (Word), XLS (Excel), PDF (с латиницей), HTML
всего 425 страниц, 518 таблиц
Оценки1
1 Точность — процент количества корректно обнаруженных таблиц/базовых точек тел
таблиц/линеек к общему количеству обнаруженных соответственно таблиц/базовых точек
тел таблиц/линеек
2 Полнота — процент количества корректно обнаруженных таблиц/линеек к общему числу
существующих соответственно таблиц/линеек
Таблица: Экспериментальные результаты
Обнаружение: таблиц базовых точек тел таблиц линеек2
Точность 84,5% 91,4% 86,2%
Полнота 91,7% X 82,5%
1
Hu J., Kashi R., Lopresti D., Wilfong G. Medium-Independent Table Detection // In Proc. Document
Recognition and Retrieval VII. IS&T/SPIE Electronic Imaging. USA. 2000. P. 291-302.
2
Случайным образом выбрана 51 таблица с 275 вертикальными и 1046 горизонтальными линейками
22/32
Глава 4. Практическое применение результатов
Информационная система
Информационная система «STABEX» (STAtistical TABle EXtractor) для извлечения
табличной информации из метафайлов
Имеет графический пользовательский интерфейс
Визуализирует процесс извлечения табличной информации
Пользователь может вручную корректировать результаты автоматического выполнения
обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц
Э
а
а
О а а а а а а а
Р а а а :
а
а
О а а а а
а а а
23/32
XML представление структурного описания таблицы
<table name="Та а 1">
<columnHeader text="За " id="0">
<columnHeader text="На а, " id="14581672">
<columnHeader text="2004" id="14581896"/> [...]
</columnHeader> [...]
</columnHeader>
<rowHeader text="За " id="0">
<rowHeader text="И а а " id="14582344">
<rowHeader text="Б а а " id="14582400"/> [...]
</rowHeader> [...]
</rowHeader>
<cutinHeader text="П " id="0">
<cutinHeader text="Х а а " id="14582848"/> [...]
</cutinHeader>
<data>
<dataElement text="7250" colId="14581896" rowId="14582344" cutId="14582848"/>
<dataElement text="640" colId="14581896" rowId="14582400" cutId="14582848"/>
[...]
</data>
</table>
Д а
Д а
Д
М а
24/32
Глава 4. Практическое применение результатов
Автоматизация наполнения базы данных
Задача
Необходимо организовать ввод статистической информации в базу данных «Каскад»
Неполнота представления информации в базах данных Иркутскстата не позволяет
организовать её прямое преобразование в АИС «Каскад»
Статистические отчёты являются основным источником необходимых данных
Электронные статистические отчёты
1 Документы Word (DOC) с таблицами в виде ASCII-текста и табличных объектов Word
2 Листы Excel (XLS)
Автоматизация ввода статистической информации в базу данных АИС «Каскад»
Ба а а
АИС «Ка а »
С а С а
а , XML
П
а ,
а СУБД Paradox
25/32
Глава 4. Практическое применение результатов
Автоматизация наполнения базы данных
Деревья заголовков структурного описания таблицы объединяются
в дерево показателей
На а,
На а, 1 а
Х а а
/
2004
2005
П а а
2004
2005
И а а
Б а а
. . . . . .
. . .
. . .
. . .
И а а
Б а а
. . . . . .
. . .
. . .
. . .
На а,
На а, 1 а
2004
2005
2004
2005
И а а
Б а а
. . . . . .
. . .
. . .
. . .
И а а
Б а а
. . . . . .
. . .
. . .
. . .
Обработка дерева показателей
Заголовки приводятся к эталонным написаниям
Из дерева исключаются «Даты», «Территории» и игнорируемые заголовки
26/32
Глава 4. Практическое применение результатов
Автоматизация наполнения базы данных
Для извлечённого структурного описания таблицы формируется
1 Таблица реляционного вида в формате СУБД «Paradox»
YEAR TERR F1 F2 F3
1997 А а а 99 1 100
1997 Ба а а а 99 1 96
1997 Б а а 93 7
1997 Б а а 98 2 97
1997 Ж а а 97 3 98
1997 З а 99 1 99
1997 И а а 98 2 97
1998 А а а 7
1998 Ба а а а 4
1998 Б а а 3
М
За
2 Текстовый FNI (Field Name Information) файл
каждой метке поля таблицы СУБД «Paradox» сопоставляется путь в дереве показателей
На а а
И а а а СУБД Paradox
М С а а
T T006.db
C Та а 1
F YEAR В
F TERR Т
F F1 З С
F F2 З На
F F3 З К а
М «В » «Т »
27/32
Основные полученные результаты
1 Разработана модель страницы документа, которая служит для представления данных
страницы в процессе извлечения табличной информации из электронных документов
2 Разработана модель структурного описания таблицы, которая предназначена для
представления заголовков и данных таблицы, а также связей между ними
3 Разработаны методы обнаружения, сегментации, анализа функций ячеек
и структурного анализа таблиц, ориентированные на структуру и особенности
статистических таблиц
28/32
Личный вклад автора
Автором получены лично
Модель страницы документа
Методы обнаружения, сегментации, анализа функций ячеек и структурного анализа
статистических таблиц
Информационная система извлечения табличной информации из метафайлов
Технология извлечения табличной информации из электронных документов разных
форматов
В неделимом соавторстве с А.Е. Хмельновым
Модель структурного описания таблицы
В неделимом соавторстве с А.Е. Хмельновым, И.В. Бычковым и Г.М. Ружниковым
Применение данной технологии для автоматизации наполнения базы данных системы
«Каскад»
29/32
Представление результатов диссертационной работы
Основные результаты докладывались на научных конференциях
Международная конференция MIT-2009 «Математические и информационные
технологии» (Будва, Черногория, 2009 г.)
9 международная конференция «Распознавание образов и анализ изображений: новые
информационные технологии» (Нижний Новгород, 2008 г.)
12, 13 и 14 всероссийская конференция «Информационные и математические
технологии в науке и управлении» (Иркутск, 2007, 2008, 2009 гг.)
6 и 9 школа-семинар «Математическое моделирование и информационные
технологии» (Иркутск, 2005, 2007 гг.)
Школа-семинар молодых ученых «Информационные технологии и моделирование
социальных эколого-экономических систем» (Иркутск, 2008 г.)
Семинар «Ляпуновские чтения и презентация информационных технологий»
(Иркутск, 2007, 2008, 2009 гг.)
30/32
Публикации по теме диссертации
По теме диссертации опубликовано 12 научных работ,
в т.ч. 3 публикации в изданиях из списка ВАК
1 Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. Эвристический метод
обнаружения таблиц в разноформатных документах // Вычислительные технологии.
– 2009. – Т. 14, № 2. – С. 58–73
2 Шигаров А.О. Технология извлечения табличной информации из электронных
документов разных форматов // Современные технологии. Системный анализ.
Моделирование. – 2009. – № 3 (23). – С. 97–102.
3 Shigarov A.O., Bychkov I.V., Ruzhnikov G.M., Khmel’nov A.E. A method for table detection
in metafiles // Pattern Recognition and Image Analysis. – 2009. – Vol. 19, No 4. – P. 693–697.
Получено 4 свидетельства об официальной регистрации программ для ЭВМ
в Роспатенте
31/32
Технология извлечения табличной информации
из электронных документов разных форматов
Диссертация на соискание учёной степени
кандидата технических наук по специальности
05.25.05 — информационные системы и процессы
Алексей Олегович Шигаров
Научный руководитель: чл.-к. РАН, д.т.н. Игорь Вячеславович Бычков
Работа выполнена в Институте динамики систем и теории
управления СО РАН
32/32

More Related Content

Similar to Technology for tabular information extraction from documents in various formats

593.табличный процессор ms excel основы работы и применения в экономике
593.табличный процессор ms excel основы работы и применения в экономике593.табличный процессор ms excel основы работы и применения в экономике
593.табличный процессор ms excel основы работы и применения в экономикеivanov1566353422
 
System for tabular information extraction from documents in various formats
System for tabular information extraction from documents in various formatsSystem for tabular information extraction from documents in various formats
System for tabular information extraction from documents in various formatsAlexey Shigarov
 
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excelKirrrr123
 
Methodology and software for extracting and transforming data from arbitrary ...
Methodology and software for extracting and transforming data from arbitrary ...Methodology and software for extracting and transforming data from arbitrary ...
Methodology and software for extracting and transforming data from arbitrary ...Alexey Shigarov
 
1. Введение
1. Введение1. Введение
1. ВведениеArtyukhova
 
Введение
ВведениеВведение
ВведениеArtyukhova
 
Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Vladimir Tcherniak
 
презентация проекта
презентация проектапрезентация проекта
презентация проектаGulnaz Shakirova
 
презентация современные технологии в научных исследованиях
презентация  современные технологии в научных исследованияхпрезентация  современные технологии в научных исследованиях
презентация современные технологии в научных исследованияхAnastasia Odintsova
 
программа курса тимуровцы.
программа курса тимуровцы.программа курса тимуровцы.
программа курса тимуровцы.На та ха
 
акцесс изменён
акцесс изменёнакцесс изменён
акцесс изменёнminura19122010
 
1 общие понятия о проектировании мехатронных систем
1 общие понятия о проектировании мехатронных систем1 общие понятия о проектировании мехатронных систем
1 общие понятия о проектировании мехатронных системMakhabbat Kalenova
 
Базы данных
Базы данныхБазы данных
Базы данныхValiaKuba
 

Similar to Technology for tabular information extraction from documents in various formats (20)

593.табличный процессор ms excel основы работы и применения в экономике
593.табличный процессор ms excel основы работы и применения в экономике593.табличный процессор ms excel основы работы и применения в экономике
593.табличный процессор ms excel основы работы и применения в экономике
 
System for tabular information extraction from documents in various formats
System for tabular information extraction from documents in various formatsSystem for tabular information extraction from documents in various formats
System for tabular information extraction from documents in various formats
 
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
 
Methodology and software for extracting and transforming data from arbitrary ...
Methodology and software for extracting and transforming data from arbitrary ...Methodology and software for extracting and transforming data from arbitrary ...
Methodology and software for extracting and transforming data from arbitrary ...
 
Microsoft access 2007
Microsoft access 2007Microsoft access 2007
Microsoft access 2007
 
1. Введение
1. Введение1. Введение
1. Введение
 
Введение
ВведениеВведение
Введение
 
Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2
 
презентация проекта
презентация проектапрезентация проекта
презентация проекта
 
Методичка по ИТвЮД 2017
Методичка по ИТвЮД 2017Методичка по ИТвЮД 2017
Методичка по ИТвЮД 2017
 
Лекция 9
Лекция 9Лекция 9
Лекция 9
 
9946
99469946
9946
 
презентация современные технологии в научных исследованиях
презентация  современные технологии в научных исследованияхпрезентация  современные технологии в научных исследованиях
презентация современные технологии в научных исследованиях
 
11 класс
11 класс11 класс
11 класс
 
программа курса тимуровцы.
программа курса тимуровцы.программа курса тимуровцы.
программа курса тимуровцы.
 
Excel
ExcelExcel
Excel
 
тема 3
тема 3тема 3
тема 3
 
акцесс изменён
акцесс изменёнакцесс изменён
акцесс изменён
 
1 общие понятия о проектировании мехатронных систем
1 общие понятия о проектировании мехатронных систем1 общие понятия о проектировании мехатронных систем
1 общие понятия о проектировании мехатронных систем
 
Базы данных
Базы данныхБазы данных
Базы данных
 

Technology for tabular information extraction from documents in various formats

  • 1. Технология извлечения табличной информации из электронных документов разных форматов Диссертация на соискание учёной степени кандидата технических наук по специальности 05.25.05 — информационные системы и процессы Алексей Олегович Шигаров shigarov@icc.ru Институт динамики систем и теории управления СО РАН Научный руководитель: чл.-к. РАН, д.т.н. Игорь Вячеславович Бычков ИВТ СО РАН, февраль 2010 1/32
  • 2. Статистические таблицы «Таблицы статистические, способ оформления статистических данных в виде систематически расположенных чисел, характеризующих те или иные массовые явления или процессы. [. . . ] Пересечение горизонтальных и вертикальных линий образует клетки таблицы, в которых располагаются цифровые данные. Содержание каждой цифры раскрывается заголовками соответствующих строк и граф. [. . . ]» «Большая советская энциклопедия. Изд. 3-е» – М.: Советская энциклопедия. Т.25 «Струнино-Тихорецк». 1976. С. 161–162. «Статистические таблицы — способы рационального изложения и наглядного представления статистических данных; систематическое размещение числовых данных в серии рядов и колонок с целью обеспечения понимания и сопоставления данных. [...]» Официальный сайт СТАТИСТИКА.ру: Госкомстат, Росстат и государственные службы статистики РФ, http://statistika.ru 2/32
  • 3. Актуальность исследования Таблицы из документов часто являются основным источником необходимой информации Базы данных не всегда есть, доступны, открыты, содержат полную информацию Актуальность приобретают методы и системы извлечения табличной информации из документов Позволяют преобразовать эту информацию к структурированому виду, например, к отношениям в реляционных базах данных Актуальность данной проблематики подчеркивается в обзорах авторов Embley D.W. (2006), e Silva A.C. (2006), Handley J.C. (1999), Hurst M. (2000), Lopresti D. и Nagy G (1999, 2000), Zanibbi R. (2004) 3/32
  • 4. Актуальность исследования Задачи извлечения табличной информации из документов 1 Обнаружение таблиц 2 Сегментация таблицы 3 Анализ функций ячеек таблицы 4 Структурный анализ таблицы Известные методы и системы извлечения табличной информации обычно 1 Решают только отдельные из перечисленных задач 2 Ориентированы на определённые структуры и особенности таблиц и документов 3 Ориентированы на определённые форматы входных данных 4/32
  • 5. Актуальность исследования Программные продукты Системы оптического распознавания текста («FineReader», «Cuneiform», «OmniPage») Системы преобразования документов из PDF в Excel («PDF2XL», «Solid Converter PDF») Выполняют только обнаружение и сегментацию таблиц Ориентированы на «решёточную» структуру таблиц, как в Excel Актуальной задачей является разработка технологии извлечения табличной информации, которая 1 ориентирована на структуру и особенности статистических таблиц, в частности, публикуемых Росстатом 2 ориентирована на таблицы, представленные в виде машиночитаемого текста в электронных документах разных форматов 3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализ функций ячеек и 4) структурный анализ таблиц 5/32
  • 6. Цель и основные задачи диссертационной работы Цель состоит в создании технологии извлечения табличной информации из электронных документов разных форматов, которая автоматизирует обнаружение, сегментацию, анализ функций ячеек и структурный анализ статистических таблиц Основные задачи 1 Анализ представления статистических таблиц в документах 2 Разработка моделей страницы документа и таблицы, предназначенных для представления данных в процессе извлечения табличной информации 3 Разработка методов автоматического обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц 4 Разработка информационной системы извлечения табличной информации из электронных документов 5 Проверка созданной технологии на задачах автоматизации ввода больших объёмов табличной информации из электронных статистических отчётов в базы данных 6/32
  • 7. Научная новизна Впервые предложена технология извлечения табличной информации из электронных документов разных форматов, которая 1 ориентирована на структуру и особенности статистических таблиц, в частности, публикуемых Росстатом 2 ориентирована на таблицы, представленные в виде машиночитаемого текста 3 является комплексной, т. е. выполняет 1) обнаружение, 2) сегментацию, 3) анализ функций ячеек и 4) структурный анализ таблиц 7/32
  • 8. Практическая значимость Результаты диссертационной работы могут использоваться в задачах извлечения информации и управления данными Предлагаемая технология может использоваться для автоматизации ввода в базы данных табличной информации из электронных документов разных форматов Работа выполнена при поддержке РФФИ, грант 09-07-12017-офи_м 8/32
  • 9. Использование результатов диссертации на практике Министерство сельского хозяйства Иркутской области Автоматизация ввода информации из электронных статистических отчётов Иркутскстата в базу данных статистической информации по сельскому хозяйству информационной системы «Каскад» Институт систем энергетики им. Л.А. Мелентьева СО РАН Автоматизация ввода информации из электронных статистических отчётов в хранилище данных в составе информационной инфраструктуры исследований в энергетике 9/32
  • 10. Защищаемые положения 1 Модель страницы документа, которая служит для представления данных страницы в процессе извлечения табличной информации 2 Модель структурного описания таблицы, которая предназначена для представления табличных заголовков и данных, и связей между ними 3 Методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц, которые обеспечивают извлечение и структурирование табличной информации, содержащейся в электронных документах 10/32
  • 11. Глава 1. Анализ процесса извлечения табличной информации Структура и особенности статистических таблиц Предлагаемая технология ориентирована на структуру и особенности статистических таблиц «ГОСТ 2.105-95 ЕСКД», «The Chicago Manual of Style» -----------------------T-------------T-------------¬ ¦ ¦На ¦На ¦ ¦ ¦ а, ¦ а, 1 а¦ ¦ +------T------+------T------+ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦ ¦ ¦ ¦ ¦ ¦ ¦ L----------------------+------+------+------+------- Х а а И а а 7250 9334 30 20 Б а а 640 977 18 16 За а а 100 141 17 13 З а 292 1309 25 28 И а 799 942 16 18 Kа а 61 98 20 15 K а 414 722 19 20 / И а а 3221 5237 23 24 Б а а 159 488 19 17 За а а 56 121 18 22 Т Ша а Б П О а а а В а В а а Ра а а, . . а ( а а) О а а а а Э а Ба а а а а 11/32
  • 12. Глава 1. Анализ процесса извлечения табличной информации Форматы входных данных Известные методы и системы извлечения табличной информации в основном используют в качестве входных данных ASCII-текст (plain-text) (не поддерживает графическое форматирование) Растровые изображения документов (требуют оптического распознавания текста) Web-страницы HTML (таблицы часто используются для компоновки Web-страниц) Предлагаемая технология ориентирована на Метафайлы EMF (Enhanced MetaFile) Документы разных форматов: DOC (Word), XLS (Excel), HTML, ASCII-текст, могут печататься в метафайлы Машиночитаемый текст документов остается в метафайлах машиночитаемым В отличии от файлов PDF, PostScript метафайлы могут интерпретироваться с помощью GDI (Graphics Device Interface, часть Windows API) 12/32
  • 13. Технология извлечения табличной информации ЭЛЕКТРОННЫЕ ДОКУМЕНТЫ П а а а а А а а С а а О а а а а С а а а В а EMF И а а а , а а а а а ЗАДАЧИ ПРЕДМЕТНЫХ ОБЛАСТЕЙ М а а EMF EMF EMF EMF С а ( , а а а) С а а а а а О а а а Та ( , ) Та ( а а, , , ) XML XML XML XML XML С а а HTML ASCII PDF Word (DOC) Excel (XLS) Ба а Х а а а Фа Excel (XLS) 13/32
  • 14. Глава 2. Обработка страниц документов Модель страницы документа Объекты страницы документа О а а В а О а а Russian Federation 6,406 8,801 29,026 47,781 1,173 5,123 Switzerland 1,902 2,899 13,713 21,090 144 58 878 447 Japan 13,352 9,117 90,901 52,604 107 76 550 313 В М а П а На а В а В а О а а В а 2008 а Т 2000 99,263 18,022 12,798 138 4,749 337 81,241 By use Total Saw-logs Plywood Pulp and Chips Others Year Total Imported logs 1) 337 Т Т Т С Та 1993 1994 1995 1996 1997 1998 Х а а С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5 Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7 Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8 С С 136.6 684.2 163.1 292.6 237.6 137.7 Ра 58.0 278.8 572.1 841.7 969.4 856.5 Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2 О а а а Та а а 14/32
  • 15. Глава 2. Обработка страниц документов Модель страницы документа Объекты на странице формируются снизу вверх Та Та а а С а а а Л а С а . . . . . . . . . ... . . . Т Т ...Т Т Т ...Т С а Та Л а Та а а 15/32
  • 16. Глава 2. Обработка страниц документов Сегментация пустого места на странице документа 1 Сегментация пустого места внутри страницы О а а В а а 2 Выделение вертикальных промежутков среди сегментов пустого места В а 16/32
  • 17. Глава 2. Обработка страниц документов Обнаружение таблиц на странице документа 1 По записям метафайла формируются 1) текстовые элементы (соответствуют отдельным «словам») и 2) линейки (линии разграфки) 2 Предобработка страницы Исключение из текста текстовой разграфки (псевдографики) 3 Текстовые элементы группируются в текстовые блоки 4 Текстовые блоки группируются в строки Т а а В а В а а а Т Т О а а О а а 2)1) Trends in Research and Development 1997 a) 721 a) 9.8 1996 a) 15,079 506,480 1998 731 10.2 1997 15,742 510,460 (1,000) GDP (billion yen) Year Researchers Females (%) Fiscal year R&D expenditures (billion yen) C 17/32
  • 18. Глава 2. Обработка страниц документов Обнаружение таблиц на странице документа 1 Строки табличного вида группируются в табличные регионы 1993 1994 1995 1996 1997 1998 Х а а С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5 Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7 Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8 С С 136.6 684.2 163.1 292.6 237.6 137.7 Ра 58.0 278.8 572.1 841.7 969.4 856.5 Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2 О а а а В а а Та 2 Табличные регионы группируются в табличные области 1993 1994 1995 1996 1997 1998 Х а а С 125.8 1168.3 4149.8 5719.5 6732.3 6184.5 Ра 209.0 125.8 2092.7 2031.2 3370.2 2709.7 Ж 218.8 749.5 2057.1 3088.3 3362.1 3474.8 С С 136.6 684.2 163.1 292.6 237.6 137.7 Ра 58.0 278.8 572.1 841.7 969.4 856.5 Ж 138.6 405.4 981.0 1050.9 1168.2 1081.2 О а а а а В а а Таа а 18/32
  • 19. Глава 3. Анализ и обработка таблиц Анализ функций ячеек таблицы Функция (роль) ячейки зависит от её расположения относительно базовой точки тела таблицы Поиск базовой точки тела таблицы 1 Область поиска сегментируется на ячейки 2 С помощью регулярных выражений и эвристик о заголовках непустые ячейки классифицируются на «Даты», «Числа» и «Текст» 3 Тело содержит только «Числа», специальные обозначения и пустые ячейки -----------------------T-------------T-------------¬ ¦ ¦На ¦На ¦ ¦ ¦ а, ¦ а, 1 а¦ ¦ +------T------+------T------+ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦ ¦ ¦ ¦ ¦ ¦ ¦ L----------------------+------+------+------+------- Х а а И а а 7250 9334 30 20 Б а а 640 977 18 16 За а а 100 141 17 13 З а 292 1309 25 28 И а 799 942 16 18 Kа а 61 98 20 15 K а 414 722 19 20 / И а а 3221 5237 23 24 Б а а 159 488 19 17 За а а 56 121 18 22 Ба а а а а О а а а а а Я «Ч а » Я «Т » Я «Да а » 19/32
  • 20. Глава 3. Анализ и обработка таблиц Сегментация таблицы Таблица сегментирована, если имеет полную разграфку Выполняется восстановление недостающей разграфки 1 Вертикальные линейки восстанавливаются по вертикальным промежуткам таблицы 2 Горизонтальные линейки восстанавливаются 1) в шапке по горизонтальным промежуткам таблицы 2) под шапкой по табличным строкам 3 Восстановленная разграфка таблицы корректируется с помощью её исходных линеек Ба а а а а В а / В а Т134 Г а / Г а ------------------------------------------------------------------------------------- | | | Х а | К | | | а | |--------------------------------------------------------------------------- | | - | | У а - |Ва | У а - |Ва | У а - | | | | | | | | | . | | В а С Ва У а Ва 1 а . . | 1 а| . | 1 а| . | 1 а ------------------------------------------------------------------------------------- ЗЕРНОВЫЕ И ЗЕРНОБОБВЫЕ КУЛЬТУРЫ 1997 . 7405 11,6 7152 11,6 19 9,7 134 9,7 1998 . 7419 12,2 7155 12,2 20 11,5 234 11,1 КАРТОФЕЛЬ 1997 . 9939 148 385 124 9652 149 102 145 1998 . 9834 137 322 104 8645 139 67 89 20/32
  • 21. Глава 3. Анализ и обработка таблиц Структурный анализ таблицы Модель структурного описания таблицы К а а С а а а а а -----------------------T-------------T-------------¬ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ +------T------+------T------+ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ L----------------------+------+------+------+------- На На а, а, 1 а¦ 2004 2005 2004 2005 Х а а И а а 7250 9334 30 20 Б а а 640 977 18 16 За а а 100 141 17 13 З а 292 1309 25 28 И а 799 942 16 18 Kа а 61 98 20 15 K а 414 722 19 20 / И а а 3221 5237 23 24 Б а а 159 488 19 17 За а а 56 121 18 22 -----------------------T-------------T-------------¬ ¦ ¦На ¦На ¦ ¦ ¦ а, ¦ а, 1 а¦ ¦ +------T------+------T------+ ¦ ¦ ¦ ¦ ¦ ¦ ¦ ¦ 2004 ¦ 2005 ¦ 2004 ¦ 2005 ¦ ¦ ¦ ¦ ¦ ¦ ¦ L----------------------+------+------+------+------- Д а Д а Д М а hc0 hc1 hc2 hc3 hc4 hc5 hc6 ho0 ho1 ho2 hr0 hr1 hr2 hr3 hr4 hr5 hr6 hr7 hr8 hr9 hr10 d7 d1 d2 d3 d4 d5 d6 d8 d9 d13 d14 d15 d16 d10 d11 d12 d17 d18 d19 d20 d21 d22 d23 d24 d25 d29 d30 d31 d32 d26 d27 d28 d33 d37 d38 d39 d40 d34 d35 d36 hci — За hrj — За hok — П dl — Э а Структурный анализ таблицы включает 1 формирование 1) дерева заголовков столбцов, 2) дерева заголовков строк, 3) дерева перерезов и 4) множества элементов данных 2 связывание элементов данных с заголовками 21/32
  • 22. Экспериментальная оценка Экспериментальные данные государственные статистические отчёты России, США, Евросоюза, Японии, финансовые отчёты различных компаний форматы: DOC (Word), XLS (Excel), PDF (с латиницей), HTML всего 425 страниц, 518 таблиц Оценки1 1 Точность — процент количества корректно обнаруженных таблиц/базовых точек тел таблиц/линеек к общему количеству обнаруженных соответственно таблиц/базовых точек тел таблиц/линеек 2 Полнота — процент количества корректно обнаруженных таблиц/линеек к общему числу существующих соответственно таблиц/линеек Таблица: Экспериментальные результаты Обнаружение: таблиц базовых точек тел таблиц линеек2 Точность 84,5% 91,4% 86,2% Полнота 91,7% X 82,5% 1 Hu J., Kashi R., Lopresti D., Wilfong G. Medium-Independent Table Detection // In Proc. Document Recognition and Retrieval VII. IS&T/SPIE Electronic Imaging. USA. 2000. P. 291-302. 2 Случайным образом выбрана 51 таблица с 275 вертикальными и 1046 горизонтальными линейками 22/32
  • 23. Глава 4. Практическое применение результатов Информационная система Информационная система «STABEX» (STAtistical TABle EXtractor) для извлечения табличной информации из метафайлов Имеет графический пользовательский интерфейс Визуализирует процесс извлечения табличной информации Пользователь может вручную корректировать результаты автоматического выполнения обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц Э а а О а а а а а а а Р а а а : а а О а а а а а а а 23/32
  • 24. XML представление структурного описания таблицы <table name="Та а 1"> <columnHeader text="За " id="0"> <columnHeader text="На а, " id="14581672"> <columnHeader text="2004" id="14581896"/> [...] </columnHeader> [...] </columnHeader> <rowHeader text="За " id="0"> <rowHeader text="И а а " id="14582344"> <rowHeader text="Б а а " id="14582400"/> [...] </rowHeader> [...] </rowHeader> <cutinHeader text="П " id="0"> <cutinHeader text="Х а а " id="14582848"/> [...] </cutinHeader> <data> <dataElement text="7250" colId="14581896" rowId="14582344" cutId="14582848"/> <dataElement text="640" colId="14581896" rowId="14582400" cutId="14582848"/> [...] </data> </table> Д а Д а Д М а 24/32
  • 25. Глава 4. Практическое применение результатов Автоматизация наполнения базы данных Задача Необходимо организовать ввод статистической информации в базу данных «Каскад» Неполнота представления информации в базах данных Иркутскстата не позволяет организовать её прямое преобразование в АИС «Каскад» Статистические отчёты являются основным источником необходимых данных Электронные статистические отчёты 1 Документы Word (DOC) с таблицами в виде ASCII-текста и табличных объектов Word 2 Листы Excel (XLS) Автоматизация ввода статистической информации в базу данных АИС «Каскад» Ба а а АИС «Ка а » С а С а а , XML П а , а СУБД Paradox 25/32
  • 26. Глава 4. Практическое применение результатов Автоматизация наполнения базы данных Деревья заголовков структурного описания таблицы объединяются в дерево показателей На а, На а, 1 а Х а а / 2004 2005 П а а 2004 2005 И а а Б а а . . . . . . . . . . . . . . . И а а Б а а . . . . . . . . . . . . . . . На а, На а, 1 а 2004 2005 2004 2005 И а а Б а а . . . . . . . . . . . . . . . И а а Б а а . . . . . . . . . . . . . . . Обработка дерева показателей Заголовки приводятся к эталонным написаниям Из дерева исключаются «Даты», «Территории» и игнорируемые заголовки 26/32
  • 27. Глава 4. Практическое применение результатов Автоматизация наполнения базы данных Для извлечённого структурного описания таблицы формируется 1 Таблица реляционного вида в формате СУБД «Paradox» YEAR TERR F1 F2 F3 1997 А а а 99 1 100 1997 Ба а а а 99 1 96 1997 Б а а 93 7 1997 Б а а 98 2 97 1997 Ж а а 97 3 98 1997 З а 99 1 99 1997 И а а 98 2 97 1998 А а а 7 1998 Ба а а а 4 1998 Б а а 3 М За 2 Текстовый FNI (Field Name Information) файл каждой метке поля таблицы СУБД «Paradox» сопоставляется путь в дереве показателей На а а И а а а СУБД Paradox М С а а T T006.db C Та а 1 F YEAR В F TERR Т F F1 З С F F2 З На F F3 З К а М «В » «Т » 27/32
  • 28. Основные полученные результаты 1 Разработана модель страницы документа, которая служит для представления данных страницы в процессе извлечения табличной информации из электронных документов 2 Разработана модель структурного описания таблицы, которая предназначена для представления заголовков и данных таблицы, а также связей между ними 3 Разработаны методы обнаружения, сегментации, анализа функций ячеек и структурного анализа таблиц, ориентированные на структуру и особенности статистических таблиц 28/32
  • 29. Личный вклад автора Автором получены лично Модель страницы документа Методы обнаружения, сегментации, анализа функций ячеек и структурного анализа статистических таблиц Информационная система извлечения табличной информации из метафайлов Технология извлечения табличной информации из электронных документов разных форматов В неделимом соавторстве с А.Е. Хмельновым Модель структурного описания таблицы В неделимом соавторстве с А.Е. Хмельновым, И.В. Бычковым и Г.М. Ружниковым Применение данной технологии для автоматизации наполнения базы данных системы «Каскад» 29/32
  • 30. Представление результатов диссертационной работы Основные результаты докладывались на научных конференциях Международная конференция MIT-2009 «Математические и информационные технологии» (Будва, Черногория, 2009 г.) 9 международная конференция «Распознавание образов и анализ изображений: новые информационные технологии» (Нижний Новгород, 2008 г.) 12, 13 и 14 всероссийская конференция «Информационные и математические технологии в науке и управлении» (Иркутск, 2007, 2008, 2009 гг.) 6 и 9 школа-семинар «Математическое моделирование и информационные технологии» (Иркутск, 2005, 2007 гг.) Школа-семинар молодых ученых «Информационные технологии и моделирование социальных эколого-экономических систем» (Иркутск, 2008 г.) Семинар «Ляпуновские чтения и презентация информационных технологий» (Иркутск, 2007, 2008, 2009 гг.) 30/32
  • 31. Публикации по теме диссертации По теме диссертации опубликовано 12 научных работ, в т.ч. 3 публикации в изданиях из списка ВАК 1 Бычков И.В., Ружников Г.М., Хмельнов А.Е., Шигаров А.О. Эвристический метод обнаружения таблиц в разноформатных документах // Вычислительные технологии. – 2009. – Т. 14, № 2. – С. 58–73 2 Шигаров А.О. Технология извлечения табличной информации из электронных документов разных форматов // Современные технологии. Системный анализ. Моделирование. – 2009. – № 3 (23). – С. 97–102. 3 Shigarov A.O., Bychkov I.V., Ruzhnikov G.M., Khmel’nov A.E. A method for table detection in metafiles // Pattern Recognition and Image Analysis. – 2009. – Vol. 19, No 4. – P. 693–697. Получено 4 свидетельства об официальной регистрации программ для ЭВМ в Роспатенте 31/32
  • 32. Технология извлечения табличной информации из электронных документов разных форматов Диссертация на соискание учёной степени кандидата технических наук по специальности 05.25.05 — информационные системы и процессы Алексей Олегович Шигаров Научный руководитель: чл.-к. РАН, д.т.н. Игорь Вячеславович Бычков Работа выполнена в Институте динамики систем и теории управления СО РАН 32/32