1. 1
Тульский государственный университет
Факультет кибернетики
Лаборатория информационных систем
М.Ю. Богатырев
Статистический и структурный
подходы в методах
Text Mining
2. Термин «Text Mining»
2
Российское определение: «Анализ и
понимание текста»
Западная трактовка: «Извлечение
знаний из текстов на естественном
языке»
3. «Извлечение знаний из текстов на естественном языке»
Knowledge Discovery Natural Language Processing
Global Problems
Analysis of:
• text categorization, Problems • syntax
• text clustering, • grammar
• concept/entity extraction, • morphology
• sentiment analysis, • semantics
• document summarization
•annotation
•abstraction
• clusters,
• ontologies
• trends,
Processing objects •semantic roles
• associations,
•Objects of tagging
• deviations
Knowledge Models:
• rules;
• ontologies
Metadata
Corpora:
• large and structured text
Data: • tagging
Plain text
4. Латентно-семантический анализ
термы: слова в тексте Контекст: фрагмент текста (до и после терма)
документы: наборы слов
факторы (тематики): знания
Матрица употребляемости: A = [ai , j ] i = 1, 2,..., n, j = 1, 2,..., m
ai, j − частота встречаемости i - го терма в j - м документе
Сингулярное разложение: A → AV = UW → A = UWV*
W = diag[ W1 , W2 , ..., Wk ], di ∈ Wi − сингулярные числа
7. Главные особенности
7
ЛСА
На основе разложения матрицы
«терм-документ» получаем
латентные связи между
документами.
Восстановление матрицы «терм
– документ» по усеченному
набору сингулярных значений
выявляет латентные связи
«терм-документ»
8. Тексты и пространства
Пространство: множество+структура.
Структура: способ организации
объектов множества
Метрическое:
Объекты. Пара (M, d)
M - множество d – метрика на M, d ∈R
Свойства.
d ( x, y ) ≥ 0
∀x, y, z ∈ M d ( x, y ) = 0 → x = y
d ( x, y ) = d ( y , x )
d (x, z) ≤ d (x, y) + d (y, z)
(неравенство треугольника).
9. Принадлежат ли объекты-тексты метрическому
пространству ?
d : TF − IDF
T2
T3
T1 мера?
?
d (T1 , T3 ) ≤ d (T1 , T2 ) + d (T2 , T3 )
11. Формальный анализ понятий:
от слов к понятиям
11
Основные объекты:
Контексты
Понятия
Решетки понятий
Концептуальный граф - главная семантическая
модель предложения
12. Формальный анализ понятий
Концептуальные структуры:
Контекст:
• Концептуальные графы
• Понятия на контекстах ( E , A, R)
• Решетки понятий
Матрица контекста:
Понятие:
подмножества X ⊆ E, Y ⊆ A
+
Отображение Галуа:
ϕ : E → A, ψ : A → E
( E , ), ( A, )
x ∈ X , y ∈ Y x ψ (ϕ ( x )), ϕ (ψ ( y ) ) y
13. 8<
Решетки понятий
8c< 8b< 8a <
1. Визуализация
иерархии понятий
2. Мост к онтологиям
8b, c< 8a, c< 8a, b <
8a, b, c<
14. Концептуальный граф:
суть, стандарт, логика
Concepts
Example:
“John is going to Boston by bus”
Conceptual relations
Representations. Conceptual Graph Standard by J. Sowa
1. Conceptual Graph Interchange Form (CGIF)
[City*a:'Boston'] [Bus*b:''] [Person*c:'John'] [Going*d:''] (agent?d?c) (dest?d?a) (instrument?d?b)
2. XML Form
<graph id="35979486054" owner="0"> <type> <label>Proposition</label> </type>
<layout> <rectangle x="0.0" y="0.0" width="1500.0" height="1500.0"/> <color
foreground="0,0,175" background="0,0,175"/> </layout> … </layout> </arrow> </graph>
</conceptualgraph>
Applying Predicate Calculus (∃x : Go)(∃y : Person)(∃z : City )(∃w : Bus )( Name( y, ' John ') ∧
(CGIF + NOTIO) ∧ Name( z , ' Boston ') ∧ Agnt ( x, y ) ∧ Dest ( x, z ) ∧ Inst ( x, w))
17. Грамматические шаблоны как
17
основа генерации КГ
Структура исходного
шаблона Структура модифицированного шаблона
Название шаблона
Название шаблона Тип шаблона
Тип шаблона Морфологические атрибуты
Морфологические атрибуты элементов фразы шаблона
элементов фразы шаблона Элементы фразы шаблона
Элементы фразы шаблона Номер главного слова
Номер главного слова Исключающие
морфологические атрибуты
элементов фразы шаблона
Исключающие элементы
фразы шаблона
Направления поиска
элементов
18. Примеры генерации КГ.
Обработка пассивного залога
18
КГ по предложению «Человек КГ по предложению «Дом построен
построил дом» человеком»
19. Примеры генерации КГ.
Управление направлением обработки фразы
19
Разбор фразы «главный датчик мотора автомобиля»
Без управления направлением С управлением направлением
20. Особенности работы генератора
Статистика успешных генераций
Фраза: “For this class of problems niching
becomes a necessity”.
% успешных КГ
Длина предложения (число элементов)
Проблема изолированных (бездомных)
концептов
21. Исследовательская задача:
Оптимальное управление шаблонами
при генерации концептуальных графов
Предварительный анализ использования оптимизированного
перебора
Полный перебор Оптимизированный
Без перебора морфологических перебор
вариаций вариаций морфологических
предложения вариаций
Число предложений 500 500 500
Число КГ без висячих
79 226 175
концептов
Отношение КГ без
висячих концептов ко 15,8 45,2 35
всем, %
Общее число
10466 10466 10466
элементов
Удельное время
53,336 9638,456 1748,05
построения КГ, мс
22. Классика: кластеризация КГ
Меры близости графов
2n(Gc )
Концептуальная sc =
n(G1 ) + n(G2 )
2m(Gc )
Относительная sr =
mGc (G1 ) + mGc (G2 )
Некоторые модификации мер
⎧ n(G1 )
⎪k n ( G ) , if n(G1 ) ≥ n(G2 ) mGc (G ) = mboth + b1 + b2 + ... + bi
2n(Gc )l ⎪
sc = , l=⎨
2
n(G1 ) + n(G2 ) ⎪ k n(G2 ) , if n(G ) < n(G ) i = 1,..., m − m both
⎪ n(G1 )
⎩
1 2
Унифицированная мера s = d1sc + d 2 sr
23. Кластеризация КГ: вновь проблема
меры
d ( g 2 , g3 )
d ( g1 , g 2 )
d ( g1 , g 3 )
d ( g1 , g 3 ) ≤ d ( g1 , g 2 ) + d ( g 2 , g 3 )
20.6
20
20.4
20.2 10
?
20
-20 0
-10
0 -10
10
-20
Типичная форма поверхности отклика
20
24. Кластеризация КГ:
Семантическая мера близости на основе
отношения «гипоним – гипероним»
sc (c1 , c2 ) = 1 − d c (c1 , c2 ) sc - подобие концептов c1 и c2
d c (c1 , c2 ) - расстояние между концептами c1 и c2
2 ⋅ l (ccp)
S= ccp ближайший общий предок для c1,c2.
l (c1 ) + l (c 2 )
l (ci ) - глубина в иерархии гиперонимов
• Иерархия гиперонимов
• Система понятий
• Мера на отношении
гипоним-гипероним?
WordNet
25. Проблема меры специальные
(генетические) алгоритмы
кластеризации
Особенности решений
30
30
20
20
10
10
0 Пригодность
0
2000
20 20
1800
1600
20 20
1400
0 0
1200
0 1000 0
Число поколений
50 100 150 200 250 300
-20 -20
-20 -20
Начальная популяция
Финальная популяция
26. ГА в задаче кластеризации
Цепочное кодовое представление для КГ:
• реализует неявный параллелизм в работе алгоритма;
• ускоряет сходимость;
• инвариантна относительно меры
Номер объекта,
находящегося в одном
кластере с данным a1 a2 … ai … an
объектом
n objects
28. Некоторые прикладные
28
задачи
Моделирование требований в
CASE-технологиях
Концептуальное
моделирование в системах
технической поддержки
29. Моделирование требований
в CASE-технологиях
репозиторий требования Параметры: риски,
приоритет и т.д.
30. Моделирование требований
в CASE-технологиях
Решение:
Текст КГ Контекст Модель
«сущность-
атрибуты связь»
Характерная
Ассоциированная структура контекста
сущность
сущностей модели
«сущность-связь»
понятие
31. Исследовательская задача:
«Применение КГ для моделирования
контекстов»
Контекст как
подграф в КГ
Контекст в смысле ФПА
32. Концептуальное моделирование в
системах технической поддержки
Доклад А.П. Колосова
"Определение близости текстов с
обучением на основе статистических
данных"
33. Выводы
33
Статистический и структурный
подходы в в методах Text Mining
основаны на принципиально разных
положениях
• Статистический и структурный
подходы могут дополнять друг друга
в решении конкретных задач