SlideShare a Scribd company logo
1 of 33
Download to read offline
1
             Тульский государственный университет

             Факультет кибернетики
    Лаборатория информационных систем



            М.Ю. Богатырев



Статистический и структурный
     подходы в методах
         Text Mining
Термин «Text Mining»
2




    Российское определение: «Анализ и
       понимание текста»


    Западная трактовка: «Извлечение
       знаний из текстов на естественном
       языке»
«Извлечение знаний из текстов на естественном языке»

Knowledge Discovery                                  Natural Language Processing
                                   Global Problems

                                                               Analysis of:
• text categorization,                    Problems             • syntax
• text clustering,                                             • grammar
• concept/entity extraction,                                   • morphology
• sentiment analysis,                                          • semantics
• document summarization

                                                        •annotation
                                                        •abstraction
• clusters,
                                                        • ontologies
• trends,
                               Processing objects       •semantic roles
• associations,
                                                        •Objects of tagging
• deviations



Knowledge Models:
• rules;
• ontologies
                                   Metadata
                                                           Corpora:
                                                           • large and structured text
                                      Data:                • tagging
                                     Plain text
Латентно-семантический анализ
термы: слова в тексте   Контекст: фрагмент текста (до и после терма)
документы: наборы слов
факторы (тематики): знания

Матрица употребляемости: A = [ai , j ] i = 1, 2,..., n, j = 1, 2,..., m
ai, j − частота встречаемости i - го терма в j - м документе

Сингулярное разложение:        A → AV = UW → A = UWV*
W = diag[ W1 , W2 , ..., Wk ], di ∈ Wi − сингулярные числа
18 0 17
                                   Пример применения ЛСА:
      9 15 0
                8U, W, V < = N@SingularValueDecomposition @A DD;
     10 12 4           полное разложение матрицы «термы-документы»
A=
      1 1 1
                       0 – отсутствие связи «терм-документ»
 5    1 1 1
      0.741683  0.650589   −0.153723 0.043077 0.0339823
      0.445864 −0.656529   −0.50769 0.263248   0.20767
U=     0.49468  −0.381462  0.589523 −0.402052 −0.317168
      0.056587 −0.00977619 0.430745     0.    0.900645
      0.056587 −0.00977619 0.430745 0.875899 −0.209671
               29.6839    0.     0.
                  0.   17.4086   0.                −сингулярные
        W=        0.      0.   0.89782
                                                   числа
                  0.      0.      0.                          3 шт.
                  0.      0.     0.



                       0.755393 0.113029 −0.64545
                V* =   0.429097 −0.829765 0.356882
                       0.495234 0.546547 0.675299
Пример применения ЛСА:
        усеченное разложение матрицы «термы-документы»
6   8U, W, V < = N@SingularValueDecomposition @A, 2DD;
         0.741683  0.650589
                                              J                   N
U=       0.445864 −0.656529                       29.6839   0.
          0.49468  −0.381462       W=                0.   17.4086
         0.056587 −0.00977619             2 шт.!
         0.056587 −0.00977619               0.755393 0.113029
                                   V* =     0.429097 −0.829765
                                            0.495234 0.546547


     U.W.Transpose @V D;
    Восстановленная матрица «термы-документы» :
                                        Наличие связи «терм-документ»


                      17.9109 0.0492552 17.0932
                      8.70579 15.1627 0.307811
               A=     10.3416 11.8111   3.64257
                      1.24962 0.861982 0.73884
                      1.24962 0.861982 0.73884
Главные особенности
7
                   ЛСА
    На основе разложения матрицы
    «терм-документ» получаем
    латентные связи между
    документами.
    Восстановление матрицы «терм
    – документ» по усеченному
    набору сингулярных значений
    выявляет латентные связи
    «терм-документ»
Тексты и пространства
Пространство: множество+структура.
                                Структура: способ организации
                                        объектов множества
Метрическое:
Объекты. Пара (M, d)
M - множество        d – метрика на M,                d ∈R
Свойства.
               d ( x, y ) ≥ 0
∀x, y, z ∈ M   d ( x, y ) = 0 → x = y
               d ( x, y ) = d ( y , x )
d (x, z) ≤ d (x, y) + d (y, z)
(неравенство треугольника).
Принадлежат ли объекты-тексты метрическому
                             пространству ?



                                    d : TF − IDF
                 T2
                               T3
      T1                                 мера?

                  ?
      d (T1 , T3 ) ≤ d (T1 , T2 ) + d (T2 , T3 )
Ограничения ЛСА
10




     Проблема меры
     Текст: набор несвязанных слов
Формальный анализ понятий:
                  от слов к понятиям
11




     Основные объекты:
       Контексты
       Понятия
       Решетки понятий


     Концептуальный граф - главная семантическая
                           модель предложения
Формальный анализ понятий

     Концептуальные структуры:
                                                   Контекст:
    • Концептуальные графы
    • Понятия на контекстах                        ( E , A, R)
    • Решетки понятий

          Матрица контекста:
  Понятие:
подмножества    X ⊆ E, Y ⊆ A
         +
Отображение Галуа:
                 ϕ : E → A, ψ : A → E
                     ( E , ), ( A,   )
                 x ∈ X , y ∈ Y x ψ (ϕ ( x )), ϕ (ψ ( y ) )   y
8<

                                 Решетки понятий


 8c<       8b<        8a <



                               1. Визуализация
                                  иерархии понятий
                               2. Мост к онтологиям
8b, c<    8a, c<     8a, b <




         8a, b, c<
Концептуальный граф:
                                        суть, стандарт, логика
                                                                     Concepts
Example:
“John is going to Boston by bus”




                                                                                  Conceptual relations


   Representations. Conceptual Graph Standard by J. Sowa
1. Conceptual Graph Interchange Form (CGIF)
  [City*a:'Boston'] [Bus*b:''] [Person*c:'John'] [Going*d:''] (agent?d?c) (dest?d?a) (instrument?d?b)

2. XML Form
   <graph id="35979486054" owner="0"> <type> <label>Proposition</label> </type>
      <layout> <rectangle x="0.0" y="0.0" width="1500.0" height="1500.0"/> <color
foreground="0,0,175" background="0,0,175"/> </layout> … </layout> </arrow> </graph>
                                 </conceptualgraph>



Applying Predicate Calculus        (∃x : Go)(∃y : Person)(∃z : City )(∃w : Bus )( Name( y, ' John ') ∧
     (CGIF + NOTIO)                ∧ Name( z , ' Boston ') ∧ Agnt ( x, y ) ∧ Dest ( x, z ) ∧ Inst ( x, w))
Направления исследований:


Автоматическое построение КГ
по тексту
Применение КГ как семантико-
логической модели в
прикладных задачах
Система –генератор
     концептуальных графов
16
Грамматические шаблоны как
17
             основа генерации КГ
     Структура исходного
          шаблона        Структура модифицированного шаблона
                                   Название шаблона
       Название шаблона            Тип шаблона
       Тип шаблона                 Морфологические атрибуты
       Морфологические атрибуты    элементов фразы шаблона
       элементов фразы шаблона     Элементы фразы шаблона
       Элементы фразы шаблона      Номер главного слова
       Номер главного слова        Исключающие
                                   морфологические атрибуты
                                   элементов фразы шаблона
                                    Исключающие элементы
                                   фразы шаблона
                                   Направления поиска
                                   элементов
Примеры генерации КГ.
                       Обработка пассивного залога
18




     КГ по предложению «Человек   КГ по предложению «Дом построен
             построил дом»                   человеком»
Примеры генерации КГ.
     Управление направлением обработки фразы
19



        Разбор фразы «главный датчик мотора автомобиля»

     Без управления направлением   С управлением направлением
Особенности работы генератора

                Статистика успешных генераций
                                                       Фраза: “For this class of problems niching
                                                                becomes a necessity”.
% успешных КГ




                 Длина предложения (число элементов)


                                                 Проблема изолированных (бездомных)
                                                                          концептов
Исследовательская задача:
                                     Оптимальное управление шаблонами
                                   при генерации концептуальных графов

Предварительный анализ использования оптимизированного
перебора
                                        Полный перебор    Оптимизированный
                       Без перебора     морфологических       перебор
                        вариаций           вариаций       морфологических
                                         предложения          вариаций
Число предложений          500               500                500
Число КГ без висячих
                           79                226                175
     концептов
 Отношение КГ без
висячих концептов ко       15,8              45,2                35
      всем, %
   Общее число
                          10466              10466             10466
     элементов
  Удельное время
                          53,336           9638,456           1748,05
 построения КГ, мс
Классика: кластеризация КГ

      Меры близости графов

                                       2n(Gc )
  Концептуальная             sc =
                                    n(G1 ) + n(G2 )
                                       2m(Gc )
  Относительная           sr =
                                 mGc (G1 ) + mGc (G2 )


      Некоторые модификации мер

                           ⎧ n(G1 )
                           ⎪k n ( G ) , if n(G1 ) ≥ n(G2 )   mGc (G ) = mboth + b1 + b2 + ... + bi
       2n(Gc )l            ⎪
sc =                 ,   l=⎨
                                   2

     n(G1 ) + n(G2 )       ⎪ k n(G2 ) , if n(G ) < n(G )      i = 1,..., m − m both
                           ⎪ n(G1 )
                           ⎩
                                              1        2




                                       Унифицированная мера                      s = d1sc + d 2 sr
Кластеризация КГ: вновь проблема
                                         меры

                                            d ( g 2 , g3 )
d ( g1 , g 2 )




                                  d ( g1 , g 3 )



d ( g1 , g 3 ) ≤ d ( g1 , g 2 ) + d ( g 2 , g 3 )
                                                             20.6
                                                                                                                  20
                                                             20.4

                                                              20.2                                           10




                 ?
                                                                    20
                                                                -20                                      0

                                                                         -10

                                                                               0                   -10


                                                                                   10

                                                                                             -20

                                 Типичная форма поверхности отклика
                                                                                        20
Кластеризация КГ:
                                 Семантическая мера близости на основе

                                         отношения «гипоним – гипероним»
 sc (c1 , c2 ) = 1 − d c (c1 , c2 )      sc       - подобие концептов c1 и c2
                                        d c (c1 , c2 ) - расстояние между концептами c1 и c2
      2 ⋅ l (ccp)
S=                               ccp ближайший общий предок для c1,c2.
   l (c1 ) + l (c 2 )
                             l (ci )    - глубина в иерархии гиперонимов



                                                     • Иерархия гиперонимов
                                                     • Система понятий
                                                     • Мера на отношении
                                                       гипоним-гипероним?
                                      WordNet
Проблема меры       специальные
                  (генетические) алгоритмы
                             кластеризации
                                Особенности решений



                                                                                                                                    30
                                  30
                                                                                                                                   20
                                 20
                                 10
                                                                                                                                   10
                                0     Пригодность
                                                                                                                                  0
                                       2000
                           20                                                                                                20
                                      1800

                                      1600
20                                                                                    20
                                      1400
                       0                                                                                                 0
                                      1200
      0                               1000                                                           0
                                                                                   Число поколений
                                                50   100   150   200   250   300
                 -20                                                                                               -20
          -20                                                                                              -20


     Начальная популяция

                                                                                                         Финальная популяция
ГА в задаче кластеризации



Цепочное кодовое представление для КГ:

• реализует неявный параллелизм в работе алгоритма;

• ускоряет сходимость;

• инвариантна относительно меры


              Номер объекта,
           находящегося в одном
             кластере с данным             a1   a2     …     ai   …   an
                 объектом

                                                      n objects
Визуализация процесса и результатов
Дендрограммы
                     кластеризации

                   Карты кластеризации
Некоторые прикладные
28
                    задачи
     Моделирование требований в
     CASE-технологиях

     Концептуальное
     моделирование в системах
     технической поддержки
Моделирование требований
                        в CASE-технологиях

репозиторий   требования    Параметры: риски,
                             приоритет и т.д.
Моделирование требований
                              в CASE-технологиях

                         Решение:

    Текст          КГ          Контекст           Модель
                                                «сущность-
                            атрибуты              связь»


                                          Характерная
Ассоциированная                           структура контекста
        сущность
                                          сущностей модели
                                          «сущность-связь»

                             понятие
Исследовательская задача:
     «Применение КГ для моделирования
                           контекстов»
Контекст как
подграф в КГ
                     Контекст в смысле ФПА
Концептуальное моделирование в
системах технической поддержки



Доклад А.П. Колосова

"Определение близости текстов с
обучением на основе статистических
данных"
Выводы
33




         Статистический и структурный
         подходы в в методах Text Mining
         основаны на принципиально разных
         положениях
     •   Статистический и структурный
         подходы могут дополнять друг друга
         в решении конкретных задач

More Related Content

What's hot

Итерационные методы решения СЛАУ
Итерационные методы решения СЛАУИтерационные методы решения СЛАУ
Итерационные методы решения СЛАУ
Theoretical mechanics department
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементов
Theoretical mechanics department
 

What's hot (20)

Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Методы решения нелинейных уравнений
Методы решения нелинейных уравненийМетоды решения нелинейных уравнений
Методы решения нелинейных уравнений
 
Определенные интегралы
Определенные интегралыОпределенные интегралы
Определенные интегралы
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 
Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014Data Mining - lecture 7 - 2014
Data Mining - lecture 7 - 2014
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Итерационные методы решения СЛАУ
Итерационные методы решения СЛАУИтерационные методы решения СЛАУ
Итерационные методы решения СЛАУ
 
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
Решение систем линейных уравнений: трехдиагональные, симметричные и положител...
 
Решение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементовРешение краевых задач методом конечных элементов
Решение краевых задач методом конечных элементов
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
К.В. Воронцов "Методы частичного обучения"
К.В. Воронцов "Методы частичного обучения"К.В. Воронцов "Методы частичного обучения"
К.В. Воронцов "Методы частичного обучения"
 
Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"Презентация "О распознавании образов в искусственном интеллекте"
Презентация "О распознавании образов в искусственном интеллекте"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 

Similar to Lsa fca spb

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Yandex
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
AIST
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
Technopark
 
0. основы r
0. основы r0. основы r
0. основы r
msuteam
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logic
KVPw
 
435.элементы теории множеств и математической логики теория и задачи
435.элементы теории множеств и математической логики теория и задачи435.элементы теории множеств и математической логики теория и задачи
435.элементы теории множеств и математической логики теория и задачи
ivanov15548
 
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
Nikolay Grebenshikov
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
AINL Conferences
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»
seik0ixtem
 

Similar to Lsa fca spb (20)

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдераАндрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
 
Методы машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частицМетоды машинного обучения в физике элементарных частиц
Методы машинного обучения в физике элементарных частиц
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
 
Программные системы для латентно-семантического анализа
Программные системы для латентно-семантического анализаПрограммные системы для латентно-семантического анализа
Программные системы для латентно-семантического анализа
 
Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
 
0. основы r
0. основы r0. основы r
0. основы r
 
основы Java для_any_logic
основы Java для_any_logicосновы Java для_any_logic
основы Java для_any_logic
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
435.элементы теории множеств и математической логики теория и задачи
435.элементы теории множеств и математической логики теория и задачи435.элементы теории множеств и математической логики теория и задачи
435.элементы теории множеств и математической логики теория и задачи
 
Советский суперкомпьютер К-340А и секретные вычисления
Советский суперкомпьютер К-340А и секретные вычисленияСоветский суперкомпьютер К-340А и секретные вычисления
Советский суперкомпьютер К-340А и секретные вычисления
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
Лекция №15. Методы программирования. Предмет "Структуры и алгоритмы обработки...
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Обработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявленийОбработка коллекций. Единая суть и множество проявлений
Обработка коллекций. Единая суть и множество проявлений
 
ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3ITMO RecSys course. Autumn 2014. Lecture 3
ITMO RecSys course. Autumn 2014. Lecture 3
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»
 
Python и его тормоза
Python и его тормозаPython и его тормоза
Python и его тормоза
 
Ts navigator v211111
Ts navigator v211111Ts navigator v211111
Ts navigator v211111
 

More from NLPseminar

конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
NLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
NLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 

Lsa fca spb

  • 1. 1 Тульский государственный университет Факультет кибернетики Лаборатория информационных систем М.Ю. Богатырев Статистический и структурный подходы в методах Text Mining
  • 2. Термин «Text Mining» 2 Российское определение: «Анализ и понимание текста» Западная трактовка: «Извлечение знаний из текстов на естественном языке»
  • 3. «Извлечение знаний из текстов на естественном языке» Knowledge Discovery Natural Language Processing Global Problems Analysis of: • text categorization, Problems • syntax • text clustering, • grammar • concept/entity extraction, • morphology • sentiment analysis, • semantics • document summarization •annotation •abstraction • clusters, • ontologies • trends, Processing objects •semantic roles • associations, •Objects of tagging • deviations Knowledge Models: • rules; • ontologies Metadata Corpora: • large and structured text Data: • tagging Plain text
  • 4. Латентно-семантический анализ термы: слова в тексте Контекст: фрагмент текста (до и после терма) документы: наборы слов факторы (тематики): знания Матрица употребляемости: A = [ai , j ] i = 1, 2,..., n, j = 1, 2,..., m ai, j − частота встречаемости i - го терма в j - м документе Сингулярное разложение: A → AV = UW → A = UWV* W = diag[ W1 , W2 , ..., Wk ], di ∈ Wi − сингулярные числа
  • 5. 18 0 17 Пример применения ЛСА: 9 15 0 8U, W, V < = N@SingularValueDecomposition @A DD; 10 12 4 полное разложение матрицы «термы-документы» A= 1 1 1 0 – отсутствие связи «терм-документ» 5 1 1 1 0.741683 0.650589 −0.153723 0.043077 0.0339823 0.445864 −0.656529 −0.50769 0.263248 0.20767 U= 0.49468 −0.381462 0.589523 −0.402052 −0.317168 0.056587 −0.00977619 0.430745 0. 0.900645 0.056587 −0.00977619 0.430745 0.875899 −0.209671 29.6839 0. 0. 0. 17.4086 0. −сингулярные W= 0. 0. 0.89782 числа 0. 0. 0. 3 шт. 0. 0. 0. 0.755393 0.113029 −0.64545 V* = 0.429097 −0.829765 0.356882 0.495234 0.546547 0.675299
  • 6. Пример применения ЛСА: усеченное разложение матрицы «термы-документы» 6 8U, W, V < = N@SingularValueDecomposition @A, 2DD; 0.741683 0.650589 J N U= 0.445864 −0.656529 29.6839 0. 0.49468 −0.381462 W= 0. 17.4086 0.056587 −0.00977619 2 шт.! 0.056587 −0.00977619 0.755393 0.113029 V* = 0.429097 −0.829765 0.495234 0.546547 U.W.Transpose @V D; Восстановленная матрица «термы-документы» : Наличие связи «терм-документ» 17.9109 0.0492552 17.0932 8.70579 15.1627 0.307811 A= 10.3416 11.8111 3.64257 1.24962 0.861982 0.73884 1.24962 0.861982 0.73884
  • 7. Главные особенности 7 ЛСА На основе разложения матрицы «терм-документ» получаем латентные связи между документами. Восстановление матрицы «терм – документ» по усеченному набору сингулярных значений выявляет латентные связи «терм-документ»
  • 8. Тексты и пространства Пространство: множество+структура. Структура: способ организации объектов множества Метрическое: Объекты. Пара (M, d) M - множество d – метрика на M, d ∈R Свойства. d ( x, y ) ≥ 0 ∀x, y, z ∈ M d ( x, y ) = 0 → x = y d ( x, y ) = d ( y , x ) d (x, z) ≤ d (x, y) + d (y, z) (неравенство треугольника).
  • 9. Принадлежат ли объекты-тексты метрическому пространству ? d : TF − IDF T2 T3 T1 мера? ? d (T1 , T3 ) ≤ d (T1 , T2 ) + d (T2 , T3 )
  • 10. Ограничения ЛСА 10 Проблема меры Текст: набор несвязанных слов
  • 11. Формальный анализ понятий: от слов к понятиям 11 Основные объекты: Контексты Понятия Решетки понятий Концептуальный граф - главная семантическая модель предложения
  • 12. Формальный анализ понятий Концептуальные структуры: Контекст: • Концептуальные графы • Понятия на контекстах ( E , A, R) • Решетки понятий Матрица контекста: Понятие: подмножества X ⊆ E, Y ⊆ A + Отображение Галуа: ϕ : E → A, ψ : A → E ( E , ), ( A, ) x ∈ X , y ∈ Y x ψ (ϕ ( x )), ϕ (ψ ( y ) ) y
  • 13. 8< Решетки понятий 8c< 8b< 8a < 1. Визуализация иерархии понятий 2. Мост к онтологиям 8b, c< 8a, c< 8a, b < 8a, b, c<
  • 14. Концептуальный граф: суть, стандарт, логика Concepts Example: “John is going to Boston by bus” Conceptual relations Representations. Conceptual Graph Standard by J. Sowa 1. Conceptual Graph Interchange Form (CGIF) [City*a:'Boston'] [Bus*b:''] [Person*c:'John'] [Going*d:''] (agent?d?c) (dest?d?a) (instrument?d?b) 2. XML Form <graph id="35979486054" owner="0"> <type> <label>Proposition</label> </type> <layout> <rectangle x="0.0" y="0.0" width="1500.0" height="1500.0"/> <color foreground="0,0,175" background="0,0,175"/> </layout> … </layout> </arrow> </graph> </conceptualgraph> Applying Predicate Calculus (∃x : Go)(∃y : Person)(∃z : City )(∃w : Bus )( Name( y, ' John ') ∧ (CGIF + NOTIO) ∧ Name( z , ' Boston ') ∧ Agnt ( x, y ) ∧ Dest ( x, z ) ∧ Inst ( x, w))
  • 15. Направления исследований: Автоматическое построение КГ по тексту Применение КГ как семантико- логической модели в прикладных задачах
  • 16. Система –генератор концептуальных графов 16
  • 17. Грамматические шаблоны как 17 основа генерации КГ Структура исходного шаблона Структура модифицированного шаблона Название шаблона Название шаблона Тип шаблона Тип шаблона Морфологические атрибуты Морфологические атрибуты элементов фразы шаблона элементов фразы шаблона Элементы фразы шаблона Элементы фразы шаблона Номер главного слова Номер главного слова Исключающие морфологические атрибуты элементов фразы шаблона Исключающие элементы фразы шаблона Направления поиска элементов
  • 18. Примеры генерации КГ. Обработка пассивного залога 18 КГ по предложению «Человек КГ по предложению «Дом построен построил дом» человеком»
  • 19. Примеры генерации КГ. Управление направлением обработки фразы 19 Разбор фразы «главный датчик мотора автомобиля» Без управления направлением С управлением направлением
  • 20. Особенности работы генератора Статистика успешных генераций Фраза: “For this class of problems niching becomes a necessity”. % успешных КГ Длина предложения (число элементов) Проблема изолированных (бездомных) концептов
  • 21. Исследовательская задача: Оптимальное управление шаблонами при генерации концептуальных графов Предварительный анализ использования оптимизированного перебора Полный перебор Оптимизированный Без перебора морфологических перебор вариаций вариаций морфологических предложения вариаций Число предложений 500 500 500 Число КГ без висячих 79 226 175 концептов Отношение КГ без висячих концептов ко 15,8 45,2 35 всем, % Общее число 10466 10466 10466 элементов Удельное время 53,336 9638,456 1748,05 построения КГ, мс
  • 22. Классика: кластеризация КГ Меры близости графов 2n(Gc ) Концептуальная sc = n(G1 ) + n(G2 ) 2m(Gc ) Относительная sr = mGc (G1 ) + mGc (G2 ) Некоторые модификации мер ⎧ n(G1 ) ⎪k n ( G ) , if n(G1 ) ≥ n(G2 ) mGc (G ) = mboth + b1 + b2 + ... + bi 2n(Gc )l ⎪ sc = , l=⎨ 2 n(G1 ) + n(G2 ) ⎪ k n(G2 ) , if n(G ) < n(G ) i = 1,..., m − m both ⎪ n(G1 ) ⎩ 1 2 Унифицированная мера s = d1sc + d 2 sr
  • 23. Кластеризация КГ: вновь проблема меры d ( g 2 , g3 ) d ( g1 , g 2 ) d ( g1 , g 3 ) d ( g1 , g 3 ) ≤ d ( g1 , g 2 ) + d ( g 2 , g 3 ) 20.6 20 20.4 20.2 10 ? 20 -20 0 -10 0 -10 10 -20 Типичная форма поверхности отклика 20
  • 24. Кластеризация КГ: Семантическая мера близости на основе отношения «гипоним – гипероним» sc (c1 , c2 ) = 1 − d c (c1 , c2 ) sc - подобие концептов c1 и c2 d c (c1 , c2 ) - расстояние между концептами c1 и c2 2 ⋅ l (ccp) S= ccp ближайший общий предок для c1,c2. l (c1 ) + l (c 2 ) l (ci ) - глубина в иерархии гиперонимов • Иерархия гиперонимов • Система понятий • Мера на отношении гипоним-гипероним? WordNet
  • 25. Проблема меры специальные (генетические) алгоритмы кластеризации Особенности решений 30 30 20 20 10 10 0 Пригодность 0 2000 20 20 1800 1600 20 20 1400 0 0 1200 0 1000 0 Число поколений 50 100 150 200 250 300 -20 -20 -20 -20 Начальная популяция Финальная популяция
  • 26. ГА в задаче кластеризации Цепочное кодовое представление для КГ: • реализует неявный параллелизм в работе алгоритма; • ускоряет сходимость; • инвариантна относительно меры Номер объекта, находящегося в одном кластере с данным a1 a2 … ai … an объектом n objects
  • 27. Визуализация процесса и результатов Дендрограммы кластеризации Карты кластеризации
  • 28. Некоторые прикладные 28 задачи Моделирование требований в CASE-технологиях Концептуальное моделирование в системах технической поддержки
  • 29. Моделирование требований в CASE-технологиях репозиторий требования Параметры: риски, приоритет и т.д.
  • 30. Моделирование требований в CASE-технологиях Решение: Текст КГ Контекст Модель «сущность- атрибуты связь» Характерная Ассоциированная структура контекста сущность сущностей модели «сущность-связь» понятие
  • 31. Исследовательская задача: «Применение КГ для моделирования контекстов» Контекст как подграф в КГ Контекст в смысле ФПА
  • 32. Концептуальное моделирование в системах технической поддержки Доклад А.П. Колосова "Определение близости текстов с обучением на основе статистических данных"
  • 33. Выводы 33 Статистический и структурный подходы в в методах Text Mining основаны на принципиально разных положениях • Статистический и структурный подходы могут дополнять друг друга в решении конкретных задач