SlideShare a Scribd company logo
1 of 46
Кластеризация документов Лидия Михайловна Пивоварова Системы понимания текста
Введение ,[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка качества кластеризации ,[object Object],[object Object],[object Object],[object Object]
Матрица несоответствий ,[object Object],8 0 0 c 0 2 2 b 0 2 2 a C B A К Л А С Т Е Р Ы КЛАССЫ
Метрики заимствованные из информационного поиска ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],tn fn Ненайденные fp tp Найденные Нерелевантные Релевантные
Применительно к кластеризации ,[object Object],[object Object],[object Object]
Чистота ,[object Object],[object Object],[object Object]
Энтропия ,[object Object],[object Object]
Взаимная информация ,[object Object],[object Object],n Класс n h n h,l   Кластер n l
Стабильность ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Векторная модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Предобработка  ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Иерархическая кластеризация ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
«Разделяющая» кластеризация ,[object Object],[object Object],[object Object],[object Object]
Недостатки  kmeans ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Генеративные алгоритмы ,[object Object],[object Object]
Гауссова модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Гауссова модель ,[object Object],P(d|  θ ) -  вероятность того, что документ  d  принадлежит кластеру  θ , m –  размерность пространства,  μ  – центроид,  Σ  – матрица ковариации.  Общая вероятность (правдоподобие того, что данный документ описывается моделью): Задача кластеризации: максимизировать это число, максимизировав каждое из слагаемых (т.е. найдя наилучшее среднее и матрицу ковариации для каждого кластера).
Expectation maximization  ( EM -алгоритм) ,[object Object],[object Object],[object Object],[object Object]
EM -алгоритм ,[object Object],[object Object],[object Object],[object Object]
Модель фон Мисес-Фишера ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge ,[object Object],[object Object],[object Object],[object Object]
Алгоритм  divide & merge
Нечеткая совместная корреляция ,[object Object],[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Снижение размерности ,[object Object],[object Object]
Метод главных компонентов ( PCA) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Метод главных компонентов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Неотрицательная факторизация  (NMF) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object]
Мягкая спектральная кластеризация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Lingo ,[object Object],[object Object],[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Модели с учетом порядка слов ,[object Object],[object Object],[object Object]
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],dog chased cat ,  dog chased mailman
Кластеризация на основе суффиксных деревьев ,[object Object],[object Object],[object Object],[object Object],[object Object]
Граф документа ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Заключение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Источники ,[object Object]

More Related Content

What's hot

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Anamezon
 
20111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture0820111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture08Computer Science Club
 
Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Unguryan Vitaliy
 
Рефлексия в java
Рефлексия в javaРефлексия в java
Рефлексия в javaUnguryan Vitaliy
 
Java. Полиморфизм.
Java. Полиморфизм.Java. Полиморфизм.
Java. Полиморфизм.Unguryan Vitaliy
 
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...ЗПШ СПбГУ
 

What's hot (9)

Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
Ю.В.Андреев, А.С.Дмитриев, Д.А.Куминов "Хаотические процессоры"
 
20111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture0820111202 machine learning_nikolenko_lecture08
20111202 machine learning_nikolenko_lecture08
 
Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.Java. Вложенные классы и интерфейсы.
Java. Вложенные классы и интерфейсы.
 
Рефлексия в java
Рефлексия в javaРефлексия в java
Рефлексия в java
 
Рассуждения на основе прецедентов
Рассуждения на основе прецедентовРассуждения на основе прецедентов
Рассуждения на основе прецедентов
 
Разрешение лексической неоднозначности
Разрешение лексической неоднозначностиРазрешение лексической неоднозначности
Разрешение лексической неоднозначности
 
Java. Полиморфизм.
Java. Полиморфизм.Java. Полиморфизм.
Java. Полиморфизм.
 
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
И.А.Горбунов, В.М.Коваль, Л.Л.Першин "Изучение зависимости семантического про...
 
Программные системы для латентно-семантического анализа
Программные системы для латентно-семантического анализаПрограммные системы для латентно-семантического анализа
Программные системы для латентно-семантического анализа
 

Viewers also liked

Viewers also liked (20)

עיר הטילים בצפון סוריה
עיר הטילים בצפון סוריהעיר הטילים בצפון סוריה
עיר הטילים בצפון סוריה
 
Pecha Kucha Slideshow
Pecha Kucha SlideshowPecha Kucha Slideshow
Pecha Kucha Slideshow
 
Autopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google ChromeAutopagerize on Firefox and Google Chrome
Autopagerize on Firefox and Google Chrome
 
M1. sem web & ontology introd
M1. sem web & ontology introdM1. sem web & ontology introd
M1. sem web & ontology introd
 
PLC-Word Choice
PLC-Word ChoicePLC-Word Choice
PLC-Word Choice
 
1
11
1
 
書く技術
書く技術書く技術
書く技術
 
Social everything werkplein enschede
Social everything werkplein enschedeSocial everything werkplein enschede
Social everything werkplein enschede
 
Aapt 2008
Aapt 2008Aapt 2008
Aapt 2008
 
Challenging employeesmodernsamplefinal
Challenging employeesmodernsamplefinalChallenging employeesmodernsamplefinal
Challenging employeesmodernsamplefinal
 
Polovinka Lm Prezentaciya Vchitelya
Polovinka Lm Prezentaciya VchitelyaPolovinka Lm Prezentaciya Vchitelya
Polovinka Lm Prezentaciya Vchitelya
 
Norway PowerPoint Content
Norway PowerPoint Content Norway PowerPoint Content
Norway PowerPoint Content
 
Olympic Games
Olympic GamesOlympic Games
Olympic Games
 
Knowledge management: Inspire Part 2
Knowledge management: Inspire Part 2Knowledge management: Inspire Part 2
Knowledge management: Inspire Part 2
 
De Ale Ingerilor
De Ale IngerilorDe Ale Ingerilor
De Ale Ingerilor
 
Do s2015 08
Do s2015 08Do s2015 08
Do s2015 08
 
La5 Programming
La5 ProgrammingLa5 Programming
La5 Programming
 
Cand...
Cand...Cand...
Cand...
 
孩子的心
孩子的心孩子的心
孩子的心
 
Vidadedecasado 1 2 3 4
Vidadedecasado 1 2 3 4Vidadedecasado 1 2 3 4
Vidadedecasado 1 2 3 4
 

Similar to 03 кластеризация документов

Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализVladimir Burdaev
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»ScienceHunter1
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииWitology
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваTechnosphere1
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиYandex
 
Лекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследованиеЛекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследованиеmetaform
 
Типы данных
Типы данныхТипы данных
Типы данныхMonsterXX
 
основы ооп
основы оопосновы ооп
основы оопDmitry Savin
 
Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Sergey Nemchinsky
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksAlignedResearch
 
Классификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахСергей Пономарев
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахСергей Пономарев
 

Similar to 03 кластеризация документов (20)

Karkas интеллектуальный анализ
Karkas интеллектуальный анализKarkas интеллектуальный анализ
Karkas интеллектуальный анализ
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»Практический курс «Основы Data Mining для всех»
Практический курс «Основы Data Mining для всех»
 
Geo sib 2012
Geo sib 2012Geo sib 2012
Geo sib 2012
 
Алгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обученииАлгоритмы классификации в машинном обучении
Алгоритмы классификации в машинном обучении
 
Razinkov
RazinkovRazinkov
Razinkov
 
Razinkov
RazinkovRazinkov
Razinkov
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
 
Лекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследованиеЛекция 6_принципы ООП : инкапсуляция, наследование
Лекция 6_принципы ООП : инкапсуляция, наследование
 
Типы данных
Типы данныхТипы данных
Типы данных
 
основы ооп
основы оопосновы ооп
основы ооп
 
Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Методы автоматической классификации
Методы автоматической классификацииМетоды автоматической классификации
Методы автоматической классификации
 
Ga_intro
Ga_introGa_intro
Ga_intro
 
лекция 2.docx
лекция 2.docxлекция 2.docx
лекция 2.docx
 
Классификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языкахКлассификация текстовых документов на естественных языках
Классификация текстовых документов на естественных языках
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

03 кластеризация документов