SlideShare a Scribd company logo
1 of 28
Автоматическая классификация текстов с использованием латентно-семантического анализа Соловьев Алексей Auditech Ltd. ;   СПбГУ
Алгоритмы классификации ,[object Object],[object Object]
Критерии оценки алгоритмов  ,[object Object],[object Object],[object Object],[object Object],[object Object]
Постановка задачи  ,[object Object],[object Object],[object Object]
Обзор существующих методов и алгоритмов ,[object Object],[object Object],[object Object],[object Object],[object Object]
Латентно-семантический анализ  ,[object Object],[object Object],[object Object],[object Object]
SVD  разложение матрицы ,[object Object],[object Object],[object Object]
SVD  разложение матрицы Рисунок 1.  SVD  разложение матрицы А размерности ( T X D ) на матрицу термов  U  размерности ( T X k ), матрицу документов  V  размерности ( k X D ) и диагональную матрицу  S  размерности ( k X k ), где  k  – количество сингулярных значении диагональной матрицы  S .
SVD  разложение матрицы ,[object Object],[object Object],[object Object]
Три основных разновидности решения задачи методом ЛСА: ,[object Object],[object Object],[object Object]
Два варианта применения латентно-семантического анализа ,[object Object],[object Object],[object Object],[object Object],[object Object]
Исследование ЛСА на материале базы спонтанной русской речи ,[object Object],[object Object],[object Object],[object Object],[object Object]
Материал для тестирования  ,[object Object],[object Object],[object Object]
Сегментация текста на термы ,[object Object],[object Object],[object Object],[object Object]
Расчет весовых функций ,[object Object],[object Object]
Определение тематик документов ,[object Object]
Сравнительная таблица пересечения основных факторов ,[object Object],100 9 9 30+ 89 8 10 50 78 7 8 30 56 5 6 20 Пересечение с текстом 30+ (%)  Кол-во факторов, совпавших с 30+  Приблизительное кол-во факторов  Кол-во документов
Выбор порога для сингулярных элементов диагональной матрицы при  SVD  анализе ,[object Object]
Выбор порога для сингулярных элементов диагональной матрицы при  SVD  анализе ,[object Object]
Выбор критерия ограничения величины весовых функций при получении ассоциативного словаря ,[object Object]
Результаты тестирования на речевой базе русской речи  ,[object Object],77,6  ½  80,2  ¼  82,2  90,8  88,1  полная база  ½ (%)  ¾ (%)  полная база (%)  Тест обучение
SVD  анализ   ,[object Object],[object Object],[object Object]
Выводы ,[object Object],[object Object],[object Object]
Изменение главных факторов при уменьшении числа сингулярных диагональных элементов матрицы
Изменение главных факторов при уменьшении числа сингулярных диагональных элементов матрицы
Области применения ЛСА ,[object Object],[object Object],[object Object],[object Object],[object Object]
СПАСИБО ЗА ВНИМАНИЕ!
Некоторые Интернет-ресурсы, посвященные ЛСА ,[object Object],[object Object],[object Object],[object Object]

More Related Content

What's hot

What's hot (7)

Rule b platf
Rule b platfRule b platf
Rule b platf
 
Zyabrev -
Zyabrev - Zyabrev -
Zyabrev -
 
л 2 7
л 2 7л 2 7
л 2 7
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
C++ осень 2012 лекция 4
C++ осень 2012 лекция 4C++ осень 2012 лекция 4
C++ осень 2012 лекция 4
 

Similar to clasification

isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdfGrishan1
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
Базы данных лекция №5
Базы данных лекция №5Базы данных лекция №5
Базы данных лекция №5Vitaliy Pak
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ITMO University
 
3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимацииVladimir Burdaev
 
Data base
Data baseData base
Data basesng
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
008
008008
008JIuc
 
базы данных.назаров
базы данных.назаровбазы данных.назаров
базы данных.назаровDifferent_56
 

Similar to clasification (20)

isp_23_2012_215.pdf
isp_23_2012_215.pdfisp_23_2012_215.pdf
isp_23_2012_215.pdf
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
Базы данных лекция №5
Базы данных лекция №5Базы данных лекция №5
Базы данных лекция №5
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
 
3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации3 бурдаеввп 2014_pax_grid_без_анимации
3 бурдаеввп 2014_pax_grid_без_анимации
 
L24
L24L24
L24
 
Slovar pr. metodol
Slovar pr. metodolSlovar pr. metodol
Slovar pr. metodol
 
L26
L26L26
L26
 
Data base
Data baseData base
Data base
 
Авиком
АвикомАвиком
Авиком
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
008
008008
008
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
базы данных.назаров
базы данных.назаровбазы данных.назаров
базы данных.назаров
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
 
клышинский
клышинскийклышинский
клышинскийNLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловскаяNLPseminar
 
потапов
потаповпотапов
потаповNLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)NLPseminar
 
белканова
белкановабелканова
белкановаNLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикинNLPseminar
 
веселов
веселоввеселов
веселовNLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 

clasification