SlideShare a Scribd company logo
1 of 13
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ МГУ Лукашевич Н.В.
Автоматическое составление обзорного реферата ,[object Object],[object Object],[object Object],[object Object],[object Object]
Постановка задачи ,[object Object],[object Object],[object Object],[object Object],[object Object],Тысячи людей в  Мексике, Панаме, Колумбии  с раннего утра занимали очередь в банк, чтобы  как можно быстрее снять  деньги  со своих счетов. Напуганные вкладчики из стран  Латинской Америки  выстаивают громадные очереди, чтобы снять свои  вклады  из банка.
Исходные данные ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Описание метода кластеризации предложений - 1 ,[object Object],[object Object],[object Object]
Описание метода кластеризации предложений - 2 ,[object Object],[object Object],[object Object]
Описание метода кластеризации предложений - 3 ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка кластеризации ,[object Object],[object Object],[object Object],Предложение Ручная кластеризация Автоматическая кластеризация Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов + + Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.
Составление аннотации ,[object Object],[object Object],[object Object],[object Object]
Программная реализация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Описание эксперимента ,[object Object],[object Object],[object Object]
Результаты эксперимента ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],max_dist penalty lambda threshold F measure 5 1 0.8 0.3 0.297 0 0 1 0.3 0.277
Заключение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

More Related Content

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 

Автоматическое составление обзорного реферата на основе кластеризации предложений

Editor's Notes

  1. В данной др акцент сделан на удовлетворение первому требованию по содержанию
  2. Рассмотрим пример, два предложения содержат небольшое количество общих слов, однако зная семантические связи между некоторыми словами, описанными в тезаурусе, можно с большей вероятностью утверждать, что речь в них ведется об одном и том же событии обеспЕчения
  3. Сам набор новостных статей, его Размеченные предложения Результаты морфологического анализа А также были выделены концепты набора статей и даны связи между ними, описанные в тезаурусе
  4. Для описания предлагаемого метода кластеризации необходимо ввести понятие меры близости для пары предложений Также необходимо отметить, что в данной работе исп в пр предл…. В качестве формулы расчета меры близости предлагается формула, указанная на слайде, учитывающая не только схожесть предложений по словам (часто используемую в данной области), но и схожесть по концептам и отношениям между концептами. Вводится параметр лямбда, определяющий относительный вес слов и концептов. Формула для мб по сл и по кон указана внизу. По сути – косинусная мера двух векторов предложений
  5. Что касается меры близости по отношениям концептов, то здесь используется следующая формула, учитывающая пары концептов, имеющих семантичекую связь. Вот в таблице приведены все такие пары для данного примера. Важно отметить, что каждый концепт используется только один раз, то есть лат ам будет использоваться только в паре с Мексикой, но не с другими странами. Также, так как это мера является более слабой, по отношению к мере близости по концептам, то вводится штраф penalty Помимо этого вводится параметр max_dist – длина семантической связи.
  6. После расчета мер близости для каждой пары предложений происходит агломеративная кластеризация набора статей. Алгоритм представлен на слайде Суть заключается в том, что изначально все предложения выделяются в отдельные кластеры, а потом на основе меры близости происходит их объединение в бОльшие кластеры
  7. Далее происходит оценка полученного набора кластеров. Она осуществляется на основе проведенной ручной кластеризации, то есть для каждого набора документов составляется идеальный набор кластеров и проводится попарное сравнение предложений. То есть смотрится, показывают ли резты ручной класт, что предложений находятся в одном кластере и смотрится как отработала автоматическая кластеризация. Далее происходит вычисление F-меры, формула которой приведена на слайде. Она вычисляется на основе точности и полноты, формулы расчета которых также указаны
  8. На основе полученного набора кластеров происходит составление аннотации. Сперва определяются наиболее важные кластеры – это кластеры содержащие наибольшее количество предложений. Далее выделяются центры этих кластеров, по формуле указанной в середине слайда и Определяется порядок выбранных предложений по временным меткам в соответствии с хронологическим принципом
  9. Программная реализация включает в себя 5 основных модулей, взаимодействующих между собой и с БД За основу была взята субд microsoft access, Язык программирования microsoft visual basic
  10. В рамках дипломной работы был проведен эксперимент Было дано… Необходимо было….
  11. Результаты эксперимента показали что F-мера кластеризации, использующей концепты, на 7 % превосходит F-меру кластеризации использующей только слова при точности > 0.7. Такая точность необходима для успешного определения центров кластеров при составлении аннотации. Ниже приведен пример составленной аннотации.
  12. В заключении я хотел бы сказать, что…