Автоматическое составление обзорного реферата на основе кластеризации предложений
1. Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ МГУ Лукашевич Н.В.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Editor's Notes
В данной др акцент сделан на удовлетворение первому требованию по содержанию
Рассмотрим пример, два предложения содержат небольшое количество общих слов, однако зная семантические связи между некоторыми словами, описанными в тезаурусе, можно с большей вероятностью утверждать, что речь в них ведется об одном и том же событии обеспЕчения
Сам набор новостных статей, его Размеченные предложения Результаты морфологического анализа А также были выделены концепты набора статей и даны связи между ними, описанные в тезаурусе
Для описания предлагаемого метода кластеризации необходимо ввести понятие меры близости для пары предложений Также необходимо отметить, что в данной работе исп в пр предл…. В качестве формулы расчета меры близости предлагается формула, указанная на слайде, учитывающая не только схожесть предложений по словам (часто используемую в данной области), но и схожесть по концептам и отношениям между концептами. Вводится параметр лямбда, определяющий относительный вес слов и концептов. Формула для мб по сл и по кон указана внизу. По сути – косинусная мера двух векторов предложений
Что касается меры близости по отношениям концептов, то здесь используется следующая формула, учитывающая пары концептов, имеющих семантичекую связь. Вот в таблице приведены все такие пары для данного примера. Важно отметить, что каждый концепт используется только один раз, то есть лат ам будет использоваться только в паре с Мексикой, но не с другими странами. Также, так как это мера является более слабой, по отношению к мере близости по концептам, то вводится штраф penalty Помимо этого вводится параметр max_dist – длина семантической связи.
После расчета мер близости для каждой пары предложений происходит агломеративная кластеризация набора статей. Алгоритм представлен на слайде Суть заключается в том, что изначально все предложения выделяются в отдельные кластеры, а потом на основе меры близости происходит их объединение в бОльшие кластеры
Далее происходит оценка полученного набора кластеров. Она осуществляется на основе проведенной ручной кластеризации, то есть для каждого набора документов составляется идеальный набор кластеров и проводится попарное сравнение предложений. То есть смотрится, показывают ли резты ручной класт, что предложений находятся в одном кластере и смотрится как отработала автоматическая кластеризация. Далее происходит вычисление F-меры, формула которой приведена на слайде. Она вычисляется на основе точности и полноты, формулы расчета которых также указаны
На основе полученного набора кластеров происходит составление аннотации. Сперва определяются наиболее важные кластеры – это кластеры содержащие наибольшее количество предложений. Далее выделяются центры этих кластеров, по формуле указанной в середине слайда и Определяется порядок выбранных предложений по временным меткам в соответствии с хронологическим принципом
Программная реализация включает в себя 5 основных модулей, взаимодействующих между собой и с БД За основу была взята субд microsoft access, Язык программирования microsoft visual basic
В рамках дипломной работы был проведен эксперимент Было дано… Необходимо было….
Результаты эксперимента показали что F-мера кластеризации, использующей концепты, на 7 % превосходит F-меру кластеризации использующей только слова при точности > 0.7. Такая точность необходима для успешного определения центров кластеров при составлении аннотации. Ниже приведен пример составленной аннотации.