применение шаблонов при выделении 2коллокаций

Применение шаблонов при выделении коллокаций Жильцов Д.И. (МИЭМ)

Что такое шаблон? Под шалоном будем понимать комбинацию состоящую из нулей и единиц длиной k. Где k – длина словосочетания, а 1 в определенной позиции соответствуетслову из словосочетания в той же позиции, по которому будем объединять. Порог шаблона – такое число единиц, при котором шаблон считается валидным. В данной работе пороговое значение равно 50% от k. Коэффициент нормализации шаблона – значение равное количеству нулей. Пример: k = 6; порог = 3; 000111/001011/001101/…

Материал и методика В качестве основного материала использовался неразмеченный корпус текста “РИА Новости”, содержащий более 200000000 словоупотреблений. На этапе морфологического анализа если наблюдалась омонимия, то использовалась первая из предложенных лемм, т.е. неодназначность разбора игнорировалась. MI или t-score? За счет того, что t-score является лишь несколько модифицированным ранжированием словосочетаний по частоте(Ягунова 2010), основной мерой была взята MI.

Материал и методика.MI для словосочетаний длиной k n – слово - частота словосочетания - абсолютная частота слова в корпусе N – количество словоупотреблений в корпусе

Материал и методика.S-MI для словосочетаний длиной k Алгоритм состоит из следующих этапов: С помощью морфологического анализа приводим все слова к каноническому виду, объединяя их в словосочетания и распределяя по правилам (группам) относительно их словоизменительной парадигмы. Состоявляем шаблоны для длины k с заданным порогом объединения. Для каждого словосочетания из правила вычисляем шаблон. Если количество сочетаний, входящих в шаблон, больше 3, переходим к 4 пункту, иначе – переходим к следующему словосочетанию или шаблону. Относительно полученного шаблона вычисляемдля каждого словосочетания меру MI и ищем сочетания с максимальной мерой. Назовем его - “главный представитель” шаблона. Вычисляем сумму частот всех словосочетаний и делим ее на коэфициент нормализации. Для главного представителя, предполагая, что не объединенные слова являются синонимами в данном контексте(корпусе), вычисляем меру MI, заменяя при этом собственную частоту на сумму из 5 пункта.

Материал и методика.S-MI для коллокаций длиной k В результате получаем файл(ы) вида:

Результаты.Коллокации без знаков препинания.Длина 3.

Результаты.Коллокации со знаками препинания. Длина 3.

Результаты.Коллокации со знаками препинания. Длина 4.

Что остается за бортом?

В дальнейшем планируется: Найти связь между шаблоном длиною k и словосочетаниями большей и меньшей длины, за счет фиксированной части шаблона. Опробовать алгоритм для словоформ. Произвести не только количественную оценку, но и качественную - абстагироваться от частоты и уделить больше внимания правилам.

Спасибо за внимание!

применение шаблонов при выделении 2коллокаций

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

Similar to применение шаблонов при выделении 2коллокаций

Similar to применение шаблонов при выделении 2коллокаций (12)

More from Lidia Pivovarova

More from Lidia Pivovarova (20)

применение шаблонов при выделении 2коллокаций