SlideShare a Scribd company logo
Применение шаблонов при выделении коллокаций Жильцов Д.И. (МИЭМ)
Что такое шаблон? Под шалоном будем понимать комбинацию состоящую из нулей и единиц длиной k. Где k – длина словосочетания, а 1 в определенной позиции соответствуетслову из словосочетания в той же позиции, по которому будем объединять. Порог шаблона – такое число единиц, при котором шаблон считается валидным. В данной работе пороговое значение равно 50% от k. Коэффициент нормализации шаблона – значение равное количеству нулей. Пример: k = 6; порог = 3; 000111/001011/001101/…
Материал и методика В качестве основного материала использовался неразмеченный корпус текста “РИА Новости”, содержащий более 200000000 словоупотреблений. На этапе морфологического анализа если наблюдалась омонимия, то использовалась первая из предложенных лемм, т.е. неодназначность разбора игнорировалась. MI или t-score? 	За счет того, что t-score является лишь несколько модифицированным ранжированием словосочетаний по частоте(Ягунова 2010), основной мерой была взята MI.
Материал и методика.MI для словосочетаний длиной k n – слово                     - частота словосочетания 	- абсолютная частота слова      в корпусе N – количество словоупотреблений в корпусе
Материал и методика.S-MI для словосочетаний длиной k 	   Алгоритм состоит из следующих этапов: С помощью морфологического анализа приводим все слова к каноническому виду, объединяя их в словосочетания и распределяя по правилам (группам) относительно их словоизменительной парадигмы. Состоявляем шаблоны для длины k с заданным порогом объединения. Для каждого словосочетания из правила вычисляем шаблон. Если количество сочетаний, входящих  в шаблон, больше 3, переходим к 4 пункту, иначе – переходим к следующему словосочетанию или шаблону. Относительно полученного шаблона вычисляемдля каждого словосочетания меру MI и ищем сочетания с максимальной мерой. Назовем его - “главный представитель” шаблона. Вычисляем сумму частот всех словосочетаний и делим ее на коэфициент нормализации. Для главного представителя, предполагая, что не объединенные слова являются синонимами в данном контексте(корпусе), вычисляем меру MI, заменяя при этом собственную частоту на сумму из 5 пункта.
Материал и методика.S-MI для коллокаций длиной k В результате получаем файл(ы) вида:
Результаты.Коллокации без знаков препинания.Длина 3.
Результаты.Коллокации со знаками препинания. Длина 3.
Результаты.Коллокации со знаками препинания. Длина 4.
Что остается за бортом?
В дальнейшем планируется: Найти связь между шаблоном длиною k и словосочетаниями большей и меньшей длины, за счет фиксированной части шаблона. Опробовать алгоритм для словоформ. Произвести не только количественную оценку, но и качественную - абстагироваться от частоты и уделить больше внимания правилам.
Спасибо за внимание!

More Related Content

Viewers also liked

Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008mobileconnect
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. Lidia Pivovarova
 
Twitter User Hype Cycle
Twitter User Hype CycleTwitter User Hype Cycle
Twitter User Hype Cycle
Jon Gatrell
 
Montpellier - Flex UG
Montpellier - Flex UGMontpellier - Flex UG
Montpellier - Flex UG
Michael Chaize
 
Web 2.0 for Financial Institutions
Web 2.0 for Financial InstitutionsWeb 2.0 for Financial Institutions
Web 2.0 for Financial InstitutionsEmprende Futuro
 
Text Pattern Formation For Information Extraction
Text Pattern Formation For Information ExtractionText Pattern Formation For Information Extraction
Text Pattern Formation For Information ExtractionLidia Pivovarova
 
Fm Mc Presentation Ria2008
Fm Mc   Presentation Ria2008Fm Mc   Presentation Ria2008
Fm Mc Presentation Ria2008
Michael Chaize
 
Coaching Movie Ppt Version Sample
Coaching Movie Ppt Version SampleCoaching Movie Ppt Version Sample
Coaching Movie Ppt Version SampleAndrew Schwartz
 
Использование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификацииИспользование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификации
Lidia Pivovarova
 
Martin karlssons vykortssamling st per
Martin karlssons vykortssamling   st perMartin karlssons vykortssamling   st per
Martin karlssons vykortssamling st perhembygdsigtuna
 
Porla Paz
Porla PazPorla Paz
Porla Pazrbartel
 

Viewers also liked (15)

Olympic Games
Olympic GamesOlympic Games
Olympic Games
 
Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008Publicitas Töggeliabend 2008
Publicitas Töggeliabend 2008
 
Nieuwe Marketing En Communicatieconcepten Arnhem 29 november 2007
Nieuwe Marketing En Communicatieconcepten  Arnhem 29 november 2007Nieuwe Marketing En Communicatieconcepten  Arnhem 29 november 2007
Nieuwe Marketing En Communicatieconcepten Arnhem 29 november 2007
 
«Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций. «Зачем», «что» и «как» в исследовании коллокаций.
«Зачем», «что» и «как» в исследовании коллокаций.
 
Twitter User Hype Cycle
Twitter User Hype CycleTwitter User Hype Cycle
Twitter User Hype Cycle
 
INFORED RURAL
INFORED RURALINFORED RURAL
INFORED RURAL
 
Montpellier - Flex UG
Montpellier - Flex UGMontpellier - Flex UG
Montpellier - Flex UG
 
Web 2.0 for Financial Institutions
Web 2.0 for Financial InstitutionsWeb 2.0 for Financial Institutions
Web 2.0 for Financial Institutions
 
Text Pattern Formation For Information Extraction
Text Pattern Formation For Information ExtractionText Pattern Formation For Information Extraction
Text Pattern Formation For Information Extraction
 
Fm Mc Presentation Ria2008
Fm Mc   Presentation Ria2008Fm Mc   Presentation Ria2008
Fm Mc Presentation Ria2008
 
Coaching Movie Ppt Version Sample
Coaching Movie Ppt Version SampleCoaching Movie Ppt Version Sample
Coaching Movie Ppt Version Sample
 
Mentes Famosas
Mentes FamosasMentes Famosas
Mentes Famosas
 
Использование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификацииИспользование Гамма распределения при решении задачи классификации
Использование Гамма распределения при решении задачи классификации
 
Martin karlssons vykortssamling st per
Martin karlssons vykortssamling   st perMartin karlssons vykortssamling   st per
Martin karlssons vykortssamling st per
 
Porla Paz
Porla PazPorla Paz
Porla Paz
 

Similar to применение шаблонов при выделении 2коллокаций

МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
ITMO University
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
Irene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеLidia Pivovarova
 
collocations in search
collocations in searchcollocations in search
collocations in search
NLPseminar
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 

Similar to применение шаблонов при выделении 2коллокаций (12)

МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
МЕТОД НАВИГАЦИИ ПО ТЕКСТУ ДОКУМЕНТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕГО СО...
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
ch6.pdf
ch6.pdfch6.pdf
ch6.pdf
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
clasification
clasificationclasification
clasification
 
Михаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделированиеМихаил Александров, Индуктивное моделирование
Михаил Александров, Индуктивное моделирование
 
collocations in search
collocations in searchcollocations in search
collocations in search
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
Lidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
Lidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
Lidia Pivovarova
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
Lidia Pivovarova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
Lidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
Lidia Pivovarova
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
Lidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
Lidia Pivovarova
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
Lidia Pivovarova
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
Lidia Pivovarova
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
Lidia Pivovarova
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
Lidia Pivovarova
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
Lidia Pivovarova
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
Lidia Pivovarova
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
Lidia Pivovarova
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
Lidia Pivovarova
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
Lidia Pivovarova
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
Lidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

применение шаблонов при выделении 2коллокаций

  • 1. Применение шаблонов при выделении коллокаций Жильцов Д.И. (МИЭМ)
  • 2. Что такое шаблон? Под шалоном будем понимать комбинацию состоящую из нулей и единиц длиной k. Где k – длина словосочетания, а 1 в определенной позиции соответствуетслову из словосочетания в той же позиции, по которому будем объединять. Порог шаблона – такое число единиц, при котором шаблон считается валидным. В данной работе пороговое значение равно 50% от k. Коэффициент нормализации шаблона – значение равное количеству нулей. Пример: k = 6; порог = 3; 000111/001011/001101/…
  • 3. Материал и методика В качестве основного материала использовался неразмеченный корпус текста “РИА Новости”, содержащий более 200000000 словоупотреблений. На этапе морфологического анализа если наблюдалась омонимия, то использовалась первая из предложенных лемм, т.е. неодназначность разбора игнорировалась. MI или t-score? За счет того, что t-score является лишь несколько модифицированным ранжированием словосочетаний по частоте(Ягунова 2010), основной мерой была взята MI.
  • 4. Материал и методика.MI для словосочетаний длиной k n – слово - частота словосочетания - абсолютная частота слова в корпусе N – количество словоупотреблений в корпусе
  • 5. Материал и методика.S-MI для словосочетаний длиной k Алгоритм состоит из следующих этапов: С помощью морфологического анализа приводим все слова к каноническому виду, объединяя их в словосочетания и распределяя по правилам (группам) относительно их словоизменительной парадигмы. Состоявляем шаблоны для длины k с заданным порогом объединения. Для каждого словосочетания из правила вычисляем шаблон. Если количество сочетаний, входящих в шаблон, больше 3, переходим к 4 пункту, иначе – переходим к следующему словосочетанию или шаблону. Относительно полученного шаблона вычисляемдля каждого словосочетания меру MI и ищем сочетания с максимальной мерой. Назовем его - “главный представитель” шаблона. Вычисляем сумму частот всех словосочетаний и делим ее на коэфициент нормализации. Для главного представителя, предполагая, что не объединенные слова являются синонимами в данном контексте(корпусе), вычисляем меру MI, заменяя при этом собственную частоту на сумму из 5 пункта.
  • 6. Материал и методика.S-MI для коллокаций длиной k В результате получаем файл(ы) вида:
  • 11. В дальнейшем планируется: Найти связь между шаблоном длиною k и словосочетаниями большей и меньшей длины, за счет фиксированной части шаблона. Опробовать алгоритм для словоформ. Произвести не только количественную оценку, но и качественную - абстагироваться от частоты и уделить больше внимания правилам.