SlideShare a Scribd company logo
Витвицкий С.В. Автоматическая кластеризация близких по смыслу слов
Основные понятия ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Постановка задачи ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
План своей работы: ,[object Object],[object Object],[object Object]
Синтаксические контексты ,[object Object],[object Object],[object Object]
Синтаксические контексты Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
Синтаксические контексты Пример: ,[object Object],[object Object],[object Object]
Синтаксические контексты Пример: Фильтр по отношениям ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Синтаксические контексты Пример: Взятие нормальных форм слов.  Проблема неоднозначных слов.
Синтаксические контексты ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Синтаксические контексты ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],где  |W,r,w| -  сумма значений  c   по вхождениям  <r,w,W>  или  <r,W,w>
Синтаксические контексты ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ВОЛОГОДСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ЛЕСОПРОМЫШЛЕННИК ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЪЕДИНЕНИЕ ПРИЛ_СУЩ МЯСОКОМБИНАТ ПРИЛ_СУЩ МАШИНА ПРИЛ_СУЩ СКОРЫЙ САРАТОВСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ МЕЧЕТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ДУМА
Синтаксические контексты Пример: ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ СФАЛЬСИФИЦИРОВАТЬ ПОДЛ ОНИ ПРИЛ_СУЩ ВЫБОРЫ ПРЯМ_ДОП РЕЗУЛЬТАТ ПОДЛ ЯНУКОВИЧ ПРИЛ_СУЩ РЕЗУЛЬТАТ ПОДЛ ЦИК ПОДЛ ИТОГ ИЮЛЬ ГЕНИТ_ИГ ГОД ПРИЛ_СУЩ РАНЕНЫЙ ГЕНИТ_ИГ ВЕЩАНИЕ ГЕНИТ_ИГ СЕРЕДИНА ГЕНИТ_ИГ РУБЛЬ ГЕНИТ_ИГ НАЧАЛО ГЕНИТ_ИГ КУЧМА ГЕНИТ_ИГ КОНЕЦ ГЕНИТ_ИГ ЗРИТЕЛЬ
Меры подобия слов
Меры подобия слов Пример:
Меры подобия слов Пример:
Меры подобия слов Пример:
Меры подобия слов: Замечания ,[object Object],[object Object],[object Object],[object Object],[object Object]
Кластеризация похожих слов ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Методология
Кластеризация похожих слов Пример: НАГРАДА 0,28354  ДИПЛОМ ПРИЗ 0,28690  ДИПЛОМ ДИПЛОМ 0,28354  НАГРАДА 0,28690  ПРИЗ
Кластеризация похожих слов Пример: СРЕДНЕСРОЧНЫЙ 0,27854  ИНВЕСТИЦИОННЫЙ ИНВЕСТИЦИОННЫЙ 0,27854  СРЕДНЕСРОЧНЫЙ ПЕРЕДАВАТЬ 0,30000  СООБЩАТЬ СООБЩАТЬ 0,30000  ПЕРЕДАВАТЬ ИСКАЗИТЬ 0,38490  СФАЛЬСИФИЦИРОВАТЬ СФАЛЬСИФИЦИРОВАТЬ 0,38490  ИСКАЗИТЬ
Кластеризация похожих слов Пример:
Кластеризация похожих слов Пример: Поддеревья, полученные из исходного дерева  отсечением по неположительному весу
Кластеризация похожих слов Пример: Полученные кластеры похожих по смыслу слов
Проблемы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обзор существующих решений ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обзор существующих решений Пример: brief (noun):  affidavit 0.13, petition 0.05, memorandum  0.05, motion 0.05, lawsuit 0.05, deposition   0.05, slight 0.05, prospectus 0.04, document   0.04 paper 0.04, ... brief (verb):  tell 0.09, urge 0.07, ask 0.07, meet   0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective):  lengthy 0.13, short 0.12, recent   0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
Обзор существующих решений ,[object Object],[object Object],[object Object],[object Object],вводится коэффициент ,[object Object]
Обзор существующих решений Значение коэффициента подобия между тезаурусом авторов и  WordNet –  0.297, а между  Roget  и  WordNet – 0 Пример: Тезаурус авторов brief (noun):  affidavit  0.13, petition 0.05,   memorandum 0.05, motion 0.05, lawsuit 0.05,   deposition  0.05, slight 0.05, prospectus 0.04,   document 0.04 paper 0.04. WordNet brief (noun):  outline 0.96, instrument 0.84, summary 0.84,  affidavit  0.80,  deposition  0.80, law 0.77, survey 0.74, sketch 0.74,   resume 0.74, argument 0.74. Roget brief (noun):  recital 0.77, saga 0.77, autobiography 0.77,  anecdote 0.77, novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.
Обзор существующих решений ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обзор существующих решений Алгоритм кластеризации  CBC (Clustering By Committee)   ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Обзор существующих решений Полученный ранее список похожих слов для слова  suit  и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim,   business suit,  … ( suit Nq34 0.39 (blouse, slack, legging,   sweater) Nq137 0.20 (lawsuit, allegation, case,   charge) )
Заключение ,[object Object],[object Object],[object Object],[object Object],[object Object]
Литература ,[object Object],[object Object],[object Object],[object Object]

More Related Content

Similar to Автоматическая кластеризация близких по смыслу слов

word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)
Denis Dus
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
Lidia Pivovarova
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
Ilia Karpov
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
Irene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
Евгений Летов
 
Евгений Свердлов
Евгений СвердловЕвгений Свердлов
Евгений СвердловLidia Pivovarova
 
Методы обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системамиМетоды обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системами
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
Vladimir Krylov
 
Интерактивная композициональность
Интерактивная композициональностьИнтерактивная композициональность
Интерактивная композициональностьVitaliy Dolgorukov
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
it-people
 

Similar to Автоматическая кластеризация близких по смыслу слов (20)

word2vec (part 1)
word2vec (part 1)word2vec (part 1)
word2vec (part 1)
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Методы интеграции разнородных онтологий
Методы интеграции разнородных онтологийМетоды интеграции разнородных онтологий
Методы интеграции разнородных онтологий
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
Евгений Свердлов
Евгений СвердловЕвгений Свердлов
Евгений Свердлов
 
Методы обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системамиМетоды обработки длинных запросов поисковыми системами
Методы обработки длинных запросов поисковыми системами
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Интерактивная композициональность
Интерактивная композициональностьИнтерактивная композициональность
Интерактивная композициональность
 
clasification
clasificationclasification
clasification
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
"Делаем тематическое моделирование в 2017" Талипов Руслан, Ridero
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 

Автоматическая кластеризация близких по смыслу слов

  • 1. Витвицкий С.В. Автоматическая кластеризация близких по смыслу слов
  • 2.
  • 3.
  • 4.
  • 5.
  • 6. Синтаксические контексты Пример: Исходный текст обрабатывается синтаксическим анализатором программного средства АОТ
  • 7.
  • 8.
  • 9. Синтаксические контексты Пример: Взятие нормальных форм слов. Проблема неоднозначных слов.
  • 10.
  • 11.
  • 12.
  • 13. Синтаксические контексты Пример: СВЕРДЛОВСКИЙ ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ИСПОЛКОМ ПРИЛ_СУЩ ДЕЛЕГАЦИЯ ПРИЛ_СУЩ БИЗНЕСМЕН ПРИЛ_СУЩ ДУМА ПРИЛ_СУЩ МИЛИЦИОНЕР ПРИЛ_СУЩ КОЛЛЕДЖ ПРИЛ_СУЩ ОТРЯД ПРИЛ_СУЩ МАГИСТРАЛЬ ПРИЛ_СУЩ АГЕНТСТВО ПРИЛ_СУЩ ДОРОГОЙ ПРИЛ_СУЩ ДЕПО ВОЛОГОДСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ЛЕСОПРОМЫШЛЕННИК ПРИЛ_СУЩ ОБЛ ПРИЛ_СУЩ ОБЪЕДИНЕНИЕ ПРИЛ_СУЩ МЯСОКОМБИНАТ ПРИЛ_СУЩ МАШИНА ПРИЛ_СУЩ СКОРЫЙ САРАТОВСКИЙ ПРИЛ_СУЩ ОБЛАСТЬ ПРИЛ_СУЩ МЕЧЕТЬ ПРИЛ_СУЩ ОТДЕЛЕНИЕ ПРИЛ_СУЩ ДУМА
  • 14. Синтаксические контексты Пример: ПРИЗ ГЕНИТ_ИГ ВРУЧЕНИЕ ПРИЛ_СУЩ ГЛАВНЫЙ ПРЯМ_ДОП ПОЛУЧИТЬ ПРИЛ_СУЩ ЦЕННЫЙ ГЕНИТ_ИГ ФОНД ПРИЛ_СУЩ ДЕНЕЖНЫЙ … ПРЯМ_ДОП ЗАВОЕВАТЬ ПОДЛ ДОСТАТЬСЯ ПРЯМ_ДОП ЗАСЛУЖИВАТЬ ПРЯМ_ДОП ОТДАТЬ ПРЯМ_ДОП ВРУЧИТЬ ГЕНИТ_ИГ СОИСКАНИЕ СФАЛЬСИФИЦИРОВАТЬ ПОДЛ ОНИ ПРИЛ_СУЩ ВЫБОРЫ ПРЯМ_ДОП РЕЗУЛЬТАТ ПОДЛ ЯНУКОВИЧ ПРИЛ_СУЩ РЕЗУЛЬТАТ ПОДЛ ЦИК ПОДЛ ИТОГ ИЮЛЬ ГЕНИТ_ИГ ГОД ПРИЛ_СУЩ РАНЕНЫЙ ГЕНИТ_ИГ ВЕЩАНИЕ ГЕНИТ_ИГ СЕРЕДИНА ГЕНИТ_ИГ РУБЛЬ ГЕНИТ_ИГ НАЧАЛО ГЕНИТ_ИГ КУЧМА ГЕНИТ_ИГ КОНЕЦ ГЕНИТ_ИГ ЗРИТЕЛЬ
  • 19.
  • 20.
  • 21. Кластеризация похожих слов Пример: НАГРАДА 0,28354 ДИПЛОМ ПРИЗ 0,28690 ДИПЛОМ ДИПЛОМ 0,28354 НАГРАДА 0,28690 ПРИЗ
  • 22. Кластеризация похожих слов Пример: СРЕДНЕСРОЧНЫЙ 0,27854 ИНВЕСТИЦИОННЫЙ ИНВЕСТИЦИОННЫЙ 0,27854 СРЕДНЕСРОЧНЫЙ ПЕРЕДАВАТЬ 0,30000 СООБЩАТЬ СООБЩАТЬ 0,30000 ПЕРЕДАВАТЬ ИСКАЗИТЬ 0,38490 СФАЛЬСИФИЦИРОВАТЬ СФАЛЬСИФИЦИРОВАТЬ 0,38490 ИСКАЗИТЬ
  • 24. Кластеризация похожих слов Пример: Поддеревья, полученные из исходного дерева отсечением по неположительному весу
  • 25. Кластеризация похожих слов Пример: Полученные кластеры похожих по смыслу слов
  • 26.
  • 27.
  • 28. Обзор существующих решений Пример: brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04, ... brief (verb): tell 0.09, urge 0.07, ask 0.07, meet 0.06, appoint 0.06, elect 0.05, name 0.05, empower 0.05, summon 0.05, overrule 0.04, ... brief (adjective): lengthy 0.13, short 0.12, recent 0.09, prolonged 0.09, long 0.09, extended 0.09, daylong 0.08, scheduled 0.08, stormy 0.07, planned 0.06, ...
  • 29.
  • 30. Обзор существующих решений Значение коэффициента подобия между тезаурусом авторов и WordNet – 0.297, а между Roget и WordNet – 0 Пример: Тезаурус авторов brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion 0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04 paper 0.04. WordNet brief (noun): outline 0.96, instrument 0.84, summary 0.84, affidavit 0.80, deposition 0.80, law 0.77, survey 0.74, sketch 0.74, resume 0.74, argument 0.74. Roget brief (noun): recital 0.77, saga 0.77, autobiography 0.77, anecdote 0.77, novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.
  • 31.
  • 32.
  • 33. Обзор существующих решений Полученный ранее список похожих слов для слова suit и кластеры. Пример: suit : lawsuit, jacket, shirt, pant, dress, case, sweater, coat, trouser, claim, business suit, … ( suit Nq34 0.39 (blouse, slack, legging, sweater) Nq137 0.20 (lawsuit, allegation, case, charge) )
  • 34.
  • 35.