SlideShare a Scribd company logo
1 of 33
Download to read offline
Извлечение терминологических словосочетаний из текстов
Используемые статьи: ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Возникла необходимость выделения терминов из текста: ,[object Object],[object Object],[object Object],[object Object]
Основания для внесения словосочетания в словарь -          высокая частотность -        высокая степень ассоциации  -      синонимичность лексической единице  -   значительная многозначность компонентов ( состояние дел, повестка дня );
( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
Основные методы извлечения двухсловных терминов: ,[object Object],[object Object],[object Object],[object Object]
Морфологические шаблоны-фильтры [ Прил. + Сущ.]  файловая система [Прич. + Сущ.]  вытесняющая многозадачность [Сущ. + Сущ., Род.п.]  менеджер памяти [Сущ. + Сущ., Твор.п.]  управление ресурсами [Сущ. + ‘-’ + Сущ.]  файл-сервер
Данные ,[object Object],[object Object]
Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое  знание 37 мыслительный процесс 38 исходн ое  знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая  логика 46 форма организации 47 един ая  картина 48 краевой процесс 50 методологическ ое  мышление 52 с ия  пора Freq Двусловие
Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное   решение: Использование дополнительного «контрастного» корпуса ( web )
2. (Браславский и др. 2007) Методы ранжирования терминов-кандидатов ,[object Object],[object Object],[object Object],[object Object],[object Object]
coherence ,[object Object],[object Object],где
Данные 11 719 180 048 ФНМ Щедровицкий Г.П.  Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС»,  http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г.  Сетевые операционные системы. СПб., 2005. Пар Слов
Результаты оценки  top -100 ( СОС )
Результаты оценки  top -100 ( ФМН )
Top-15  списков  Freq  и  coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
Результаты оценки  top -100 ( ВОГиС )
Top-15  списков  Freq  и  coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
-Ухудшение на наборах  СОС и ФНМ -Существенное улучшение на наборе  ВОГиС. Причина: -происхождение данных -  Особенности терминологии соответствующих предметных областей. Пример (ФНМ):  точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность  web  как корпуса текстов Разбор результатов
Выводы: ,[object Object],[object Object],[object Object]
3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
Основные методы -C-VALUE -TERMS- - -TERMS++ -TREMS+THES
Метод  Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи  -Пересчет таблиц
TERMS++   -  TERMS  + отсечения имён   и географических названий TERMS+THES   –   TREMS++,  в качестве начальных словарей – термины РуТез
С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a  – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.
Результат для «Длинных» словосочетаний
Постановка задачи ,[object Object],[object Object],[object Object],[object Object],[object Object]
Постановка задачи-2 ,[object Object],[object Object],[object Object],[object Object]
Пример ,[object Object],[object Object],[object Object],[object Object],[object Object]
 
 
Это Последний Слайд

More Related Content

Viewers also liked

How-to speech (Omar Akileh)
How-to speech (Omar Akileh)How-to speech (Omar Akileh)
How-to speech (Omar Akileh)OmzZz
 

Viewers also liked (9)

Методы автоматической классификации
Методы автоматической классификацииМетоды автоматической классификации
Методы автоматической классификации
 
How-to speech (Omar Akileh)
How-to speech (Omar Akileh)How-to speech (Omar Akileh)
How-to speech (Omar Akileh)
 
Datr - язык представления лингвистической информации
Datr - язык представления лингвистической информацииDatr - язык представления лингвистической информации
Datr - язык представления лингвистической информации
 
Автоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластераАвтоматическое обновление аннотации новостного кластера
Автоматическое обновление аннотации новостного кластера
 
Синтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблицСинтез функциональных программ при помощи метода дедуктивных таблиц
Синтез функциональных программ при помощи метода дедуктивных таблиц
 
Алгоритмы решения Судоку
Алгоритмы решения СудокуАлгоритмы решения Судоку
Алгоритмы решения Судоку
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
Анализ игры "Судоку"
Анализ игры "Судоку"Анализ игры "Судоку"
Анализ игры "Судоку"
 

Similar to Извлечение терминологических словосочетаний из текстов

Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим ЛитвиновLidia Pivovarova
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯITMO University
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation systemDmitry Kan
 
Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Alexander Panchenko
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациямLidia Pivovarova
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингSergey Yurkov
 

Similar to Извлечение терминологических словосочетаний из текстов (20)

RussNet
RussNetRussNet
RussNet
 
Максим Литвинов
Максим ЛитвиновМаксим Литвинов
Максим Литвинов
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015Semantic evaluation on Dialog 2015
Semantic evaluation on Dialog 2015
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
ПРОБЛЕМЫ ПОПОЛНЕНИЯ СЕМАНТИЧЕСКОГО СЛОВАРЯ
 
Semantic feature machine translation system
Semantic feature machine translation systemSemantic feature machine translation system
Semantic feature machine translation system
 
Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...Вычислительная лексическая семантика: метрики семантической близости и их при...
Вычислительная лексическая семантика: метрики семантической близости и их при...
 
Поиск информации в Интернете
Поиск информации в ИнтернетеПоиск информации в Интернете
Поиск информации в Интернете
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Текстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтингТекстовое ранжирование и тз на копирайтинг
Текстовое ранжирование и тз на копирайтинг
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Извлечение терминологических словосочетаний из текстов

  • 2.
  • 3.
  • 4. Основания для внесения словосочетания в словарь -         высокая частотность -     высокая степень ассоциации -    синонимичность лексической единице - значительная многозначность компонентов ( состояние дел, повестка дня );
  • 5. ( Браславский и др., 2006) 1.Исходная информация: 1)Статистика встречаемости пар и отдельных слов в тексте 2)некоторые предположения о структуре двусловных терминов
  • 6.
  • 7. Морфологические шаблоны-фильтры [ Прил. + Сущ.] файловая система [Прич. + Сущ.] вытесняющая многозадачность [Сущ. + Сущ., Род.п.] менеджер памяти [Сущ. + Сущ., Твор.п.] управление ресурсами [Сущ. + ‘-’ + Сущ.] файл-сервер
  • 8.
  • 9. Примеры извлеченных терминов. Первые 30 (Щедровицкий) 54 сложный процесс 56 онтологическая картина 59 научное исследование 64 целый ряд 67 методологическая работа 67 всякий случай 72 научный предмет 73 математическое отношение 74 картина мира 78 научное мышление 81 суть дела 85 одна сторона 89 знаковая форма 227 точка зрения 254 процесс мышления Freq Двусловие 35 меньшая мера 36 научн ое знание 37 мыслительный процесс 38 исходн ое знание 39 теория познания 40 исходный материал 41 теория мышления 42 эмпирический материал 44 процесс соотнесения 46 формальн ая логика 46 форма организации 47 един ая картина 48 краевой процесс 50 методологическ ое мышление 52 с ия пора Freq Двусловие
  • 10. Результаты: Результаты экспертной оценки, «Сетевые операционные системы» Результаты экспертной оценки, «Философия. Методология. Наука»
  • 11. Проблема: -Устойчивые словосочетания общей лексики («суть дела») Предложенное решение: Использование дополнительного «контрастного» корпуса ( web )
  • 12.
  • 13.
  • 14. Данные 11 719 180 048 ФНМ Щедровицкий Г.П. Философия. Наука. Методология. М, 1989. 30 245 256 255 ВОГиС «Информационный вестник ВОГиС», http :// www . bionet . nsc .ru/ vogis СОС ID 9 391 99 337 Олифер Н.А., Олифер В.Г. Сетевые операционные системы. СПб., 2005. Пар Слов
  • 15. Результаты оценки top -100 ( СОС )
  • 16. Результаты оценки top -100 ( ФМН )
  • 17. Top-15 списков Freq и coherence ( ФНМ ) онтологическая картина сложный процесс методологическое мышление научное исследование тип мышления онтологическая картина особый род решение задачи организм деятельности целый ряд краевое знание краевой процесс типы знания методологическая работа подобные треугольники научный предмет познавательное действие математическое отношение процесс соотнесения картина мира предмет изучения научное мышление краевой процесс суть дела числовое значение знаковая форма исходное знание точка зрения словесно-алгебраическое выражение процесс мышления coherence Freq
  • 18. Результаты оценки top -100 ( ВОГиС )
  • 19. Top-15 списков Freq и coherence ( ВОГиС ) дифференциация популяций боковая петля частоты аллелей число повторов поток генов микросателлитный локус фосфодиэфирная связь подавление экспрессии генетическая дифференциация популяция человека генное разнообразие окружающая среда искусственная рибонуклеаза точка зрения химические рибонуклеазы этническая группа микросателлитная изменчивость стволовая клетка одноцепочечный участок фосфодиэфирная связь специфичность расщепления генетическое разнообразие микросателлитный локус наследственная болезнь подразделенная популяция естественный отбор случайный инбридинг настоящее время индекс Кроу экспрессия генов coherence Freq
  • 20. -Ухудшение на наборах СОС и ФНМ -Существенное улучшение на наборе ВОГиС. Причина: -происхождение данных - Особенности терминологии соответствующих предметных областей. Пример (ФНМ): точка зрения, решение задачи, постановка вопроса, новая проблема. -несбалансированность web как корпуса текстов Разбор результатов
  • 21.
  • 22. 3. (Добров и др., 2003) Терминологические словосочетания произвольной длинны
  • 23. Основные методы -C-VALUE -TERMS- - -TERMS++ -TREMS+THES
  • 24. Метод Terms-- Идея: в тексте слова термина встречаются рядом чаще, чем в разбивку -Склейка пары слов , если они часто появляются как непосредственные соседи -Пересчет таблиц
  • 25. TERMS++ - TERMS + отсечения имён и географических названий TERMS+THES – TREMS++, в качестве начальных словарей – термины РуТез
  • 26. С- Value a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, T a – множество словосочетаний, которые содержат a, P(T a ) – количество словосочетаний, содержащих a.
  • 27. Результат для «Длинных» словосочетаний
  • 28.
  • 29.
  • 30.
  • 31.  
  • 32.