ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель:  Ефремова Наталья Эрнестовна Дипломная работа
ТЕРМИНЫ И ИХ ВАРИАНТЫ Термины  – слова и словосочетания, называющие понятия предметной области рентгеновское излучение  Употребление терминов в текстах   – >   терминологические варианты излучение, рентгеновские лучи Выявление терминологических вариантов важно учитывать   при построении тезаурусов, онтологий, предметных указателей, классификации текстов
КЛАССИФИКАЦИЯ ВАРИАНТОВ Классификация терминологических вариантов для научно-технических текстов: графические  –  компьютер / Компьютер флективные  –  данные / данных орфографические  –  браузер / броузер морфемные  –  выполнение / исполнение сокращения  –  высшее   учебное   заведение / ВУЗ синонимы  – абсорбция / поглощение лексико-синтаксические  – центральный процессор / процессор , текстовая коллекция / коллекция текстов
ПОСТАНОВКА ЗАДАЧИ Изучить классификацию терминологических вариантов и подходы к их выявлению На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке На их основе реализовать программные средства Провести тестирование разработанных методов
ПОДХОДЫ К ВЫЯВЛЕНИЮ Символьный (статистический) подход Термин и его варианты – символы Вычисляется функция близости для термина и его варианта, для выбора порогового значения используется статистика Не требуется лингвистическая информация и словари Используется для орфографических и флективных вариантов Лингвистический подход Термин и его варианты – словосочетания Анализируется синтаксическая структура словосочетания, применяются правила образования вариантов и эвристики Используется для лексико-синтаксических вариантов Применён для английского и французского языков,  для русского языка не изучен
ПРЕДЛАГАЕМОЕ РЕШЕНИЕ Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов Тип варианта Метод выявления Графические приведение символов к одному регистру Флективные морфологический анализ Орфографические расстояние Левенштейна Морфемные словарь морфемного состава Сокращения эвристики для сокращений по первым буквам Синонимы словарь синонимов Лексико-синтаксические  формальные правила образования вариантов
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ Информация о лексико-синтаксических вариантах формализована в виде  правил их образования   Для формализации выбран  язык  LSPL  и его  библиотека : позволяет описывать конструкции естественного языка в виде  лексико-синтаксических шаблонов предусмотрена возможность обработки информации, полученной в результате наложения  LSPL- шаблона Правило образования – лексико-синтаксический шаблон вида:   A1   N1 # N1, A2   N1, A1   N2 синтаксическая структура термина синтаксическая структура вариантов
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ Основано на автоматической конкретизации шаблона правила A1 N1 <A1=N1> # A1 N2 < S yn(N1,N2),A1=N2> рентгеновские лучи  #   рентгеновское излучение 1 .   Распознавание термина заданной структуры A1   =>   рентгеновские ,  N1   =>   лучи 2. Нормализация слов термина рентгеновские   = >  рентгеновский ,  лучи   =>   луч 3. Построение шаблона возможного варианта A1 < рентгеновский >   N2   < S yn( “ луч ” ,N2),A1=N2> 4. Поиск варианта в тексте по конкретизированному шаблону словарь синонимов согласование термин терминологический вариант
ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ Исходная информация: Список терминов  L 1 Список кандидатов в терминологические варианты   L 2 Алгоритм: 1 . Для каждого  T i   ϵ   L 1   рассматриваем все   V j   ϵ   L 2   2.  Для пары  T i  и  V j   проверяем, являются ли они вариантами, путём применения методов в определённом порядке Результаты работы: Для каждого термина   из  L 1  – список терминологических вариантов из  L 2   Порядок распознавания типа варианта Графический Флективный Синонимы Морфемный Лексико-синтаксический Сокращений Орфографический
ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА Компонент выявления терминологических вариантов Консольные утилиты Компонент выявления терминов шаблоны текст шаблоны словари L 1  и  L 2 L 1  и  L 2 варианты
РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ Для реализации использован язык С++ Библиотеки:  LSPL, AOT, boost, STL Система контроля версий : git Тестирование  на научно-технических текстах из областей физики и информатики объемом   более 500кб Полнота выявления вариантов: 91%  Точность выявления вариантов: 86% Выявлено употреблений терминов без учета терминологических вариантов: 13668 Выявлено употреблений терминов с учетом терминологических вариантов: 25178 Процент прироста употреблений терминов: 84%
РЕЗУЛЬТАТЫ РАБОТЫ Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов Разработаны методы выявления терминологических вариантов в соответствии с классификацией Библиотека   языка  LSPL  расширена для формирования конкретизированных шаблонов Методы выявления реализованы в виде программных средств Тестирование показало состоятельность предложенных методов выявления
Результаты работы были представлены (с публикацией) на: Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010» Международной конференции по компьютерной лингвистике и интеллектуальным технологиям  «Диалог 2010» СПАСИБО ЗА ВНИМАНИЕ!
Расстояние Левенштейна Минимальное количество операций вставки, удаления и замены, необходимых для перевода одной строки в другую = = = = ЗАМ ВСТ М А С С А М А С С О Й = = ЗАМ = = = = Б Р А У З Е Р Б Р О У З Е Р

Программные средства выявления теминологических вариантов в текстах

  • 1.
    ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная работа
  • 2.
    ТЕРМИНЫ И ИХВАРИАНТЫ Термины – слова и словосочетания, называющие понятия предметной области рентгеновское излучение Употребление терминов в текстах – > терминологические варианты излучение, рентгеновские лучи Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов
  • 3.
    КЛАССИФИКАЦИЯ ВАРИАНТОВ Классификациятерминологических вариантов для научно-технических текстов: графические – компьютер / Компьютер флективные – данные / данных орфографические – браузер / броузер морфемные – выполнение / исполнение сокращения – высшее учебное заведение / ВУЗ синонимы – абсорбция / поглощение лексико-синтаксические – центральный процессор / процессор , текстовая коллекция / коллекция текстов
  • 4.
    ПОСТАНОВКА ЗАДАЧИ Изучитьклассификацию терминологических вариантов и подходы к их выявлению На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке На их основе реализовать программные средства Провести тестирование разработанных методов
  • 5.
    ПОДХОДЫ К ВЫЯВЛЕНИЮСимвольный (статистический) подход Термин и его варианты – символы Вычисляется функция близости для термина и его варианта, для выбора порогового значения используется статистика Не требуется лингвистическая информация и словари Используется для орфографических и флективных вариантов Лингвистический подход Термин и его варианты – словосочетания Анализируется синтаксическая структура словосочетания, применяются правила образования вариантов и эвристики Используется для лексико-синтаксических вариантов Применён для английского и французского языков, для русского языка не изучен
  • 6.
    ПРЕДЛАГАЕМОЕ РЕШЕНИЕ Длякаждого типа терминологических вариантов используется свой метод, основанный на одном из подходов Тип варианта Метод выявления Графические приведение символов к одному регистру Флективные морфологический анализ Орфографические расстояние Левенштейна Морфемные словарь морфемного состава Сокращения эвристики для сокращений по первым буквам Синонимы словарь синонимов Лексико-синтаксические формальные правила образования вариантов
  • 7.
    ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯИнформация о лексико-синтаксических вариантах формализована в виде правил их образования Для формализации выбран язык LSPL и его библиотека : позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов предусмотрена возможность обработки информации, полученной в результате наложения LSPL- шаблона Правило образования – лексико-синтаксический шаблон вида: A1 N1 # N1, A2 N1, A1 N2 синтаксическая структура термина синтаксическая структура вариантов
  • 8.
    ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕОсновано на автоматической конкретизации шаблона правила A1 N1 <A1=N1> # A1 N2 < S yn(N1,N2),A1=N2> рентгеновские лучи # рентгеновское излучение 1 . Распознавание термина заданной структуры A1 => рентгеновские , N1 => лучи 2. Нормализация слов термина рентгеновские = > рентгеновский , лучи => луч 3. Построение шаблона возможного варианта A1 < рентгеновский > N2 < S yn( “ луч ” ,N2),A1=N2> 4. Поиск варианта в тексте по конкретизированному шаблону словарь синонимов согласование термин терминологический вариант
  • 9.
    ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯИсходная информация: Список терминов L 1 Список кандидатов в терминологические варианты L 2 Алгоритм: 1 . Для каждого T i ϵ L 1 рассматриваем все V j ϵ L 2 2. Для пары T i и V j проверяем, являются ли они вариантами, путём применения методов в определённом порядке Результаты работы: Для каждого термина из L 1 – список терминологических вариантов из L 2 Порядок распознавания типа варианта Графический Флективный Синонимы Морфемный Лексико-синтаксический Сокращений Орфографический
  • 10.
    ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРАКомпонент выявления терминологических вариантов Консольные утилиты Компонент выявления терминов шаблоны текст шаблоны словари L 1 и L 2 L 1 и L 2 варианты
  • 11.
    РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕМЕТОДОВ Для реализации использован язык С++ Библиотеки: LSPL, AOT, boost, STL Система контроля версий : git Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб Полнота выявления вариантов: 91% Точность выявления вариантов: 86% Выявлено употреблений терминов без учета терминологических вариантов: 13668 Выявлено употреблений терминов с учетом терминологических вариантов: 25178 Процент прироста употреблений терминов: 84%
  • 12.
    РЕЗУЛЬТАТЫ РАБОТЫ Проанализированысовременные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов Разработаны методы выявления терминологических вариантов в соответствии с классификацией Библиотека языка LSPL расширена для формирования конкретизированных шаблонов Методы выявления реализованы в виде программных средств Тестирование показало состоятельность предложенных методов выявления
  • 13.
    Результаты работы былипредставлены (с публикацией) на: Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010» Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010» СПАСИБО ЗА ВНИМАНИЕ!
  • 14.
    Расстояние Левенштейна Минимальноеколичество операций вставки, удаления и замены, необходимых для перевода одной строки в другую = = = = ЗАМ ВСТ М А С С А М А С С О Й = = ЗАМ = = = = Б Р А У З Е Р Б Р О У З Е Р

Editor's Notes

  • #4 NG2 называется флективным вариантом NG1, если NG2 может быть получено из NG1 вследствие согласованного склонения/спряжения слов, входящих в состав NG1; т.е. NG1 и NG2 отличаются друг от друга окончаниями (флексиями) некоторых (или всех) слов. NG2 называется орфографическим вариантом NG1, если NG2 может быть получено из NG1 путем изменения символьного состава одного из его слов, а именно: добавлением либо удалением одного символа ( языковозависимая система – языково - зависимая система ); заменой одного символа на другой ( IP - адрес – IP адрес , бр а узер – бр о узер ). NG2 называется морфовариантом NG1, если NG2 может быть получено из NG1 путем изменения морфемного состав одного из слов NG1; часть речи этого слова не меняется. Возможны следующие случаи: замена в NG1 одного служебного аффикса (приставки, суффикса) на другой ( классифи кация – классифи цирование , вы полнение – ис полнение ); замена одного корня-морфа сложного слова на другой, синонимичный в данном контексте ( спец символ – спец знак ); отбрасывание части сложносоставного слова ( кэш -память – кэш ). NG2 называется лексико-синтаксическим вариантом NG1, если NG2 может быть получено из NG1 в результате изменения лексического состава NG1; при этом возможны: вставка или отбрасывание слова или словосочетания ( восходящий процесс порождения элементов решетки – восходящий процесс ); замена в NG1 одного слова/словосочетания на другое близкое семантически в данной проблемной области и выступающее как его контекстный синоним ( динамичность информационной модели – динамичность информационной структуры ); замена слова на однокоренное другой части речи с одновременным изменением синтаксических связей словосочетания ( текстовая коллекция – коллекция текстов ).
  • #8 лексико-синтаксические шаблоны - шаблоны, позволяющие фиксировать лексический состав и синтаксические связи формализуемых языковых конструкций
  • #9 Добавить левую часть