SlideShare a Scribd company logo
1 of 12
Download to read offline
Использование поисковых машин и
  ресурсов Интернет для отбора
  терминов предметной области

                                                Выполнил:
                            Бондаренко Игорь Владимирович

                                       Научный руководитель:
                    к.ф.-м.н.,с.н.с. НИВЦ МГУ Лукашевич Н.В.




     ВМиК, кафедра Алгоритмических Языков, 2009 год
Отбор терминов предметной
                области
• Термин – слово (или сочетание слов), являющееся
  точным обозначением определенного понятия
  какой-либо специальной области науки, техники,
  искусства, общественной жизни и т.п.
  (Лингвистический словарь)
• Потребность в выделении терминов :
-   в библиотечном деле
-   в обработке документов
-   в информационном поиске
-   для автоматического формирования тезаурусов

• На практике при автоматическом извлечении
  терминов используются разные признаки
  (статистические, лингвистические)
                                                  2
Задача работы
•   Создать программную систему, которая :
    -   Автоматически получает сниппеты поисковой машины
    -   Обрабатывает сниппеты для получения значений
        характеристик словосочетания
    -   На основе полученных значений характеристик
        переупорядочивает список словосочетаний по мере их
        терминологичности

•   Оценить качество работы программной системы

    Сниппет - это краткий фрагмент документа, отображаемый
    поисковой машиной в выдаче результатов поиска

    МАГНИТНЫЕ ПОЛЯ ЧЕЛОВЕКА. Кроме того, при наложении внешнего
    магнитного поля проявляются неоднородности восприимчивости
    различных органов, искажающие наложенное внешнее. Магнитное
    поле в двух последних случаях не сопровождается появлением
                                                                  3
    электрического...
Предметная область и исходные
            данные
• Исследование проводится на базе терминологии
  в области математических и естественных наук
  (математика, физика, химия, геология)
• Произведена обработка специальными
  процедурами автоматического извлечения
  терминоподобных словосочетаний
• Исходные данные: список извлеченных
  словосочетаний (именных групп), упорядоченный
  по частотности
 - программа образования : 8817
 - решение задачи : 4867
 - магнитное поле : 4590
 - случайная величина : 3944
 - международная соросовская программа : 2204
 -…
                                                4
Получение и обработка сниппетов




  управление
  данные
                                  5
Характеристики словосочетаний -1
            Использовалась информация о частотности
             словосочетаний в коллекции

• Freq               Частотность словосочетания в коллекции



• С-Value            C-Value=
                             {    log2|a|*Freq(a)
                                  log2|a|*Freq(a) -
                                                    , если не вложено
                                                      1
                                                         * ∑ Freq(b)
                                                    P(Ta) b∈Ta
                     Tа – множество словосочетаний, которые содержат a,
                     P(Tа) – количество словосочетаний, содержащих a.


• TF*IDF                        Freq(a)* ln[ (N - Da) / Da]
                     N – количество документов в 1/12 базе Яндекс
                     Da – число документов базы, содержащих более редкое
                     слово словосочетания


• Freq/Freqmore                 min (1, Freq/max Freq(Та) )
                                             Та                     6
Характеристики словосочетаний -2
  Использовалась выдача поисковой машины (сниппеты)
• nWords            Общее количество слов в сниппетах


• maxbool

                  Наибольшее количество совпадающих слов


• nMarkers        Количество   маркеров    определений    в
                  сниппетах (это, являться, определение…)


• nColloc         Количество     словосочетаний      запроса    в
                  сниппетах
             Кроме того, при наложении внешнего магнитного поля
             проявляются неоднородности восприимчивости различных
             органов, искажающие наложенное внешнее. Магнитное
             поле в двух последних случаях не сопровождается
                                                              7
             появлением ...
Принципы оценки качества
        сортировки алгоритма
• Для многих словосочетаний имеется ручная
  оценка, является ли данное словосочетание
  термином – сопоставление с Онтологией по
  естественным наукам и технологиям (ОЕНТ)
• Оценка качества термина – сумма синонимов и
  отношений соответствующего концепта
• Мера оценки для упорядоченных списков – Mean
  Average Precision (MAP) – среднее значение
  точности для всех значений полноты

 - : 1 : программа образования
 +: 2 : магнитное поле
                                 МАР=(1/2+2/3)/2=0.583
 +: 3 : земная кора

                                                         8
Оценка значений МАР для отдельных
           характеристик

  Характеристика    МАР       возрастание/   зависит от выдачи
                                 убывание

  Freq             0.624212      возр.            НЕТ

  C-Value          0.627686      возр.            НЕТ

  TF*IDF           0.672341      возр.            НЕТ

  Freq/Freqmore    0.531458      убыв.            НЕТ

  nWords           0.691461      возр.            ДА

  maxbool          0.690145      возр.            ДА

  nMarkets         0.690805      возр.            ДА

  nColloc          0.759548      возр.            ДА




  всего 19 характеристик
                                                                 9
Методы комбинирования характеристик-1
                           Метод перебора
               i      i
Имеется : (c1,…,c19) значений характеристик для              ∀
                                                    словосочетания
Требуется: найти (х1,…,х19): сортировка списка по убыванию
  <c,x> дает наибольшую точность (MAP)
      F(x) ; R 19 ->R ; F(x) >0; F(c0*x)=F(x), c0>0

1.max F(0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ai,x,..,x,aj,x,..,x)
    i,j          i       j                    i        j
ai∈{-1,1} aj∈[-5;5]
2.max F(0,..,0,ak,0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ak,x,..,x,ai,x,..,x,aj,x,.,x)
  k ∉ {i,j}     k        i         j                    k         i        j
 ak∈[-5;5]
                  Методы                        МАР
            Перебор, 19 хар.                  0.794155
            Перебор, 4 хар.                   0.687054
                                                                              10
            nColloc                           0.759545
Методы комбинирования характеристик-2
             Использование программы Weka
Зависимая переменная : терминологичность словосочетания, {yes, no}
Выдача:   ((<c,x>) > c0 ) => (term = yes)
                          Методы                  МАР
              Бинарная      Логистическая      0.793953
                 Регрессия
Зависимая переменная : качество термина , Z+
Выдача: term_qual=<c,x>

                          Методы                  МАР
               Линейная Регрессия              0.745476
               Медиан-Медианная Регрессия
                                               0.783717
               Метод Опорных Векторов
                                               0.783726

                       Методы                     МАР
               Перебора, 19 хар.               0.794155
                                                            11
               nColloc                         0.759545
Заключение
• Создана программная система, упорядочивающая
  список словосочетаний по мере их терминологичности
  на основе выдачи поисковой машины
• Было использовано 19 характеристик употребления
  словосочетаний

• Для оптимального комбинирования весов
  характеристик было использовано 3 метода (перебора,
  автоматической классификации, регрессии)
• Показано улучшение сортировки списка
  словосочетаний:
  -   на 15.6% по сравнению с оптимальной комбинацией
      характеристик, не зависящих от выдачи
  -   на 4.6% по сравнению с наилучшей характеристикой
                                                         12

More Related Content

What's hot

Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиVictor Kulikov
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видеоVictor Kulikov
 
Основы языка Питон: типы данных, операторы
Основы языка Питон: типы данных, операторыОсновы языка Питон: типы данных, операторы
Основы языка Питон: типы данных, операторыTheoretical mechanics department
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Andrii Gakhov
 
Анализ парапетров кодеков
Анализ парапетров кодековАнализ парапетров кодеков
Анализ парапетров кодековMSU GML VideoGroup
 
Detecting logged in user's abnormal activity
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activityArvids Godjuks
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...Иван Иванов
 
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...Nikolay Grebenshikov
 

What's hot (11)

Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработки
 
Алгоритмы поиска
Алгоритмы поискаАлгоритмы поиска
Алгоритмы поиска
 
L05 features
L05 featuresL05 features
L05 features
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видео
 
Основы языка Питон: типы данных, операторы
Основы языка Питон: типы данных, операторыОсновы языка Питон: типы данных, операторы
Основы языка Питон: типы данных, операторы
 
Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014Data Mining - lecture 3 - 2014
Data Mining - lecture 3 - 2014
 
Анализ парапетров кодеков
Анализ парапетров кодековАнализ парапетров кодеков
Анализ парапетров кодеков
 
Python: Модули и пакеты
Python: Модули и пакетыPython: Модули и пакеты
Python: Модули и пакеты
 
Detecting logged in user's abnormal activity
Detecting logged in user's abnormal activityDetecting logged in user's abnormal activity
Detecting logged in user's abnormal activity
 
лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...лабораторные занятия по численным методам интерполирование и приближение функ...
лабораторные занятия по численным методам интерполирование и приближение функ...
 
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...
Лекция №3. Свойства и моделирование стандартных схем программ. Предмет "Теори...
 

Similar to Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 
Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerИван Иванов
 
Back to the future: Функциональное программирование вчера и сегодня
Back to the future: Функциональное программирование вчера и сегодняBack to the future: Функциональное программирование вчера и сегодня
Back to the future: Функциональное программирование вчера и сегодняAlexander Granin
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...yaevents
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Bitworks Software
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsIosif Itkin
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Andrii Gakhov
 
Лекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовЛекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовMikhail Kurnosov
 
2014 Разработка программного средства для оценки параметров широкополосного с...
2014 Разработка программного средства для оценки параметров широкополосного с...2014 Разработка программного средства для оценки параметров широкополосного с...
2014 Разработка программного средства для оценки параметров широкополосного с...RF-Lab
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмAleximos
 
Predzazhita 2009 v16
Predzazhita 2009 v16Predzazhita 2009 v16
Predzazhita 2009 v16guest1ba51d
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...JSC “Arcadia Inc”
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров????? ????????
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1Noobie312
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 

Similar to Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области (20)

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
NeuroCS
NeuroCSNeuroCS
NeuroCS
 
Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017Современные средства NLP в поисковых задач - Стачка 2017
Современные средства NLP в поисковых задач - Стачка 2017
 
программа синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film managerпрограмма синтеза и анализа интерференционных покрытий Film manager
программа синтеза и анализа интерференционных покрытий Film manager
 
Back to the future: Функциональное программирование вчера и сегодня
Back to the future: Функциональное программирование вчера и сегодняBack to the future: Функциональное программирование вчера и сегодня
Back to the future: Функциональное программирование вчера и сегодня
 
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
Модели в профессиональной инженерии и тестировании программ. Александр Петрен...
 
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
Введение в машинное обучение. Кластеризация (Bitworks Software, Кирилл Жданов)
 
A System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate ProgramsA System of Deductive Verification of Predicate Programs
A System of Deductive Verification of Predicate Programs
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 
Лекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмовЛекция 1. Анализ эффективности алгоритмов
Лекция 1. Анализ эффективности алгоритмов
 
2014 Разработка программного средства для оценки параметров широкополосного с...
2014 Разработка программного средства для оценки параметров широкополосного с...2014 Разработка программного средства для оценки параметров широкополосного с...
2014 Разработка программного средства для оценки параметров широкополосного с...
 
лекция 35
лекция 35лекция 35
лекция 35
 
Подобедов: Абстрактный Детерминизм
Подобедов: Абстрактный ДетерминизмПодобедов: Абстрактный Детерминизм
Подобедов: Абстрактный Детерминизм
 
Predzazhita 2009 v16
Predzazhita 2009 v16Predzazhita 2009 v16
Predzazhita 2009 v16
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Начало работы в R
Начало работы в RНачало работы в R
Начало работы в R
 
2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров2014-2015_Алгор-структ_Раб-прогр_Мансуров
2014-2015_Алгор-структ_Раб-прогр_Мансуров
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области

  • 1. Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области Выполнил: Бондаренко Игорь Владимирович Научный руководитель: к.ф.-м.н.,с.н.с. НИВЦ МГУ Лукашевич Н.В. ВМиК, кафедра Алгоритмических Языков, 2009 год
  • 2. Отбор терминов предметной области • Термин – слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. (Лингвистический словарь) • Потребность в выделении терминов : - в библиотечном деле - в обработке документов - в информационном поиске - для автоматического формирования тезаурусов • На практике при автоматическом извлечении терминов используются разные признаки (статистические, лингвистические) 2
  • 3. Задача работы • Создать программную систему, которая : - Автоматически получает сниппеты поисковой машины - Обрабатывает сниппеты для получения значений характеристик словосочетания - На основе полученных значений характеристик переупорядочивает список словосочетаний по мере их терминологичности • Оценить качество работы программной системы Сниппет - это краткий фрагмент документа, отображаемый поисковой машиной в выдаче результатов поиска МАГНИТНЫЕ ПОЛЯ ЧЕЛОВЕКА. Кроме того, при наложении внешнего магнитного поля проявляются неоднородности восприимчивости различных органов, искажающие наложенное внешнее. Магнитное поле в двух последних случаях не сопровождается появлением 3 электрического...
  • 4. Предметная область и исходные данные • Исследование проводится на базе терминологии в области математических и естественных наук (математика, физика, химия, геология) • Произведена обработка специальными процедурами автоматического извлечения терминоподобных словосочетаний • Исходные данные: список извлеченных словосочетаний (именных групп), упорядоченный по частотности - программа образования : 8817 - решение задачи : 4867 - магнитное поле : 4590 - случайная величина : 3944 - международная соросовская программа : 2204 -… 4
  • 5. Получение и обработка сниппетов управление данные 5
  • 6. Характеристики словосочетаний -1 Использовалась информация о частотности словосочетаний в коллекции • Freq Частотность словосочетания в коллекции • С-Value C-Value= { log2|a|*Freq(a) log2|a|*Freq(a) - , если не вложено 1 * ∑ Freq(b) P(Ta) b∈Ta Tа – множество словосочетаний, которые содержат a, P(Tа) – количество словосочетаний, содержащих a. • TF*IDF Freq(a)* ln[ (N - Da) / Da] N – количество документов в 1/12 базе Яндекс Da – число документов базы, содержащих более редкое слово словосочетания • Freq/Freqmore min (1, Freq/max Freq(Та) ) Та 6
  • 7. Характеристики словосочетаний -2 Использовалась выдача поисковой машины (сниппеты) • nWords Общее количество слов в сниппетах • maxbool Наибольшее количество совпадающих слов • nMarkers Количество маркеров определений в сниппетах (это, являться, определение…) • nColloc Количество словосочетаний запроса в сниппетах Кроме того, при наложении внешнего магнитного поля проявляются неоднородности восприимчивости различных органов, искажающие наложенное внешнее. Магнитное поле в двух последних случаях не сопровождается 7 появлением ...
  • 8. Принципы оценки качества сортировки алгоритма • Для многих словосочетаний имеется ручная оценка, является ли данное словосочетание термином – сопоставление с Онтологией по естественным наукам и технологиям (ОЕНТ) • Оценка качества термина – сумма синонимов и отношений соответствующего концепта • Мера оценки для упорядоченных списков – Mean Average Precision (MAP) – среднее значение точности для всех значений полноты - : 1 : программа образования +: 2 : магнитное поле МАР=(1/2+2/3)/2=0.583 +: 3 : земная кора 8
  • 9. Оценка значений МАР для отдельных характеристик Характеристика МАР возрастание/ зависит от выдачи убывание Freq 0.624212 возр. НЕТ C-Value 0.627686 возр. НЕТ TF*IDF 0.672341 возр. НЕТ Freq/Freqmore 0.531458 убыв. НЕТ nWords 0.691461 возр. ДА maxbool 0.690145 возр. ДА nMarkets 0.690805 возр. ДА nColloc 0.759548 возр. ДА всего 19 характеристик 9
  • 10. Методы комбинирования характеристик-1 Метод перебора i i Имеется : (c1,…,c19) значений характеристик для ∀ словосочетания Требуется: найти (х1,…,х19): сортировка списка по убыванию <c,x> дает наибольшую точность (MAP) F(x) ; R 19 ->R ; F(x) >0; F(c0*x)=F(x), c0>0 1.max F(0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ai,x,..,x,aj,x,..,x) i,j i j i j ai∈{-1,1} aj∈[-5;5] 2.max F(0,..,0,ak,0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ak,x,..,x,ai,x,..,x,aj,x,.,x) k ∉ {i,j} k i j k i j ak∈[-5;5] Методы МАР Перебор, 19 хар. 0.794155 Перебор, 4 хар. 0.687054 10 nColloc 0.759545
  • 11. Методы комбинирования характеристик-2 Использование программы Weka Зависимая переменная : терминологичность словосочетания, {yes, no} Выдача: ((<c,x>) > c0 ) => (term = yes) Методы МАР Бинарная Логистическая 0.793953 Регрессия Зависимая переменная : качество термина , Z+ Выдача: term_qual=<c,x> Методы МАР Линейная Регрессия 0.745476 Медиан-Медианная Регрессия 0.783717 Метод Опорных Векторов 0.783726 Методы МАР Перебора, 19 хар. 0.794155 11 nColloc 0.759545
  • 12. Заключение • Создана программная система, упорядочивающая список словосочетаний по мере их терминологичности на основе выдачи поисковой машины • Было использовано 19 характеристик употребления словосочетаний • Для оптимального комбинирования весов характеристик было использовано 3 метода (перебора, автоматической классификации, регрессии) • Показано улучшение сортировки списка словосочетаний: - на 15.6% по сравнению с оптимальной комбинацией характеристик, не зависящих от выдачи - на 4.6% по сравнению с наилучшей характеристикой 12