Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области

Использование поисковых машин и
ресурсов Интернет для отбора
терминов предметной области

Выполнил:
Бондаренко Игорь Владимирович

Научный руководитель:
к.ф.-м.н.,с.н.с. НИВЦ МГУ Лукашевич Н.В.

ВМиК, кафедра Алгоритмических Языков, 2009 год

Отбор терминов предметной
области
• Термин – слово (или сочетание слов), являющееся
точным обозначением определенного понятия
какой-либо специальной области науки, техники,
искусства, общественной жизни и т.п.
(Лингвистический словарь)
• Потребность в выделении терминов :
- в библиотечном деле
- в обработке документов
- в информационном поиске
- для автоматического формирования тезаурусов

• На практике при автоматическом извлечении
терминов используются разные признаки
(статистические, лингвистические)
2

Задача работы
• Создать программную систему, которая :
- Автоматически получает сниппеты поисковой машины
- Обрабатывает сниппеты для получения значений
характеристик словосочетания
- На основе полученных значений характеристик
переупорядочивает список словосочетаний по мере их
терминологичности

• Оценить качество работы программной системы

Сниппет - это краткий фрагмент документа, отображаемый
поисковой машиной в выдаче результатов поиска

МАГНИТНЫЕ ПОЛЯ ЧЕЛОВЕКА. Кроме того, при наложении внешнего
магнитного поля проявляются неоднородности восприимчивости
различных органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается появлением
3
электрического...

Предметная область и исходные
данные
• Исследование проводится на базе терминологии
в области математических и естественных наук
(математика, физика, химия, геология)
• Произведена обработка специальными
процедурами автоматического извлечения
терминоподобных словосочетаний
• Исходные данные: список извлеченных
словосочетаний (именных групп), упорядоченный
по частотности
- программа образования : 8817
- решение задачи : 4867
- магнитное поле : 4590
- случайная величина : 3944
- международная соросовская программа : 2204
-…
4

Получение и обработка сниппетов

управление
данные
5

Характеристики словосочетаний -1
Использовалась информация о частотности
словосочетаний в коллекции

• Freq Частотность словосочетания в коллекции

• С-Value C-Value=
{ log2|a|*Freq(a)
log2|a|*Freq(a) -
, если не вложено
1
* ∑ Freq(b)
P(Ta) b∈Ta
Tа – множество словосочетаний, которые содержат a,
P(Tа) – количество словосочетаний, содержащих a.

• TF*IDF Freq(a)* ln[ (N - Da) / Da]
N – количество документов в 1/12 базе Яндекс
Da – число документов базы, содержащих более редкое
слово словосочетания

• Freq/Freqmore min (1, Freq/max Freq(Та) )
Та 6

Характеристики словосочетаний -2
Использовалась выдача поисковой машины (сниппеты)
• nWords Общее количество слов в сниппетах

• maxbool

Наибольшее количество совпадающих слов

• nMarkers Количество маркеров определений в
сниппетах (это, являться, определение…)

• nColloc Количество словосочетаний запроса в
сниппетах
Кроме того, при наложении внешнего магнитного поля
проявляются неоднородности восприимчивости различных
органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается
7
появлением ...

Принципы оценки качества
сортировки алгоритма
• Для многих словосочетаний имеется ручная
оценка, является ли данное словосочетание
термином – сопоставление с Онтологией по
естественным наукам и технологиям (ОЕНТ)
• Оценка качества термина – сумма синонимов и
отношений соответствующего концепта
• Мера оценки для упорядоченных списков – Mean
Average Precision (MAP) – среднее значение
точности для всех значений полноты

- : 1 : программа образования
+: 2 : магнитное поле
МАР=(1/2+2/3)/2=0.583
+: 3 : земная кора

8

Оценка значений МАР для отдельных
характеристик

Характеристика МАР возрастание/ зависит от выдачи
убывание

Freq 0.624212 возр. НЕТ

C-Value 0.627686 возр. НЕТ

TF*IDF 0.672341 возр. НЕТ

Freq/Freqmore 0.531458 убыв. НЕТ

nWords 0.691461 возр. ДА

maxbool 0.690145 возр. ДА

nMarkets 0.690805 возр. ДА

nColloc 0.759548 возр. ДА

всего 19 характеристик
9

Методы комбинирования характеристик-1
Метод перебора
i i
Имеется : (c1,…,c19) значений характеристик для ∀
словосочетания
Требуется: найти (х1,…,х19): сортировка списка по убыванию
<c,x> дает наибольшую точность (MAP)
F(x) ; R 19 ->R ; F(x) >0; F(c0*x)=F(x), c0>0

1.max F(0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ai,x,..,x,aj,x,..,x)
i,j i j i j
ai∈{-1,1} aj∈[-5;5]
2.max F(0,..,0,ak,0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ak,x,..,x,ai,x,..,x,aj,x,.,x)
k ∉ {i,j} k i j k i j
ak∈[-5;5]
Методы МАР
Перебор, 19 хар. 0.794155
Перебор, 4 хар. 0.687054
10
nColloc 0.759545

Методы комбинирования характеристик-2
Использование программы Weka
Зависимая переменная : терминологичность словосочетания, {yes, no}
Выдача: ((<c,x>) > c0 ) => (term = yes)
Методы МАР
Бинарная Логистическая 0.793953
Регрессия
Зависимая переменная : качество термина , Z+
Выдача: term_qual=<c,x>

Методы МАР
Линейная Регрессия 0.745476
Медиан-Медианная Регрессия
0.783717
Метод Опорных Векторов
0.783726

Методы МАР
Перебора, 19 хар. 0.794155
11
nColloc 0.759545

Заключение
• Создана программная система, упорядочивающая
список словосочетаний по мере их терминологичности
на основе выдачи поисковой машины
• Было использовано 19 характеристик употребления
словосочетаний

• Для оптимального комбинирования весов
характеристик было использовано 3 метода (перебора,
автоматической классификации, регрессии)
• Показано улучшение сортировки списка
словосочетаний:
- на 15.6% по сравнению с оптимальной комбинацией
характеристик, не зависящих от выдачи
- на 4.6% по сравнению с наилучшей характеристикой
12

Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области

Recommended

Recommended

More Related Content

What's hot

What's hot (11)

Similar to Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области

Similar to Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области (20)

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области