Использование поисковых машин и ресурсов Интернет для отбора терминов предметной области
1. Использование поисковых машин и
ресурсов Интернет для отбора
терминов предметной области
Выполнил:
Бондаренко Игорь Владимирович
Научный руководитель:
к.ф.-м.н.,с.н.с. НИВЦ МГУ Лукашевич Н.В.
ВМиК, кафедра Алгоритмических Языков, 2009 год
2. Отбор терминов предметной
области
• Термин – слово (или сочетание слов), являющееся
точным обозначением определенного понятия
какой-либо специальной области науки, техники,
искусства, общественной жизни и т.п.
(Лингвистический словарь)
• Потребность в выделении терминов :
- в библиотечном деле
- в обработке документов
- в информационном поиске
- для автоматического формирования тезаурусов
• На практике при автоматическом извлечении
терминов используются разные признаки
(статистические, лингвистические)
2
3. Задача работы
• Создать программную систему, которая :
- Автоматически получает сниппеты поисковой машины
- Обрабатывает сниппеты для получения значений
характеристик словосочетания
- На основе полученных значений характеристик
переупорядочивает список словосочетаний по мере их
терминологичности
• Оценить качество работы программной системы
Сниппет - это краткий фрагмент документа, отображаемый
поисковой машиной в выдаче результатов поиска
МАГНИТНЫЕ ПОЛЯ ЧЕЛОВЕКА. Кроме того, при наложении внешнего
магнитного поля проявляются неоднородности восприимчивости
различных органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается появлением
3
электрического...
4. Предметная область и исходные
данные
• Исследование проводится на базе терминологии
в области математических и естественных наук
(математика, физика, химия, геология)
• Произведена обработка специальными
процедурами автоматического извлечения
терминоподобных словосочетаний
• Исходные данные: список извлеченных
словосочетаний (именных групп), упорядоченный
по частотности
- программа образования : 8817
- решение задачи : 4867
- магнитное поле : 4590
- случайная величина : 3944
- международная соросовская программа : 2204
-…
4
6. Характеристики словосочетаний -1
Использовалась информация о частотности
словосочетаний в коллекции
• Freq Частотность словосочетания в коллекции
• С-Value C-Value=
{ log2|a|*Freq(a)
log2|a|*Freq(a) -
, если не вложено
1
* ∑ Freq(b)
P(Ta) b∈Ta
Tа – множество словосочетаний, которые содержат a,
P(Tа) – количество словосочетаний, содержащих a.
• TF*IDF Freq(a)* ln[ (N - Da) / Da]
N – количество документов в 1/12 базе Яндекс
Da – число документов базы, содержащих более редкое
слово словосочетания
• Freq/Freqmore min (1, Freq/max Freq(Та) )
Та 6
7. Характеристики словосочетаний -2
Использовалась выдача поисковой машины (сниппеты)
• nWords Общее количество слов в сниппетах
• maxbool
Наибольшее количество совпадающих слов
• nMarkers Количество маркеров определений в
сниппетах (это, являться, определение…)
• nColloc Количество словосочетаний запроса в
сниппетах
Кроме того, при наложении внешнего магнитного поля
проявляются неоднородности восприимчивости различных
органов, искажающие наложенное внешнее. Магнитное
поле в двух последних случаях не сопровождается
7
появлением ...
8. Принципы оценки качества
сортировки алгоритма
• Для многих словосочетаний имеется ручная
оценка, является ли данное словосочетание
термином – сопоставление с Онтологией по
естественным наукам и технологиям (ОЕНТ)
• Оценка качества термина – сумма синонимов и
отношений соответствующего концепта
• Мера оценки для упорядоченных списков – Mean
Average Precision (MAP) – среднее значение
точности для всех значений полноты
- : 1 : программа образования
+: 2 : магнитное поле
МАР=(1/2+2/3)/2=0.583
+: 3 : земная кора
8
9. Оценка значений МАР для отдельных
характеристик
Характеристика МАР возрастание/ зависит от выдачи
убывание
Freq 0.624212 возр. НЕТ
C-Value 0.627686 возр. НЕТ
TF*IDF 0.672341 возр. НЕТ
Freq/Freqmore 0.531458 убыв. НЕТ
nWords 0.691461 возр. ДА
maxbool 0.690145 возр. ДА
nMarkets 0.690805 возр. ДА
nColloc 0.759548 возр. ДА
всего 19 характеристик
9
10. Методы комбинирования характеристик-1
Метод перебора
i i
Имеется : (c1,…,c19) значений характеристик для ∀
словосочетания
Требуется: найти (х1,…,х19): сортировка списка по убыванию
<c,x> дает наибольшую точность (MAP)
F(x) ; R 19 ->R ; F(x) >0; F(c0*x)=F(x), c0>0
1.max F(0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ai,x,..,x,aj,x,..,x)
i,j i j i j
ai∈{-1,1} aj∈[-5;5]
2.max F(0,..,0,ak,0,..,0,ai,0,..,0,aj,0,..,0)=>(x,..,x,ak,x,..,x,ai,x,..,x,aj,x,.,x)
k ∉ {i,j} k i j k i j
ak∈[-5;5]
Методы МАР
Перебор, 19 хар. 0.794155
Перебор, 4 хар. 0.687054
10
nColloc 0.759545
11. Методы комбинирования характеристик-2
Использование программы Weka
Зависимая переменная : терминологичность словосочетания, {yes, no}
Выдача: ((<c,x>) > c0 ) => (term = yes)
Методы МАР
Бинарная Логистическая 0.793953
Регрессия
Зависимая переменная : качество термина , Z+
Выдача: term_qual=<c,x>
Методы МАР
Линейная Регрессия 0.745476
Медиан-Медианная Регрессия
0.783717
Метод Опорных Векторов
0.783726
Методы МАР
Перебора, 19 хар. 0.794155
11
nColloc 0.759545
12. Заключение
• Создана программная система, упорядочивающая
список словосочетаний по мере их терминологичности
на основе выдачи поисковой машины
• Было использовано 19 характеристик употребления
словосочетаний
• Для оптимального комбинирования весов
характеристик было использовано 3 метода (перебора,
автоматической классификации, регрессии)
• Показано улучшение сортировки списка
словосочетаний:
- на 15.6% по сравнению с оптимальной комбинацией
характеристик, не зависящих от выдачи
- на 4.6% по сравнению с наилучшей характеристикой
12