1. Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания Петербург 2010 Академия народного хозяйства при Правительстве РФ Кафедра системного анализа и информатики
2. Коллеги и со-авторы Pavel Makagonov Research Professor Mixteca University of Technology, Mexico Ex- Subdirector of Moscow Mayor Office mpp2003@ inbox.ru Xavier Blanco Titled Professor of French Philology Department Universidad Autonoma de Barcelona, Spain xavier.blanco@ uab.cat Angels Catena Coordinator of Master Program Professor of French Philology Department Universidad Autonoma de Barcelona, Spain angels.catena@ uab.cat
3. Коллеги и со-авторы Alexander Gelbukh Chief of NLP Laboratory Center for Computing Research National Polytechnic Institute, Mexico gelbukh@ gelbukh.com Natalia Ponomareva Ph.D. student Mathematician-Programmer Wolwergampton University, UK nata.ponomareva@ gmail.com
4.
5. Индуктивное Моделирование Возможности ИМСОМ позволяет выбрать модель оптимальной сложности из заданного класса моделей, чтобы описать ограниченный набор экспериментальных данных Приложения - Аппроксимация функций - Выбор вычислительной схемы - Cluster validity - Self-organizing Data Mining - Обучение нейронных сетей и т.д.
6. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация дана Заданная информация - Тип зависимости ( формула ) - Серия моделей из заданного класса и уровень шума и т.п . Экспериментальные данные
7. Индуктивное моделирование Мы имеем начальную информацию Заданная регрессионная модель Y m = a 0 + a 1 t or Y m = a 0 +a 1 t + a 2 t 2 , etc. || Y m – Y e || => мин ( используем МНК) Серия моделей из заданного класса с заданным уровнем шума Y m = a 0 +a 1 t + a 2 t 2 + ..... || Y m – Y e || => ε 2 ( используем МНК) МНК = метод наименьших квадратов Точки – эксперим. данные Красные линии – возм. модели Корридор отражает ошибку ε 2
8. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация отсутствует У нас нет начальной информации В этом случае мы используем Инндуктивное Моделирование Для этого мы фиксируем класс моделей Замечание : класс моделей должен отражать возрастающую сложность модели Экспериментальные данные
9. Индуктивное Моделирование Принцип индуктивности Метод не может найти самую оптимальную модель в непрерывном классе моделей. Он основан на соревновании моделей из заданного класса Пример класса моделей : полиномы одной пременной (t) Y 0 = a 0 Y 1 = a 0 +a 1 t Y 2 = a 0 +a 1 t + a 2 t 2 ; ........ Пример класса моделей : линейные многих пременных ( x 1 ,x 2 ..) Y 0 = a 0 Y 11 = a 0 + a 1 x 1 ; Y 12 = a 0 +a 2 x 2 ................ Y 1... = a 0 +a 10 x 10 ........... Y 21 = a 0 + a 1 x 1 + a 2 x 2 Y 22 = a 0 + a 1 x 1 + a 3 x 3 .. . Y 2... = a 0 + a 9 x 9 +a 99 x 99 ..
10. Индуктивное моделирование Подход 1 Мы должны обеспечить хорошие свойства прогнозирования, то есть низкую чувствительность к новым данным Критерий 1 ( регулярность ) M одель, o бученная на 1-м наборе данных должна давать хорошие результаты на втором наборе данных ( T обучение , C контроль ) Точки - эксперим. данные Красные линии – возм. модель
11. Индуктивное моделирование Подход 2 Мы должны обеспечить хорошее описательное свойство. Критерий 2 ( несмещенность ) Модель, обученная на 1-м наборе и проверенная на 2-м наборе (красная линия) должна быть подобна модели, обученной на 2-м наборе и проверенной на 1-м наборе (фиолетовая прямая) Экспериментальные данные
14. Постановка задачи Стемминг Состоит в выборе части слова, отражающей основное значение слова Примеры sad , sad ly , sad ness , sad den , sad dened mov e, mov ing, mov ed, [ moveable <= ? ] Применение Индексация ( параметризация ) текстов, где используются частотные списки слов
15. Постановка задачи Проблема Построить формулу для принятия решения о подобии пары слов Актуальность Нам приходится обрабатывать многоязыковые корпуса и документов. Реальность: 25 официальных языков в Европе Ограничения подхода Только для флективных языков
16. Эмпирические формулы Модели для принятия решений Какую формулу стоит настраивать под примеры, заданные экспертом? n / s < C n/s < F ( s ) n/s < F ( y ) n/s < F ( y/s ) etc. Здесь : C константа y длина общей части пары слов ( y -yes) n длина финальных частей ( n -no) s общая длина пары слов ( s -sum) F ( t ) = a 0 +a 1 t+a 2 t 2 +a 3 t 3 .... Примеры 1) ask ing ask ed y = 3 n = 5 s = 11 2) translat ion translat ed y = 8 n = 5 s = 21
17.
18. Дискриминация длинных слов yyynn yyynn n/s = 0.4 yyyyyynnnn yyyyyynnnn n/s = 0.4 <= Пусть они подобны <= Меньшая вероятность, что они подобны Объяснение Финальная флективная часть в среднем имеет имеет ту же самую длину независимо от начальной основной части. Действительно : -ing, -ly, -ingly, -al, -able, -ed, .... те же самые как для длинных, так и для коротких слов Эмпирические формулы
19.
20.
21. ИМСОМ - Реализация Пример n/s = a 0 + a 1 y + a 2 y 2 +... . ask ing ask ed n = 5 s = 11 y = 3 0- порядок 5/11 = a 0 Линейная 5 /11 = a 0 + a 1 3 Квадратичная 5 /11 = a 0 + a 1 3 + a 2 9 и т.д. Решение Для решения системы линейных уравнений мы используем мы используем МНК – метод наименьших квадратов
22.
23. Результаты Формулы ( линейные модели ) French n/s 0.48 – 0.024 y Italian n/s 0.57 – 0.035 y Portugal n/s 0.53 – 0.029 y Spanish n/s 0.55 – 0.029 y Common n/s 0.53 – 0.029 y Точность Лемматизация 100%,~100% Стемминг (Porter) > 90% Эмпирическая формула ~ 80%-90%
24.
25.
26. S ubjectivity/Sentiment Analysis Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности на основе диалогов
27. Введение Subjectivity/ Sentiment анализ это область обработки естественных языков ( NLP ) , которая направлена на автоматическую оценку эмоций и мнений людей по отношению к некоторому объекту или событию. event. Эта тема стала популярной в эпоху Web 2.0 Это может быть интересно для таких бизнесс приложений , как: 1. Удовлетворенность покупателей товарами и услугами 2. Мнениями, относящимися к продуктам или событиям 3. Компетенции, касающейся существующего сервиса
30. Параметризация А. Индиктор первого приветствия ( g - greeting ) Двоичный параметр , имеет значение 1, при первом приветствии «Could you please inform me ...» и значение 0 , если нет t: «I need the information about ...» Б. Вежливые слова ( w - words ): «please», «thank you», «excuse me» В. Вежливые грамматические формы ( v - verbs ) : глаголы в состагательном наклонении, то есть «could», «would»,...
31.
32. Параметризация Ручные оценки учитывают только вежливость ( но не грубость ) по шкале: 0 - обычная вежливость 0.5 - повышенная вежливость 1 - чрезмерная вежливость
34. Исходные данные Данные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала Барселоны Язык – испанский и каталанский
35. ИМСОМ – Реализация Мы предположили, что зависимость между числовыми индикаторами и и уровнем вежливости может быть описана полиномиальной моделью . Серия моделей увеличивающейся сложности : Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 + B 02 v 2
36. ИМСОМ – Реализация Обучение : 30 Контроль : 30 Экзамен : 25 Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 +B 02 v 2
37. Результаты Итоговая формула для оценки вежливости : F( g, w, v ) = -0.14 + 0.28 g + 3.59 w + 3.67 v После пересчета без свободного члена (intercept) было получено: F (g, w, v) = 0.2 g + 3.7 w + 3.1 v Statistical analysis Среднеквадратичная оценка ε = 0.24 ( чуть менее шага )
38. Удовлетворенность, параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 b + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq Model 3: F ( b,f,q ) = B 200 b 2 + B 020 f 2 + B 002 q 2 Model 4: F ( b,f,q ) = B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 Model 5: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 где : b and f – положительная обратная связь с пользователем, в теле диалога ( 'well', 'ok', 'all right', 'correct', 'splendid', etc) и конце q – вопрос-ответ, что отражает неудовлетворенность
40. Компетентность,параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 l + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 l + B 010 f + B 001 q + B 110 lf + B 101 lq + B 011 fq Model 3: F ( b,f,q ) = B 200 l 2 + B 020 f 2 + B 002 q 2 и т.д., как в предыдущем случае где: f – уровень компетентности в первом вопросе пассажира ('any train to…?‘ vs. 'regional express at night to…?', etc.) l – использованная специализированная лексика (номер поезда,..) q – вопрос-ответ , который относится к вопросам пассажира и может отражать положительный и отрицательный ответ
43. Индексация Текстов Выявление гранулярности терминологии предметной области
44. Индексация это процесс отбора и взвешивания ключевых слов Ключевые слова используются для : A. Суммаризации документов Б . Кластеризация документов В . Построение онтологии Мы полагаем, что - корпус документов отражает несколько тем имеющих различную степень гранулярности - имеются слова ответственные за каждый уровень Метод Introduction Введение Определения Эксперимент
45. Главные термины области Рост специфичности Применения гранулированных терминов: 1. Суммаризация документов по различным уровням детальности 2. Кластеризация документов на различных уровнях детальности 3. Построение онтологий для различных уровней детальности Мы можем назвать общие термины предметной области как coarse-grained terms и очень специализированные термины как fine-grained terms Проблема : собрать вместе термины, связанные с одним уровнем гранулярности Метод Введение Введение Определения Эксперимент
46. Определение гранулярности на основе корпуса текстов (corpus-based granularity): Уровни гранулярности это классы терминов, имеющих близкие значения специфичности Пусть s 0 , s 1 ,..., s n расщепление шкалы специфичности на n сегментов, так что s i ≥ s i+1 , s 0 =S, s n =s . Точки s i называются точками перехода так как они находятся на границах между примыкающими уровнями гранулярности Введение Определения Метод Эксперимент Определения
47. Definitions Определение проблемы: Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности. Проблема гранулярности может быть разделена на две подпроблемы: 1. Aппроксимация специфичности терминов предметной области посредством некоторой схемы взвешивания – основанной на энтропии – основанной на стандартной девиации 2. Размещение точек перехода на оси специфичности Мы будем использовать идеи индуктивного моделирования Введение Определения Метод Эксперимент Определения
48. Введение Определения Метод Эксперимент Аппроксимация специфичности Пусть D=(d 1 , ..., d N ) коллекция документов и X=(x 1 , ..., x N ) частота слова w в документе d i . 1. Общность/гранулярность основанная на энтропии: где 2. Общность/гранулярность, основанная на станд. девиации: где
49. Мы используем ИМСОМ-подобный алгоритм Напомним основные шаги ИМСОМ: 1. Эксперт определяет последовательность моделей от простейшей к более сложным 2. Экспериментальные данные делятся на обучающую и контрольную выборки 3. Для заданного вида модели определяются наилучшие параметры на обучающей выборке с помощью некоторого внутреннего критерия (например МНК) <= сейчас шаг исключен 4. Полученная модель проверяется на контрольной выборке на основе некоторого внешнего критерия . Глобальный минимум внешнего критерия определяет оптимальную модель Введение Определения Метод Эксперимент Описание ИМСОМ
50. Первое, мы делим данные на два набора : обучающий и контрольный и затем мы упорядочиваем все слова согласно их специфичности : Затем мы вычисляем расстояние между двумя наборами, используя скользящее окно Введение Оределения Метод Эксперимент Метод
51. Шаги алгоритма 1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины внутри этого окна для обоих наборов данных 2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных. В наших экспериментах мы используем относительную энтропию для специфичности, основанной на энтропии, и евклидово расстояние длдя энтропии, основанной на девиации. 3. Перемещаем окно специфичности и переходим к Шагу 2. Введение Определения Метод Эксперимент Метод
52. Главная гипотеза: Если распределения специфичностей обучающей и контрольной выборки документов внутри некоторого окна специфичности близки , то термины, содержащиеся в этом окне принадлежат одному и тому же уровню гранулярности. Окна, где два распределения достигают максимального расстояния, содержит точки неустойчивости, т.е. точки перехода от одного уровня гранулярности к другому. Введение Определения Метод Эксперимент Метод
53. Внешние критерии Давайте зафиксируем одно и тоже окно Δ s = [ s1,s2 ] внутри диапазонов специфичности обучащего и контрольного наборов данных и давайте обозначим p t =p t ( Δ s) и p c =p c ( Δ s) распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно. 1. Относительная энтропия (или расстояние Кульбака-Лейбла): 2. Нормализованная версия Евклидова расстояния: Введение Определения Метод Эксперимент Метод
54. Мы используем корпус, названный hep-ex, изначально принадлежащий CERN -у. Он состоит из абстрактов статей, связанных с различными направлениями физики. Техника препроцессинга: удаление стоп-слов и стемминг Введение Определения Метод Эксперимент Характеристики корпуса
55. Поведение критерия K1 (основанный на энтропии) для различной длины окна Введение Определение Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности
56. Поведение критерия K1 (основанного на энтропии) для различных разбиений корпуса Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности
57. Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных длин окна Границы между уровнями
58. Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных разбиений корпуса Границы между уровнями гранулярности
59. Слова в Таблице упорядочены согласно их специфичности Введение Определения Метод Эксперимент Примеры списков терминов
60.
61. Ресурсы http://www.mgua.irtc.org.ua/ru/index.php?page=index http://www.gmdh.net/index.html Отдел информационных технологий индуктивного моделирования Международный научно-учебный центр информационных технологий и систем, НАН и МОН Украины; пр.Глушкова 40, Киев, 03680, Украина профессор, д.т.н. В.С. Степашко ============ http:// www.machinelearning.ru Машинное обучение (курс лекций, К.В.Воронцов)
62. Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания MA lexandrov@ mail.ru Петербург 2010