Михаил Александров, Индуктивное моделирование

Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания Петербург 2010 Академия народного хозяйства при Правительстве РФ Кафедра системного анализа и информатики

Коллеги и со-авторы Pavel Makagonov Research Professor Mixteca University of Technology, Mexico Ex- Subdirector of Moscow Mayor Office mpp2003@ inbox.ru Xavier Blanco Titled Professor of French Philology Department Universidad Autonoma de Barcelona, Spain xavier.blanco@ uab.cat Angels Catena Coordinator of Master Program Professor of French Philology Department Universidad Autonoma de Barcelona, Spain angels.catena@ uab.cat

Коллеги и со-авторы Alexander Gelbukh Chief of NLP Laboratory Center for Computing Research National Polytechnic Institute, Mexico gelbukh@ gelbukh.com Natalia Ponomareva Ph.D. student Mathematician-Programmer Wolwergampton University, UK nata.ponomareva@ gmail.com

Индуктивное Моделирование ,[object Object],[object Object],[object Object],[object Object],[object Object],Определения Класс моделей зависит от рассматриваемой задачи. Это может быть: - полиномы одной переменной - линейные функции многих переменных - кластеры объектов и т.п. Сложность модели – число параметров модели

Индуктивное Моделирование Возможности ИМСОМ позволяет выбрать модель оптимальной сложности из заданного класса моделей, чтобы описать ограниченный набор экспериментальных данных Приложения - Аппроксимация функций - Выбор вычислительной схемы - Cluster validity - Self-organizing Data Mining - Обучение нейронных сетей и т.д.

Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация дана  Заданная информация - Тип зависимости ( формула ) - Серия моделей из заданного класса и уровень шума и т.п . Экспериментальные данные

Индуктивное моделирование Мы имеем начальную информацию Заданная регрессионная модель Y m = a 0 + a 1 t or Y m = a 0 +a 1 t + a 2 t 2 , etc. || Y m – Y e || => мин ( используем МНК) Серия моделей из заданного класса с заданным уровнем шума Y m = a 0 +a 1 t + a 2 t 2 + ..... || Y m – Y e || => ε 2 ( используем МНК) МНК = метод наименьших квадратов Точки – эксперим. данные Красные линии – возм. модели Корридор отражает ошибку ε 2

Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация отсутствует  У нас нет начальной информации В этом случае мы используем Инндуктивное Моделирование Для этого мы фиксируем класс моделей Замечание : класс моделей должен отражать возрастающую сложность модели Экспериментальные данные

Индуктивное Моделирование Принцип индуктивности Метод не может найти самую оптимальную модель в непрерывном классе моделей. Он основан на соревновании моделей из заданного класса Пример класса моделей : полиномы одной пременной (t) Y 0 = a 0 Y 1 = a 0 +a 1 t Y 2 = a 0 +a 1 t + a 2 t 2 ; ........ Пример класса моделей : линейные многих пременных ( x 1 ,x 2 ..) Y 0 = a 0 Y 11 = a 0 + a 1 x 1 ; Y 12 = a 0 +a 2 x 2 ................ Y 1... = a 0 +a 10 x 10 ........... Y 21 = a 0 + a 1 x 1 + a 2 x 2 Y 22 = a 0 + a 1 x 1 + a 3 x 3 .. . Y 2... = a 0 + a 9 x 9 +a 99 x 99 ..

Индуктивное моделирование Подход 1 Мы должны обеспечить хорошие свойства прогнозирования, то есть низкую чувствительность к новым данным Критерий 1 ( регулярность ) M одель, o бученная на 1-м наборе данных должна давать хорошие результаты на втором наборе данных ( T обучение , C контроль ) Точки - эксперим. данные Красные линии – возм. модель

Индуктивное моделирование Подход 2 Мы должны обеспечить хорошее описательное свойство. Критерий 2 ( несмещенность ) Модель, обученная на 1-м наборе и проверенная на 2-м наборе (красная линия) должна быть подобна модели, обученной на 2-м наборе и проверенной на 1-м наборе (фиолетовая прямая) Экспериментальные данные

Индуктивное моделирование ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],5. Если внешний критерий достигает минимума , то STOP Иначе идем на шаг 3

Статистический стеммер Построение эмпирической формулы, обученной на примерах

Постановка задачи Стемминг Состоит в выборе части слова, отражающей основное значение слова Примеры sad , sad ly , sad ness , sad den , sad dened mov e, mov ing, mov ed, [ moveable <= ? ] Применение Индексация ( параметризация ) текстов, где используются частотные списки слов

Постановка задачи Проблема Построить формулу для принятия решения о подобии пары слов Актуальность Нам приходится обрабатывать многоязыковые корпуса и документов. Реальность: 25 официальных языков в Европе Ограничения подхода Только для флективных языков

Эмпирические формулы Модели для принятия решений Какую формулу стоит настраивать под примеры, заданные экспертом? n / s < C n/s < F ( s ) n/s < F ( y ) n/s < F ( y/s ) etc. Здесь : C константа y длина общей части пары слов ( y -yes) n длина финальных частей ( n -no) s общая длина пары слов ( s -sum) F ( t ) = a 0 +a 1 t+a 2 t 2 +a 3 t 3 .... Примеры 1) ask ing ask ed y = 3 n = 5 s = 11 2) translat ion translat ed y = 8 n = 5 s = 21

Эмпирические формулы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Дискриминация длинных слов yyynn yyynn n/s = 0.4 yyyyyynnnn yyyyyynnnn n/s = 0.4 <= Пусть они подобны <= Меньшая вероятность, что они подобны Объяснение Финальная флективная часть в среднем имеет имеет ту же самую длину независимо от начальной основной части. Действительно : -ing, -ly, -ingly, -al, -able, -ed, .... те же самые как для длинных, так и для коротких слов Эмпирические формулы

Эмпирические формулы ,[object Object],[object Object],[object Object],[object Object],[object Object],Наше решение n/s < F ( y ), F (y) = a 0 + a 1 y + a 2 y 2 + a 3 y 3 +... a k y k +... y – длина начальной общей части n – общая длина финальных несовпадающих частей s – общая длина двух слов

,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],ИМСОМ - Реализация

ИМСОМ - Реализация Пример n/s = a 0 + a 1 y + a 2 y 2 +... . ask ing ask ed n = 5 s = 11 y = 3 0- порядок 5/11 = a 0 Линейная 5 /11 = a 0 + a 1 3 Квадратичная 5 /11 = a 0 + a 1 3 + a 2 9 и т.д. Решение Для решения системы линейных уравнений мы используем мы используем МНК – метод наименьших квадратов

,[object Object],[object Object],[object Object],[object Object],[object Object],Эксперимент Динамика критерия K Порядок 0 1 2 3 French 0.19 0.15 0.25 2.78 Italian 0.24 0.17 0.19 0.29 Portugal 0.25 0.20 0.22 2.30 Spanish 0.20 0.16 0.16 0.21 Таким образом, общая формула может быть записана так: n/s  a - b y

Результаты Формулы ( линейные модели ) French n/s  0.48 – 0.024 y Italian n/s  0.57 – 0.035 y Portugal n/s  0.53 – 0.029 y Spanish n/s  0.55 – 0.029 y Common n/s  0.53 – 0.029 y Точность Лемматизация 100%,~100% Стемминг (Porter) > 90% Эмпирическая формула ~ 80%-90%

Демонстрация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Дискуссия и выводы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

S ubjectivity/Sentiment Analysis Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности на основе диалогов

Введение Subjectivity/ Sentiment анализ это область обработки естественных языков ( NLP ) , которая направлена на автоматическую оценку эмоций и мнений людей по отношению к некоторому объекту или событию. event. Эта тема стала популярной в эпоху Web 2.0 Это может быть интересно для таких бизнесс приложений , как: 1. Удовлетворенность покупателей товарами и услугами 2. Мнениями, относящимися к продуктам или событиям 3. Компетенции, касающейся существующего сервиса

Введение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Пример: Вежливость

Параметризация А. Индиктор первого приветствия ( g - greeting ) Двоичный параметр , имеет значение 1, при первом приветствии «Could you please inform me ...» и значение 0 , если нет t: «I need the information about ...» Б. Вежливые слова ( w - words ): «please», «thank you», «excuse me» В. Вежливые грамматические формы ( v - verbs ) : глаголы в состагательном наклонении, то есть «could», «would»,...

Параметризация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Параметризация Ручные оценки учитывают только вежливость ( но не грубость ) по шкале: 0 - обычная вежливость 0.5 - повышенная вежливость 1 - чрезмерная вежливость

Исходные данные Данные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала Барселоны Язык – испанский и каталанский

ИМСОМ – Реализация Мы предположили, что зависимость между числовыми индикаторами и и уровнем вежливости может быть описана полиномиальной моделью . Серия моделей увеличивающейся сложности : Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 + B 02 v 2

ИМСОМ – Реализация Обучение : 30 Контроль : 30 Экзамен : 25 Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 +B 02 v 2

Результаты Итоговая формула для оценки вежливости : F( g, w, v ) = -0.14 + 0.28 g + 3.59 w + 3.67 v После пересчета без свободного члена (intercept) было получено: F (g, w, v) = 0.2 g + 3.7 w + 3.1 v Statistical analysis Среднеквадратичная оценка ε = 0.24 ( чуть менее шага )

Удовлетворенность, параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 b + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq Model 3: F ( b,f,q ) = B 200 b 2 + B 020 f 2 + B 002 q 2 Model 4: F ( b,f,q ) = B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 Model 5: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 где : b and f – положительная обратная связь с пользователем, в теле диалога ( 'well', 'ok', 'all right', 'correct', 'splendid', etc) и конце q – вопрос-ответ, что отражает неудовлетворенность

Удовлетворенность, результаты Наилучшие модели F ( b,f,q ) = 0.18 b + 0.06 f - 1.11 q F ( b,f,q ) = 0.20 b 2 + 0.006 f 2 - 1.78 q 2

Компетентность,параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 l + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 l + B 010 f + B 001 q + B 110 lf + B 101 lq + B 011 fq Model 3: F ( b,f,q ) = B 200 l 2 + B 020 f 2 + B 002 q 2 и т.д., как в предыдущем случае где: f – уровень компетентности в первом вопросе пассажира ('any train to…?‘ vs. 'regional express at night to…?', etc.) l – использованная специализированная лексика (номер поезда,..) q – вопрос-ответ , который относится к вопросам пассажира и может отражать положительный и отрицательный ответ

Компетентность, результаты Наилучшая модель F (f,l,q) = 0.52 f + 0.19 l + 0.16 q

Выводы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Индексация Текстов Выявление гранулярности терминологии предметной области

Индексация это процесс отбора и взвешивания ключевых слов Ключевые слова используются для : A. Суммаризации документов Б . Кластеризация документов В . Построение онтологии Мы полагаем, что - корпус документов отражает несколько тем имеющих различную степень гранулярности - имеются слова ответственные за каждый уровень Метод Introduction Введение Определения Эксперимент

Главные термины области Рост специфичности Применения гранулированных терминов: 1. Суммаризация документов по различным уровням детальности 2. Кластеризация документов на различных уровнях детальности 3. Построение онтологий для различных уровней детальности Мы можем назвать общие термины предметной области как coarse-grained terms и очень специализированные термины как fine-grained terms Проблема : собрать вместе термины, связанные с одним уровнем гранулярности Метод Введение Введение Определения Эксперимент

Определение гранулярности на основе корпуса текстов (corpus-based granularity): Уровни гранулярности это классы терминов, имеющих близкие значения специфичности Пусть s 0 , s 1 ,..., s n расщепление шкалы специфичности на n сегментов, так что s i ≥ s i+1 , s 0 =S, s n =s . Точки s i называются точками перехода так как они находятся на границах между примыкающими уровнями гранулярности Введение Определения Метод Эксперимент Определения

Definitions Определение проблемы: Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности. Проблема гранулярности может быть разделена на две подпроблемы: 1. Aппроксимация специфичности терминов предметной области посредством некоторой схемы взвешивания – основанной на энтропии – основанной на стандартной девиации 2. Размещение точек перехода на оси специфичности Мы будем использовать идеи индуктивного моделирования Введение Определения Метод Эксперимент Определения

Введение Определения Метод Эксперимент Аппроксимация специфичности Пусть D=(d 1 , ..., d N ) коллекция документов и X=(x 1 , ..., x N ) частота слова w в документе d i . 1. Общность/гранулярность основанная на энтропии: где 2. Общность/гранулярность, основанная на станд. девиации: где

Мы используем ИМСОМ-подобный алгоритм Напомним основные шаги ИМСОМ: 1. Эксперт определяет последовательность моделей от простейшей к более сложным 2. Экспериментальные данные делятся на обучающую и контрольную выборки 3. Для заданного вида модели определяются наилучшие параметры на обучающей выборке с помощью некоторого внутреннего критерия (например МНК) <= сейчас шаг исключен 4. Полученная модель проверяется на контрольной выборке на основе некоторого внешнего критерия . Глобальный минимум внешнего критерия определяет оптимальную модель Введение Определения Метод Эксперимент Описание ИМСОМ

Первое, мы делим данные на два набора : обучающий и контрольный и затем мы упорядочиваем все слова согласно их специфичности : Затем мы вычисляем расстояние между двумя наборами, используя скользящее окно Введение Оределения Метод Эксперимент Метод

Шаги алгоритма 1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины внутри этого окна для обоих наборов данных 2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных. В наших экспериментах мы используем относительную энтропию для специфичности, основанной на энтропии, и евклидово расстояние длдя энтропии, основанной на девиации. 3. Перемещаем окно специфичности и переходим к Шагу 2. Введение Определения Метод Эксперимент Метод

Главная гипотеза: Если распределения специфичностей обучающей и контрольной выборки документов внутри некоторого окна специфичности близки , то термины, содержащиеся в этом окне принадлежат одному и тому же уровню гранулярности. Окна, где два распределения достигают максимального расстояния, содержит точки неустойчивости, т.е. точки перехода от одного уровня гранулярности к другому. Введение Определения Метод Эксперимент Метод

Внешние критерии Давайте зафиксируем одно и тоже окно Δ s = [ s1,s2 ] внутри диапазонов специфичности обучащего и контрольного наборов данных и давайте обозначим p t =p t ( Δ s) и p c =p c ( Δ s) распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно. 1. Относительная энтропия (или расстояние Кульбака-Лейбла): 2. Нормализованная версия Евклидова расстояния: Введение Определения Метод Эксперимент Метод

Мы используем корпус, названный hep-ex, изначально принадлежащий CERN -у. Он состоит из абстрактов статей, связанных с различными направлениями физики. Техника препроцессинга: удаление стоп-слов и стемминг Введение Определения Метод Эксперимент Характеристики корпуса

Поведение критерия K1 (основанный на энтропии) для различной длины окна Введение Определение Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности

Поведение критерия K1 (основанного на энтропии) для различных разбиений корпуса Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности

Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных длин окна Границы между уровнями

Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных разбиений корпуса Границы между уровнями гранулярности

Слова в Таблице упорядочены согласно их специфичности Введение Определения Метод Эксперимент Примеры списков терминов

[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Введение Определения Метод Эксперимент Выводы

Ресурсы http://www.mgua.irtc.org.ua/ru/index.php?page=index http://www.gmdh.net/index.html Отдел информационных технологий индуктивного моделирования Международный научно-учебный центр информационных технологий и систем, НАН и МОН Украины; пр.Глушкова 40, Киев, 03680, Украина профессор, д.т.н. В.С. Степашко ============ http:// www.machinelearning.ru Машинное обучение (курс лекций, К.В.Воронцов)

Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания MA lexandrov@ mail.ru Петербург 2010

Михаил Александров, Индуктивное моделирование

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Viewers also liked

Viewers also liked (16)

Similar to Михаил Александров, Индуктивное моделирование

Similar to Михаил Александров, Индуктивное моделирование (20)

More from Lidia Pivovarova

More from Lidia Pivovarova (20)

Михаил Александров, Индуктивное моделирование