SlideShare a Scribd company logo
1 of 62
Индуктивное моделирование:  содержание и примеры применения  в задачах обработки текстов М. Александров   Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания Петербург  2010 Академия народного хозяйства  при Правительстве РФ Кафедра системного анализа и информатики
Коллеги и со-авторы Pavel Makagonov Research Professor Mixteca University of Technology, Mexico  Ex- Subdirector of Moscow Mayor Office mpp2003@ inbox.ru Xavier Blanco Titled Professor of French Philology Department Universidad Autonoma de Barcelona, Spain xavier.blanco@ uab.cat Angels Catena   Coordinator of Master Program Professor of French Philology Department Universidad Autonoma de Barcelona, Spain angels.catena@ uab.cat
Коллеги и со-авторы Alexander Gelbukh   Chief of NLP Laboratory  Center for Computing Research  National Polytechnic Institute, Mexico gelbukh@ gelbukh.com Natalia Ponomareva Ph.D. student Mathematician-Programmer Wolwergampton University, UK nata.ponomareva@ gmail.com
Индуктивное Моделирование ,[object Object],[object Object],[object Object],[object Object],[object Object],Определения Класс моделей   зависит от рассматриваемой задачи.  Это может быть: -  полиномы одной переменной -  линейные функции многих переменных -  кластеры объектов и т.п. Сложность модели  – число параметров модели
Индуктивное Моделирование Возможности ИМСОМ позволяет выбрать модель  оптимальной сложности из заданного класса моделей, чтобы описать  ограниченный набор  экспериментальных данных Приложения -  Аппроксимация функций -  Выбор вычислительной схемы - Cluster validity  - Self-organizing Data Mining -  Обучение нейронных сетей и т.д.
Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой  формулой  Начальная информация  дана    Заданная информация -   Тип зависимости  ( формула ) -   Серия моделей из  заданного класса  и  уровень  шума и т.п . Экспериментальные данные
Индуктивное моделирование Мы имеем начальную информацию Заданная регрессионная модель Y m =  a 0   +  a 1 t   or  Y m = a 0 +a 1 t + a 2 t 2  ,  etc.   ||  Y m  –  Y e   ||  =>  мин   ( используем МНК) Серия моделей   из заданного класса с  заданным  уровнем шума Y m = a 0 +a 1 t + a 2 t 2  + .....   ||  Y m  –  Y e   ||  =>  ε 2  ( используем МНК) МНК  =  метод наименьших квадратов Точки – эксперим.  данные Красные линии – возм. модели Корридор отражает ошибку  ε 2
Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация  отсутствует      У нас нет начальной информации В этом случае мы используем  Инндуктивное Моделирование Для этого мы фиксируем  класс моделей Замечание :   класс моделей должен отражать  возрастающую сложность модели Экспериментальные данные
Индуктивное Моделирование Принцип индуктивности Метод   не может найти   самую оптимальную модель  в непрерывном классе моделей.  Он основан на  соревновании моделей  из заданного класса Пример класса моделей :  полиномы одной пременной  (t) Y 0  =  a 0  Y 1  =  a 0 +a 1 t Y 2  =  a 0 +a 1 t + a 2 t 2 ;  ........ Пример класса моделей :  линейные многих пременных  ( x 1 ,x 2 ..) Y 0   =  a 0 Y 11   =  a 0  + a 1 x 1 ;  Y 12  =  a 0 +a 2 x 2  ................   Y 1... =  a 0 +a 10 x 10  ........... Y 21   =  a 0  + a 1 x 1  + a 2 x 2  Y 22   =  a 0  + a 1 x 1  + a 3 x 3  .. .   Y 2... =  a 0  + a 9 x 9  +a 99 x 99  ..
Индуктивное моделирование Подход 1   Мы должны обеспечить хорошие свойства прогнозирования,  то есть низкую чувствительность к новым данным Критерий  1 ( регулярность )   M одель,  o бученная на 1-м наборе данных должна давать хорошие результаты на втором наборе   данных  (  T   обучение ,  C   контроль )  Точки - эксперим. данные Красные линии – возм. модель
Индуктивное моделирование Подход 2 Мы должны обеспечить хорошее  описательное  свойство.  Критерий  2 ( несмещенность ) Модель, обученная на 1-м наборе и проверенная на 2-м наборе  (красная линия) должна быть подобна модели, обученной на 2-м наборе и  проверенной на 1-м наборе (фиолетовая прямая) Экспериментальные данные
Индуктивное моделирование ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],5.  Если внешний критерий  достигает  минимума ,   то  STOP Иначе идем на шаг 3
Статистический стеммер Построение  эмпирической формулы,  обученной на примерах
Постановка задачи Стемминг   Состоит в выборе  части слова,  отражающей основное значение слова Примеры sad ,  sad ly ,  sad ness ,  sad den ,  sad dened   mov e,  mov ing,  mov ed,  [ moveable  <=  ?   ] Применение Индексация ( параметризация ) текстов,  где используются частотные списки слов
Постановка задачи Проблема Построить формулу для принятия решения  о подобии  пары слов Актуальность Нам приходится обрабатывать  многоязыковые  корпуса и документов. Реальность: 25 официальных языков в Европе Ограничения подхода Только для флективных языков
Эмпирические формулы Модели для принятия решений Какую формулу стоит настраивать  под примеры, заданные экспертом?  n / s   <  C    n/s   <  F  ( s )     n/s  <  F ( y )   n/s   <  F  ( y/s )   etc.   Здесь : C   константа y  длина общей части пары слов   ( y -yes) n  длина финальных частей  ( n -no) s   общая длина пары слов  ( s -sum) F  ( t )  =  a 0 +a 1  t+a 2 t 2 +a 3 t 3 ....   Примеры 1)   ask ing  ask ed  y =  3   n = 5  s = 11 2)  translat ion   translat ed y = 8  n = 5  s = 21
Эмпирические формулы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
    Дискриминация длинных слов yyynn  yyynn  n/s  =  0.4 yyyyyynnnn  yyyyyynnnn  n/s  =  0.4 <=  Пусть они подобны <=  Меньшая вероятность,  что они подобны Объяснение Финальная флективная часть в среднем имеет имеет ту же самую  длину независимо от начальной основной части. Действительно :   -ing, -ly, -ingly, -al, -able, -ed, ....  те же самые как для длинных, так и для коротких слов Эмпирические формулы
Эмпирические формулы ,[object Object],[object Object],[object Object],[object Object],[object Object],Наше решение n/s < F ( y ),   F (y)  =  a 0  + a 1 y + a 2   y 2  + a 3  y 3 +... a k  y k +...     y –  длина начальной общей части n –   общая длина финальных несовпадающих частей s   –  общая длина двух слов
    ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],ИМСОМ  -  Реализация
    ИМСОМ  -  Реализация Пример n/s  =  a 0  + a 1 y + a 2 y 2 +... .   ask ing  ask ed n  = 5  s  = 11  y  = 3  0- порядок   5/11 =  a 0      Линейная   5 /11 =  a 0  + a 1 3    Квадратичная 5 /11 =  a 0  + a 1 3   + a 2 9   и т.д.   Решение Для решения системы линейных уравнений мы используем мы используем  МНК  –  метод наименьших квадратов
    ,[object Object],[object Object],[object Object],[object Object],[object Object],Эксперимент Динамика критерия   K Порядок   0  1  2  3   French   0.19   0.15   0.25  2.78  Italian   0.24   0.17  0.19  0.29 Portugal   0.25  0.20  0.22  2.30 Spanish   0.20  0.16  0.16  0.21  Таким образом, общая формула может быть записана так: n/s     a  -  b y
    Результаты Формулы  ( линейные модели )   French  n/s     0.48  –   0.024  y   Italian  n/s      0.57  –   0.035  y   Portugal  n/s      0.53  –   0.029  y Spanish  n/s      0.55  –   0.029  y   Common  n/s      0.53  –  0.029   y Точность   Лемматизация   100%,~100%  Стемминг  (Porter)  > 90% Эмпирическая формула  ~ 80%-90%
Демонстрация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Дискуссия и выводы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
S ubjectivity/Sentiment   Analysis Построение  эмпирических формул   для автоматической оценки  вежливости, удовлетворенности и компетентности  на основе диалогов
Введение Subjectivity/ Sentiment анализ это область обработки  естественных языков ( NLP ) ,  которая  направлена на автоматическую оценку эмоций  и  мнений людей по отношению к некоторому объекту или событию. event.   Эта тема стала популярной в эпоху  Web 2.0 Это может быть интересно для таких  бизнесс приложений , как: 1. Удовлетворенность покупателей товарами и услугами 2. Мнениями,  относящимися к продуктам или событиям 3. Компетенции, касающейся существующего сервиса
Введение ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Пример: Вежливость
Параметризация А.   Индиктор  первого приветствия  ( g  -  greeting ) Двоичный параметр ,  имеет значение 1, при первом приветствии «Could you please inform me ...» и значение  0 , если нет t: «I need the information about ...» Б.  Вежливые слова  ( w - words ):  «please», «thank you», «excuse me» В.   Вежливые грамматические формы  ( v - verbs ) :  глаголы в состагательном наклонении, то есть «could», «would»,...
Параметризация ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Параметризация Ручные оценки  учитывают только вежливость  ( но не грубость )  по шкале:   0  -  обычная вежливость 0.5  -  повышенная вежливость 1  -  чрезмерная вежливость
Параметризация
Исходные данные Данные состояли из 85 диалогов между пассажирами  и справочной железнодорожного вокзала Барселоны Язык – испанский и каталанский
ИМСОМ  –  Реализация Мы предположили, что зависимость между числовыми индикаторами и и уровнем вежливости может быть описана  полиномиальной моделью .  Серия моделей  увеличивающейся сложности :  Model 1:  F ( g,w,v ) = A 0 Model 2:  F ( g,w,v ) = C 0 g Model 3:  F ( g,w,v ) = A 0  + C 0 g Model 4:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v Model 5:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v  + B 11 vw   Model 6:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w 2   + B 01 v 2   Model 7:  F ( g,w,v ) = A 0  + C 0 g   + B 11 vw +  B 20 w 2  + B 02 v 2 Model 8:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v +  B 11 vw +  B 20 w 2  + B 02 v 2
ИМСОМ  –  Реализация Обучение :  30 Контроль :   30 Экзамен :  25 Model 1:  F ( g,w,v ) = A 0 Model 2:  F ( g,w,v ) = C 0 g Model 3:  F ( g,w,v ) = A 0  + C 0 g Model 4:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v Model 5:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v  + B 11 vw   Model 6:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w 2   + B 01 v 2   Model 7:  F ( g,w,v ) = A 0  + C 0 g   + B 11 vw +  B 20 w 2  + B 02 v 2 Model 8:  F ( g,w,v ) = A 0  + C 0 g   + B 10 w   + B 01 v  +  B 11 vw + B 20 w 2  +B 02 v 2
Результаты Итоговая формула для оценки вежливости : F( g, w, v )  =  -0.14  + 0.28 g  + 3.59 w  + 3.67 v После пересчета без свободного члена  (intercept)  было получено: F (g, w, v) =  0.2 g +  3.7 w +  3.1 v   Statistical analysis Среднеквадратичная оценка  ε  =   0.24  ( чуть менее шага )
Удовлетворенность, параметризация Серия моделей Model  0 :  F ( b,f,q ) = A 0 Model 1:  F ( b,f,q ) = B 100 b  +  B 010 f   +  B 001 q Model 2:  F ( b,f,q ) = B 100 b   +  B 010 f   +  B 001 q  +  B 110 bf   +  B 101 bq   +  B 011 fq  Model 3:  F ( b,f,q ) = B 200 b 2   +  B 020 f 2   +  B 002 q 2 Model 4:  F ( b,f,q ) = B 110 bf   +  B 101 bq   +  B 011 fq  +  B 200 b 2   +  B 020 f 2   +  B 002 q 2 Model 5:  F ( b,f,q ) = B 100 b  +  B 010 f   +  B 001 q  +  B 110 bf   +  B 101 bq   +  B 011 fq  +  B 200 b 2   +  B 020 f 2  +  B 002 q 2 где : b   and  f  –  положительная обратная связь с пользователем,  в теле диалога  ( 'well', 'ok', 'all right', 'correct', 'splendid',  etc)  и конце q  –  вопрос-ответ, что отражает  неудовлетворенность
Удовлетворенность, результаты Наилучшие модели F ( b,f,q ) = 0.18 b   + 0.06 f   - 1.11 q  F ( b,f,q ) = 0.20 b 2   +  0.006 f 2   - 1.78 q 2
Компетентность,параметризация Серия моделей Model  0 :  F ( b,f,q ) = A 0 Model 1:  F ( b,f,q ) = B 100 l   +  B 010 f   +  B 001 q Model 2:  F ( b,f,q ) = B 100 l   +  B 010 f   +  B 001 q  +  B 110 lf   +  B 101 lq   +  B 011 fq  Model 3:  F ( b,f,q ) = B 200 l 2   +  B 020 f 2   +  B 002 q 2 и т.д., как в предыдущем случае   где: f  –  уровень компетентности  в первом вопросе пассажира   ('any train to…?‘  vs. 'regional express at night to…?', etc.)  l  – использованная  специализированная лексика   (номер поезда,..)   q –  вопрос-ответ ,  который относится к вопросам пассажира и может отражать положительный и отрицательный ответ
Компетентность, результаты Наилучшая модель F (f,l,q) =  0.52 f  +  0.19 l  +  0.16 q
Выводы ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Индексация Текстов   Выявление гранулярности   терминологии  предметной области
Индексация   это процесс отбора и взвешивания ключевых слов Ключевые слова используются для :  A.  Суммаризации  документов Б .  Кластеризация  документов В .  Построение  онтологии Мы полагаем, что -   корпус документов отражает несколько тем имеющих  различную степень гранулярности -  имеются  слова  ответственные за каждый уровень Метод Introduction Введение Определения Эксперимент
Главные термины  области Рост специфичности Применения гранулированных терминов: 1. Суммаризация документов по различным  уровням детальности 2.  Кластеризация документов на различных  уровнях детальности 3.  Построение онтологий для различных  уровней детальности Мы можем назвать общие термины  предметной области как  coarse-grained terms   и очень специализированные термины как fine-grained terms  Проблема :  собрать вместе термины, связанные  с одним  уровнем гранулярности Метод Введение Введение Определения Эксперимент
Определение гранулярности на основе корпуса текстов (corpus-based granularity):   Уровни гранулярности это классы терминов, имеющих близкие  значения специфичности Пусть  s 0 , s 1 ,..., s n  расщепление шкалы специфичности  на  n сегментов, так что  s i   ≥  s i+1 , s 0 =S,   s n =s .  Точки  s i  называются  точками перехода  так как они находятся  на границах между примыкающими уровнями гранулярности Введение Определения Метод Эксперимент Определения
Definitions Определение проблемы:   Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности.  Проблема гранулярности может быть разделена на две  подпроблемы: 1. Aппроксимация специфичности терминов предметной области посредством некоторой схемы взвешивания –  основанной на энтропии –  основанной на стандартной девиации 2. Размещение точек перехода на оси специфичности Мы будем использовать  идеи  индуктивного моделирования Введение Определения Метод Эксперимент Определения
Введение Определения Метод Эксперимент Аппроксимация специфичности Пусть  D=(d 1 , ..., d N )  коллекция документов и  X=(x 1 , ..., x N )  частота слова  w  в документе  d i . 1. Общность/гранулярность основанная на энтропии: где 2. Общность/гранулярность, основанная на станд. девиации: где
Мы используем  ИМСОМ-подобный  алгоритм Напомним   основные шаги  ИМСОМ: 1. Эксперт определяет  последовательность моделей   от простейшей к более сложным 2. Экспериментальные данные делятся на обучающую  и контрольную выборки 3. Для заданного вида модели определяются наилучшие параметры на обучающей выборке с помощью некоторого внутреннего критерия  (например МНК)  <=  сейчас шаг исключен 4. Полученная модель проверяется на контрольной выборке  на основе некоторого  внешнего критерия . Глобальный минимум внешнего критерия определяет оптимальную модель Введение Определения Метод Эксперимент Описание ИМСОМ
Первое, мы делим данные на  два набора : обучающий и контрольный и затем мы упорядочиваем все слова согласно их специфичности :  Затем мы вычисляем расстояние между двумя наборами, используя  скользящее окно Введение Оределения Метод Эксперимент Метод
Шаги алгоритма 1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины внутри  этого окна для обоих наборов данных 2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных.  В наших экспериментах мы используем относительную энтропию для специфичности, основанной на энтропии, и евклидово  расстояние длдя энтропии, основанной на девиации.  3. Перемещаем окно специфичности и переходим к Шагу 2. Введение Определения Метод Эксперимент Метод
Главная гипотеза:   Если распределения специфичностей обучающей и контрольной выборки документов внутри некоторого окна специфичности близки , то  термины, содержащиеся в этом окне принадлежат одному и тому же уровню гранулярности. Окна, где два распределения достигают максимального  расстояния, содержит точки неустойчивости, т.е. точки перехода от одного уровня гранулярности к другому.  Введение Определения Метод Эксперимент Метод
Внешние критерии Давайте зафиксируем одно и тоже окно  Δ s =  [ s1,s2 ]  внутри  диапазонов специфичности обучащего и контрольного наборов  данных и давайте обозначим  p t =p t ( Δ s)  и  p c =p c ( Δ s)  распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно. 1. Относительная энтропия (или расстояние Кульбака-Лейбла): 2. Нормализованная версия Евклидова расстояния: Введение Определения Метод Эксперимент Метод
Мы используем корпус, названный hep-ex, изначально принадлежащий  CERN -у.  Он состоит из абстрактов статей, связанных с различными  направлениями физики. Техника препроцессинга: удаление стоп-слов и стемминг Введение Определения Метод Эксперимент Характеристики корпуса
Поведение критерия K1 (основанный на энтропии)  для различной длины окна Введение Определение Метод Эксперимент Результаты экспериментов  ( крит.  K 1 ) Границы между уровнями гранулярности
Поведение критерия K1 (основанного на энтропии)  для различных разбиений корпуса Введение Определения Метод Эксперимент Результаты экспериментов  ( крит.  K 1 )  Границы между уровнями гранулярности
Введение Определения Метод Эксперимент Результаты экспериментов  ( крит.  K 2 ) Поведение критерия K2 (основанного на девиации) для различных длин окна Границы между уровнями
Введение Определения Метод Эксперимент Результаты экспериментов  ( крит.  K 2 ) Поведение критерия K2 (основанного на девиации)  для различных разбиений корпуса Границы между уровнями гранулярности
Слова в Таблице упорядочены согласно их специфичности Введение Определения Метод Эксперимент Примеры списков терминов
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Введение Определения Метод Эксперимент Выводы
Ресурсы http://www.mgua.irtc.org.ua/ru/index.php?page=index http://www.gmdh.net/index.html Отдел информационных технологий индуктивного моделирования Международный научно-учебный центр информационных технологий и систем, НАН и МОН Украины; пр.Глушкова 40, Киев, 03680, Украина профессор, д.т.н.  В.С. Степашко ============ http://   www.machinelearning.ru Машинное обучение (курс лекций, К.В.Воронцов)
Индуктивное моделирование:  содержание и примеры применения  в задачах обработки текстов М. Александров   Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания MA lexandrov@ mail.ru Петербург  2010

More Related Content

What's hot

Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсия
Evgeny Smirnov
 
манжос мет интервалов
манжос мет интерваловманжос мет интервалов
манжос мет интервалов
urvlan
 
Массивы в Java
Массивы в JavaМассивы в Java
Массивы в Java
metaform
 
проектная деятельность
проектная деятельностьпроектная деятельность
проектная деятельность
Xep3HaetKto
 
Задачи по ООП в ruby
Задачи по ООП в rubyЗадачи по ООП в ruby
Задачи по ООП в ruby
Evgeny Smirnov
 
20111016 inroduction to_combinatorics_on_words_frid_lecture04
20111016 inroduction to_combinatorics_on_words_frid_lecture0420111016 inroduction to_combinatorics_on_words_frid_lecture04
20111016 inroduction to_combinatorics_on_words_frid_lecture04
Computer Science Club
 
Практикум по выполнению блока с информатика
Практикум по выполнению блока с информатикаПрактикум по выполнению блока с информатика
Практикум по выполнению блока с информатика
Екатерина Луговова
 
Базовые операторы Java
Базовые операторы JavaБазовые операторы Java
Базовые операторы Java
metaform
 

What's hot (18)

Алгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсияАлгоритмы на ruby: перебор и рекурсия
Алгоритмы на ruby: перебор и рекурсия
 
Лекция 10 NP-полнота
Лекция 10 NP-полнотаЛекция 10 NP-полнота
Лекция 10 NP-полнота
 
Ruby — Паттерны программирования
Ruby — Паттерны программированияRuby — Паттерны программирования
Ruby — Паттерны программирования
 
Инкапсуляция и полиморфизм в ruby
Инкапсуляция и полиморфизм в rubyИнкапсуляция и полиморфизм в ruby
Инкапсуляция и полиморфизм в ruby
 
манжос мет интервалов
манжос мет интерваловманжос мет интервалов
манжос мет интервалов
 
Ruby: основы ООП
Ruby: основы ООПRuby: основы ООП
Ruby: основы ООП
 
Java. Логические операторы, операторы ветвления.
Java. Логические операторы, операторы ветвления.Java. Логические операторы, операторы ветвления.
Java. Логические операторы, операторы ветвления.
 
Ruby: работа с массивами
Ruby: работа с массивамиRuby: работа с массивами
Ruby: работа с массивами
 
Массивы в Java
Массивы в JavaМассивы в Java
Массивы в Java
 
проектная деятельность
проектная деятельностьпроектная деятельность
проектная деятельность
 
Algoritm
AlgoritmAlgoritm
Algoritm
 
Задачи по ООП в ruby
Задачи по ООП в rubyЗадачи по ООП в ruby
Задачи по ООП в ruby
 
Metod intervaljv
Metod intervaljvMetod intervaljv
Metod intervaljv
 
20111016 inroduction to_combinatorics_on_words_frid_lecture04
20111016 inroduction to_combinatorics_on_words_frid_lecture0420111016 inroduction to_combinatorics_on_words_frid_lecture04
20111016 inroduction to_combinatorics_on_words_frid_lecture04
 
Практикум по выполнению блока с информатика
Практикум по выполнению блока с информатикаПрактикум по выполнению блока с информатика
Практикум по выполнению блока с информатика
 
Базовые операторы Java
Базовые операторы JavaБазовые операторы Java
Базовые операторы Java
 
дистанционка
дистанционкадистанционка
дистанционка
 
Java. Наследование.
Java. Наследование.Java. Наследование.
Java. Наследование.
 

Viewers also liked

2009 Meet The Principal
2009 Meet The Principal2009 Meet The Principal
2009 Meet The Principal
ph0enix74
 
La 5 Programming1
La 5   Programming1La 5   Programming1
La 5 Programming1
Cma Mohd
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
Lidia Pivovarova
 
Uchitelska Prezentacia
Uchitelska PrezentaciaUchitelska Prezentacia
Uchitelska Prezentacia
mazur_taja
 
онтологии верхнего уровня
онтологии верхнего уровняонтологии верхнего уровня
онтологии верхнего уровня
Lidia Pivovarova
 

Viewers also liked (16)

Topics In Critical Pedagogy
Topics In Critical PedagogyTopics In Critical Pedagogy
Topics In Critical Pedagogy
 
Atestace infromačních systémů veřejné správy
Atestace infromačních systémů veřejné správyAtestace infromačních systémů veřejné správy
Atestace infromačních systémů veřejné správy
 
WiPromo Overview
WiPromo OverviewWiPromo Overview
WiPromo Overview
 
Demand-Side Supply Chain - For the Fishes!
Demand-Side Supply Chain - For the Fishes!Demand-Side Supply Chain - For the Fishes!
Demand-Side Supply Chain - For the Fishes!
 
I M S Rubashkin
I M S RubashkinI M S Rubashkin
I M S Rubashkin
 
A Tweet Analysis: @Scobleizer
A Tweet Analysis: @ScobleizerA Tweet Analysis: @Scobleizer
A Tweet Analysis: @Scobleizer
 
Anomalous Behavior Of SSPC In Highly Crystallized Undoped Microcrystalline Si...
Anomalous Behavior Of SSPC In Highly Crystallized Undoped Microcrystalline Si...Anomalous Behavior Of SSPC In Highly Crystallized Undoped Microcrystalline Si...
Anomalous Behavior Of SSPC In Highly Crystallized Undoped Microcrystalline Si...
 
2009 Meet The Principal
2009 Meet The Principal2009 Meet The Principal
2009 Meet The Principal
 
La 5 Programming1
La 5   Programming1La 5   Programming1
La 5 Programming1
 
об альтернативах коллокациям
об альтернативах коллокациямоб альтернативах коллокациям
об альтернативах коллокациям
 
Uchitelska Prezentacia
Uchitelska PrezentaciaUchitelska Prezentacia
Uchitelska Prezentacia
 
Extending the virtual and physical learning environments
Extending the virtual and physical learning environmentsExtending the virtual and physical learning environments
Extending the virtual and physical learning environments
 
Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.
 
The future of the Adobe Flash platform
The future of the Adobe Flash platformThe future of the Adobe Flash platform
The future of the Adobe Flash platform
 
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
Acquireren Mkb Deventer Slimmer Reeks 30 Maart 2010
 
онтологии верхнего уровня
онтологии верхнего уровняонтологии верхнего уровня
онтологии верхнего уровня
 

Similar to Михаил Александров, Индуктивное моделирование

Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
Technopark
 
тема множество для загрузки 2013
тема множество для загрузки 2013тема множество для загрузки 2013
тема множество для загрузки 2013
AliyaAringazinova
 
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
Nikolay Grebenshikov
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
Noobie312
 
Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2
LiloSEA
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
Technopark
 

Similar to Михаил Александров, Индуктивное моделирование (20)

Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1Алгоритмы и структуры данных осень 2013 лекция 1
Алгоритмы и структуры данных осень 2013 лекция 1
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
тема множество для загрузки 2013
тема множество для загрузки 2013тема множество для загрузки 2013
тема множество для загрузки 2013
 
Типы данных
Типы данныхТипы данных
Типы данных
 
6
66
6
 
алгоритм циклический
алгоритм циклическийалгоритм циклический
алгоритм циклический
 
алгоритм
алгоритмалгоритм
алгоритм
 
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
Лекция №2. Алгоритмические проблемы. Стандартные схемы программ. Предмет "Тео...
 
Лекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмыЛекция 11 Приближенные алгоритмы
Лекция 11 Приближенные алгоритмы
 
лекции 3 4 тема 1
лекции 3 4 тема 1лекции 3 4 тема 1
лекции 3 4 тема 1
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Введение в машинное обучение
Введение в машинное обучение Введение в машинное обучение
Введение в машинное обучение
 
Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2Nikolay Shilov. CSEDays 2
Nikolay Shilov. CSEDays 2
 
Алгоритмы решения Судоку
Алгоритмы решения СудокуАлгоритмы решения Судоку
Алгоритмы решения Судоку
 
Линейные коды
Линейные кодыЛинейные коды
Линейные коды
 
Алгоритмы решения задачи о булевой выполнимости (SAT) и их применение в крипт...
Алгоритмы решения задачи о булевой выполнимости (SAT) и их применение в крипт...Алгоритмы решения задачи о булевой выполнимости (SAT) и их применение в крипт...
Алгоритмы решения задачи о булевой выполнимости (SAT) и их применение в крипт...
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
 
87
8787
87
 
Евгений Котельников. Зависимые типы в Haskell
Евгений Котельников. Зависимые типы в HaskellЕвгений Котельников. Зависимые типы в Haskell
Евгений Котельников. Зависимые типы в Haskell
 
презентация1
презентация1презентация1
презентация1
 

More from Lidia Pivovarova

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

Михаил Александров, Индуктивное моделирование

  • 1. Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания Петербург 2010 Академия народного хозяйства при Правительстве РФ Кафедра системного анализа и информатики
  • 2. Коллеги и со-авторы Pavel Makagonov Research Professor Mixteca University of Technology, Mexico Ex- Subdirector of Moscow Mayor Office mpp2003@ inbox.ru Xavier Blanco Titled Professor of French Philology Department Universidad Autonoma de Barcelona, Spain xavier.blanco@ uab.cat Angels Catena Coordinator of Master Program Professor of French Philology Department Universidad Autonoma de Barcelona, Spain angels.catena@ uab.cat
  • 3. Коллеги и со-авторы Alexander Gelbukh Chief of NLP Laboratory Center for Computing Research National Polytechnic Institute, Mexico gelbukh@ gelbukh.com Natalia Ponomareva Ph.D. student Mathematician-Programmer Wolwergampton University, UK nata.ponomareva@ gmail.com
  • 4.
  • 5. Индуктивное Моделирование Возможности ИМСОМ позволяет выбрать модель оптимальной сложности из заданного класса моделей, чтобы описать ограниченный набор экспериментальных данных Приложения - Аппроксимация функций - Выбор вычислительной схемы - Cluster validity - Self-organizing Data Mining - Обучение нейронных сетей и т.д.
  • 6. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация дана  Заданная информация - Тип зависимости ( формула ) - Серия моделей из заданного класса и уровень шума и т.п . Экспериментальные данные
  • 7. Индуктивное моделирование Мы имеем начальную информацию Заданная регрессионная модель Y m = a 0 + a 1 t or Y m = a 0 +a 1 t + a 2 t 2 , etc. || Y m – Y e || => мин ( используем МНК) Серия моделей из заданного класса с заданным уровнем шума Y m = a 0 +a 1 t + a 2 t 2 + ..... || Y m – Y e || => ε 2 ( используем МНК) МНК = метод наименьших квадратов Точки – эксперим. данные Красные линии – возм. модели Корридор отражает ошибку ε 2
  • 8. Индуктивное моделирование Каноническая проблема Описание временного ряда некоторой формулой Начальная информация отсутствует  У нас нет начальной информации В этом случае мы используем Инндуктивное Моделирование Для этого мы фиксируем класс моделей Замечание : класс моделей должен отражать возрастающую сложность модели Экспериментальные данные
  • 9. Индуктивное Моделирование Принцип индуктивности Метод не может найти самую оптимальную модель в непрерывном классе моделей. Он основан на соревновании моделей из заданного класса Пример класса моделей : полиномы одной пременной (t) Y 0 = a 0 Y 1 = a 0 +a 1 t Y 2 = a 0 +a 1 t + a 2 t 2 ; ........ Пример класса моделей : линейные многих пременных ( x 1 ,x 2 ..) Y 0 = a 0 Y 11 = a 0 + a 1 x 1 ; Y 12 = a 0 +a 2 x 2 ................ Y 1... = a 0 +a 10 x 10 ........... Y 21 = a 0 + a 1 x 1 + a 2 x 2 Y 22 = a 0 + a 1 x 1 + a 3 x 3 .. . Y 2... = a 0 + a 9 x 9 +a 99 x 99 ..
  • 10. Индуктивное моделирование Подход 1 Мы должны обеспечить хорошие свойства прогнозирования, то есть низкую чувствительность к новым данным Критерий 1 ( регулярность ) M одель, o бученная на 1-м наборе данных должна давать хорошие результаты на втором наборе данных ( T обучение , C контроль ) Точки - эксперим. данные Красные линии – возм. модель
  • 11. Индуктивное моделирование Подход 2 Мы должны обеспечить хорошее описательное свойство. Критерий 2 ( несмещенность ) Модель, обученная на 1-м наборе и проверенная на 2-м наборе (красная линия) должна быть подобна модели, обученной на 2-м наборе и проверенной на 1-м наборе (фиолетовая прямая) Экспериментальные данные
  • 12.
  • 13. Статистический стеммер Построение эмпирической формулы, обученной на примерах
  • 14. Постановка задачи Стемминг Состоит в выборе части слова, отражающей основное значение слова Примеры sad , sad ly , sad ness , sad den , sad dened mov e, mov ing, mov ed, [ moveable <= ? ] Применение Индексация ( параметризация ) текстов, где используются частотные списки слов
  • 15. Постановка задачи Проблема Построить формулу для принятия решения о подобии пары слов Актуальность Нам приходится обрабатывать многоязыковые корпуса и документов. Реальность: 25 официальных языков в Европе Ограничения подхода Только для флективных языков
  • 16. Эмпирические формулы Модели для принятия решений Какую формулу стоит настраивать под примеры, заданные экспертом? n / s < C n/s < F ( s ) n/s < F ( y ) n/s < F ( y/s ) etc. Здесь : C константа y длина общей части пары слов ( y -yes) n длина финальных частей ( n -no) s общая длина пары слов ( s -sum) F ( t ) = a 0 +a 1 t+a 2 t 2 +a 3 t 3 .... Примеры 1) ask ing ask ed y = 3 n = 5 s = 11 2) translat ion translat ed y = 8 n = 5 s = 21
  • 17.
  • 18. Дискриминация длинных слов yyynn yyynn n/s = 0.4 yyyyyynnnn yyyyyynnnn n/s = 0.4 <= Пусть они подобны <= Меньшая вероятность, что они подобны Объяснение Финальная флективная часть в среднем имеет имеет ту же самую длину независимо от начальной основной части. Действительно : -ing, -ly, -ingly, -al, -able, -ed, .... те же самые как для длинных, так и для коротких слов Эмпирические формулы
  • 19.
  • 20.
  • 21. ИМСОМ - Реализация Пример n/s = a 0  + a 1 y + a 2 y 2 +... .   ask ing ask ed n = 5 s = 11 y = 3 0- порядок 5/11 = a 0    Линейная 5 /11 = a 0  + a 1 3   Квадратичная 5 /11 = a 0  + a 1 3 + a 2 9 и т.д. Решение Для решения системы линейных уравнений мы используем мы используем МНК – метод наименьших квадратов
  • 22.
  • 23. Результаты Формулы ( линейные модели ) French n/s    0.48 – 0.024 y Italian n/s    0.57 – 0.035 y Portugal n/s    0.53 – 0.029 y Spanish n/s    0.55 – 0.029 y Common n/s  0.53 – 0.029 y Точность Лемматизация 100%,~100% Стемминг (Porter) > 90% Эмпирическая формула ~ 80%-90%
  • 24.
  • 25.
  • 26. S ubjectivity/Sentiment Analysis Построение эмпирических формул для автоматической оценки вежливости, удовлетворенности и компетентности на основе диалогов
  • 27. Введение Subjectivity/ Sentiment анализ это область обработки естественных языков ( NLP ) , которая направлена на автоматическую оценку эмоций и мнений людей по отношению к некоторому объекту или событию. event. Эта тема стала популярной в эпоху Web 2.0 Это может быть интересно для таких бизнесс приложений , как: 1. Удовлетворенность покупателей товарами и услугами 2. Мнениями, относящимися к продуктам или событиям 3. Компетенции, касающейся существующего сервиса
  • 28.
  • 30. Параметризация А. Индиктор первого приветствия ( g - greeting ) Двоичный параметр , имеет значение 1, при первом приветствии «Could you please inform me ...» и значение 0 , если нет t: «I need the information about ...» Б. Вежливые слова ( w - words ): «please», «thank you», «excuse me» В. Вежливые грамматические формы ( v - verbs ) : глаголы в состагательном наклонении, то есть «could», «would»,...
  • 31.
  • 32. Параметризация Ручные оценки учитывают только вежливость ( но не грубость ) по шкале: 0 - обычная вежливость 0.5 - повышенная вежливость 1 - чрезмерная вежливость
  • 34. Исходные данные Данные состояли из 85 диалогов между пассажирами и справочной железнодорожного вокзала Барселоны Язык – испанский и каталанский
  • 35. ИМСОМ – Реализация Мы предположили, что зависимость между числовыми индикаторами и и уровнем вежливости может быть описана полиномиальной моделью . Серия моделей увеличивающейся сложности : Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 + B 02 v 2
  • 36. ИМСОМ – Реализация Обучение : 30 Контроль : 30 Экзамен : 25 Model 1: F ( g,w,v ) = A 0 Model 2: F ( g,w,v ) = C 0 g Model 3: F ( g,w,v ) = A 0 + C 0 g Model 4: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v Model 5: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw Model 6: F ( g,w,v ) = A 0 + C 0 g + B 10 w 2 + B 01 v 2 Model 7: F ( g,w,v ) = A 0 + C 0 g + B 11 vw + B 20 w 2 + B 02 v 2 Model 8: F ( g,w,v ) = A 0 + C 0 g + B 10 w + B 01 v + B 11 vw + B 20 w 2 +B 02 v 2
  • 37. Результаты Итоговая формула для оценки вежливости : F( g, w, v ) = -0.14 + 0.28 g + 3.59 w + 3.67 v После пересчета без свободного члена (intercept) было получено: F (g, w, v) = 0.2 g + 3.7 w + 3.1 v Statistical analysis Среднеквадратичная оценка ε = 0.24 ( чуть менее шага )
  • 38. Удовлетворенность, параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 b + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq Model 3: F ( b,f,q ) = B 200 b 2 + B 020 f 2 + B 002 q 2 Model 4: F ( b,f,q ) = B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 Model 5: F ( b,f,q ) = B 100 b + B 010 f + B 001 q + B 110 bf + B 101 bq + B 011 fq + B 200 b 2 + B 020 f 2 + B 002 q 2 где : b and f – положительная обратная связь с пользователем, в теле диалога ( 'well', 'ok', 'all right', 'correct', 'splendid', etc) и конце q – вопрос-ответ, что отражает неудовлетворенность
  • 39. Удовлетворенность, результаты Наилучшие модели F ( b,f,q ) = 0.18 b + 0.06 f - 1.11 q F ( b,f,q ) = 0.20 b 2 + 0.006 f 2 - 1.78 q 2
  • 40. Компетентность,параметризация Серия моделей Model 0 : F ( b,f,q ) = A 0 Model 1: F ( b,f,q ) = B 100 l + B 010 f + B 001 q Model 2: F ( b,f,q ) = B 100 l + B 010 f + B 001 q + B 110 lf + B 101 lq + B 011 fq Model 3: F ( b,f,q ) = B 200 l 2 + B 020 f 2 + B 002 q 2 и т.д., как в предыдущем случае где: f – уровень компетентности в первом вопросе пассажира ('any train to…?‘ vs. 'regional express at night to…?', etc.) l – использованная специализированная лексика (номер поезда,..) q – вопрос-ответ , который относится к вопросам пассажира и может отражать положительный и отрицательный ответ
  • 41. Компетентность, результаты Наилучшая модель F (f,l,q) = 0.52 f + 0.19 l + 0.16 q
  • 42.
  • 43. Индексация Текстов Выявление гранулярности терминологии предметной области
  • 44. Индексация это процесс отбора и взвешивания ключевых слов Ключевые слова используются для : A. Суммаризации документов Б . Кластеризация документов В . Построение онтологии Мы полагаем, что - корпус документов отражает несколько тем имеющих различную степень гранулярности - имеются слова ответственные за каждый уровень Метод Introduction Введение Определения Эксперимент
  • 45. Главные термины области Рост специфичности Применения гранулированных терминов: 1. Суммаризация документов по различным уровням детальности 2. Кластеризация документов на различных уровнях детальности 3. Построение онтологий для различных уровней детальности Мы можем назвать общие термины предметной области как coarse-grained terms и очень специализированные термины как fine-grained terms Проблема : собрать вместе термины, связанные с одним уровнем гранулярности Метод Введение Введение Определения Эксперимент
  • 46. Определение гранулярности на основе корпуса текстов (corpus-based granularity): Уровни гранулярности это классы терминов, имеющих близкие значения специфичности Пусть s 0 , s 1 ,..., s n расщепление шкалы специфичности на n сегментов, так что s i ≥ s i+1 , s 0 =S, s n =s . Точки s i называются точками перехода так как они находятся на границах между примыкающими уровнями гранулярности Введение Определения Метод Эксперимент Определения
  • 47. Definitions Определение проблемы: Выявление уровней гранулярности эквивалентно проблеме размещения точек перехода на оси специфичности. Проблема гранулярности может быть разделена на две подпроблемы: 1. Aппроксимация специфичности терминов предметной области посредством некоторой схемы взвешивания – основанной на энтропии – основанной на стандартной девиации 2. Размещение точек перехода на оси специфичности Мы будем использовать идеи индуктивного моделирования Введение Определения Метод Эксперимент Определения
  • 48. Введение Определения Метод Эксперимент Аппроксимация специфичности Пусть D=(d 1 , ..., d N ) коллекция документов и X=(x 1 , ..., x N ) частота слова w в документе d i . 1. Общность/гранулярность основанная на энтропии: где 2. Общность/гранулярность, основанная на станд. девиации: где
  • 49. Мы используем ИМСОМ-подобный алгоритм Напомним основные шаги ИМСОМ: 1. Эксперт определяет последовательность моделей от простейшей к более сложным 2. Экспериментальные данные делятся на обучающую и контрольную выборки 3. Для заданного вида модели определяются наилучшие параметры на обучающей выборке с помощью некоторого внутреннего критерия (например МНК) <= сейчас шаг исключен 4. Полученная модель проверяется на контрольной выборке на основе некоторого внешнего критерия . Глобальный минимум внешнего критерия определяет оптимальную модель Введение Определения Метод Эксперимент Описание ИМСОМ
  • 50. Первое, мы делим данные на два набора : обучающий и контрольный и затем мы упорядочиваем все слова согласно их специфичности : Затем мы вычисляем расстояние между двумя наборами, используя скользящее окно Введение Оределения Метод Эксперимент Метод
  • 51. Шаги алгоритма 1. Фиксируем длину окна специфичности, прикладываем его к началу диапазона специфичности и берем термины внутри этого окна для обоих наборов данных 2. Вычисляем расстояние (внешний критерий) между распределениями специфичности обоих наборов данных. В наших экспериментах мы используем относительную энтропию для специфичности, основанной на энтропии, и евклидово расстояние длдя энтропии, основанной на девиации. 3. Перемещаем окно специфичности и переходим к Шагу 2. Введение Определения Метод Эксперимент Метод
  • 52. Главная гипотеза: Если распределения специфичностей обучающей и контрольной выборки документов внутри некоторого окна специфичности близки , то термины, содержащиеся в этом окне принадлежат одному и тому же уровню гранулярности. Окна, где два распределения достигают максимального расстояния, содержит точки неустойчивости, т.е. точки перехода от одного уровня гранулярности к другому. Введение Определения Метод Эксперимент Метод
  • 53. Внешние критерии Давайте зафиксируем одно и тоже окно Δ s = [ s1,s2 ] внутри диапазонов специфичности обучащего и контрольного наборов данных и давайте обозначим p t =p t ( Δ s) и p c =p c ( Δ s) распределения специфичности терминов, покрываемых этим окном для обоих наборов данных соответственно. 1. Относительная энтропия (или расстояние Кульбака-Лейбла): 2. Нормализованная версия Евклидова расстояния: Введение Определения Метод Эксперимент Метод
  • 54. Мы используем корпус, названный hep-ex, изначально принадлежащий CERN -у. Он состоит из абстрактов статей, связанных с различными направлениями физики. Техника препроцессинга: удаление стоп-слов и стемминг Введение Определения Метод Эксперимент Характеристики корпуса
  • 55. Поведение критерия K1 (основанный на энтропии) для различной длины окна Введение Определение Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности
  • 56. Поведение критерия K1 (основанного на энтропии) для различных разбиений корпуса Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 1 ) Границы между уровнями гранулярности
  • 57. Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных длин окна Границы между уровнями
  • 58. Введение Определения Метод Эксперимент Результаты экспериментов ( крит. K 2 ) Поведение критерия K2 (основанного на девиации) для различных разбиений корпуса Границы между уровнями гранулярности
  • 59. Слова в Таблице упорядочены согласно их специфичности Введение Определения Метод Эксперимент Примеры списков терминов
  • 60.
  • 61. Ресурсы http://www.mgua.irtc.org.ua/ru/index.php?page=index http://www.gmdh.net/index.html Отдел информационных технологий индуктивного моделирования Международный научно-учебный центр информационных технологий и систем, НАН и МОН Украины; пр.Глушкова 40, Киев, 03680, Украина профессор, д.т.н. В.С. Степашко ============ http:// www.machinelearning.ru Машинное обучение (курс лекций, К.В.Воронцов)
  • 62. Индуктивное моделирование: содержание и примеры применения в задачах обработки текстов М. Александров Академия народного хозяйства при Правительстве РФ Автономный Университет Барселоны, Испания MA lexandrov@ mail.ru Петербург 2010