SlideShare a Scribd company logo
Интеллектуальный анализ текста
Лидия Пивоварова
Университет Хельсинки
Семинар по бизнес-информатике
18 ноября 2016, Moсква
● Бизнес-информация:
– внутренняя/внешняя
– структурированная/неструктурированная
● Структурированные данные:
– Количественная информация
– Развитые инструменты анализа (основанные на статистике)
● Неструктурированные данные:
– Качественная информация (текст) дает ответ на вопрос
”почему?” (почему падают цены, растет оборот...)
– Все бизнес-аналитики читают новости (цифр недостаточно)
– Инструменты анализа активно развиваются – основная задача
перевести данные из неструктурированной в
структурированную форму
Мотивация
Анализ текстовых данных
КАЧЕСТВОСТОИМОСТЬ
– Google
– Yahoo!
● Бесплатно, быстро
● Поверхностно
● Времязатратно
– Bloomberg
– Gartner
● Высококачественно
● Индивидуально
● Медленно, дорого
Основная задача:
автоматический анализ с качеством ручного
Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
Технологии
● Анализ текста производится иерархически:
– Токенизация
– Морфологический анализ
– Сборка единиц, эквивалентных слову (в том числе
имен)
– (Частичный) синтаксис
– Семантический анализ
● Для низкоуровневых задач, как правило,
используются готовые инструменты;
семантический анализ, как правило, приходится
делать заново
Фактографический поиск
Information Extraction – извлечение из текста
информации определенного типа и
представление ее в заданном формате
(чаще всего БД)
Information
Retrieval
Text
Understanding
Information
Extraction
Основная идея
●
Задача всегда предельно конкретна:
– определенный тип текста
– искомая информация представлена в виде
набора полей для заполнения
●
Текст, включающий такую информацию,
предельно шаблонный
●
Поиск осуществляется при помощи набора
образцов
Цели
●
Пополнение баз данных (и баз знаний)
●
Получение входных данных для работы
других систем
●
Привлечение внимания эксперта к
значимым аспектам информации
Образцы
●
Состав образцов:
– Лексика, семантика
– Частичный синтаксис
– Близость, взаимное расположение частей
●
Формат:
– Зависит от формата представления текста в системе
– Часто используются специальные языки (грамматики)
●
Построение образцов:
– Вручную
– Машинное обучение (bootstrapping)
– Обобщение образцов с привлечением словарных и/или
онтологических ресурсов
Машинное обучение
●
Pro:
– не требует большого количества ручного труда
по написанию правил
– система более гибкая, ее легко перенастроить
●
Contra:
– требуется большой обучающий корпус,
правильно и полностью размеченный
– сложно отследить в каком именно месте
возникла ошибка и исправить ее «точечно»
Правила
●
Pro:
– Может быть предпочтительна в случае сложной
предметной области и/или отсутствия
лингвистических ресурсов
●
Contra
– Большая ручная работа, требующая
специальной квалификации
– Трудно перенастраивать
●
Возможны (и даже предпочтительны)
гибридные подходы
– выработка общих подходов к методологии и способам оценки
систем извлечения информации из текста.
Год Источники Предметная область
MUC-1 1987 военные сводки военно-морские операции
MUC-2 1989 военные сводки военно-морские операции
MUC-3 1991 новости Террористическая активность
MUC-4 1992 новости Террористическая активность
MUC-5 1993 новости совместные предприятия, производство
MUC-6 1995 новости смена лидеров на рынке
MUC-7 1997 новости крушения самолетов, запуски ракет
MUC (Message Understanding
Conference), 1987-1997
● Named Entity recognition - выделение именованных
сущностей
● Coreference resolution - разрешение кореференции
● Template Element construction - добавление
атрибутов к сущностям, найденным на этапе NE, с
использованием CR
● Template Relation construction – выявление связей
между отдельными сущностями
● Scenario Template production – построение полного
описания события (факта) путем объединения
результатов TE и TR
Дорожки MUC
Блестящая красная ракета была запущена во вторник. Это изобретение
доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет
Инкорпорейтед.
Named Entity recognition:
доктор Биг Хед, Хед, Билд Рокет
Инкорпорейтед
ракета, вторник…
Сoreference resolution:
доктор Биг Хед  Хед
это → ракета
Template Element construction:
Ключ Объект Цвет Светоотражательные
свойства
0267 Ракета Красная Блестящая
Блестящая красная ракета была запущена во вторник. Это
изобретение доктора Биг Хеда. Хед - штатный научный сотрудник
Билд Рокет Инкорпорейтед.
Template Relation construction:
Scenario Template production:
Ключ Объект Цвет Светоотражательные
свойства
Изобретен
0267 Ракета Красная Блестящая 7824
Ключ ФИО Степень Работает Должность
7824 Биг Хед Доктор 2345 452
Ключ Тип события Объект Дата
18 Запуск 0267 Вторник
Извлечение именованных
сущностей
●
Named Entity:
– Стандартные примеры: персоналии, географические
названия, организации…
– В бизнесе: названия компаний, продуктов, брендов,
персоналии...
●
Не только для Information Extraction: ответы на
вопросы, извлечение мнений, реферирование…
●
Named Entity Recognition: Information Extraction в
миниатюре; проще, потому что не нужно
извлекать связи между понятиями
Основные подходы
●
Основанный на знаниях:
– список имен собственных
– регулярные выражения, описывающие именованные
сущности
– образцы, описывающие контекст
●
Машинное обучение
– обучающий корпус
– определение характерных свойств
– поиск по этим свойствам
Извлечение отношений между
понятиями
●
Отношения:
– Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ…
– Специфические для предметной области – СТРАНА-
СТОЛИЦА, КОМПАНИЯ-БРЕНД…
●
В тексте определяются:
– Свойствами именованных сущностей
– Лексическими свойствами контекста
– Синтаксическими свойствами контекста
●
Извлечение:
– Правила (образцы) vs. машинное обучение
– Поиск: начиная с именованных сущностей vs. Начиная
с отношений
Анафора и кореференция
●
Извлечение информации в масштабах текста
●
Кореференция: возможно использование
экстралингвистической информации
●
Анафора: невозможно использование
экстралингвистической информации
– Вокруг местоимения отыскиваются существительные-
кандидаты
– Проверяется согласование
– Статистики и эвристики
●
Во многих систем не разрешается ни анафора, ни
даже кореференция – трудоемкие алгоритмы, низкое
качество
Recall = Ncorrect /Nall-correct
Precision = Ncorrect /(Ncorrect + Nincorrect )
F-measure = (β2+1 )*r*p/(β2 *r+p)
● Named Entity recognition F<94%
● Coreference resolution F<62%
● Template Element construction F<87%
● Template Relation construction F<76%
● Scenario Template production F<51%
Оценка
Дальнейшее развитие
●
ACE (Automatic Content Extraction) 1999 – 2008
●
По сравнению с MUC:
– более детальная таксономия сущностей
– для всех систем обязательна интерпретация
метонимических связей
– требуется семантический анализ
обрабатываемого текста
●
Text Analysis Conference (TAC) – настоящее
время
Dialog Evaluations 2016
Система фактографического поиска
в газетных текстах
– Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М.,
Чуприн Б. Ю. Методы извлечения
фактографической информации из текстов. Опыт
разработки. // Megaling’2007 Горизонты прикладной
лингвистики и лингвистических технологий–
Симферополь: Изд-во ДиАйПи, 2007.
– Пивоварова Л.М. Фактографический анализ текста в
системе поддержки принятия решений // Вестник
Санкт-Петербургского университета Сер. Филология,
востоковедение, журналистика. 2010. Вып. 4 - 190-197
Система Factors
Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/
Постановка задачи
Задача: извлечение из текстов СМИ
информации общественно-политической
тематики.
Факторы - различные характеристики
общественно-политической ситуации(около
100).
Значения факторов:
● Количественные - число пенсионеров;
средний уровень заработной платы
● Оценочные - социальная напряженность;
военные угрозы
Система Factors:
- интеллектуальная среда для поддержки
работы эксперта-аналитика с текстами.
Режимы работы:
● Автоматический
● Диалоговый
ТЕКСТЫ FACTORS
Фактор Значение
Функциональность:
1. Последовательное наращивание
распознаваемых аспектов содержания в
процессе работы эксперта-аналитика с
системой.
2. Легкость и простота редактирования и
пополнения; визуальное представление
информации.
3. Функциональная расширяемость и
переносимость на другие проблемные и
предметные области.
Образцы
1. Текстовые – выделение в тексте
релевантных фрагментов (при анализе
может проверяться совпадение
синтаксических связей)
2. Концептуальные – сборка образца из
концептов онтологии (при анализе
осуществляется поиск с учетом отношения
«общее-частное»)
3. Смешанные
Образцы
 Фактор + значение
В основном для оценочных факторов
социальная напряженность → стихийный
митинг
 Только фактор
Для количественных факторов:
уровень инфляции →
инфляция составила 4%
Поиск образцов в тексте
население ... право на труд ... ограничение
1) Поиск опорного элемента
население ... право на труд ... ограничение
2) Поиск в окрестности других элементов
население ... право на труд ... ограничение
Для концептов образца – учет синонимов
ограничение = ограниченный, ограничить, ущемление
Параметры поиска предполагают отладку и настройку
Только фактор: поиск значения
Собственный признак фактора – концепт,
отвечающий на вопрос «количество (величина)
чего?»
Уровень зарплаты → заработная плата
Транспортные издержки → траты
Число пенсионеров → пенсионеры
Онтология:
собственный признак ↔ единица измерения
заработная плата ↔ денежная единица
пенсионеры ↔ без единиц
Общий алгоритм поиска
1) Поиск образца
2) Определение собственного признака и
единиц измерения
3) Поиск числа с единицей измерения
4) Проверка соответствия единиц измерения
5) Если число не найдено – поиск слов
большой, маленький, растет, падает и их
синонимов
6) Определение достоверности
 В.Ш. Рубашкин Онтологическая семантика
Анализ тональности сообщений
●
Opinion Mining – извлечение мнений, а не фактов:
– Поиск отзывов о товарах и услугах (как потребителями, так и
производителями)
– Анализ мнений для маркетинговых, политологических,
социологических и др. исследований
●
Sentiment analysis
●
Другие приложения:
– Рекомендательные системы
– Извлечение информации
– Вопросно-ответный поиск
Общая схема
●
Объект O имеет (иерархический) набор
свойств fi
●
Каждое свойство может выражаться
набором слов/словосочетаний wi -
синонимов
●
Субъект (opinion holder) высказывает свое
мнение об O или о каких-то его свойствах
Основные задачи
На уровне документа:
●
Классификация тональности
– Классы: позитивный, негативный, нейтральный
– Предполагается, что каждый документ содержит мнение только об
одном объекте и только одного субьекта
На уровне предложения:
●
Идентификация предложений, содержащих мнения
●
Определение тональности предложения
– Предполагается, что каждое предложение содержит только одно мнение
На уровне свойств:
●
Определение свойств, которые оценивает субъект
●
Сгруппировать синонимы (если они неизвестны)
●
Идентифицировать тональность оценки
Классификация документов
●
Классификация – классическая задача машинного
обучения
●
Различия с тематической классификацией только в
используемых свойствах
– Наличие терминов и их частота (часто взвешенная)
– Части речи – для определения тональности принципиально
важны прилагательные и наречия
– Оценочные слова и словосочетания (словарь или более
сложная структура типа WordNet)
– Синтаксические зависимости – позволяют делать
предположения о семантических отношениях между
оценочными и тематическими словами
– Отрицания – могут изменить мнение на противоположное
Уровень документа и предложения
●
Документ может быть очень противоречивым
●
Требуется переход на уровень предложений
●
Классификация предложений:
– Объективные/субъективные
– И затем негативные/позитивные
●
Но: позитивная оценка объекта не означает
позитивной оценки всех его свойств (и vice
versa)
●
Предложения могут быть очень сложными –
нужно переходить на уровень отдельных
свойств
Оценка свойств
●
Идентификация свойств
●
Группировка синонимов
●
Определение оценок
●
Подходы очень похожи на Information
Extraction:
– (Named) Entity Recognition + установление
фактов (оценок)
– Словари, образцы, машинное обучение
Построение словарей
●
Вручную
●
На основе существующих словарей и
тезаурусов (WordNet)
●
Автоматически
– Bootstrapping
– Шаблоны
– Возможно построение доменно-
ориентированных словарей
Dialog Evaluations 2012
Dialog Evaluations 2015
s
Литература● Fisher, Ingrid E., Margaret R. Garnsey, and Mark E. Hughes. "Natural Language Processing in
Accounting, Auditing and Finance: A Synthesis of the Literature with a Roadmap for Future
Research." Intelligent Systems in Accounting, Finance and Management (2016).
● Curtis, Asher, Vernon J. Richardson, and Roy Schmardebeck. "Investor attention and the pricing
of earnings news." Available at SSRN 2467243 (2014).
● Saggion, Horacio, and Adam Funk. "Extracting opinions and facts for business intelligence."
RNTI Journal, E (17) 119 (2009): 146.
● Sakai, Hiroyuki, and Shigeru Masuyama. "Polarity Assignment to Causal Information Extracted
from Financial Articles Concerning Business Performance of Companies." Research and
Development in Intelligent Systems XXV. Springer London, 2009. 307-320.
● Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis,
dictionaries, and 10‐Ks." The Journal of Finance 66.1 (2011): 35-65.
● Bodnaruk, Andriy, Tim Loughran, and Bill McDonald. "Using 10-k text to gauge financial
constraints." Journal of Financial and Quantitative Analysis 50.04 (2015): 623-646.
● Moore, Andrew, Paul Edward Rayson, and Steven Eric Young. "Domain adaptation using stock
market prices to refine sentiment dictionaries." (2016).
● Boudoukh, Jacob, et al. Which news moves stock prices? a textual analysis. No. w18725.
National Bureau of Economic Research, 2013.
● Tsai, Ming-Feng, Chuan-Ju Wang, and Po-Chuan Chien. "Discovering Finance Keywords via
Continuous-Space Language Models." ACM Transactions on Management Information Systems
(TMIS) 7.3 (2016): 7.
● Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts."
Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.
Извлечение информации
● Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval -
http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf
● Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf
● Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172
● Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007
● Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction -
http://www.stanford.edu/class/cs124/
● Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging -
http://www.stanford.edu/class/cs124/
● Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса
Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32
Определение тональности
● Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition
Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666
● Bing Liu Web Data Mining. Lecture Slides, Chapter 11 –
http://www.cs.uic.edu/~liub/WebMiningBook.html
● Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining-
sentiment-analysis.pdf
● Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in
Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining-
sentiment-analysis-survey.html

More Related Content

What's hot

Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
HRPR Camp - Самое технологичное событие в HR
 
Эффективный IT рекрутинг гениев Реальности
Эффективный IT рекрутинг гениев РеальностиЭффективный IT рекрутинг гениев Реальности
Эффективный IT рекрутинг гениев Реальности
Olga Kotova
 
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследования
Alena Begler
 
Kalanov Denis, IT-Dominanta, itotvet
Kalanov Denis, IT-Dominanta, itotvetKalanov Denis, IT-Dominanta, itotvet
Kalanov Denis, IT-Dominanta, itotvet
IT-Доминанта
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?CodeFest
 
Основы информационного проектирования: моделирование предметной области и UX-...
Основы информационного проектирования: моделирование предметной области и UX-...Основы информационного проектирования: моделирование предметной области и UX-...
Основы информационного проектирования: моделирование предметной области и UX-...
Lara Simonova
 
Низкомолекулярное проектирование: структурированные данные и UX
Низкомолекулярное проектирование: структурированные данные и UXНизкомолекулярное проектирование: структурированные данные и UX
Низкомолекулярное проектирование: структурированные данные и UX
Lara Simonova
 
3 максим иванкин где найти и как вырастить хорошего аналитика
3 максим иванкин   где найти и как вырастить хорошего аналитика3 максим иванкин   где найти и как вырастить хорошего аналитика
3 максим иванкин где найти и как вырастить хорошего аналитикаAnastasiya Usoltseva
 
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.RTC
 
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольская
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольскаяВсеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольская
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольскаяRTC
 

What's hot (12)

бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
Границы и тенденции бизнес-исследований _ Тамара Кулинкович _ www.businessres...
 
Эффективный IT рекрутинг гениев Реальности
Эффективный IT рекрутинг гениев РеальностиЭффективный IT рекрутинг гениев Реальности
Эффективный IT рекрутинг гениев Реальности
 
Информационное обеспечение научного исследования
Информационное обеспечение научного исследованияИнформационное обеспечение научного исследования
Информационное обеспечение научного исследования
 
Kalanov Denis, IT-Dominanta, itotvet
Kalanov Denis, IT-Dominanta, itotvetKalanov Denis, IT-Dominanta, itotvet
Kalanov Denis, IT-Dominanta, itotvet
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?
CodeFest 2013. Иванкин М. — Где найти и как вырастить хорошего аналитика?
 
Основы информационного проектирования: моделирование предметной области и UX-...
Основы информационного проектирования: моделирование предметной области и UX-...Основы информационного проектирования: моделирование предметной области и UX-...
Основы информационного проектирования: моделирование предметной области и UX-...
 
Низкомолекулярное проектирование: структурированные данные и UX
Низкомолекулярное проектирование: структурированные данные и UXНизкомолекулярное проектирование: структурированные данные и UX
Низкомолекулярное проектирование: структурированные данные и UX
 
3 максим иванкин где найти и как вырастить хорошего аналитика
3 максим иванкин   где найти и как вырастить хорошего аналитика3 максим иванкин   где найти и как вырастить хорошего аналитика
3 максим иванкин где найти и как вырастить хорошего аналитика
 
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.
Краснопольская Оксана. О внутреннем зоопарке рекрутера. Или Analyze this.
 
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольская
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольскаяВсеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольская
Всеукраинская конференция рекрутинга. Rtc analyze this оксана краснопольская
 

Viewers also liked

AINL 2016: Eyecioglu
AINL 2016: EyeciogluAINL 2016: Eyecioglu
AINL 2016: Eyecioglu
Lidia Pivovarova
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
Lidia Pivovarova
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
Lidia Pivovarova
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстаYury Katkov
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречияVladimir Lapshin
 
Ответы по русскому
Ответы по русскомуОтветы по русскому
Ответы по русскому
VadimPiven
 
Pädevuste rakendamine
Pädevuste rakendaminePädevuste rakendamine
Pädevuste rakendaminekiq
 
PLC - Organization
PLC - OrganizationPLC - Organization
PLC - Organization
Holy Trinity RCSSD #22
 
Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津
nonnon
 
Amsterdam Music Ss3
Amsterdam Music Ss3Amsterdam Music Ss3
Amsterdam Music Ss3
letiziajaccheri
 
eVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránekeVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránek
Equica
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
Lidia Pivovarova
 
Urvalsproblemetihistoria
UrvalsproblemetihistoriaUrvalsproblemetihistoria
Urvalsproblemetihistoriahenriksvensson
 
2009 Secure File Transfer Research
2009 Secure File Transfer Research2009 Secure File Transfer Research
2009 Secure File Transfer Research
Jon Gatrell
 
Beautiful Bridges
Beautiful BridgesBeautiful Bridges
Beautiful Bridges
sanctuary
 
The Phenomenon Of L A C R O S S E
The  Phenomenon  Of  L A C R O S S EThe  Phenomenon  Of  L A C R O S S E
The Phenomenon Of L A C R O S S E
guest9771ee
 
Cordova × NCMB
Cordova × NCMBCordova × NCMB
Cordova × NCMB
Atsushi Nakatsugawa
 

Viewers also liked (20)

AINL 2016: Eyecioglu
AINL 2016: EyeciogluAINL 2016: Eyecioglu
AINL 2016: Eyecioglu
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
построение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текстапостроение правил для автоматического извлечения словосочетаний из текста
построение правил для автоматического извлечения словосочетаний из текста
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Логический анализ текстов на противоречия
Логический анализ текстов на противоречияЛогический анализ текстов на противоречия
Логический анализ текстов на противоречия
 
Ответы по русскому
Ответы по русскомуОтветы по русскому
Ответы по русскому
 
Pädevuste rakendamine
Pädevuste rakendaminePädevuste rakendamine
Pädevuste rakendamine
 
PLC - Organization
PLC - OrganizationPLC - Organization
PLC - Organization
 
Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津Saying Good-bye to Cambridge Again劍橋與牛津
Saying Good-bye to Cambridge Again劍橋與牛津
 
Amsterdam Music Ss3
Amsterdam Music Ss3Amsterdam Music Ss3
Amsterdam Music Ss3
 
eVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránekeVize 2007 - Přístupnost webových stránek
eVize 2007 - Přístupnost webových stránek
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
感恩組曲
感恩組曲感恩組曲
感恩組曲
 
Urvalsproblemetihistoria
UrvalsproblemetihistoriaUrvalsproblemetihistoria
Urvalsproblemetihistoria
 
Zavisimost
ZavisimostZavisimost
Zavisimost
 
2009 Secure File Transfer Research
2009 Secure File Transfer Research2009 Secure File Transfer Research
2009 Secure File Transfer Research
 
Beautiful Bridges
Beautiful BridgesBeautiful Bridges
Beautiful Bridges
 
The Phenomenon Of L A C R O S S E
The  Phenomenon  Of  L A C R O S S EThe  Phenomenon  Of  L A C R O S S E
The Phenomenon Of L A C R O S S E
 
Cordova × NCMB
Cordova × NCMBCordova × NCMB
Cordova × NCMB
 

Similar to Интеллектуальный анализ текста

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
Lidia Pivovarova
 
резюме харитонов мм новое
резюме харитонов мм новоерезюме харитонов мм новое
резюме харитонов мм новоеattila19
 
резюме харитонов мм бп
резюме харитонов мм бпрезюме харитонов мм бп
резюме харитонов мм бпattila19
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
ontosminerapi
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
Maxim Skryabin
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Elena Tikhomirova
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
Alex V. Petrov
 
Как подготовить исследовательскую работу
Как подготовить исследовательскую работуКак подготовить исследовательскую работу
Как подготовить исследовательскую работу
Timur Sharafutdinov
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Mark Shaphir
 
W2 zharkova
W2 zharkovaW2 zharkova
W2 zharkova
IT-Cluster
 
Инструменты и решения Cut-e
Инструменты и решения Cut-eИнструменты и решения Cut-e
Инструменты и решения Cut-e
ECOPSY Consulting
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Сообщество eLearning PRO
 
Дизайн образовательных программ - по мотивам курса БВШД
Дизайн образовательных программ - по мотивам курса БВШДДизайн образовательных программ - по мотивам курса БВШД
Дизайн образовательных программ - по мотивам курса БВШД
Maxim Arzumanyan
 
Применение машинного обучения для генерации структурированных сниппетов в пои...
Применение машинного обучения для генерации структурированных сниппетов в пои...Применение машинного обучения для генерации структурированных сниппетов в пои...
Применение машинного обучения для генерации структурированных сниппетов в пои...
Ontico
 
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктовMarina_creautor
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
NLPseminar
 
Ai in education
Ai in educationAi in education
Ai in education
Valeriy Platonov
 

Similar to Интеллектуальный анализ текста (20)

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
резюме харитонов мм новое
резюме харитонов мм новоерезюме харитонов мм новое
резюме харитонов мм новое
 
резюме харитонов мм бп
резюме харитонов мм бпрезюме харитонов мм бп
резюме харитонов мм бп
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
 
Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)Как сделать учебную аналитику полезной? (ITGM8)
Как сделать учебную аналитику полезной? (ITGM8)
 
время выбирать
время выбиратьвремя выбирать
время выбирать
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]
 
Как подготовить исследовательскую работу
Как подготовить исследовательскую работуКак подготовить исследовательскую работу
Как подготовить исследовательскую работу
 
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)
 
W2 zharkova
W2 zharkovaW2 zharkova
W2 zharkova
 
Инструменты и решения Cut-e
Инструменты и решения Cut-eИнструменты и решения Cut-e
Инструменты и решения Cut-e
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
 
Дизайн образовательных программ - по мотивам курса БВШД
Дизайн образовательных программ - по мотивам курса БВШДДизайн образовательных программ - по мотивам курса БВШД
Дизайн образовательных программ - по мотивам курса БВШД
 
6 professional experience
6 professional experience6 professional experience
6 professional experience
 
Применение машинного обучения для генерации структурированных сниппетов в пои...
Применение машинного обучения для генерации структурированных сниппетов в пои...Применение машинного обучения для генерации структурированных сниппетов в пои...
Применение машинного обучения для генерации структурированных сниппетов в пои...
 
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов
15 сиис 2013.павловскийен.баланс разработки и продвижения наукоёмких продуктов
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
Ai in education
Ai in educationAi in education
Ai in education
 

More from Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
Lidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
Lidia Pivovarova
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
Lidia Pivovarova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
Lidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
Lidia Pivovarova
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
Lidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
Lidia Pivovarova
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
Lidia Pivovarova
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
Lidia Pivovarova
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
Lidia Pivovarova
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
Lidia Pivovarova
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
Lidia Pivovarova
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
Lidia Pivovarova
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
Lidia Pivovarova
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
Lidia Pivovarova
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
Lidia Pivovarova
 
AINL 2016: Malykh
AINL 2016: MalykhAINL 2016: Malykh
AINL 2016: Malykh
Lidia Pivovarova
 
AINL 2016: Filchenkov
AINL 2016: FilchenkovAINL 2016: Filchenkov
AINL 2016: Filchenkov
Lidia Pivovarova
 

More from Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 
AINL 2016: Malykh
AINL 2016: MalykhAINL 2016: Malykh
AINL 2016: Malykh
 
AINL 2016: Filchenkov
AINL 2016: FilchenkovAINL 2016: Filchenkov
AINL 2016: Filchenkov
 

Интеллектуальный анализ текста

  • 1. Интеллектуальный анализ текста Лидия Пивоварова Университет Хельсинки Семинар по бизнес-информатике 18 ноября 2016, Moсква
  • 2. ● Бизнес-информация: – внутренняя/внешняя – структурированная/неструктурированная ● Структурированные данные: – Количественная информация – Развитые инструменты анализа (основанные на статистике) ● Неструктурированные данные: – Качественная информация (текст) дает ответ на вопрос ”почему?” (почему падают цены, растет оборот...) – Все бизнес-аналитики читают новости (цифр недостаточно) – Инструменты анализа активно развиваются – основная задача перевести данные из неструктурированной в структурированную форму Мотивация
  • 3.
  • 4. Анализ текстовых данных КАЧЕСТВОСТОИМОСТЬ – Google – Yahoo! ● Бесплатно, быстро ● Поверхностно ● Времязатратно – Bloomberg – Gartner ● Высококачественно ● Индивидуально ● Медленно, дорого Основная задача: автоматический анализ с качеством ручного
  • 5. Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research
  • 6. Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research
  • 7. Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research
  • 8. Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research
  • 9. Технологии ● Анализ текста производится иерархически: – Токенизация – Морфологический анализ – Сборка единиц, эквивалентных слову (в том числе имен) – (Частичный) синтаксис – Семантический анализ ● Для низкоуровневых задач, как правило, используются готовые инструменты; семантический анализ, как правило, приходится делать заново
  • 10. Фактографический поиск Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД) Information Retrieval Text Understanding Information Extraction
  • 11. Основная идея ● Задача всегда предельно конкретна: – определенный тип текста – искомая информация представлена в виде набора полей для заполнения ● Текст, включающий такую информацию, предельно шаблонный ● Поиск осуществляется при помощи набора образцов
  • 12. Цели ● Пополнение баз данных (и баз знаний) ● Получение входных данных для работы других систем ● Привлечение внимания эксперта к значимым аспектам информации
  • 13. Образцы ● Состав образцов: – Лексика, семантика – Частичный синтаксис – Близость, взаимное расположение частей ● Формат: – Зависит от формата представления текста в системе – Часто используются специальные языки (грамматики) ● Построение образцов: – Вручную – Машинное обучение (bootstrapping) – Обобщение образцов с привлечением словарных и/или онтологических ресурсов
  • 14. Машинное обучение ● Pro: – не требует большого количества ручного труда по написанию правил – система более гибкая, ее легко перенастроить ● Contra: – требуется большой обучающий корпус, правильно и полностью размеченный – сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»
  • 15. Правила ● Pro: – Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов ● Contra – Большая ручная работа, требующая специальной квалификации – Трудно перенастраивать ● Возможны (и даже предпочтительны) гибридные подходы
  • 16. – выработка общих подходов к методологии и способам оценки систем извлечения информации из текста. Год Источники Предметная область MUC-1 1987 военные сводки военно-морские операции MUC-2 1989 военные сводки военно-морские операции MUC-3 1991 новости Террористическая активность MUC-4 1992 новости Террористическая активность MUC-5 1993 новости совместные предприятия, производство MUC-6 1995 новости смена лидеров на рынке MUC-7 1997 новости крушения самолетов, запуски ракет MUC (Message Understanding Conference), 1987-1997
  • 17. ● Named Entity recognition - выделение именованных сущностей ● Coreference resolution - разрешение кореференции ● Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR ● Template Relation construction – выявление связей между отдельными сущностями ● Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR Дорожки MUC
  • 18. Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Named Entity recognition: доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед ракета, вторник… Сoreference resolution: доктор Биг Хед  Хед это → ракета Template Element construction: Ключ Объект Цвет Светоотражательные свойства 0267 Ракета Красная Блестящая
  • 19. Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Template Relation construction: Scenario Template production: Ключ Объект Цвет Светоотражательные свойства Изобретен 0267 Ракета Красная Блестящая 7824 Ключ ФИО Степень Работает Должность 7824 Биг Хед Доктор 2345 452 Ключ Тип события Объект Дата 18 Запуск 0267 Вторник
  • 20. Извлечение именованных сущностей ● Named Entity: – Стандартные примеры: персоналии, географические названия, организации… – В бизнесе: названия компаний, продуктов, брендов, персоналии... ● Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование… ● Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями
  • 21. Основные подходы ● Основанный на знаниях: – список имен собственных – регулярные выражения, описывающие именованные сущности – образцы, описывающие контекст ● Машинное обучение – обучающий корпус – определение характерных свойств – поиск по этим свойствам
  • 22. Извлечение отношений между понятиями ● Отношения: – Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ… – Специфические для предметной области – СТРАНА- СТОЛИЦА, КОМПАНИЯ-БРЕНД… ● В тексте определяются: – Свойствами именованных сущностей – Лексическими свойствами контекста – Синтаксическими свойствами контекста ● Извлечение: – Правила (образцы) vs. машинное обучение – Поиск: начиная с именованных сущностей vs. Начиная с отношений
  • 23. Анафора и кореференция ● Извлечение информации в масштабах текста ● Кореференция: возможно использование экстралингвистической информации ● Анафора: невозможно использование экстралингвистической информации – Вокруг местоимения отыскиваются существительные- кандидаты – Проверяется согласование – Статистики и эвристики ● Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество
  • 24. Recall = Ncorrect /Nall-correct Precision = Ncorrect /(Ncorrect + Nincorrect ) F-measure = (β2+1 )*r*p/(β2 *r+p) ● Named Entity recognition F<94% ● Coreference resolution F<62% ● Template Element construction F<87% ● Template Relation construction F<76% ● Scenario Template production F<51% Оценка
  • 25. Дальнейшее развитие ● ACE (Automatic Content Extraction) 1999 – 2008 ● По сравнению с MUC: – более детальная таксономия сущностей – для всех систем обязательна интерпретация метонимических связей – требуется семантический анализ обрабатываемого текста ● Text Analysis Conference (TAC) – настоящее время
  • 27.
  • 28. Система фактографического поиска в газетных текстах – Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю. Методы извлечения фактографической информации из текстов. Опыт разработки. // Megaling’2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007. – Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197
  • 29. Система Factors Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/
  • 30. Постановка задачи Задача: извлечение из текстов СМИ информации общественно-политической тематики. Факторы - различные характеристики общественно-политической ситуации(около 100). Значения факторов: ● Количественные - число пенсионеров; средний уровень заработной платы ● Оценочные - социальная напряженность; военные угрозы
  • 31. Система Factors: - интеллектуальная среда для поддержки работы эксперта-аналитика с текстами. Режимы работы: ● Автоматический ● Диалоговый ТЕКСТЫ FACTORS Фактор Значение
  • 32. Функциональность: 1. Последовательное наращивание распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой. 2. Легкость и простота редактирования и пополнения; визуальное представление информации. 3. Функциональная расширяемость и переносимость на другие проблемные и предметные области.
  • 33. Образцы 1. Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей) 2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное») 3. Смешанные
  • 34. Образцы  Фактор + значение В основном для оценочных факторов социальная напряженность → стихийный митинг  Только фактор Для количественных факторов: уровень инфляции → инфляция составила 4%
  • 35. Поиск образцов в тексте население ... право на труд ... ограничение 1) Поиск опорного элемента население ... право на труд ... ограничение 2) Поиск в окрестности других элементов население ... право на труд ... ограничение Для концептов образца – учет синонимов ограничение = ограниченный, ограничить, ущемление Параметры поиска предполагают отладку и настройку
  • 36. Только фактор: поиск значения Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?» Уровень зарплаты → заработная плата Транспортные издержки → траты Число пенсионеров → пенсионеры Онтология: собственный признак ↔ единица измерения заработная плата ↔ денежная единица пенсионеры ↔ без единиц
  • 37. Общий алгоритм поиска 1) Поиск образца 2) Определение собственного признака и единиц измерения 3) Поиск числа с единицей измерения 4) Проверка соответствия единиц измерения 5) Если число не найдено – поиск слов большой, маленький, растет, падает и их синонимов 6) Определение достоверности  В.Ш. Рубашкин Онтологическая семантика
  • 38. Анализ тональности сообщений ● Opinion Mining – извлечение мнений, а не фактов: – Поиск отзывов о товарах и услугах (как потребителями, так и производителями) – Анализ мнений для маркетинговых, политологических, социологических и др. исследований ● Sentiment analysis ● Другие приложения: – Рекомендательные системы – Извлечение информации – Вопросно-ответный поиск
  • 39. Общая схема ● Объект O имеет (иерархический) набор свойств fi ● Каждое свойство может выражаться набором слов/словосочетаний wi - синонимов ● Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах
  • 40. Основные задачи На уровне документа: ● Классификация тональности – Классы: позитивный, негативный, нейтральный – Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субьекта На уровне предложения: ● Идентификация предложений, содержащих мнения ● Определение тональности предложения – Предполагается, что каждое предложение содержит только одно мнение На уровне свойств: ● Определение свойств, которые оценивает субъект ● Сгруппировать синонимы (если они неизвестны) ● Идентифицировать тональность оценки
  • 41. Классификация документов ● Классификация – классическая задача машинного обучения ● Различия с тематической классификацией только в используемых свойствах – Наличие терминов и их частота (часто взвешенная) – Части речи – для определения тональности принципиально важны прилагательные и наречия – Оценочные слова и словосочетания (словарь или более сложная структура типа WordNet) – Синтаксические зависимости – позволяют делать предположения о семантических отношениях между оценочными и тематическими словами – Отрицания – могут изменить мнение на противоположное
  • 42. Уровень документа и предложения ● Документ может быть очень противоречивым ● Требуется переход на уровень предложений ● Классификация предложений: – Объективные/субъективные – И затем негативные/позитивные ● Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa) ● Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств
  • 43. Оценка свойств ● Идентификация свойств ● Группировка синонимов ● Определение оценок ● Подходы очень похожи на Information Extraction: – (Named) Entity Recognition + установление фактов (оценок) – Словари, образцы, машинное обучение
  • 44. Построение словарей ● Вручную ● На основе существующих словарей и тезаурусов (WordNet) ● Автоматически – Bootstrapping – Шаблоны – Возможно построение доменно- ориентированных словарей
  • 46.
  • 47.
  • 49.
  • 50. s
  • 51. Литература● Fisher, Ingrid E., Margaret R. Garnsey, and Mark E. Hughes. "Natural Language Processing in Accounting, Auditing and Finance: A Synthesis of the Literature with a Roadmap for Future Research." Intelligent Systems in Accounting, Finance and Management (2016). ● Curtis, Asher, Vernon J. Richardson, and Roy Schmardebeck. "Investor attention and the pricing of earnings news." Available at SSRN 2467243 (2014). ● Saggion, Horacio, and Adam Funk. "Extracting opinions and facts for business intelligence." RNTI Journal, E (17) 119 (2009): 146. ● Sakai, Hiroyuki, and Shigeru Masuyama. "Polarity Assignment to Causal Information Extracted from Financial Articles Concerning Business Performance of Companies." Research and Development in Intelligent Systems XXV. Springer London, 2009. 307-320. ● Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." The Journal of Finance 66.1 (2011): 35-65. ● Bodnaruk, Andriy, Tim Loughran, and Bill McDonald. "Using 10-k text to gauge financial constraints." Journal of Financial and Quantitative Analysis 50.04 (2015): 623-646. ● Moore, Andrew, Paul Edward Rayson, and Steven Eric Young. "Domain adaptation using stock market prices to refine sentiment dictionaries." (2016). ● Boudoukh, Jacob, et al. Which news moves stock prices? a textual analysis. No. w18725. National Bureau of Economic Research, 2013. ● Tsai, Ming-Feng, Chuan-Ju Wang, and Po-Chuan Chien. "Discovering Finance Keywords via Continuous-Space Language Models." ACM Transactions on Management Information Systems (TMIS) 7.3 (2016): 7. ● Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.
  • 52. Извлечение информации ● Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval - http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf ● Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf ● Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172 ● Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007 ● Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/ ● Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/ ● Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32 Определение тональности ● Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666 ● Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – http://www.cs.uic.edu/~liub/WebMiningBook.html ● Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining- sentiment-analysis.pdf ● Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining- sentiment-analysis-survey.html