Презентация 1 и 2 занятий в Школе бизнес-исследований.
Спикер: Тамара Кулинкович.
Подробнее: www.businessresearch.by
1. Границы исследований в бизнесе. Они есть?
Что давно исследуется в бизнесе и о чем вы даже не догадывались. Тренды бизнес-исследований последних лет. В каких компаниях бизнес-исследования востребованы, а где они только вредят? Как незаметно изучать сотрудников и клиентов?
Как исследовать экономическое поведение и можно ли изучать ценности людей? Как прогнозировать прибыль и спрос, как оценить рынок и предсказать поступки? Какие известные методы бизнес-исследований – не более, чем шарлатанство, и почему?
Где вас обманывают консалтинговые компании и как это быстро проверить? Краткое введение в курс бизнес-исследований.
2. Разработка плана исследования. Цели, задачи, гипотезы.
Цели, задачи и гипотезы – это что-то из формальных студенческих рефератов? Нет. Это то, что даст логику вашему исследованию и определит его результаты. Не умеете грамотно формулировать задачи исследования и прогнозировать их достижимость – не сможете организовать хорошее исследование.
Изучение мотивов, потребностей и поведения клиентов и сотрудников компании – так ли все просто? Где находятся «подводные камни» изучения поведения, которые лучше обходить, и когда не стоит браться за исследование? Основные ошибки организации ассессмента персонала.
Основы информационного проектирования: моделирование предметной области и UX-...Lara Simonova
Исследование и формализация предметной области, в рамках которой предстоит создание сервиса, взаимосвязей ее основных сущностей, их атрибутов, основных способов взаимодействия с ней пользователей, позволяет заложить практически неизменную логическую базу, на основании которой можно принимать те или иные интерфейсные, продуктовые, технические и бизнес-решения. Взвешенные, аргументированные и не противоречащие друг другу и правилам функционирования «экосистемы».
В докладе затронута тема неочевидности границы между аналоговой и цифровой средами, материальности цифровых объектов, необходимости грамотной конверсии свойств объектов аналогового мира в свойства сущностей цифрового мира при создании модели области. А также рассказано о том, какое место такое моделирование занимает в информационном проектировании продукта, и как информационное проектирование, в свою очередь, влияет на другие процессы его создания; и дан фреймворк для моделирования предметной области.
Низкомолекулярное проектирование: структурированные данные и UXLara Simonova
Подход к исследованию предметной области, созданию её модели данных и описанию информационных сущностей, образующих продукт. Методы и практическая польза для проекта.
Доклад в рамках World Information Architecture Day 2017 в Санкт-Петербурге
Автор: Лара Симонова — информационный архитектор в Collectrium, the Christie’s company; IA и ко-фаундер channelkit.com
This document summarizes a paper on using simple lexical overlap features with support vector machines (SVMs) for Russian paraphrase identification. It introduces paraphrase identification and various paraphrase corpora. It then describes a knowledge-lean approach using only tokenization, lowercasing, and overlap features like union and intersection size as inputs to linear and RBF kernel SVMs. The method achieves competitive results on English, Turkish, and Russian paraphrase identification tasks.
The document provides information on various artificial intelligence and voice assistant technologies including:
1) JUST AI and Eugene Goostman chatbot, a winner of the 2014 Turing 100 Chatbots competition.
2) Everyday Assistant, a voice assistant available on mobile devices.
3) Dusi Voice Assistant with over 1 million downloads on Google Play.
4) Era of messengers for chatting with personal assistants without voice.
5) ElSmart, the first Android phone for blind users.
6) Zenbot, an open source framework for developing voice assistants across platforms.
Saying Good-bye to Cambridge Again
Very quietly I take my leave
As quietly as I came here;
Quietly I wave good-bye
To the rosy clouds in the western sky.
The golden willows by the riverside
Are young brides in the setting sun;
Their reflections on the shimmering waves
Always linger in the depth of my heart.
The floating heart growing in the sludge
Sways leisurely under the water;
In the gentle waves of Cambridge
I would be a water plant!
That pool under the shade of elm trees
Holds not water but the rainbow from the sky;
Shattered to pieces among the duck weeds
Is the sediment of a rainbow-like dream?
To seek a dream?
Just to pole a boat upstream
Or to have the boat fully loaded with starlight
And sing aloud in the splendor of starlight.
But I cannot sing aloud
Quietness is my farewell music;
Even summer insects keep silence for me
Silent is Cambridge tonight!
Very quietly I take my leave
As quietly as I came here;
Gently I flick my sleeves
Not even a wisp of cloud will I bring away
Презентация 1 и 2 занятий в Школе бизнес-исследований.
Спикер: Тамара Кулинкович.
Подробнее: www.businessresearch.by
1. Границы исследований в бизнесе. Они есть?
Что давно исследуется в бизнесе и о чем вы даже не догадывались. Тренды бизнес-исследований последних лет. В каких компаниях бизнес-исследования востребованы, а где они только вредят? Как незаметно изучать сотрудников и клиентов?
Как исследовать экономическое поведение и можно ли изучать ценности людей? Как прогнозировать прибыль и спрос, как оценить рынок и предсказать поступки? Какие известные методы бизнес-исследований – не более, чем шарлатанство, и почему?
Где вас обманывают консалтинговые компании и как это быстро проверить? Краткое введение в курс бизнес-исследований.
2. Разработка плана исследования. Цели, задачи, гипотезы.
Цели, задачи и гипотезы – это что-то из формальных студенческих рефератов? Нет. Это то, что даст логику вашему исследованию и определит его результаты. Не умеете грамотно формулировать задачи исследования и прогнозировать их достижимость – не сможете организовать хорошее исследование.
Изучение мотивов, потребностей и поведения клиентов и сотрудников компании – так ли все просто? Где находятся «подводные камни» изучения поведения, которые лучше обходить, и когда не стоит браться за исследование? Основные ошибки организации ассессмента персонала.
Основы информационного проектирования: моделирование предметной области и UX-...Lara Simonova
Исследование и формализация предметной области, в рамках которой предстоит создание сервиса, взаимосвязей ее основных сущностей, их атрибутов, основных способов взаимодействия с ней пользователей, позволяет заложить практически неизменную логическую базу, на основании которой можно принимать те или иные интерфейсные, продуктовые, технические и бизнес-решения. Взвешенные, аргументированные и не противоречащие друг другу и правилам функционирования «экосистемы».
В докладе затронута тема неочевидности границы между аналоговой и цифровой средами, материальности цифровых объектов, необходимости грамотной конверсии свойств объектов аналогового мира в свойства сущностей цифрового мира при создании модели области. А также рассказано о том, какое место такое моделирование занимает в информационном проектировании продукта, и как информационное проектирование, в свою очередь, влияет на другие процессы его создания; и дан фреймворк для моделирования предметной области.
Низкомолекулярное проектирование: структурированные данные и UXLara Simonova
Подход к исследованию предметной области, созданию её модели данных и описанию информационных сущностей, образующих продукт. Методы и практическая польза для проекта.
Доклад в рамках World Information Architecture Day 2017 в Санкт-Петербурге
Автор: Лара Симонова — информационный архитектор в Collectrium, the Christie’s company; IA и ко-фаундер channelkit.com
This document summarizes a paper on using simple lexical overlap features with support vector machines (SVMs) for Russian paraphrase identification. It introduces paraphrase identification and various paraphrase corpora. It then describes a knowledge-lean approach using only tokenization, lowercasing, and overlap features like union and intersection size as inputs to linear and RBF kernel SVMs. The method achieves competitive results on English, Turkish, and Russian paraphrase identification tasks.
The document provides information on various artificial intelligence and voice assistant technologies including:
1) JUST AI and Eugene Goostman chatbot, a winner of the 2014 Turing 100 Chatbots competition.
2) Everyday Assistant, a voice assistant available on mobile devices.
3) Dusi Voice Assistant with over 1 million downloads on Google Play.
4) Era of messengers for chatting with personal assistants without voice.
5) ElSmart, the first Android phone for blind users.
6) Zenbot, an open source framework for developing voice assistants across platforms.
Saying Good-bye to Cambridge Again
Very quietly I take my leave
As quietly as I came here;
Quietly I wave good-bye
To the rosy clouds in the western sky.
The golden willows by the riverside
Are young brides in the setting sun;
Their reflections on the shimmering waves
Always linger in the depth of my heart.
The floating heart growing in the sludge
Sways leisurely under the water;
In the gentle waves of Cambridge
I would be a water plant!
That pool under the shade of elm trees
Holds not water but the rainbow from the sky;
Shattered to pieces among the duck weeds
Is the sediment of a rainbow-like dream?
To seek a dream?
Just to pole a boat upstream
Or to have the boat fully loaded with starlight
And sing aloud in the splendor of starlight.
But I cannot sing aloud
Quietness is my farewell music;
Even summer insects keep silence for me
Silent is Cambridge tonight!
Very quietly I take my leave
As quietly as I came here;
Gently I flick my sleeves
Not even a wisp of cloud will I bring away
The document discusses interactive installation art and the use of software in art projects. It provides examples of interactive art installations that use environmental sensors and digital technology to trigger sounds, lights, and other elements. Developing the software for these interactive installations often requires input from programmers and software engineers. The document also discusses some of the software engineering issues that arise in art projects and the goals of the interdisciplinary research group SArt, which focuses on applying software engineering practices to art.
Prezentace společnosti Equica (www.equica.cz) věnující se přístupnosti webu orgánů veřejné správy přednesená v rámci konference eVize konané v rámci veletrhu Invex 2007.
The document reflects on life and relationships. It advises living life to the fullest without overplanning, cherishing true friends who support you, and maintaining a positive outlook even in hard times by focusing on the present moment and future happiness rather than past regrets or hurts. Work, love, dance, and sing with abandon, and remember that unexpected good things may occur when least expected.
Lacrosse originated as a Native American sport called dehuntshigwa'es but has since grown significantly in the United States. It was first played in colleges in the 1950s and the creation of plastic stick heads by STX in the 1960s facilitated more growth by making the game faster and cheaper to play. Today, lacrosse is played professionally in the Major League Lacrosse with 12 teams across the eastern US and plans to expand further. It has continued growing rapidly in popularity and participation in recent decades and is now the fastest growing sport in the country.
SPb BA & SA Night. Learning a New Business Domain [1.01, RUS]Alex V. Petrov
Известные и неизвестные приемы освоения новых предметных областей — обязательный инструмент в арсенале успешного аналитика. Именно им был посвящен II «Вечер системного и бизнес-анализа» в С.-Петербурге, прошедший 05 сентября 2015 г. Ключевые темы: индукция и дедукция, концептуальные модели и онтологии, разбор примеров, командная работа и менторство.
Марк Шафир - Программа курса "Современные методы анализа данных" (НИУ ВШЭ)Mark Shaphir
Обновленная презентация моего основного курса в НИУ ВШЭ.
В рамках курса рассматриваются методы снижения размерности пространства (простой и множественный анализ соответствий, метод главных компонент, категориальный факторный анализ), сегментирования (деревья классификации, кластерный анализ, дискриминантный анализ), моделирования (регрессии и Conjoint) и прогнозирования (тренд, сезонность, цикличность, автокорреляция, авторегрессия, ARIMA).
"Современные методы анализа данных" читаются на 1-м курсе магистратуры ПМСАР факультета Социологии. Подробную программу курса можно посмотреть на сайте Вышки, а здесь мы представляем вашему вниманию короткую презентацию.
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Сообщество eLearning PRO
Содержание
Глава 1. Проектирование дистанционного курса
1. Система проектирования обучения. Проектирование обучения. Основные этапы проектирования. Анализ деятельности специалиста. Функции участников команды разработчиков. Практика. Анализ списка задач.
2. Определение целей курса. Цели обучения. Состав целей обучения. Выполнение как деятельность по достижению целей. Условия достижения целей. Критерии достижения целей. Алгоритм определения целей обучения. Классификация целей обучения. Модифицированная таксономия Блума. Практика. Формулировка целей курса и занятий.
3. Фаза развития курса. Деятельностный подход к обучению. Психологические подходы к выбору методики обучения. Бихевиористский подход к обучению. Когнитивный подход к обучению. Конструктивизм. Другие подходы к обучению. Проблемное обучение. Закономерности обучения. Система доставки.
4. Структура занятия. Структура дистанционного курса. Требования к дистанционному курсу. Презентация курса. Организационная структура курса. Практика. Составление плана курса в виртуальной учебной среде. Практика. Разработка презентации курса.
Глава 2. Информационные материалы дистанционного курса
5. Проектирование содержания. Педагогические принципы. Роль взаимодействия. Формирование сообщества. Разработка содержания. План работы. Общие положения относительно текста. Практика. Информационные материалы курса.
6. Структурирование занятия. Особенности структурирования текста в дистанционном курсе. Обучение через решение задач. Структура занятия. Формирование раздела.
7. Текст курса. Оформление текста. Стили восприятия и мышления. Язык. Стили написания текста. Уровни преподавания текста. Свертывание и развертывание текста. Опорные элементы в тексте. Практика. Задачи.
8. Дизайн текста. Принципы дизайна курса. Экранное пространство. Роль иллюстрации в дистанционном курсе. Общие принципы создания веб-элементов для лиц с ограниченными возможностями. Особенности написания HTML-кода для удобного пользования информации лицами с ограниченными возможностями. Дополнительные особенности написания кода HTML-страниц. Семантический конспект.
Глава 3. Контроль в дистанционном обучении
9. Качество дистанционног
Применение машинного обучения для генерации структурированных сниппетов в пои...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 6 июня, 17:00
Тезисы:
http://ritfest.ru/2017/abstracts/2768.html
Идеальная поисковая система должна возвращать упорядоченный по убыванию релевантности список результатов. Однако, это не всегда получается из-за сложности естественного языка, неоднозначности в запросах, вариативности личных предпочтений пользователей. Как следствие, релевантный результат может находиться на любой позиции на странице поисковой выдачи.
...
AIEd – искусственный интеллект в образовании сегодня, тенденции и будущее. Рассматриваются технологии, компетенции учащихся и преподавателей, примеры использования ИИ в образовании, проекты и стартапы
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
This PhD thesis examines classification and clustering techniques for media monitoring, including news grouping, multi-label text classification, and business polarity detection. It focuses on applying these methods to the PULS media monitoring system, which collects over 10,000 news articles daily. The thesis contributes novel algorithms and datasets for grouping news into stories based on named entity salience, large-scale multi-label text classification balancing training sets, and the first dataset and methods for entity-level business polarity detection.
The document describes a Russian paraphrase corpus created by the authors. It contains over 8000 sentence pairs annotated as precise, loose, or non-paraphrases using crowdsourcing. The corpus was collected from news headlines and aims to capture the most important events. The authors evaluate different models for classifying sentence pairs and find that combining linguistic features improves performance over individual feature types. Graphs built from the corpus can reveal connected events more completely than human annotations alone.
This document discusses the work of Antiplagiat Research, which tackles challenging natural language processing and plagiarism detection problems. It outlines their focus on cross-language plagiarism detection, machine-generated text detection, and intrinsic plagiarism detection. It also describes Antiplagiat Research's collaboration opportunities and their participation in evaluating plagiarism detection algorithms through workshops like Dialogue Evaluation.
This document summarizes a study that analyzed 47,410 Instagram images from Saint Petersburg over one year to understand human experience in different urban areas. The images were clustered using Google tags and user hashtags into topics like portraits, cars, flowers. The clusters were mapped geographically to see their spatial distribution. Clusters like hairstyle and animals were evenly distributed, while clothing, fitness and architecture were more detached, indicating urban segregation. The combination of semantic and geospatial analysis of social media images provided new insights into urban life not previously available from traditional data sources.
The document discusses the Pullenti NER Engine and its use in semantic similarity tasks. It presents the Semantics-Oriented Linguistic Processor (SOLP) which establishes text segments containing similar semantic units. It then describes the hybrid linguistic and machine learning approach used by the Pullenti-based engine, including the two-step Semantic Expansion Algorithm. Performance figures and evaluation metrics for Pullenti's named entity recognition are also provided.
The document discusses the reliability of results from corpus research and introduces a solution called GICR that provides automatic result analysis. GICR allows users to see statistics on search areas to check for bias or lack of homogeneity compared to the entire corpus by displaying metadata attributes like URLs, document IDs, author information, region, gender, and genre. It aims to address the problem that simply getting IPM and KWIC search results does not indicate if the results are biased by providing analysis directly in the interface.
This document discusses methods for estimating a user's actual age and gender when those values are not directly provided. It outlines using social graph analysis, natural language processing, analyzing user interests, and statistical methods. For social graph analysis, it examines using connections like classmates to infer age and analyzing local graph properties. NLP looks at gender-specific language in user profiles while interest analysis matches users to gender-biased communities. Statistics applies overall patterns in the data to make estimations.
This document presents mathematical models of information dissemination and warfare. It discusses:
1) Models of information spreading through both vertical (centralized) and horizontal (interpersonal) flows, and how the combination of these determines information dynamics in society.
2) Models of information adoption and forgetting over time, and the effects of incomplete media coverage and two-step perception.
3) Models of information warfare between two information sources, examining the necessary conditions for one to win over the other.
4) Extensions of these models including periodic destabilization, additional factors like forgetting, and a model of individual choice-making during information warfare.
This document discusses the analysis and modeling of complex systems. It describes analyzing the problem, modeling the system, and determining both quantitative and qualitative parameters. An example is given of assigning weights to different quantitative parameters. The document recommends creating a coordinate system and basis to define qualitative parameters. It formulates the final task as creating a concept for a basis of a quality parameter system. It seeks colleagues to partner with on further developing these analysis methods.
This document discusses trend detection at OK. It describes the multi-step process used: text extraction from logs, language detection, tokenization, dictionary extraction, vectorization, deduplication, statistics calculation, trend identification, clustering of trending terms, extraction of relevant documents, and visualization of trends. Both batch and streaming approaches are discussed to address the need for timely trend detection. Technologies used include Apache Kafka, YARN, Spark, Samza, Lucene and ELKI.
1. The researcher analyzed quantitative characteristics such as entropy, readability, lexical diversity, frequencies of words, and parts of speech for different text genres including scientific texts, news articles, and student writings.
2. The analysis found that student writings had higher entropy and readability than news articles or scientific texts. News articles had higher lexical diversity and frequencies of common words.
3. To evaluate the accuracy of a developed Old Irish lemmatizer, the researcher applied it to a test corpus of 840 tokens, of which 186 were unknown words. The lemmatizer correctly predicted lemmas for 84 of the unknown words, achieving an accuracy of around 60% for unknown words.
This document discusses methods for evaluating clustering validity indices (CVIs) that measure the quality of clustering results. It proposes using human assessments of clustered data as ground truth to evaluate how well different CVIs match human judgments. An experimental evaluation of 19 CVIs on 41 datasets clustered using 6 algorithms showed that none of the CVIs perfectly matched human assessments. The document concludes that while no universal CVI exists, meta-learning from past human assessments could help select the most appropriate CVI for a new clustering problem.
This document proposes a data augmentation method for image sentiment analysis using hashtags. It involves collecting a small set of manually labeled images and their hashtags, learning to predict sentiment labels from the hashtags using machine learning, and using this model to automatically label more images. Preliminary results show the hashtag-predicted labels match human labels with 83-95% accuracy. However, more testing is needed on a general set of images to fully evaluate the method's effectiveness.
This document proposes a method for continuous time series alignment in human action recognition. It defines continuous versions of time series, warping paths, and the dynamic time warping (DTW) distance. The method finds the optimal continuous warping path by approximating solutions to a cost minimization problem. An experiment applies the continuous DTW to classify human activities from accelerometer data, achieving classification accuracy close to the discrete DTW method. The continuous approach solves issues with resampling data and has potential for improved approximations and optimization methods.
V. Malykh presents an approach for creating robust word vectors for the Russian language that does not rely on a predefined vocabulary or word co-occurrence matrices. The approach uses a LSTM neural network and BME representations of words at the character level to learn word embeddings. Experiments on Russian corpora for paraphrase identification and plagiarism detection show the approach outperforms standard word2vec models, especially in noisy conditions with character substitutions and additions/deletions.
This document provides a summary of topics covered in a deep neural networks tutorial, including:
- A brief introduction to artificial intelligence, machine learning, and artificial neural networks.
- An overview of common deep neural network architectures like convolutional neural networks, recurrent neural networks, autoencoders, and their applications in areas like computer vision and natural language processing.
- Advanced techniques for training deep neural networks like greedy layer-wise training, regularization methods like dropout, and unsupervised pre-training.
- Applications of deep learning beyond traditional discriminative models, including image synthesis, style transfer, and generative adversarial networks.
2. ● Бизнес-информация:
– внутренняя/внешняя
– структурированная/неструктурированная
● Структурированные данные:
– Количественная информация
– Развитые инструменты анализа (основанные на статистике)
● Неструктурированные данные:
– Качественная информация (текст) дает ответ на вопрос
”почему?” (почему падают цены, растет оборот...)
– Все бизнес-аналитики читают новости (цифр недостаточно)
– Инструменты анализа активно развиваются – основная задача
перевести данные из неструктурированной в
структурированную форму
Мотивация
3.
4. Анализ текстовых данных
КАЧЕСТВОСТОИМОСТЬ
– Google
– Yahoo!
● Бесплатно, быстро
● Поверхностно
● Времязатратно
– Bloomberg
– Gartner
● Высококачественно
● Индивидуально
● Медленно, дорого
Основная задача:
автоматический анализ с качеством ручного
5. Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
6. Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
7. Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
8. Fisher, Garnsey and Hughes (2016) Natural Language Processing in
Accounting, Auditing and Finance: a Synthesis of the Literature with a
Roadmap for Future Research
9. Технологии
● Анализ текста производится иерархически:
– Токенизация
– Морфологический анализ
– Сборка единиц, эквивалентных слову (в том числе
имен)
– (Частичный) синтаксис
– Семантический анализ
● Для низкоуровневых задач, как правило,
используются готовые инструменты;
семантический анализ, как правило, приходится
делать заново
10. Фактографический поиск
Information Extraction – извлечение из текста
информации определенного типа и
представление ее в заданном формате
(чаще всего БД)
Information
Retrieval
Text
Understanding
Information
Extraction
11. Основная идея
●
Задача всегда предельно конкретна:
– определенный тип текста
– искомая информация представлена в виде
набора полей для заполнения
●
Текст, включающий такую информацию,
предельно шаблонный
●
Поиск осуществляется при помощи набора
образцов
12. Цели
●
Пополнение баз данных (и баз знаний)
●
Получение входных данных для работы
других систем
●
Привлечение внимания эксперта к
значимым аспектам информации
13. Образцы
●
Состав образцов:
– Лексика, семантика
– Частичный синтаксис
– Близость, взаимное расположение частей
●
Формат:
– Зависит от формата представления текста в системе
– Часто используются специальные языки (грамматики)
●
Построение образцов:
– Вручную
– Машинное обучение (bootstrapping)
– Обобщение образцов с привлечением словарных и/или
онтологических ресурсов
14. Машинное обучение
●
Pro:
– не требует большого количества ручного труда
по написанию правил
– система более гибкая, ее легко перенастроить
●
Contra:
– требуется большой обучающий корпус,
правильно и полностью размеченный
– сложно отследить в каком именно месте
возникла ошибка и исправить ее «точечно»
15. Правила
●
Pro:
– Может быть предпочтительна в случае сложной
предметной области и/или отсутствия
лингвистических ресурсов
●
Contra
– Большая ручная работа, требующая
специальной квалификации
– Трудно перенастраивать
●
Возможны (и даже предпочтительны)
гибридные подходы
16. – выработка общих подходов к методологии и способам оценки
систем извлечения информации из текста.
Год Источники Предметная область
MUC-1 1987 военные сводки военно-морские операции
MUC-2 1989 военные сводки военно-морские операции
MUC-3 1991 новости Террористическая активность
MUC-4 1992 новости Террористическая активность
MUC-5 1993 новости совместные предприятия, производство
MUC-6 1995 новости смена лидеров на рынке
MUC-7 1997 новости крушения самолетов, запуски ракет
MUC (Message Understanding
Conference), 1987-1997
17. ● Named Entity recognition - выделение именованных
сущностей
● Coreference resolution - разрешение кореференции
● Template Element construction - добавление
атрибутов к сущностям, найденным на этапе NE, с
использованием CR
● Template Relation construction – выявление связей
между отдельными сущностями
● Scenario Template production – построение полного
описания события (факта) путем объединения
результатов TE и TR
Дорожки MUC
18. Блестящая красная ракета была запущена во вторник. Это изобретение
доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет
Инкорпорейтед.
Named Entity recognition:
доктор Биг Хед, Хед, Билд Рокет
Инкорпорейтед
ракета, вторник…
Сoreference resolution:
доктор Биг Хед Хед
это → ракета
Template Element construction:
Ключ Объект Цвет Светоотражательные
свойства
0267 Ракета Красная Блестящая
19. Блестящая красная ракета была запущена во вторник. Это
изобретение доктора Биг Хеда. Хед - штатный научный сотрудник
Билд Рокет Инкорпорейтед.
Template Relation construction:
Scenario Template production:
Ключ Объект Цвет Светоотражательные
свойства
Изобретен
0267 Ракета Красная Блестящая 7824
Ключ ФИО Степень Работает Должность
7824 Биг Хед Доктор 2345 452
Ключ Тип события Объект Дата
18 Запуск 0267 Вторник
20. Извлечение именованных
сущностей
●
Named Entity:
– Стандартные примеры: персоналии, географические
названия, организации…
– В бизнесе: названия компаний, продуктов, брендов,
персоналии...
●
Не только для Information Extraction: ответы на
вопросы, извлечение мнений, реферирование…
●
Named Entity Recognition: Information Extraction в
миниатюре; проще, потому что не нужно
извлекать связи между понятиями
21. Основные подходы
●
Основанный на знаниях:
– список имен собственных
– регулярные выражения, описывающие именованные
сущности
– образцы, описывающие контекст
●
Машинное обучение
– обучающий корпус
– определение характерных свойств
– поиск по этим свойствам
22. Извлечение отношений между
понятиями
●
Отношения:
– Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ…
– Специфические для предметной области – СТРАНА-
СТОЛИЦА, КОМПАНИЯ-БРЕНД…
●
В тексте определяются:
– Свойствами именованных сущностей
– Лексическими свойствами контекста
– Синтаксическими свойствами контекста
●
Извлечение:
– Правила (образцы) vs. машинное обучение
– Поиск: начиная с именованных сущностей vs. Начиная
с отношений
23. Анафора и кореференция
●
Извлечение информации в масштабах текста
●
Кореференция: возможно использование
экстралингвистической информации
●
Анафора: невозможно использование
экстралингвистической информации
– Вокруг местоимения отыскиваются существительные-
кандидаты
– Проверяется согласование
– Статистики и эвристики
●
Во многих систем не разрешается ни анафора, ни
даже кореференция – трудоемкие алгоритмы, низкое
качество
24. Recall = Ncorrect /Nall-correct
Precision = Ncorrect /(Ncorrect + Nincorrect )
F-measure = (β2+1 )*r*p/(β2 *r+p)
● Named Entity recognition F<94%
● Coreference resolution F<62%
● Template Element construction F<87%
● Template Relation construction F<76%
● Scenario Template production F<51%
Оценка
25. Дальнейшее развитие
●
ACE (Automatic Content Extraction) 1999 – 2008
●
По сравнению с MUC:
– более детальная таксономия сущностей
– для всех систем обязательна интерпретация
метонимических связей
– требуется семантический анализ
обрабатываемого текста
●
Text Analysis Conference (TAC) – настоящее
время
28. Система фактографического поиска
в газетных текстах
– Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М.,
Чуприн Б. Ю. Методы извлечения
фактографической информации из текстов. Опыт
разработки. // Megaling’2007 Горизонты прикладной
лингвистики и лингвистических технологий–
Симферополь: Изд-во ДиАйПи, 2007.
– Пивоварова Л.М. Фактографический анализ текста в
системе поддержки принятия решений // Вестник
Санкт-Петербургского университета Сер. Филология,
востоковедение, журналистика. 2010. Вып. 4 - 190-197
30. Постановка задачи
Задача: извлечение из текстов СМИ
информации общественно-политической
тематики.
Факторы - различные характеристики
общественно-политической ситуации(около
100).
Значения факторов:
● Количественные - число пенсионеров;
средний уровень заработной платы
● Оценочные - социальная напряженность;
военные угрозы
31. Система Factors:
- интеллектуальная среда для поддержки
работы эксперта-аналитика с текстами.
Режимы работы:
● Автоматический
● Диалоговый
ТЕКСТЫ FACTORS
Фактор Значение
32. Функциональность:
1. Последовательное наращивание
распознаваемых аспектов содержания в
процессе работы эксперта-аналитика с
системой.
2. Легкость и простота редактирования и
пополнения; визуальное представление
информации.
3. Функциональная расширяемость и
переносимость на другие проблемные и
предметные области.
33. Образцы
1. Текстовые – выделение в тексте
релевантных фрагментов (при анализе
может проверяться совпадение
синтаксических связей)
2. Концептуальные – сборка образца из
концептов онтологии (при анализе
осуществляется поиск с учетом отношения
«общее-частное»)
3. Смешанные
34. Образцы
Фактор + значение
В основном для оценочных факторов
социальная напряженность → стихийный
митинг
Только фактор
Для количественных факторов:
уровень инфляции →
инфляция составила 4%
35. Поиск образцов в тексте
население ... право на труд ... ограничение
1) Поиск опорного элемента
население ... право на труд ... ограничение
2) Поиск в окрестности других элементов
население ... право на труд ... ограничение
Для концептов образца – учет синонимов
ограничение = ограниченный, ограничить, ущемление
Параметры поиска предполагают отладку и настройку
36. Только фактор: поиск значения
Собственный признак фактора – концепт,
отвечающий на вопрос «количество (величина)
чего?»
Уровень зарплаты → заработная плата
Транспортные издержки → траты
Число пенсионеров → пенсионеры
Онтология:
собственный признак ↔ единица измерения
заработная плата ↔ денежная единица
пенсионеры ↔ без единиц
37. Общий алгоритм поиска
1) Поиск образца
2) Определение собственного признака и
единиц измерения
3) Поиск числа с единицей измерения
4) Проверка соответствия единиц измерения
5) Если число не найдено – поиск слов
большой, маленький, растет, падает и их
синонимов
6) Определение достоверности
В.Ш. Рубашкин Онтологическая семантика
38. Анализ тональности сообщений
●
Opinion Mining – извлечение мнений, а не фактов:
– Поиск отзывов о товарах и услугах (как потребителями, так и
производителями)
– Анализ мнений для маркетинговых, политологических,
социологических и др. исследований
●
Sentiment analysis
●
Другие приложения:
– Рекомендательные системы
– Извлечение информации
– Вопросно-ответный поиск
39. Общая схема
●
Объект O имеет (иерархический) набор
свойств fi
●
Каждое свойство может выражаться
набором слов/словосочетаний wi -
синонимов
●
Субъект (opinion holder) высказывает свое
мнение об O или о каких-то его свойствах
40. Основные задачи
На уровне документа:
●
Классификация тональности
– Классы: позитивный, негативный, нейтральный
– Предполагается, что каждый документ содержит мнение только об
одном объекте и только одного субьекта
На уровне предложения:
●
Идентификация предложений, содержащих мнения
●
Определение тональности предложения
– Предполагается, что каждое предложение содержит только одно мнение
На уровне свойств:
●
Определение свойств, которые оценивает субъект
●
Сгруппировать синонимы (если они неизвестны)
●
Идентифицировать тональность оценки
41. Классификация документов
●
Классификация – классическая задача машинного
обучения
●
Различия с тематической классификацией только в
используемых свойствах
– Наличие терминов и их частота (часто взвешенная)
– Части речи – для определения тональности принципиально
важны прилагательные и наречия
– Оценочные слова и словосочетания (словарь или более
сложная структура типа WordNet)
– Синтаксические зависимости – позволяют делать
предположения о семантических отношениях между
оценочными и тематическими словами
– Отрицания – могут изменить мнение на противоположное
42. Уровень документа и предложения
●
Документ может быть очень противоречивым
●
Требуется переход на уровень предложений
●
Классификация предложений:
– Объективные/субъективные
– И затем негативные/позитивные
●
Но: позитивная оценка объекта не означает
позитивной оценки всех его свойств (и vice
versa)
●
Предложения могут быть очень сложными –
нужно переходить на уровень отдельных
свойств
43. Оценка свойств
●
Идентификация свойств
●
Группировка синонимов
●
Определение оценок
●
Подходы очень похожи на Information
Extraction:
– (Named) Entity Recognition + установление
фактов (оценок)
– Словари, образцы, машинное обучение
44. Построение словарей
●
Вручную
●
На основе существующих словарей и
тезаурусов (WordNet)
●
Автоматически
– Bootstrapping
– Шаблоны
– Возможно построение доменно-
ориентированных словарей
51. Литература● Fisher, Ingrid E., Margaret R. Garnsey, and Mark E. Hughes. "Natural Language Processing in
Accounting, Auditing and Finance: A Synthesis of the Literature with a Roadmap for Future
Research." Intelligent Systems in Accounting, Finance and Management (2016).
● Curtis, Asher, Vernon J. Richardson, and Roy Schmardebeck. "Investor attention and the pricing
of earnings news." Available at SSRN 2467243 (2014).
● Saggion, Horacio, and Adam Funk. "Extracting opinions and facts for business intelligence."
RNTI Journal, E (17) 119 (2009): 146.
● Sakai, Hiroyuki, and Shigeru Masuyama. "Polarity Assignment to Causal Information Extracted
from Financial Articles Concerning Business Performance of Companies." Research and
Development in Intelligent Systems XXV. Springer London, 2009. 307-320.
● Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis,
dictionaries, and 10‐Ks." The Journal of Finance 66.1 (2011): 35-65.
● Bodnaruk, Andriy, Tim Loughran, and Bill McDonald. "Using 10-k text to gauge financial
constraints." Journal of Financial and Quantitative Analysis 50.04 (2015): 623-646.
● Moore, Andrew, Paul Edward Rayson, and Steven Eric Young. "Domain adaptation using stock
market prices to refine sentiment dictionaries." (2016).
● Boudoukh, Jacob, et al. Which news moves stock prices? a textual analysis. No. w18725.
National Bureau of Economic Research, 2013.
● Tsai, Ming-Feng, Chuan-Ju Wang, and Po-Chuan Chien. "Discovering Finance Keywords via
Continuous-Space Language Models." ACM Transactions on Management Information Systems
(TMIS) 7.3 (2016): 7.
● Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts."
Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.
52. Извлечение информации
● Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval -
http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf
● Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf
● Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172
● Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007
● Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction -
http://www.stanford.edu/class/cs124/
● Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging -
http://www.stanford.edu/class/cs124/
● Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса
Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32
Определение тональности
● Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition
Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666
● Bing Liu Web Data Mining. Lecture Slides, Chapter 11 –
http://www.cs.uic.edu/~liub/WebMiningBook.html
● Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining-
sentiment-analysis.pdf
● Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in
Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining-
sentiment-analysis-survey.html