Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь знания из текстов. Реальный кейс проекта»

17 октября 2015
Павел Вейник
Программирование и лингвистика:
как понять язык и
извлечь знания из текстов
Реальный кейс проекта

Понимание текста
Эмоциональный анализ
Определение тематики текста
Определение тенденций
Выявление значимых событий и персон
Knowledge Extraction

Natural Language Processing
Качество всегда существенно меньше 100%
В критичных задачах требуют вмешательства человека
Часто сложны в понимании и применении
Не решают прямо business задачи

Проект
Заказчик: большой инвестиционный фонд (не стартапы —
строительство, финансы...)
Цель: всегда иметь полный и минимальный обзор текущих
событий в интересующих областях.
Контекст: мировые новости на английском языке.
MVP: простейшее выделение объектов.

Pipeline

Pipeline: Search Engine
Задача: получить адреса всех страниц по интересующим
тематикам.
Решение: использовать платный Google Custom Search.
Вход: Seed Phrases — список создается до начала работы и
постоянно пополняется в процессе.
Реализация: custom, Amazon EC2.

Pipeline: Crawler
Задача: получить содержимое всех страниц по интересующим
тематикам.
Вход: очередь адресов.
Решение: использовать Crawler4j — просто и немасштабируемо.
Реализация: Crawler4j, Amazon EC2.

Pipeline: Text Extractor
Задача: извлечь текст статьи из страницы.
Сложность: эвристики, машинное обучение.
Вход: очередь страниц.
Решение: использовать boilerpipe.
code.google.com/p/boilerpipe/
Реализация: boilerpipe, несколько Amazon EC2.

Pipeline: NE Extractor
Задача: извлечь Named Entities из текста страницы.
Сложность: эвристики, машинное обучение, словари.
Решение: использовать Illinois Named Entity Tagger.
cogcomp.cs.illinois.edu/page/software_view/NETagger
Реализация: Illinois NE Tagger, несколько Amazon EC2.

Pipeline: NE Disambiguator
Задача: понять какие NE представляют одно и то же.
Сложность: эвристики, машинное обучение, словари.
Вход: очередь NE и текст страницы.
Решение: использовать Illinois NE Similarity Metric.
cogcomp.cs.illinois.edu/page/software_view/NESim
Реализация: Illinois NESim + custom, несколько Amazon EC2.

Pipeline: Relation Extractor
Задача: найти в тексте связки.
Связка — то, что может связывать NE в предложении.
Сложность: эвристики, словари.
Решение: сформировать и пополнять словарь связок.
Реализация: custom, несколько Amazon EC2.

Pipeline: Temporal Expressions
Extractor
Задача: найти в тексте упоминания дат в любом виде.
Сложность: эвристики, словари.
Решение: Illinois Temporal Expression Extractor.
Реализация: Illinois TE Extractor, несколько Amazon EC2.

Pipeline: Sentence Detector
Задача: разбить текст на предложения.
Сложность: эвристики, машинное обучение.
Решение: Stanford Tokenizer, LingPipe Sentence Detection или ANNIE
Sentence Splitter.
Реализация: Stanford Tokenizer, несколько Amazon EC2.

Pipeline: Fact Extractor
Задача: выделить факты.
Факт — это один или больше NE, связка и, возможно, дата.
Сложность: эвристики.
Вход: выделенные NE, связки, Теmporal Expressions, границы
предложений.
Решение: custom.

Pipeline: Fact Merger
Задача: выбросить дублирующиеся факты.
Сложность: эвристики.
Вход: выделенные факты, бд фактов.

Pipeline: Theme Detector
Задача: определить тему текста.
Сложность: машинное обучение.
Вход: текст страницы.
Решение: Stanfod MaxEnt Classifier.
Реализация: Stanfod MaxEnt Classifier, несколько Amazon EC2.

Pipeline: Feedback Cycle
Задача: дать контроль на каждом шаге.
Сложность: зависит от шаге.
Вход: степень уверенности компонента в его результатах.
Реализация: custom, UI, несколько Amazon EC2.

Начало
Объем: 4 млн документов в сутки.
Скорость: 30 минутный интервал после появления новости.
Решение: AWS EC2, DynamoDB, SQS, RDS, S3.

Топология

Павел Вейник
enabler @ geomotiv
pavel@geomotiv.com

Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь знания из текстов. Реальный кейс проекта»

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (12)

More from Tanya Denisyuk

More from Tanya Denisyuk (20)

Павел Вейник-«Программирование и лингвистика: как понять язык и как извлечь знания из текстов. Реальный кейс проекта»

Editor's Notes