Видео к презентации: http://vk.com/mtengine
В докладе представлен краудсорсинг проект, ориентированный на построение и улучшение системы машинного перевода. Отличительной чертой является применение компьютерной семантики русского языка. Также рассматривается статистический метод автоматической генерации переводных словарей.
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
Автоматический анализ тональности можно по праву считать подзадачей ИИ. В этом докладе мы рассмотрим проблематику создания системы SentiScan, коснёмся вопросов оценки качества, сопровождения, реальных кейсов и способов улучшения качества в полуавтоматическом режиме.
Компания SemanticAnalyzer разработала API для распознавания объектной тональности в текстах на русском языке. Испробовать систему можно подключившись к API на сайте: https://www.mashape.com/dmitrykey/russiansentimentanalyzer
"Война типов: сильные против слабых" Виктор ПолищукFwdays
Вы скорее всего участвовали в спорах о лучшем языке: Assembler vs Basic, Cobol vs Lisp, Pascal vs C, Delphi vs C++, Java vs ..., Java vs .Net, + OCaml + Scala + Haskel + Schema + Javascript + Python + Groovy + Whateverlanguageisit.
Иногда вы использовали определения "слабо-"/"сильно-" типизированный язык. Я бы поговорил об этом. Это слишком важно, чтобы быть в стороне.
Я хочу сравнить несколько разных языков, и показать насколько иллюзорны идеи деления на сильно/слабые. Немного математики и общепринятого безумства: Javascript, Java, Scala, C++, .Net, Haskel и может что-то сверху. Я хочу показать разные подходы к типам с точки зрения их применимости, полезности, эффективности. Возможно даже то, что нас ждет в Java 40.0.
Introductory level presentation on Information Retrieval: Open source state. Helps the reader to comprehend what open source systems and tools are available for creating / managing own search engines. Provides a glimpse into research directions in IR, also solvable with open source solutions.
These slides were presented in the University of Helsinki, as a guest lecture for the "Information Retrieval and Search Engines - Spring 2017" course.
#ITSubbotnik Rodionov talk - "Neural networks in JS" (Нейронные сети на JS, С...Vsevolod Rodionov
Выступление на октябрьском ITSubbotnik про прошлое, настоящее и будущее JavaScript и нейронных сетей. Нейронные сети оказываются везде - в телефонах, автомобилях, чипах носимых устройств. Скоро может оказаться так, что и в браузерах они будут обычным делом - лучше подготовиться к их появлению заранее.
SentiScan: система автоматической разметки тональности в social mediaDmitry Kan
Автоматический анализ тональности можно по праву считать подзадачей ИИ. В этом докладе мы рассмотрим проблематику создания системы SentiScan, коснёмся вопросов оценки качества, сопровождения, реальных кейсов и способов улучшения качества в полуавтоматическом режиме.
Компания SemanticAnalyzer разработала API для распознавания объектной тональности в текстах на русском языке. Испробовать систему можно подключившись к API на сайте: https://www.mashape.com/dmitrykey/russiansentimentanalyzer
"Война типов: сильные против слабых" Виктор ПолищукFwdays
Вы скорее всего участвовали в спорах о лучшем языке: Assembler vs Basic, Cobol vs Lisp, Pascal vs C, Delphi vs C++, Java vs ..., Java vs .Net, + OCaml + Scala + Haskel + Schema + Javascript + Python + Groovy + Whateverlanguageisit.
Иногда вы использовали определения "слабо-"/"сильно-" типизированный язык. Я бы поговорил об этом. Это слишком важно, чтобы быть в стороне.
Я хочу сравнить несколько разных языков, и показать насколько иллюзорны идеи деления на сильно/слабые. Немного математики и общепринятого безумства: Javascript, Java, Scala, C++, .Net, Haskel и может что-то сверху. Я хочу показать разные подходы к типам с точки зрения их применимости, полезности, эффективности. Возможно даже то, что нас ждет в Java 40.0.
Introductory level presentation on Information Retrieval: Open source state. Helps the reader to comprehend what open source systems and tools are available for creating / managing own search engines. Provides a glimpse into research directions in IR, also solvable with open source solutions.
These slides were presented in the University of Helsinki, as a guest lecture for the "Information Retrieval and Search Engines - Spring 2017" course.
#ITSubbotnik Rodionov talk - "Neural networks in JS" (Нейронные сети на JS, С...Vsevolod Rodionov
Выступление на октябрьском ITSubbotnik про прошлое, настоящее и будущее JavaScript и нейронных сетей. Нейронные сети оказываются везде - в телефонах, автомобилях, чипах носимых устройств. Скоро может оказаться так, что и в браузерах они будут обычным делом - лучше подготовиться к их появлению заранее.
Lucene revolution eu 2013 dublin writeupDmitry Kan
This presentation is loosly based on my 2-day writeups on Lucene Revolution conference 2013 held in Dublin
http://dmitrykan.blogspot.fi/2013/11/lucene-revolution-eu-2013-in-dublin-day.html
http://dmitrykan.blogspot.fi/2013/11/lucene-revolution-eu-2013-in-dublin-day_13.html
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
Sentiment Analyzer for processing generic texts as well as tweets in Russian. Attributes to three classes {NEGATIVE, NEUTRAL, POSITIVE} and detetcts subjectivity / objectivity. Both modes can be run with and without keywords describing a target object (for example brand name).
Machine translation course program (in English)Dmitry Kan
This is the English version of my Machine Translation course program for the following course slides (in Russian):
http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
and
http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1
Linguistic component Lemmatizer for the Russian languageDmitry Kan
Lemmatizer for Russian based on a robust algorithm and a dictionary with high coverage.
It beats classical stemming, which can be rather crude approach to handle multivariate surface forms.
NoSQL (Not Only SQL) is believed to be a superset of, or sometimes an intersecting set with, relational SQL databases. The concept itself is still shaping, but already now we can say for sure: NoSQL addresses the task of storing and retrieving the data of large volumes in the systems with high load. There is another very important angle in perceiving the concept:
NoSQL systems can allow storing and efficient searching of the unstructured or semi-unstructured data, like completely raw or preprocessed documents. Using the example of one world-class document retrieval system Apache SOLR (performant HTTP wrapper around Apache Lucene) as a reference we will check upon its use cases, horizontal and vertical scalability, faceted search, distribution and load balancing, crawling, extendability, linguistic support, integration with relational databases and much more.
Dmitry Kan will shortly touch upon *hot* topic of cloud computing using the famous project Apache Hadoop and will help the audience to see whether SOLR shines through the cloud.
Semantic Analysis: theory, applications and use casesDmitry Kan
Presentation we gave at 6th Seminar of Finnish-Russian University Cooperation in Telecommunications (FRUCT) Program organized by Nokia Research Center, Helsinki University of Technology, Saint-Petersburg State University of Aerospace Instrumentation and sponsored by Nokia Siemens Networks, IEEE Russia (North West) Section, Nokia University Cooperation Program in Russia
www.fruct.org
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
HighLoad++ 2017
Зал «Конгресс-Холл», 7 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/2864.html
Большое количество современных веб-проектов переходит на микросервисную архитектуру. Она решает огромное количество проблем, присущих монолитным системам, однако накладывает качественно новые требования, в том числе и на аналитику данных.
В докладе будет рассказано о том, какие вызовы и возможности преподнесла нам микросервисная архитектура, а также показано, как clickstream может быть полезен не только аналитикам, но и разработчикам.
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)Ontico
Доклад о Bosun (http://bosun.org) — мониторинге от StackExchange и его использовании в https://www.onetwotrip.com/ за 1,5 года.
Строить мониторинг сложно, не работает подход "посадить людей смотреть на дашборды" либо обнаруживать аномалии во всех данных. Алерты должны соответствовать реальности и проверять сложные сценарии. В Bosun, как и во многих современных продуктах, метрики (данные) ортогональны правилам (коду) обнаружения алертов. Это позволяет гораздо быстрее создавать и настраивать правила, в том числе тестируя их на данных из прошлого. Вместо итераций в дни или недели теперь минуты.
Workflow настройки мониторинга точно такой же, как у всех остальных разработчиков, причём они сами могут принимать участие без помощи админов, так же создавая оповещения, перенаправляя инциденты на себя. Таким образом принимая ответственность за то, что они выкатывают в продакшн.
В Bosun продуманная схема данных, а также мощный язык их обработки, напоминающий R/pandas. В несколько строк пишутся map/reduce выражения, проверяющие соотношения, например, входящего трафика и загрузки бэкендов. Всё это после серьёзного, но благодарного труда, работает в динамической инфраструктуре и не срабатывает без повода, а если уж срабатывает, то к каждому инциденту можно приложить какой угодно контекст с состоянием (графиком параметров) системы, вычислением условий и ссылками на дашборды.
MIT лицензия, продукт созданный в StackExchange для решения собственных задач, на мой взгляд, ориентирован на компании со средней+ инфраструктурой.
Lucene revolution eu 2013 dublin writeupDmitry Kan
This presentation is loosly based on my 2-day writeups on Lucene Revolution conference 2013 held in Dublin
http://dmitrykan.blogspot.fi/2013/11/lucene-revolution-eu-2013-in-dublin-day.html
http://dmitrykan.blogspot.fi/2013/11/lucene-revolution-eu-2013-in-dublin-day_13.html
Linguistic component Sentiment Analyzer for the Russian languageDmitry Kan
Sentiment Analyzer for processing generic texts as well as tweets in Russian. Attributes to three classes {NEGATIVE, NEUTRAL, POSITIVE} and detetcts subjectivity / objectivity. Both modes can be run with and without keywords describing a target object (for example brand name).
Machine translation course program (in English)Dmitry Kan
This is the English version of my Machine Translation course program for the following course slides (in Russian):
http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-2911038
and
http://www.slideshare.net/dmitrykan/introduction-to-machine-translation-1
Linguistic component Lemmatizer for the Russian languageDmitry Kan
Lemmatizer for Russian based on a robust algorithm and a dictionary with high coverage.
It beats classical stemming, which can be rather crude approach to handle multivariate surface forms.
NoSQL (Not Only SQL) is believed to be a superset of, or sometimes an intersecting set with, relational SQL databases. The concept itself is still shaping, but already now we can say for sure: NoSQL addresses the task of storing and retrieving the data of large volumes in the systems with high load. There is another very important angle in perceiving the concept:
NoSQL systems can allow storing and efficient searching of the unstructured or semi-unstructured data, like completely raw or preprocessed documents. Using the example of one world-class document retrieval system Apache SOLR (performant HTTP wrapper around Apache Lucene) as a reference we will check upon its use cases, horizontal and vertical scalability, faceted search, distribution and load balancing, crawling, extendability, linguistic support, integration with relational databases and much more.
Dmitry Kan will shortly touch upon *hot* topic of cloud computing using the famous project Apache Hadoop and will help the audience to see whether SOLR shines through the cloud.
Semantic Analysis: theory, applications and use casesDmitry Kan
Presentation we gave at 6th Seminar of Finnish-Russian University Cooperation in Telecommunications (FRUCT) Program organized by Nokia Research Center, Helsinki University of Technology, Saint-Petersburg State University of Aerospace Instrumentation and sponsored by Nokia Siemens Networks, IEEE Russia (North West) Section, Nokia University Cooperation Program in Russia
www.fruct.org
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
HighLoad++ 2017
Зал «Конгресс-Холл», 7 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/2864.html
Большое количество современных веб-проектов переходит на микросервисную архитектуру. Она решает огромное количество проблем, присущих монолитным системам, однако накладывает качественно новые требования, в том числе и на аналитику данных.
В докладе будет рассказано о том, какие вызовы и возможности преподнесла нам микросервисная архитектура, а также показано, как clickstream может быть полезен не только аналитикам, но и разработчикам.
Bosun современный мониторинг / Дима Медведев (OneTwoTrip)Ontico
Доклад о Bosun (http://bosun.org) — мониторинге от StackExchange и его использовании в https://www.onetwotrip.com/ за 1,5 года.
Строить мониторинг сложно, не работает подход "посадить людей смотреть на дашборды" либо обнаруживать аномалии во всех данных. Алерты должны соответствовать реальности и проверять сложные сценарии. В Bosun, как и во многих современных продуктах, метрики (данные) ортогональны правилам (коду) обнаружения алертов. Это позволяет гораздо быстрее создавать и настраивать правила, в том числе тестируя их на данных из прошлого. Вместо итераций в дни или недели теперь минуты.
Workflow настройки мониторинга точно такой же, как у всех остальных разработчиков, причём они сами могут принимать участие без помощи админов, так же создавая оповещения, перенаправляя инциденты на себя. Таким образом принимая ответственность за то, что они выкатывают в продакшн.
В Bosun продуманная схема данных, а также мощный язык их обработки, напоминающий R/pandas. В несколько строк пишутся map/reduce выражения, проверяющие соотношения, например, входящего трафика и загрузки бэкендов. Всё это после серьёзного, но благодарного труда, работает в динамической инфраструктуре и не срабатывает без повода, а если уж срабатывает, то к каждому инциденту можно приложить какой угодно контекст с состоянием (графиком параметров) системы, вычислением условий и ссылками на дашборды.
MIT лицензия, продукт созданный в StackExchange для решения собственных задач, на мой взгляд, ориентирован на компании со средней+ инфраструктурой.
3. О себе
Ведущий инженер AlphaSense Inc
Участник SemanticAnalyzer Group
Кандидат физ.-мат. наук
Диссертация о машинном переводе
Интересы в NLP: МП, семантический
анализ, анализ тональности
4. О чём поговорим?
● МП: история
● Основные подходы
● MTEval @ ROMIP
● Статистический МП
● Метод порождения словаря
● Лингвистический проект за 6 часов
● Выводы
5. Немного истории МП
Одновременное независимое патентование
МП (1933):
● Пётр Смирнов-Троянский [1]
● Georde Artsrouni (отец МП) [2]
6. Ещё немного истории МП
Вторая мировая война:
● Электронный компьютер (обсчёт
баллистических выстрелов в США, взлом
кодов)
● Алан Тьюринг: нечисловые программы
(напр., машинный перевод)
● Weaver (1949): МП как взлом кодов
7. Ещё немного истории МП 2
Weaver своими (неверными) идеями
стимулировал исследования в МП
● 1952: первая конференция по МП (MIT)
● 1954: демо первой системы МП
(русский<->английский)
● 1960: МП стимулирован Холодной войной
США, Великобритания, Франция, Япония
и СССР
15. MTEval and Shared Task @ ROMIP
● Org: ROMIP in cooperation with TAUS
● 8 систем МП
● 1 crowdsourced переводчик: http:
//translatedby.com/
● test set: ~1000 предложений, 100 на
оценку
● 11 ассессоров
● небольшое перекрытие между ними
● 28 пакетов по 36 задач
16. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 1: NO
В пятницу Warner Music Group, объявил,
что он был вызван в управление Нью-Йорке
генеральный Прокурор Элиот Спитцер,
чтобы предоставить информацию о цифровой
музыке скачать ценообразования.
17. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
SYSTEM 2: YES
В пятницу Музыкальная Группа Уорнера
объявила, что она была вызвана в суд
управлением Нью-Йорка
Генеральный Атторней Элиот Спицер
предоставить информацию о
ценообразовании загрузки цифровой
музыки.
18. MTEval and Shared Task @ ROMIP
Problem: to translate or not to translate?
HUMAN: NO
В пятницу фирма Warner Music Group
заявила, что ее представители были вызваны
на допрос к генеральному прокурору Нью-
Йорка Элиоту Спитцеру (Elliot Spitzer),
чтобы дать показания о политике
ценообразования в сфере онлайн-продаж
музыкальной продукции.
19. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 1: NO
Местные жители заметили также текущих SWAT
учений с участием многочисленных
государственных органов в области, в том
числе национальной Безопасности, HPD и
Калифорнийский Департамент Полиции.
20. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
SYSTEM 2: YES
Местные жители также заметили настоящие
учения SWAT, вовлекающие многочисленные
правительственные агентства в области,
включающие Безопасность Родины, HPD и
Пасаденское Полицейское Управление.
21. MTEval and Shared Task @ ROMIP
Problem: to reorder or not to reorder?
HUMAN: YES
Местные жители также заметили
продолжающиеся тренировки спецназа в
местных государственных учреждениях,
включая Министерство внутренней
безопасности США, Полицейские управления
городов Хьюстон и Пасадена.
22. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 1 (no reordering)
Однако, Совет не будет применять каких-
либо дальнейших действий, пока не
ЭльБарадей делает его полный отчет о 6
марта.
23. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
System 2 (with reordering)
Однако, совет не будет выполнять
никакого дальнейшего действия, пока
ЭлБэрейдей не сделает свой полный доклад
6 марта.
24. MTEval and Shared Task @ ROMIP
Problem: Does reordering even matter?
HUMAN (with reordering)
Однако, совет не будет предпринимать
дальнейших действий, пока ЭльБарадей
(ElBaradei) не предоставит свой полный
отчет 6 марта.
25. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two
languages
System 1
Гарантии были даны, что грузовик, сцена,
музыка и выступления - не говоря уже о
барабанах, танцы и протест - не будет
предотвращено от идти вперед, как
планировалось на площади прямо напротив
таможни в Circular Quay, веб-сайт сказал.
26. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping between two languages
System 2
Гарантиям дали тот грузовик, стадию,
музыку и речи - чтобы не упомянуть, что
барабанили, танцуя, и протесту - не будут
препятствовать идти вперед как
запланировано в квадрате непосредственно
вне Таможни в Круглом Причале, веб-сайт
сказал.
27. MTEval and Shared Task @ ROMIP
Problem: Semantic mapping betw. two languages
Original sentence:
"Assurances have been given that truck,
stage, music and speeches - not to mention
drumming,
dancing and protest - will not be prevented
from going ahead as planned in the square
directly outside Customs House at Circular
Quay," the website said.
28. Проблемы crowdsourcing и MT [8]
● Низкое качество (смысл задачи, copy-
pasting, misspelling)
● Turking machines
● Output space problems (все переводы
верны)
29. MTEngine
● Crowdsourced machine translation system
● Словарные единицы семантического уровня
● нет Turking machine problem
● Перевод либо верен, либо почти верен, либо
неверен
● Проблема низкого качества решается кросс-
проверками
30. История проекта
● Август-сентябрь 2011: первая версия
● Сентябрь - октябрь 2011: работа над оценкой
качества
● Октябрь: выложены || корпуса
● 2012: первые волонтёры (по подписке)
● Январь 2013: новый UI
● Март 2013: новые фичи каждую неделю
● Регистрация на сайте
31. Статистический МП
● Сказав что-то однажды, человек повторит это
вновь (с некот. вероятностью)
● || корпус -- основа для фразовой таблицы
● P(e|f), E - English, F - French
● Теорема Байеса:
33. Исходный язык Целевой язык
Переводной контекстный
семантический словарь
● Параллельный корпус UMC (~90
тыс. пар предложений)
● Максимизация апостериорной
вероятности, совместная
встречаемость
● Семантический анализ
34. GIZA++ ищет P(f|e)
● Модуль выравнивания слов
● Входит в состав пакета Moses
(статистический МП)
● 86000 предложений -> 1,3млн пар слов в
выходных данных
● Задача разрешения полисемии
● Высокий уровень избыточности данных в
словаре
● 18,000+ на выходе
35. Пример выравнивания
# Sentence pair (1) source length 4 target
length 7 alignment score : 2.25315e-10
there is a book on the table
NULL ({ }) на ({ }) столе ({ 5 6 7 }) лежит
({ 1 2 }) книга ({ 3 4 })
"столе" --> "on the table"
"лежит" --> "there is"
"книга" --> "a book"
38. Порождение предлогов
СГТ
● @Род - of
Автомобиль Ивана. Car of Ivan.
● @Тв - by
Пишу рукой. Writing by hand.
● @Дат - to
Пишу другу. Writing to (a) friend.
39. Выводы
● recognition в массы (stats page, юзерпик,
wall of fame)
● Минимум рутины!
● Переводить предложения с нуля -- очень
затратно
● MTEngine: помоги системе перевести
лучше и получи зачёт и уточни познания
английского языка
● Фокус на изучении, а не || корпусе
41. Библиография
[1] Mona Baker, Routlege Encyclopedia of Translation
Studies, 2001, ISBN 0-203-35979-8.
[2] Р. Г. Пиотровский: Автоматизация обработки текста,
ВИНИТИ, ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ, 1998, №5.
[3] http://www.hutchinsweb.me.uk/MTJ-2000.pdf
[4] http://www.hutchinsweb.me.uk/IJT-2004.pdf
[5] ALPAC report http://www.nap.edu/openbook.php?
record_id=9547&page=R1
42. Библиография
[6] Chris Callison-Burch, Philipp Koehn: Introduction to
Statistical Machine Translation, ESSLLI 2005.
[7] www.romip.ru (http://romip.ru/mteval/index.html)
[8] Ambati V. Active Learning and Crowdsourcing for
Machine Translation in Low Resource Scenarios. Carnegie
Mellon University, 2011.
[9] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-2911038
43. Библиография
[10] http://www.slideshare.net/dmitrykan/introduction-
to-machine-translation-1
[11] Estellés-Arolas, E., González Ladrón-de-Guevara, F.
2012. Towards an integrated crowdsourcing definition.
Journal of Information Science (in press).
[12] Callison-Burch C. 2009. Fast, Cheap, and Creative:
Evaluating Translation Quality Using Amazon’s Mechanical
Turk. Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing: Vol. 1, pp. 286-
295.
44. Библиография
[13] Kan D. 2011. Method for an Automatic Generation of
a Semantic-level Contextual Translational Dictionary.
Proceedings of the 6th International Conference on
Software and Data Technologies, Vol. 2, pp. 415-418.
[14] http://dmitrykan.blogspot.ru/2010/02/giza-under-
windows.html
[15] http://dmitrykan.blogspot.ru/2010/03/giza-under-
windows-episode-2.html
45. Библиография
[16] Кан Д.А. Применение теории компьютерной
семантики и статистических методов к построению
системы машинного перевода. Дисс. канд. физ. мат.
наук, СПбГУ, 2011.