Обучаем машины для службы людям - прикладное машинное обучение и интеллектуальный анализ больших данных.

Исторически, компания Экспасофт выделилась из лаборатории анализа данных
Института математики им. С.Л. Соболева СО РАН и с момента своего основания
остается в поле технологий связанных с решением машинными методами
интеллектуальных задач.
Технологический стек компании:
• Artificial Intelligence: Python (Scikit learn, Numpy, Pandas), R (Revolution R),
Azure ML, SPSS Climentine, Knime, Vowpal wabbit
• Deep learning: CNN, LSTM, DNN, Café, Theano, Tensor flow
• Natural Language Processing: Rule based, Bag of words, TFIDF, Latent semantic
analysis, Word2vec, Doc2vec
• Big Data: Spark, Hadoop, MlLib, AWS (Redshift)
2

Хотя численность сотрудников компании не превышает 20 человек, большую их
часть составляют специалисты по машинному обучению.
Основатели компании:
• Владимир Дюбанов – эксперт в области интеллектуального анализа данных и
машинного обучения, имеет более 30 профильных публикаций, занял
призовое 4 место в международном конкурсе Data Mining Cup-2009 (618
команд из 164 организаций 42 стран)
• Павловский Евгений – к.ф.-м.н., выпускник Президентской программы
подготовки управленческих кадров по направлению «Маркетинг», привлек
ангельские инвестиции (более $200k) в проект анализа данных в медицине
3

На данный момент успешно реализовано более двух десятков проектов.
Наиболее именитые клиенты: ЦФТ, Сигнатек, Унискан, ГК Холидей , Parallels,
НИИПК им. Е.Н. Мешалкина, Schlumberger, Baker Hughes, EMC, Министерство
обороны РФ.
4

Основные направления работ:
1. Проведение технологических исследований в области машинного обучения:
формирование математической постановки задачи, обзор коммерческих
решений, изучение передовых научных достижений (взаимодействие с
ведущими мировыми научными коллективами), разработка оригинальных
алгоритмических решений, конструктивное доказательство разрешимости
поставленной задачи путем разработки демонстрационного стенда.
2. Обработка текстов естественного языка: извлечение именованных
сущностей/отношений, аннотирование, классификация и кластеризация,
создание тематических профилей, поиск дубликатов, анализ тональности;
разработка и поддержка онтологий (разработка структуры, методов
заполнения, запросов для извлечения данных).
3. Анализ данных на заказ: аналитическое исследование данных, построение
прогностических/скоринговых моделей, разработка статистических
классификаторов, поиск скрытых закономерностей, восстановление
пробелов в данных, фильтрация выбросов.
4. Решение оптимизационных задач: создание математических моделей,
разработка решателей с заданными характеристиками точности и
быстродействия.
5

Компания сохранила тесные связи с научной средой новосибирского
Академгородка, так, совместно с Новосибирским Государственным
Университетом:
• открыта Лаборатория аналитики потоковых данных и машинного обучения
при (НГУ): http://nsu.ru/b69a910a84c37ba667c3cd0f74d2a0e5;
• запущена магистерская программа на английском языке "Big Data Analytics":
http://www.nsu.ru/7a5b98ece225839a0a7ba2ec0ff7ce12?_utl_t=fb;
• привлечено 167 млн. руб. от Минобрнауки России:
http://www.cnews.ru/news/line/2016-02-
01_minobrnauki_rossii_vydelilo_167_mln_rubna_proekt.
7

В работе с клиентами Экспасофт руководствуется методологией CRISP-DM:
http://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-
mining-data-science-projects.html.
Ключевым аспектом данной методологии является то, что любой проект состоит
из шести последовательных этапов, прохождение каждого из которых
сопровождается получением значимого вещественного результата: будь то
документ или программных код.
Далее будут продемонстрированы наиболее показательные проекты и
перспективные технологии компании.
8

Персонал предприятия периодически списывает группы расходных материалов
на различных участках учета. В силу наличия человеческого фактора, процесс
списания сопровождается ошибками (в том числе, умышленными).
Однако подобные "ошибки" легко выявляются на фоне типичной деятельности
предприятия.
9

При условии правильной организации сбора и хранения данных о сотрудниках
компании, статистический анализ позволяет успешно решать такие актуальные
задачи из области управления персоналом, как:
• определение степени соответствия сотрудника занимаемой должности на
ранних этапах его работы, в том числе на основании результатов выполнения
входных тестов
• выявление сотрудников склонных к скорому уходу
10

Если для продвижения товаров используются различные рекламные каналы,
важно понимать:
• объем продаж инициированных каждым каналом
• рентабельность каналов продаж
• как уровень продаж зависит от распределения рекламного бюджета между
различными каналами
Получить ответы на эти вопросы можно путем сопоставления наблюдаемых
объемов продаж изменениям которым подвергались рекламные бюджеты.
11

В рамках международного соревнования анализировались данные о том,
сколько книг того или иного жанра было продано в разных магазинах торговой
сети в течение года. Данные содержали число книг каждого из 1856 жанров,
проданных в течение года в том или ином магазине.
Цель анализа – понять необходимый объем поставок книг определенного жанра
в каждый магазин.
В конкурсе изъявили желание участвовать 618 команд из 164 организаций 42
стран, 231 команда решила эту задачу и прислала свои результаты, 49 команд
преодолели порог приемлемых результатов, установленный организаторами.
Среднее количество ошибок на одно предсказываемое значение у разных
команд колебалось от 0.89 до 100.22. Наша команда в среднем сделала 0.95
ошибки на прогноз и заняла 4 место.
12

На основании истории прохода посетителей через кассы в супермаркете
решалась задача прогнозирования ежедневного количества покупателей.
Прогнозная модель учитывала время суток, день недели, праздничный/не
праздничный день. Ошибка предсказания составила 5%.
13

В рамках совместно Франко-Российского проекта была разработана технология
автоматической персонификации вебсайтов в соответствии с индивидуальными
предпочтениями и особенностями восприятия посетителей.
Алгоритм персонификации в автономном режиме «24/7/365» изучает трафик
вебсайта путем внесения точечных изменений на уровне дизайна, контента и
функционала отдельных страниц сайта. Цель изучения – поиск оптимальных
стратегий воздействия на посетителей в направлении максимизации заданной
метрики конверсионного отклика.
Помимо графика отражающего общий рост конверсии, результат работы
алгоритма представим в виде сегментации клиентов по группам
характеризующимся едиными покупательскими пристрастиями. Каждый
сегмент описывается объективными характеристиками, доступными для
наблюдения: пол, возраст, достаток, семейное положение и т.д. Для каждого
сегмента сформирована оптимальная стратегия воздействия.
14

Совместно с отделом физиологии НИИПК им. Мешалкина решалась задача
идентификации на дооперационном этапе пациентов, имеющих повышенный
риск возникновения осложнений во время проведения операции. Для анализа
был доступен широкий спектр характеристик пациента:
• общая информация (возраст, пол, профессия, образ жизни и пр.)
• диагноз (патологии, перенесенные операции)
• тип операционного вмешательства
• данные инструментальных обследований
• внешние факторы (сезонные обострения, погода, состояние геомагнитного
поля земли, солнечная активность)
В результате анализа был создан ансамбль статистических моделей, каждая из
которых хорошо описывает некоторую устойчивую группу пациентов.
Каждая модель ансамбля может быть охарактеризована степенью
«осторожности» в принятии решения о принадлежности пациента к группе
риска:
• Осторожные модели склонны к перестраховкам – они скорее лишний раз
привлекут внимание врача к пациенту, которому ничего не угрожает, чем
пропустят представителя «группы риска».
• Менее осторожные модели более сбалансированы в своих оценках.
15

Решалась задача предсказания поломок механизированной системы добычи
нефти. Информация для анализа поступала с датчиков отвечавших за измерение
температуры, давления, силы тока и напряжения.
Полнота прогнозирования поломки (доля обнаруженных неисправностей)
составила 60%, время между ложными предсказаниями – более 3х месяцев.
16

Была разработана прогностическая модель для нового прибора, определяющего
фракционный состав сырой нефти.
При добыче в трубу поступает смесь, состоящая из трех фракций: газ, нефть и
вода. Сейчас для определения состава смеси в трубе используется прибор
"сепаратор" стоимостью порядка $200k. Созданная прогностическая модель
позволила масштабировать один сепаратор на куст нефтегазовых вышек. При
этом, оперативный мониторинг состава смеси поступающей от каждой
конкретной вышки происходит путем математического восстановления состава
по косвенным данным (разность давлений, давление и температура). Сепаратор
переключается между вышками для проведения калибровки работы моделей.
Итоговая схема обходится не более чем в $10k на одну вышку и позволяет
проводить измерения с погрешностью ниже 1%.
17

В рамках исследований, проводимых компанией Parallels совместно
с Новосибирским Государственным Университетом (НГУ) в области создания
современной платформы облачного хостинга, наш коллектив решал задачу
прогнозирования нагрузок на сервера по характеру запросов к ним.
Прежде всего решение заявленной задачи потребовало научиться рассчитывать
«стоимость» отдельных запросов в единицах системных ресурсов (такты
процессора, оперативная память) для определения «нагрузки» создаваемой
каждым отдельным вебсайтом. Позже, в совокупностью с решением задачи
прогнозирования числа запросов, это позволило перейти к задаче
прогнозирования роста потребления отдельным вебсайтом системных ресурсов.
Итоговая ошибка прогнозирования составила менее 2%.
Реализованный модуль прогнозирования использовался для расчета
оптимального, с точки зрения надежности функционирования системы,
распределения сайтов по серверам.
18

Востребованной областью использования методов машинного обучения
является построение оценочных (скоринговых) моделей заемщиков для
финансовых институтов. Компания Экспасофт участвовала в разработке
эффективной скоринговой модели для микрофинансовой организации. Было
разработано две модели:
• первая модель была ориентированная исключительно на снижение рисков
невозврата кредита
• вторая – прогнозировала штрафные санкции (объем, вероятность
возникновения и выплаты) и учитывала эту информацию для максимизации
прибыли организации
19

В лаборатории криминалистики при ФСБ РФ проводятся исследования
микрообъектов и их совокупностей по данным рентгеноспектрального
микроанализа:
• исследуемое вещество представляет собой множество из нескольких
десятков или сотен микрочастиц
• реакция каждой микрочастицы на облучение отображается спектром,
состоящим из 1024 каналов
• амплитуда сигнала в спектральном канале может изменяться от 0 до
нескольких тысяч условных единиц
• спектр одного и того же микрообъекта может меняться в зависимости от
контролируемых и неконтролируемых условий эксперимента
Сотрудниками нашей компании была разработана программная система
СПЕКТРАН позволяющая проводить анализ рентгеновского спектрального
анализа микрочастиц гомогенных веществ и их смесей. С помощью этой
системы решаются следующие базовые задачи: кластеризация частиц по
похожести их спектров, выбор подмножества наиболее информативных полос
спектра, распознавание принадлежности частиц и их смесей к заданным
классам веществ и ряд других.
20

Сейчас область машинного обучения переживает настоящую революцию,
связанную с успешным применением глубоких нейронных сетей в тех областях,
где до сих пор "машине" не удавалось достигать результатов сравнимых с
человеческими. В первую очередь, речь идет о распознавании изображений,
анализе видео и аудио контента, распознавании речи, обнаружении аудио-
событий, идентификации дикторов и т.д.
Это оказалось возможным благодаря переводу процесса решения этих задач из
области "качественного" в область "количественного". Другими словами, теперь
достижение требуемого качества решения некоторой задачи, может быть
сведено к организации правильного процесса сбора информации в количествах
достаточных для обучения глубоких нейронных сетей.
Компания Экспасофт располагает необходимым оборудованием и имеет
положительный опыт обучения глубоких нейронных сетей для решения
широкого спектра задач, речь о которых пойдет далее.
22

Системы распознавания лиц решают две задачи:
• задача верификации
• задача идентификации
Задача верификации заключается в сравнении двух фотографий с целью понять,
являются ли запечатленные на них люди одним и тем же человеком или это
фотографии разных людей (one-to-one). Зачастую данная задача возникает в
системах охраны, когда необходимо понять является ли человек тем, за кого
себя выдает.
Задача идентификации заключается в понимании, кто именно из заданного
набора персон запечатлен на данной фотографии (one-to-many). Задача
идентификации является технически более сложной, т.к. это задача
многоклассовой классификации.
23

Пример решения пары «классических» задач распознавания образов, близко
сопряженных с распознаванием лиц – определение пола и возраста человека по
фотографии:
• точность распознавания пола близка к 95%
• машинное определение возраста работает в пределах допусков в 7 лет для
людей среднего возраста
24

Получено решение задачи автоматической идентификации изображений
бланков документов, относящихся к следующим классам:
• паспорт гражданина РФ
• заграничный паспорт гражданина РФ
• страховое свидетельство обязательного пенсионного страхования
• водительское удостоверение
• свидетельство о регистрации ТС
25

На базе технологии глубоких нейронных сетей создано решение, позволяющее
детектировать на изображении наличие людей и транспортных средств с
точностью порядка 95%.
26

Было проведено обучение нейронной сети блокировать изображения
содержащие порнографический контент. Для обучения было доступно 120 000
снимков из которых половина носила порнографический характер.
Тестирование готового решения проводилось на 30 000 снимков. Результат
тестирования: 98% порнографических изображений были успешно
заблокированы, при 2% ложных срабатываний.
27

Разработан сервис аутентификации, реализующий следующий сценарий:
1. Пользователю, проходящему аутентификацию, направляется текстовое
сообщение
2. Пользователь зачитывает сообщение на микрофон и передает сервису
3. Полученная голосовая запись распознается на соответствие сообщению +
идет сравнение образца голоса с БД голосов
Таким образом проводится трехфакторная аутентификация:
• наличие зарегистрированного телефона
• совпадение голоса с эталонным образцом
• совпадение содержания голосового сообщения с присланным текстом
В работе сервиса использована оригинальная технология, которая позволила:
• сократить размер образца голоса до 5 сек.
• превзойти аналогичное решение от компании Microsoft на стандартном
наборе данных MOBIO Database
28

Реализована технология идентификации аудио-событий.
С высокой степенью достоверности (не менее 98%) распознаются:
• крик ребенка
• лай собаки
• звон разбитого стекла
• выстрел
• пожарная сирена
29

Была разработана компьютерная технология 3D-моделирования имплантатов
для проведения реконструктивных операций на костях лицевого и мозгового
отделов черепа.
Решение задачи было получено путем обучения стека глубоких нейронных сетей
восстановлению изображений черепов, что позволило создать полностью
автоматический процесс моделирования не требующий участия человека.
Формируемые модели имплантата распечатываются на 3D-принтере.
30

Широкий спектр задач связан с автоматическим извлечением из текстов фактов
представляющих интерес для пользователя.
Результат машинного чтения текста может быть представлен в виде графа,
выявленных фактов, каждому узлу и ребру которого поставлена в соответствие
семантическая метка, передающая смысл соответствующего факта. Все метки
организованы в общую смысловую иерархию, что позволяет осуществлять поиск
не только по конкретной реализации факта в тексте, но и по более абстрактным
понятиям.
Для приведенного на слайде примера (новость про банду Солодкина), событие
«Арест» входит в иерархию понятий: «Действие»«Событие»«Арест». Для
фигуранта «Солодкин» установлен пол и занимаемая должность. Кроме того, в
результате анализа текста была установлена географическая привязка – город
Новосибирск.
31

Разработка онтологии предметной области – крайне кропотливая и трудоемкая
задача, которая все же может быть автоматизирована. Так, опираясь
исключительно на возможности морфологического, синтаксического и
статистического (частотного) анализа текстов, были получены следующие
результаты полностью автоматического разбора нормативных документов
заказчика:
• выявлены узлы онтологии ("объекты")
• все объекты организованы в единую иерархию
• на объектах заданы базовые типы отношений: "действие" и "вид"
• установлены значения метрических характеристик (атрибутов) объектов:
длина, ширина, высота, плотность, давление, объем и пр.
• проведена лингвистическая нормализация всех имен выявленных объектов
Важно отметить, что речь идет не об автоматическом построения онтологии, а о
максимальной автоматизации рутинных операций, связанных с обработкой
текстовых источников. Благодаря этому успешно решается две ключевые
задачи, значение которых сложно переоценить на проекте такого масштаба:
• повышается эффективность процесса разработки онтологии (значительно
снижается и стоимость, и срок)
• снижается влияние человеческого фактора, особенно остро проявляющегося
в возрастании числа ошибок при выполнении работ требующих длительных
периодов сосредоточения внимания
32

Ведутся работы по переносу глубоких нейронных сетей на мобильные
платформы.
Была разработана С++ реализация нейросетей предназначенных
для распознавания звуковых событий, детектирования пешеходов и
детектирования лиц, адаптированная для работы на ARM процессорах.
Полученное решение было успешно протестировано на платформе Raspberry Pi:
• работая в режиме реального времени одна нейронная сеть потребляет
порядка 30-40% одного ядра
• точность распознавания снижается не более чем на 6%
33

Компания Экспасофт проводит очное обучение анализу больших данных.
Курс даёт знания из области анализа данных, машинного обучения, бизнес-
анализа. Разбираются кейсы по движкам рекомендаций, обработки серверных
логов, кредитному скорингу и интеграции данных (ETL).
Затрагиваются все аспекты анализа данных: математический, аналитический,
инженерный и управленческий. Курс рассчитан на инженеров, программистов,
маркетологов, базовиков и аналитиков.
Процесс учебы включает в себя проработку проекта больших данных для
собственной компании ученика под руководством опытных специалистов.
Выпускники курса, способны определять выгоды анализа больших данных для
собственной компании, овладевают практичными алгоритмами (RandomForest,
Naïve Bayesian, Boosting, Bagging, DT, SVM, kNN и др.), обучены использовать
Python для анализа данных и текстов (Pandas, SciPy, NumPy, PyMorphy, NLTK),
овладеете средами (Tableau, Orange), могут интегрировать большие потоки
данных и работать с ними через Hadoop.
35

Академпарк, ИТ-центр
ООО “Экспасофт”
ул. Николаева, 11, офис 707
г. Новосибирск, 630090
Тел: +7-923-227-49-97
email: v@expasoft.ru
Часть технологий, приведенных в презентации, оформлена в виде
демонстрационного стенда, доступного по адресу: http://expasoft.com/services/
36

Обучаем машины для службы людям - прикладное машинное обучение и интеллектуальный анализ больших данных.

Recommended

Recommended

More Related Content

Similar to Обучаем машины для службы людям - прикладное машинное обучение и интеллектуальный анализ больших данных.

Similar to Обучаем машины для службы людям - прикладное машинное обучение и интеллектуальный анализ больших данных. (20)

Обучаем машины для службы людям - прикладное машинное обучение и интеллектуальный анализ больших данных.