Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Прокачиваем информационные системы с помощью data science

1,078 views

Published on

Доклад Сергея Шашева на конференции Analyst Days-5, 22-23 апреля 2016 г., Санкт-Петербург
www.analystdays.com

Published in: Education
  • Be the first to comment

Прокачиваем информационные системы с помощью data science

  1. 1. Прокачиваем информационные системы с помощью data science
  2. 2. Зачем это нужно знать аналитику?
  3. 3. Глоссарий Информационная система - совокупность технического, программного и организационного обеспечения, а также персонала, предназначенная для того, чтобы своевременно обеспечивать надлежащих людей надлежащей информацией [William S]. Информационная система - это взаимосвязанная совокупность информационных, технических, программных, математических, организационных, правовых, эргономических, лингвистических, технологических и других средств, а также персонала, предназначенная для сбора, обработки, хранения и выдачи экономической информации и принятия управленческих решений [М.Р. Когаловский]. Наука о данных (data science) = Big data + Data Mining + Machine Learning.
  4. 4. Дешевый вход в область data science • Open source over 3K • Научные статьи, блоги, лучшие практики over 100K Узнали опыт коллег Добавили эвристик Взяли что-то готовое Тут уже сложно
  5. 5. Где мы находимся по отношению к уровню развития бизнеса? В этой области нет места инновациям Здесь появляется
  6. 6. Где мы находимся по отношению к данным? Процессы Уровни – заказная разработка, o utsource, интегратор, консалтинг Данные Уровни – бизнес, in-house, 100 лет сопровождения Экспертиза в data science Уровень – внешняя команда
  7. 7. Обработка данных – драйвер роста бизнеса • Контур • 1C Битрикс • Yandex, Rambler, Mail.ru • Операторы связи • Банки • Ритейл
  8. 8. Что такое данные ? • Цифры • Тексты • Логи • БД в конец концов • Внешние источники О некоторых аспектах бизнеса заказчика вы можете узнать больше заказчика
  9. 9. Основные точки применения • Интеграция в процессы принятия решений • Поиск • Интеллектуальные подсказчики • Контроль работы персонала • Актуальные задачи предметной области Центральная задача – принятие решений. Любое решение стоит дорого, особенно если он неверно.
  10. 10. Задачи Минобрнауки • Как сформировать приоритетные направления? • Кому выделить финансирование? Сколько? • Как проложить мост между промышленностью и наукой? • Кого оставить на плаву в условиях кризиса? • Кто эксперт в узкой области? • Как найти ценные разработки в десятках миллионов документов?
  11. 11. Поехали! Получаем все слова документов
  12. 12. Обрабатываем коллекцию документов
  13. 13. Пространство слов
  14. 14. Обработка в общих чертах
  15. 15. Переходим в векторное пространство
  16. 16. Ближайшая параллель
  17. 17. Модель коллекции. Модель слов.
  18. 18. Специфика задач data science • Множество ложных гипотез • Нет промышленного кода долгое время • Предобработка данных – 70% времени • Обоснование ROI для каждой задачи
  19. 19. Траектория решения задач data science 1. Гипотезы -> Верификация 2. Получение выборки данных 3. Эксперименты 4. Обоснование ROI 5. Инфраструктура Big data 6. Внедрение в реальные бизнес- процессы
  20. 20. Семантический поиск
  21. 21. Компетенции, лидеры, эксперты – 3 клика
  22. 22. Смысловой антиплагиат Учитываем предметную область
  23. 23. Агрегация данных и анализ
  24. 24. Что есть организация/персона
  25. 25. Графы связей организаций • Поиск явных связей • Выявление конкурентов • Выявление возможных партнеров
  26. 26. НТИ • Отчеты по организациям • Отчеты по персона • Отчеты по научно-техническим разработкам • Полный отчет по АэроНэт – 2033 страницы
  27. 27. Факторы успеха 1. Вовлеченный заказчик 2. Вникнуть в бизнес 3. Мониторинг новинок 4. Академические связи 5. Обмен опытом 6. Быстрые эксперименты 7. Люди с компетенциями
  28. 28. Рекомендуемые инструменты и алгоритмы • Word2Vec • SVD • Mystem • Breeze NLP • Snappy • Akka • Apache Solr • Apache Spark • REDSVD • BLAS • CBC • HAC • Scala NLP • LDA + GS • DBscan • Optics • Boilerpipe • Scala/MongoDB/Postgress
  29. 29. В 21 веке информационные системы должны быть интеллектуальными Шашев Сергей, sshashev@naumen.ru • Не нужно быть гуру математики для внедрения элементов data science • Открытых знаний и рецептов – море • Объем Open Source и продуктов – тысячи систем • Аналитик – драйвер прокачки информационных систем

×