SlideShare a Scribd company logo
1 of 47
Download to read offline
● ●
● ●
● ●
•
•
•
•
Обучение
с учителем
• Обобщение на основании
известных пар правильных
ответов и предпосылок,
предсказание ответов
для новых предпосылок
• Применимо, когда
структура данных и их
признаки известны, они
предварительно
категоризированы или
имеют численный формат
Классификация
Разделение объектов по заранее
известному признаку, оценка
степени принадлежности объекта
к группе.
Спам фильтры
Банковский скоринг
Поисковое ранжирование
Выявление брака на производстве
Регрессия
Прогнозирование числовых
значений, аппроксимация
зависимости между входными
и одной выходной переменной.
Прогноз спроса на товар
Вероятность поломки автомобиля в зависимости
от пробега
Обучение
без учителя
• Формирование групп
и нахождение
определяющих их
признаков в случаях
отсутствия достаточного
набора данных для
обучения моделей
• Чаще всего используется
как метод анализа данных,
а не метод выбора
решения
Кластеризация
• Объединение объектов
или наблюдений
в непересекающиеся группы,
называемые кластерами, на основе
близости значений их атрибутов
(признаков)
• В каждом кластере будут
находиться объекты, похожие по
своим свойствам друг на друга и
отличающиеся от тех, которые
расположены в других кластерах.
Сегментация аудитории сайтов
Объединение точек в секторы на изображения
Сжатие изображений
Анализ и разметка данных
Выявление аномалий
Заполнение пропущенных значений
Ассоциативные
правила
Формирование частых наборов,
прогнозирование следующего
элемента.
Примеры:
• Анализ товаров, покупаемых вместе
• Мерчендайзинг
• Системы рекомендаций
• Прогнозирование сбоев по цепочке
событий
Обучение
с подкреплением
• Модель обучается с целью
максимизации
долговременного
выигрыша, получая отклик
на принятые решения от
динамичной среды, с
которой она
взаимодействует
• Модель обобщает опыт, а
не запоминает каждый
прецедент
• Задача – выжить ,
минимизировав ошибки
Примеры обучения с подкреплением
Навык устойчивого
перемещения
Навык
удержания
Навык победы чемпиона мира
по игре в Го
Поиск лекарств, оптимизация
архитектуры электронных
чипов, маршрутизация
транспортных средств
и пакетов
Ансамблевые
методы
Объединение моделей в
совокупность, при которой
повышается качество
прогнозирование и устойчивость
к аномалиям во входных данных
(робастность)
Примеры:
• Классификация, регрессии
• Компьютерное зрение
• Распознавание объектов
• Поисковые системы
Типы ансамблевых моделей
Стекинг – делегирование решения
последующим алгоритмам, которое
является производным от решений
делегирующих
Бустинг – обучение на примерах, где
предыдущая модель делает ошибки
Беггинг – параллельное обучение
множества экземпляров модели на
случайно сформированных выборках
из исходного набора данных, с
последующим усреднением ответа
Нейронные сети
и глубокое обучение
• Используют архитектуру,
вдохновленную
принципами работы
нейронов мозга, где
нейрон суммирует
информацию, поданную
ему на вход и передает
нейронам в последующих
слоях свой ответ
• Глубокое обучение –
нейронные сети с
множеством скрытых
слоёв
✓
✓
✓
✓
Рекомендации
Машинное обучение – это общедоступные алгоритмы. Для
настройки этих алгоритмов нужны данные и умеренно
компетентные специалисты
Любые преобразования – это преобразования, связанные с
людьми, процессами и технологиями, увлекаясь последним, не
забывайте об остальном
Автоматизация с помощью машинного обучения - это не замена
сотрудника алгоритмом, а высвобождение времени сотрудника
для выполнения более сложных и полезных для бизнеса функций
Лучше всего себя проявляет в гибридных системах, где машинное
обучение помогает человеку быть эффективнее, а бизнесу получать
высокопроизводительных специалистов
Последнее решения в вопросах с этической подоплёкой или с
большой стоимость риска должно оставаться за человеком
Применение машинного
обучения в управлении
ресурсами
• Повышение утилизации и доступности
• Распределение заказов между водителями Яндекс.Такси
• Посменное прогнозирование необходимости в персонале
в розничной сети МТС
• Прогнозирование необходимости пополнения запаса наличных денег
в банкоматах Сбербанка
• Сокращение затрат
• Экономия используемого природного газа в НЛМК
• Сокращение расходов на электричество в контуре охлаждения серверной
• Сокращение логистических затрат на хранение из-за повышения качества
прогнозирования клиентского спроса
• Автоматическое сканирование, распознавание и обработка документов
• Автоматическое управление бюджетом и параметрами интернет-
маркетинга в Harley-Davidson
• Генерация трехмерных моделей артикулов по сделанным фотографиям
в интернет-магазине
• Повышение качества продукции
• Режимы термической обработки металлических труб в НЛМК
• Предупреждение поломок холодильников в розничной сети Перекресток
• Повышение качества и количество урожая в агрокомплексе, повышение
надоя и мониторинг здоровья коров на молочном производстве
Применение в финансовом
секторе и системах
безопасности
• Подтверждение транзакций с помощью распознавания голоса
Сбербанк
• Выявление мошеннических банковских транзакций и фрод-
активности сотрудников в НSBC
• Поиск преступников с помощью сети видеокамер городского
наблюдения в Москве
• Выявление фейковых фото и видео-материалов
• Прогнозирование платежеспособности клиентов МСБ в Сбербанке
• Оценка потенциальной стоимости объектов недвижимости в МСБ
• Сопоставление на селфи с паспортом лица человека с фотографией в
документе в Тинькофф-банке
• Оценка юридических рисков, подготовка юридических запросов
Применение в
коммуникациях
и управлении
человеческими ресурсами
• Голосовые ассистенты и помощники
• Адресные коммуникации и системы
рекомендаций в маркетинге
• Прогнозирование риска увольнения сотрудника
• Первичная коммуникация чат-ботов и
голосовых роботов с кандидатами на
замещения вакантных должностей
• Анализ результатов видео-интервью
• Анализ фотографий с массовых мероприятий на
предмет нарушений прав человека
• Генерация текстов: сводки новостей и обзоры
матчей
•
•
•
•
#АналитикаРешает - обзорная лекция про аналитику
#АналитикаРешает - обзорная лекция про аналитику

More Related Content

Similar to #АналитикаРешает - обзорная лекция про аналитику

Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
 
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахКонстантин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахDariaShalahinova
 
RapidSoft: Анализ потребительского поведения с использованием аналитических х...
RapidSoft: Анализ потребительского поведения с использованием аналитических х...RapidSoft: Анализ потребительского поведения с использованием аналитических х...
RapidSoft: Анализ потребительского поведения с использованием аналитических х...Егор Шокуров
 
Тестирование Нейронных сетей
Тестирование Нейронных сетейТестирование Нейронных сетей
Тестирование Нейронных сетейSQALab
 
Deep Learning Course Introduction
Deep Learning Course IntroductionDeep Learning Course Introduction
Deep Learning Course IntroductionIhar Nestsiareania
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данныхRoman Brovko
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
Machine Learning as a Service
Machine Learning as a ServiceMachine Learning as a Service
Machine Learning as a Serviceelpisglobal
 
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Ontico
 
Spcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейSpcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейAlex Kozhemiakin
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данныхYandex
 
Поиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийПоиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийaragozin
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросовСергей Пономарев
 
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Ontico
 
Вебинар: Введение в машинное обучение
Вебинар: Введение в машинное обучениеВебинар: Введение в машинное обучение
Вебинар: Введение в машинное обучениеFlyElephant
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Pavel Rastyannikov
 

Similar to #АналитикаРешает - обзорная лекция про аналитику (20)

Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсахКонстантин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
Константин Найчуков. Автоматизация контекстной рекламы в инструментах и кейсах
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
RapidSoft: Анализ потребительского поведения с использованием аналитических х...
RapidSoft: Анализ потребительского поведения с использованием аналитических х...RapidSoft: Анализ потребительского поведения с использованием аналитических х...
RapidSoft: Анализ потребительского поведения с использованием аналитических х...
 
Тестирование Нейронных сетей
Тестирование Нейронных сетейТестирование Нейронных сетей
Тестирование Нейронных сетей
 
Deep Learning Course Introduction
Deep Learning Course IntroductionDeep Learning Course Introduction
Deep Learning Course Introduction
 
39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных39 - Базы данных. NoSQL базы данных
39 - Базы данных. NoSQL базы данных
 
Лекция 9
Лекция 9Лекция 9
Лекция 9
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
Machine Learning as a Service
Machine Learning as a ServiceMachine Learning as a Service
Machine Learning as a Service
 
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
Бигдата — как добывать золото из данных / Александр Сербул (1С-Битрикс)
 
Spcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексейSpcua 2013 кожемякин-алексей
Spcua 2013 кожемякин-алексей
 
машинное обучение и анализ данных
машинное обучение и анализ данныхмашинное обучение и анализ данных
машинное обучение и анализ данных
 
Поиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решенийПоиск на своем сайте, обзор open source решений
Поиск на своем сайте, обзор open source решений
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросов
 
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
Поиск на своем сайте, обзор Open source решений (Алексей Рагозин)
 
Вебинар: Введение в машинное обучение
Вебинар: Введение в машинное обучениеВебинар: Введение в машинное обучение
Вебинар: Введение в машинное обучение
 
Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)Семь граблей краудсорсинга (7 crowdsourcing rakes)
Семь граблей краудсорсинга (7 crowdsourcing rakes)
 

#АналитикаРешает - обзорная лекция про аналитику

  • 1.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22. Обучение с учителем • Обобщение на основании известных пар правильных ответов и предпосылок, предсказание ответов для новых предпосылок • Применимо, когда структура данных и их признаки известны, они предварительно категоризированы или имеют численный формат
  • 23. Классификация Разделение объектов по заранее известному признаку, оценка степени принадлежности объекта к группе. Спам фильтры Банковский скоринг Поисковое ранжирование Выявление брака на производстве
  • 24. Регрессия Прогнозирование числовых значений, аппроксимация зависимости между входными и одной выходной переменной. Прогноз спроса на товар Вероятность поломки автомобиля в зависимости от пробега
  • 25. Обучение без учителя • Формирование групп и нахождение определяющих их признаков в случаях отсутствия достаточного набора данных для обучения моделей • Чаще всего используется как метод анализа данных, а не метод выбора решения
  • 26. Кластеризация • Объединение объектов или наблюдений в непересекающиеся группы, называемые кластерами, на основе близости значений их атрибутов (признаков) • В каждом кластере будут находиться объекты, похожие по своим свойствам друг на друга и отличающиеся от тех, которые расположены в других кластерах. Сегментация аудитории сайтов Объединение точек в секторы на изображения Сжатие изображений Анализ и разметка данных Выявление аномалий Заполнение пропущенных значений
  • 27. Ассоциативные правила Формирование частых наборов, прогнозирование следующего элемента. Примеры: • Анализ товаров, покупаемых вместе • Мерчендайзинг • Системы рекомендаций • Прогнозирование сбоев по цепочке событий
  • 28. Обучение с подкреплением • Модель обучается с целью максимизации долговременного выигрыша, получая отклик на принятые решения от динамичной среды, с которой она взаимодействует • Модель обобщает опыт, а не запоминает каждый прецедент • Задача – выжить , минимизировав ошибки
  • 29. Примеры обучения с подкреплением Навык устойчивого перемещения Навык удержания Навык победы чемпиона мира по игре в Го Поиск лекарств, оптимизация архитектуры электронных чипов, маршрутизация транспортных средств и пакетов
  • 30. Ансамблевые методы Объединение моделей в совокупность, при которой повышается качество прогнозирование и устойчивость к аномалиям во входных данных (робастность) Примеры: • Классификация, регрессии • Компьютерное зрение • Распознавание объектов • Поисковые системы
  • 31. Типы ансамблевых моделей Стекинг – делегирование решения последующим алгоритмам, которое является производным от решений делегирующих Бустинг – обучение на примерах, где предыдущая модель делает ошибки Беггинг – параллельное обучение множества экземпляров модели на случайно сформированных выборках из исходного набора данных, с последующим усреднением ответа
  • 32. Нейронные сети и глубокое обучение • Используют архитектуру, вдохновленную принципами работы нейронов мозга, где нейрон суммирует информацию, поданную ему на вход и передает нейронам в последующих слоях свой ответ • Глубокое обучение – нейронные сети с множеством скрытых слоёв
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 39.
  • 40.
  • 41. Рекомендации Машинное обучение – это общедоступные алгоритмы. Для настройки этих алгоритмов нужны данные и умеренно компетентные специалисты Любые преобразования – это преобразования, связанные с людьми, процессами и технологиями, увлекаясь последним, не забывайте об остальном Автоматизация с помощью машинного обучения - это не замена сотрудника алгоритмом, а высвобождение времени сотрудника для выполнения более сложных и полезных для бизнеса функций Лучше всего себя проявляет в гибридных системах, где машинное обучение помогает человеку быть эффективнее, а бизнесу получать высокопроизводительных специалистов Последнее решения в вопросах с этической подоплёкой или с большой стоимость риска должно оставаться за человеком
  • 42. Применение машинного обучения в управлении ресурсами • Повышение утилизации и доступности • Распределение заказов между водителями Яндекс.Такси • Посменное прогнозирование необходимости в персонале в розничной сети МТС • Прогнозирование необходимости пополнения запаса наличных денег в банкоматах Сбербанка • Сокращение затрат • Экономия используемого природного газа в НЛМК • Сокращение расходов на электричество в контуре охлаждения серверной • Сокращение логистических затрат на хранение из-за повышения качества прогнозирования клиентского спроса • Автоматическое сканирование, распознавание и обработка документов • Автоматическое управление бюджетом и параметрами интернет- маркетинга в Harley-Davidson • Генерация трехмерных моделей артикулов по сделанным фотографиям в интернет-магазине • Повышение качества продукции • Режимы термической обработки металлических труб в НЛМК • Предупреждение поломок холодильников в розничной сети Перекресток • Повышение качества и количество урожая в агрокомплексе, повышение надоя и мониторинг здоровья коров на молочном производстве
  • 43. Применение в финансовом секторе и системах безопасности • Подтверждение транзакций с помощью распознавания голоса Сбербанк • Выявление мошеннических банковских транзакций и фрод- активности сотрудников в НSBC • Поиск преступников с помощью сети видеокамер городского наблюдения в Москве • Выявление фейковых фото и видео-материалов • Прогнозирование платежеспособности клиентов МСБ в Сбербанке • Оценка потенциальной стоимости объектов недвижимости в МСБ • Сопоставление на селфи с паспортом лица человека с фотографией в документе в Тинькофф-банке • Оценка юридических рисков, подготовка юридических запросов
  • 44. Применение в коммуникациях и управлении человеческими ресурсами • Голосовые ассистенты и помощники • Адресные коммуникации и системы рекомендаций в маркетинге • Прогнозирование риска увольнения сотрудника • Первичная коммуникация чат-ботов и голосовых роботов с кандидатами на замещения вакантных должностей • Анализ результатов видео-интервью • Анализ фотографий с массовых мероприятий на предмет нарушений прав человека • Генерация текстов: сводки новостей и обзоры матчей