IBM SPSS – программный комплекс для прогнозной аналитики, статистического и интеллектуального анализа данных. Функциональность решения и преимущества для бизнеса.
This is the slide deck of lectures "Predictive Analytic Basics".The Base and Machine Learning Technic using R scripts is presented. The slides can be useful for Russian language students. The slides serve the part one of the lectures. Next part will be uploaded soon.
IBM SPSS – программный комплекс для прогнозной аналитики, статистического и интеллектуального анализа данных. Функциональность решения и преимущества для бизнеса.
This is the slide deck of lectures "Predictive Analytic Basics".The Base and Machine Learning Technic using R scripts is presented. The slides can be useful for Russian language students. The slides serve the part one of the lectures. Next part will be uploaded soon.
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
Данный аналитический обзор посвящен рынку Больших Данных.
В обзоре освящена текущая ситуация на международном и российском рынках.
Также описаны тенденции рынка и его прогноз.
Data scientists are in high demand due to a shortage projected between 140,000-190,000 by 2018. Data scientists love data and have an investigative mindset, using data to find patterns and create data-driven products. They have strong programming, statistics, and machine learning skills. Universities and online courses provide data science education, while conferences and meetups help data scientists network and stay informed of new developments in the field. Open questions remain around how important domain expertise is and whether data scientists will eventually be replaced by software.
The document discusses Ancestry.com's use of data science and machine learning techniques to analyze their large collection of family history records and DNA data. Key points include:
- Ancestry has over 30,000 historical record collections, 11 billion records, and DNA samples from over 120,000 users.
- Machine learning is used for tasks like person search, record linkage, and suggesting record matches to help users build family trees.
- Analysis of 45 million user-contributed family trees provides insights into historical immigration patterns to the US over centuries.
Numerical Linear Algebra for Data and Link AnalysisLeonid Zhukov
The document discusses numerical linear algebra techniques for analyzing large graphs and networks. It provides examples of large social networks like Flickr that can be represented as graphs and analyzed using graph-based algorithms. Specifically, it discusses using techniques like PageRank to analyze link structures and rank nodes in a graph based on their importance. It also discusses computational methods like power iteration and Krylov subspace methods for efficiently solving the large systems of equations that arise in PageRank and related network analysis problems.
This document discusses the large amount of data held by Ancestry.com, including 14 billion historical records, 60 million user-created family trees containing 6 billion profiles, 200 million uploaded photos and stories, and 400,000 DNA samples. It outlines the challenges of managing this data at such a large scale, including record linkage to connect information about the same individuals across different datasets, ensuring privacy of sensitive personal data, and balancing privacy concerns with enabling genomic research.
Social Networks: from Micromotives to MacrobehaviorLeonid Zhukov
1) The document discusses social networks and complex network models, outlining key findings like preferential attachment and the small world phenomenon.
2) It describes classic diffusion models showing how information or influence spreads through social networks via contact between connected individuals.
3) Threshold models are introduced showing how individuals adopt behaviors based on the opinions of their network neighbors surpassing a threshold.
Big data refers to the large volumes of structured, semi-structured and unstructured data that are so large that traditional data processing applications are inadequate. This data comes from a wide variety of sources including sensors, social media, websites and more. Hadoop is an open-source software framework that allows distributed processing of large data sets across clusters of computers using simple programming models. It is commonly used by large companies for applications such as web search, data mining, and machine learning.
Ancestry.com aims to be the world's largest online family history resource. It has over 30,000 historical content collections containing 11 billion records and images dating back to the 16th century. It also has over 120,000 DNA samples and uses machine learning for tasks like record linkage, hint suggestions, and search. Ancestry analyzes user data like the 45 million family trees and 40 million daily searches to continue improving its services and discovering historical patterns around topics like immigration to the US.
This document summarizes the history and development of social network analysis from the 18th century to present day. It describes some of the key early studies and models that helped establish the field, such as Euler's analysis of the Königsberg bridges problem in the 18th century, Frigyes Karinthy coining the "six degrees of separation" concept in 1929, and Paul Erdos' work on random graph theory in the 1950s and 1960s. It then outlines some seminal studies from the 1960s-1970s that studied real-world social networks and established concepts like strong/weak ties and small world networks. The document concludes by describing some of the major areas of study within social networks today including physics,
This story discusses how networks with random connections tend to have nodes with similar numbers of connections that follow a normal distribution, while scale-free networks have hubs with a tremendous number of connections that follow a power law distribution. The early web search engines connected randomly, but Google grew differently by ranking pages based on the number and quality of links, allowing popular hubs to emerge. This preferential attachment mechanism causes the rich to get richer in scale-free networks.
My presentation at OSPconf. Big Data Forum 2015 in Moscow on Informatica products and solutions in Big Data space: datawarehouse offload, managed data lake, big data Customer MDM, streaming analytics platform.
Аналитический обзор рынка Больших Данных от IPOboardIpo Board
Данный аналитический обзор посвящен рынку Больших Данных.
В обзоре освящена текущая ситуация на международном и российском рынках.
Также описаны тенденции рынка и его прогноз.
Data scientists are in high demand due to a shortage projected between 140,000-190,000 by 2018. Data scientists love data and have an investigative mindset, using data to find patterns and create data-driven products. They have strong programming, statistics, and machine learning skills. Universities and online courses provide data science education, while conferences and meetups help data scientists network and stay informed of new developments in the field. Open questions remain around how important domain expertise is and whether data scientists will eventually be replaced by software.
The document discusses Ancestry.com's use of data science and machine learning techniques to analyze their large collection of family history records and DNA data. Key points include:
- Ancestry has over 30,000 historical record collections, 11 billion records, and DNA samples from over 120,000 users.
- Machine learning is used for tasks like person search, record linkage, and suggesting record matches to help users build family trees.
- Analysis of 45 million user-contributed family trees provides insights into historical immigration patterns to the US over centuries.
Numerical Linear Algebra for Data and Link AnalysisLeonid Zhukov
The document discusses numerical linear algebra techniques for analyzing large graphs and networks. It provides examples of large social networks like Flickr that can be represented as graphs and analyzed using graph-based algorithms. Specifically, it discusses using techniques like PageRank to analyze link structures and rank nodes in a graph based on their importance. It also discusses computational methods like power iteration and Krylov subspace methods for efficiently solving the large systems of equations that arise in PageRank and related network analysis problems.
This document discusses the large amount of data held by Ancestry.com, including 14 billion historical records, 60 million user-created family trees containing 6 billion profiles, 200 million uploaded photos and stories, and 400,000 DNA samples. It outlines the challenges of managing this data at such a large scale, including record linkage to connect information about the same individuals across different datasets, ensuring privacy of sensitive personal data, and balancing privacy concerns with enabling genomic research.
Social Networks: from Micromotives to MacrobehaviorLeonid Zhukov
1) The document discusses social networks and complex network models, outlining key findings like preferential attachment and the small world phenomenon.
2) It describes classic diffusion models showing how information or influence spreads through social networks via contact between connected individuals.
3) Threshold models are introduced showing how individuals adopt behaviors based on the opinions of their network neighbors surpassing a threshold.
Big data refers to the large volumes of structured, semi-structured and unstructured data that are so large that traditional data processing applications are inadequate. This data comes from a wide variety of sources including sensors, social media, websites and more. Hadoop is an open-source software framework that allows distributed processing of large data sets across clusters of computers using simple programming models. It is commonly used by large companies for applications such as web search, data mining, and machine learning.
Ancestry.com aims to be the world's largest online family history resource. It has over 30,000 historical content collections containing 11 billion records and images dating back to the 16th century. It also has over 120,000 DNA samples and uses machine learning for tasks like record linkage, hint suggestions, and search. Ancestry analyzes user data like the 45 million family trees and 40 million daily searches to continue improving its services and discovering historical patterns around topics like immigration to the US.
This document summarizes the history and development of social network analysis from the 18th century to present day. It describes some of the key early studies and models that helped establish the field, such as Euler's analysis of the Königsberg bridges problem in the 18th century, Frigyes Karinthy coining the "six degrees of separation" concept in 1929, and Paul Erdos' work on random graph theory in the 1950s and 1960s. It then outlines some seminal studies from the 1960s-1970s that studied real-world social networks and established concepts like strong/weak ties and small world networks. The document concludes by describing some of the major areas of study within social networks today including physics,
This story discusses how networks with random connections tend to have nodes with similar numbers of connections that follow a normal distribution, while scale-free networks have hubs with a tremendous number of connections that follow a power law distribution. The early web search engines connected randomly, but Google grew differently by ranking pages based on the number and quality of links, allowing popular hubs to emerge. This preferential attachment mechanism causes the rich to get richer in scale-free networks.
The document discusses a Data Loss Prevention (DLP) system called Monitorium. It can protect confidential information from theft or accidental loss by monitoring and analyzing outgoing internet traffic. It detects and blocks security-violating traffic using deep packet inspection of protocols like HTTP, FTP, and email. It analyzes message content, headers, and attachments to detect sensitive information leaving the network. The system provides real-time alerts, content analysis of multiple file formats and languages, and detailed reports.
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRILeonid Zhukov
This document presents a method for tracing neural pathways from diffusion tensor MRI (DT-MRI) data through oriented tensor reconstruction. It introduces DT-MRI and discusses previous work in tensor visualization and fiber tracing. The presented algorithm uses moving least squares filtering and fiber tracing to extract anatomical structures from DT-MRI data such as the corona radiata, corpus callosum, and cingulum bundle. Results demonstrate the algorithm can smoothly reconstruct recognizable brain structures. Future work includes additional method developments and validation.
This document discusses fiber tractography techniques for visualizing white matter tracts in the brain using diffusion tensor MRI (DT-MRI) data. It covers fiber tractography algorithms like deterministic and probabilistic methods. Specific algorithms discussed include moving least squares filtering for tensor field interpolation and streamline integration for fiber tracing. Examples of fiber tractography results are shown for the human brain and canine heart.
1) The document discusses social networks and how information spreads through cascades and can enable viral marketing.
2) It describes how information cascades occur when people make decisions based on the actions of others rather than their own information.
3) Diffusion models are discussed as a way to model how information or influence spreads from person to person through social networks based on their connectivity and thresholds for adopting new information.
Большие данные и бизнес-аналитика: как найти пользу?Marina Payvina
Как извлечь пользу из больших данных.
Инструменты бизнес-аналитики для анализа и исследования больших данных
Мероприятие:
День Науки НИУ ВШЭ 2015
Фото: http://vk.com/album-66011151_214023156
Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
Основные подходы к интеграции данных информационных систем компании:
Анализ текущего состояния данных в различных информационных системых
Определение "сущностей" для гармонизации данных в различных системах
Онтологические модели с учетом жизненного цикла данных на базе ISO15926
Создание единой шины данных предприятия на базе открытых систем и продуктов IBM WebSphere и разработка адаптеров
Гармонизация данных нормативно-справочной информации, справочников различных информационных систем
Формирование центр компетенции по НСИ и роли модельера данных
Логическая витрина для доступа к большим даннымSergey Gorshkov
Как компании получить максимальную выгоду от накопленной информации? Как интегрировать данные из хранилищ Big Data с традиционной аналитической информацией?
От больших данных к знаниям: преимущества для операторов связиElizaveta Alekseeva
Операторы связи обладают огромными объемами данных об абонентах: об их контактах, использовании Интернета и приложений, истории путешествий и даже о том, как долго они добираются до работы. Чтобы извлечь из всего этого пользу, операторы должны объединить в одно решение все компоненты, помогающие преобразовать данные в знания
8.
Большие
Данные
Явление характеризуемое быстрым увеличением объема
накапливаемых данных, скорости их поступления и
разнообразии источников
• «Три V» характеристика:
• Объем (Volume)
• Скорость ( Velocity)
• Разнообразие (Variety)
Высшая школа экономики, Москва, 2013
10. Скорость
накопления
данных
Библиотека Конгресса США содержит 33 млн книг,
всего 150 млн печатных изданий: 235 TB
2012:
• Twitter: 175 млн tweet сообщений в день
• Facebook: 300 млн загруженных фото в день
• Google: 24 PB ежедневно
• AT&T передает 30 PB в день
• Walmart > 1 млн продаж в час
• Кредитные карты > 10,000 транзакций в секунду
• Boing 787 передает 0.5 TB телеметрических данных за
полет, 100 тыс. рейсов в день
Высшая школа экономики, Москва, 2013
фото
фото
11. Объемы
данных
В 2011г «Цифровая Вселенная»
фото
1.8 ZETTABYTES
фото
1,800,000,000,000,000,000,000
Zetta
Exa
Peta
Tera
Giga
9 млн Библиотек Конгресса США
Mega
Kilo
Byte
60 млрд iPhone 32 GB
фото
К 2015 объем данных вырастет до 8 ZB, к 2020 в 44 раза до 35 ZB
Высшая школа экономики, Москва, 2013
12. Технологии
Больших
Данных
•
•
•
•
•
•
•
Основы технологии разработаны в
Google 2003, MapReduce
Открытое ПО, Hadoop (Yahoo)
Система массивно параллельной
обработки данных на кластерах дешевых
компьютеров
Значительное удешевление хранения
Экосистема Биг Дата стартапов:
Cloudera, MapR, HortonWorks
Крупные вендоры EMC, IBM, HP, Oracle
Большой вклад в открытые проекты:
Facebook, Twitter, Amazon, LinkedIn
фото
фото
фото
Высшая школа экономики, Москва, 2013
15. Подход
Больших
Данных
Уникальность подхода Больших Данных
заключается в агрегировании огромной
информации из разных источников в
одном месте
• Обобщенные вид на данные позволяет находить
скрытые связи и закономерности
• Данные обладают огромной предсказательной силой
• Доступны вычислительные мощности достаточные
для очень детальных расчетов
фото
фото
фото
Высшая школа экономики, Москва, 2013
17. Бизнес
данных
• Большие данные:
• Хранение данных
• Анализ данных
• Data driven companies:
• Принятие стратегических решений на основе данных
• Создания продуктов основанные на данных
• Предсказательная аналитика
18. Прикладные
задачи
• Маркетинг:
• Сегментация рынка
• Моделирование приобретения и оттока клиентов
• Рекомендательные системы
• Анализ социальных медиа
• Финансовые и страховые компании:
• Предотвращение fraud
• Детектирование аномального поведения
• Анализ кредитных рисков
• Страховые моделирование
• Здравоохранение и Фармакология:
• Генетический анализ
• Анализ клинических испытаний
• Клинические системы принятия решений
Высшая школа экономики, Москва, 2013
• Оптимизация портфолио
21. Портрет
компании:
Target
“How companies learn your secrets”
• Уникальный Guest ID
• Транзакции по кредитной карте
• Примеры факторов (сигналов):
•
•
Пищевые добавки кальций,
цинк, магний
•
•
Покупка крема без запаха
Мыло без запаха
Предсказательный «индекс»
беременности и ожидаемая
дата рождения
22. Предсказательное
моделирование
• Обучение
модели
• Применение
модели
from Eric Siegel, “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”
23. Операторы
мобильной
связи
•
Churn prediction: моделирование оттока клиентов
•
Закономерности поведения подписчиков с течением времени
•
Положительные и отрицательные примеры
Факторы модели:
• История пользования сервисом (число звонков, смс)
• История платежей за сервис
• История обращений в службу поддержки
• История изменений в контракте
• Граф звонков (поведение друзей)
24. Моделирование
убеждаемости
2012 US Presidential Elections:
•
Предвыборная кампания Барака Обамы: 50 data scientists
•
Собраны исторические данные exit polls
•
Данные из открытых источников, соц. Сетей
•
Предсказательные модели:
•
Кто вероятно будет голосовать за Обаму?
•
Кто вероятно будет голосовать за Ромни ?
•
Кто придет в день голосование на участки?
•
Кого можно убедить голосовать за Обаму в случае
личного общения?
25. Галерея
проектов
Примеры небольших компаний и проектов создающих data driven products
Сбор и обработка массивов данных
• Стартапы, небольшие проекты
фото
• Частное и государственное финансирование
• Social course ( социальная направленность)
фото
Высшая школа экономики, Москва, 2013
26. Большие
Данные
в
городе:
удобный
город
Сан-Франциско: датчики парковки, датчики скорости
транспортных потоков, GPS в общественном
транспорте
фото
фото
Использование:
• нахождение свободных парковок
• точное время прибытия общественного
транспорта
Высшая школа экономики, Москва, 2013
фото
27. Большие
Данные
в
городе:
безопасный
город
Лос-Анджелес: предсказания преступлений
LAPD (predictive policing, 2011-2013):
фото
• Определение мест и времени с повышенной
вероятностью совершения преступлений
• Исторические данные о преступности в городе
(80 месяцев), демографические и др. данные,
социологические модели
фото
• Преступления против собственности снизились
за год на 12%
• UCLA, UC Santa Cruz
Высшая школа экономики, Москва, 2013
фото
28. Большие
Данные
в
экономике
• MIT научный проект, Billion Prices Project
• Ежедневно собирают с е-магазинов цены на
товары:
фото
• > 900 магазинов, 70 стран, 5 млн товаров
• Автоматически вычисляют:
• Индекс потребительских цен
• Уровень инфляции
• Бюро Статистики труда: 90 городов, 80,000 The key advantage of our series is the ability to anticipate major
shifts in underlying inflation trends
фото
товаров, сотни сотрудников, $250 млн
в год,
задержка 2-4 недели
Example: State Street PriceStats US Aggregate Inflation Series
May 2011
Jan 2012
online
09/15/2008
Lehman’s Bankruptcy
January 2011
12/20/2008
фото
Source: BPP – PriceStats – BLS (CPI-U, US city-average, all items, NSA)
Высшая школа экономики, Москва, 2013
7
29. Большие
Данные
и
здоровье
Платформa
мониторинга
астмы
и
других
респираторных
заболеваний
• Помогать
пациентам
и
врачам
лучше
справляется
с
заболеванием
фото
• Ингаляторы
с
встроенными
сенсорами,
мобильные
приложения
• Дневник
пациента,
доступен
врачу
онлайн
• Неотложная
помощь
• Глобальная
аналитика
по
заболеванию
фото
Системы
self-‐мониторинга
(quanXfy-‐self):
• Fitbit,
Jawbone:
физические
нагрузка
• Wahoo:
сердечный
ритм
• Zeo:
ночной
сон
(EEG)
• AliveCor:
одноканальная
кардиограмма
(ECG)
Высшая школа экономики, Москва, 2013
фото
30. Большие
Данные
в
образовании
Платформа онлайн обучения
•
MOOC (Massive Online Open Course)
•
“Ivy League” для масс
•
Лучшие курсы лучших университетов
•
Повсеместная доступность
•
Универсальность программы обучения
•
Бесплатное обучение
•
Coursera, edX, Udemy
фото
фото
Coursera:
• Первые 2 курса из Стэнфорда в 2012
• 80 университетов, 400 курсов
• 200,000 студентов на курсе
• 4.5млн обучаемых
Высшая школа экономики, Москва, 2013
фото
31. st
Century
The
Sexiest
Job
of
the
21
McKinsey оценивает
нехватку в
140,000-190,000
специалистов к 2018г
Высшая школа экономики, Москва, 2013
32. Контакты
• Леонид
Жуков,
Ph.D
• Профессор,
Отделение
Прикладной
Математики
и
Информатики,
Высшая
Школа
Экономики
(НИУ-‐ВШЭ)
• Director
Data
Science,
Ancestry.com
• lzhukov@hse.ru
• www.leonidzhukov.ru