Лекция 1. Введение в Big Data и MapReduceTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Развитие центра коллективного пользования высокопроизводительными вычислитель...Perm State University
Презентация пленарного доклада на Технологическом форуме IBM Solutions Connect «Курс на эффективность – разумный подход» (22 мая 2013 года, Пермь)
Доклад "Развитие центра коллективного пользования высокопроизводительными вычислительными ресурсами Пермского государственного национального исследовательского университета", докладчик -
Деменев Алексей Геннадьевич, директор НОЦ ПиРВ, доцент кафедры прикладной математики и информатики мех.-мат.ф-та ПГНИУ, к. ф.-м. н., доц., a-demenev@psu.ru
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных".
Лекция №10 "Нереляционное решение в области баз данных — NoSQL". Лектор - Станислав Ступников.
Вводная часть посвящена определению и истории развития концепции NoSQL. Даются характеристики, рассказывается о способах использования. Рассматриваются виды NoSQL БД, теоретические основы NoSQL, а в конце лекции обсуждаются недостатки NoSQL-решений, а также проводится сравнение разных NoSQL-решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Лекция 3. Распределённая файловая система HDFSTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Лекция 1. Введение в Big Data и MapReduceTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Развитие центра коллективного пользования высокопроизводительными вычислитель...Perm State University
Презентация пленарного доклада на Технологическом форуме IBM Solutions Connect «Курс на эффективность – разумный подход» (22 мая 2013 года, Пермь)
Доклад "Развитие центра коллективного пользования высокопроизводительными вычислительными ресурсами Пермского государственного национального исследовательского университета", докладчик -
Деменев Алексей Геннадьевич, директор НОЦ ПиРВ, доцент кафедры прикладной математики и информатики мех.-мат.ф-та ПГНИУ, к. ф.-м. н., доц., a-demenev@psu.ru
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
Технопарк Mail.ru Group, МГТУ им. Н.Э. Баумана. Курс "Базы данных".
Лекция №10 "Нереляционное решение в области баз данных — NoSQL". Лектор - Станислав Ступников.
Вводная часть посвящена определению и истории развития концепции NoSQL. Даются характеристики, рассказывается о способах использования. Рассматриваются виды NoSQL БД, теоретические основы NoSQL, а в конце лекции обсуждаются недостатки NoSQL-решений, а также проводится сравнение разных NoSQL-решений.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9obOz5K695ugYuiOOCBciEi
Лекция 3. Распределённая файловая система HDFSTechnopark
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Энергоэффективная обработка Больших Данных на гетерогенных многоядерных компьютерных кластерах
Дистрибутив Hadoop основанный на
Apache Bigtop (bigtop.apache.org)
Следующем поколении планировщика Apache Hadoop YARN
Использует параллельные вычислительные мощности GPU нового поколения средствами Java
Зеленый ЦОД
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
РАЗВИТИЕ И ПРИМЕНЕНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ СЕРВИСОВ НА БАЗЕ СУПЕРКОМПЬЮТЕРОВ ПЕРМСКОГО ГОСУДАРСТВЕННОГО НАЦИОНАЛЬНОГО ИССЛЕДОВАТЕЛЬСКОГО УНИВЕРСИТЕТА. Пленарный доклад II Всероссийской научно-практической конференции с международным участием с элементами научной школы для молодежи «Высокопроизводительные вычисления на графических процессорах»
(Пермь, ПГНИУ, 2-6 июня 2014 г.)
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...CleverDATA
- how to know your customer for not to loose him
- how to use customer centric approach
- how to get 3D customer view
- data sources review
- customer profile on every stage of customer life cycle
- use cases
- how to build a solution architecture to use all your data
- 1DMP.RU for Enterprise components to work with big data
- Oracle Big Data appliance to deploy a solution
- 1DMP.RU solution's benefits
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015rusbase
Выступление Александра Мигаловского (ГНИВЦ ФНС России) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Выступление Николая Птицына (Synesis) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Выступление Романа Постникова («Мегафон») на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Сергей Чернов — Yandex Data Factory — ICBDA 2015rusbase
Выступление Сергея Чернова (Yandex Data Factory) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Слайды выступления на Life sciences invest (форум для организаторов медицинских и фармацевтических управленцев, информатизаторов, бизнесменов и представителей гос. власти). Регламент - 15 минут.
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
Устаревшее хранилище данных сильно «тормозит» и обходится слишком дорого? Даже если вам очень хочется выбросить его на помойку, не делайте этого: вы рискуете совершить не просто ошибку, а очень дорогостоящую ошибку. Просто замените платформу СУБД с построчным хранением данных на более современную – с поколоночным.
Энергоэффективная обработка Больших Данных на гетерогенных многоядерных компьютерных кластерах
Дистрибутив Hadoop основанный на
Apache Bigtop (bigtop.apache.org)
Следующем поколении планировщика Apache Hadoop YARN
Использует параллельные вычислительные мощности GPU нового поколения средствами Java
Зеленый ЦОД
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
Обновление хранилища, предназначенного для обработки и анализа больших объемов данных, не должно нарушать функционирования вашей информационной среды. Благодаря низкой стоимости, высокой скорости и масштабируемости массивно-параллельной архитектуры колоночная база данных, в частности HPE Vertica, способна стать важнейшим элементом гибридной архитектуры Больших данных.
РАЗВИТИЕ И ПРИМЕНЕНИЕ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ СЕРВИСОВ НА БАЗЕ СУПЕРКОМПЬЮТЕРОВ ПЕРМСКОГО ГОСУДАРСТВЕННОГО НАЦИОНАЛЬНОГО ИССЛЕДОВАТЕЛЬСКОГО УНИВЕРСИТЕТА. Пленарный доклад II Всероссийской научно-практической конференции с международным участием с элементами научной школы для молодежи «Высокопроизводительные вычисления на графических процессорах»
(Пермь, ПГНИУ, 2-6 июня 2014 г.)
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...CleverDATA
- how to know your customer for not to loose him
- how to use customer centric approach
- how to get 3D customer view
- data sources review
- customer profile on every stage of customer life cycle
- use cases
- how to build a solution architecture to use all your data
- 1DMP.RU for Enterprise components to work with big data
- Oracle Big Data appliance to deploy a solution
- 1DMP.RU solution's benefits
Александр Мигаловский — ГНИВЦ ФНС России — ICBDA 2015rusbase
Выступление Александра Мигаловского (ГНИВЦ ФНС России) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Выступление Николая Птицына (Synesis) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Выступление Романа Постникова («Мегафон») на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Сергей Чернов — Yandex Data Factory — ICBDA 2015rusbase
Выступление Сергея Чернова (Yandex Data Factory) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
Слайды выступления на Life sciences invest (форум для организаторов медицинских и фармацевтических управленцев, информатизаторов, бизнесменов и представителей гос. власти). Регламент - 15 минут.
Codename One is a development framework created by SUN1 that allows developers to write native mobile apps in Java that can be deployed across all mobile platforms. It uses a cloud-based build server to compile and test apps. Codename One provides features like GPS, maps, camera, social integration and more through its SDK and plugin API. It offers alternatives to tools like PhoneGap, Xamarin, and JavaFX for cross-platform mobile development.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Мы покажем, как можно перенести разработанные алгоритмы для работы с Big Data с минимальными изменениями исходных программ. Рассмотрим возможности по распараллеливанию счета на многоядерных процессорах (вычислительных кластерах) и графических процессорах, поддерживающих CUDA.
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова.
Курс "Методы распределенной обработки больших объемов данных в Hadoop"
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HD
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Ontico
РИТ++ 2017, Web-scale IT Сonference
Зал Владивосток, 6 июня, 16:00
Тезисы:
http://webscaleconf.ru/2017/abstracts/2555.html
Teradata, Exadata, Netezza и другие представители мира машин баз данных в этом докладе будут классифицированы, препарированы, а также будет обсуждена задача создания новых таких машин.
Все эти машины — не просто сбалансированные комплекты из серверных узлов с предустановленной СУБД в той или иной конфигурации. Во всех случаях в них реализованы программные специфики, подразумевающие применение архитектурных или аппаратных возможностей, недоступных «вразвалку» (хотя в некоторых случаях есть возможности по воссозданию отдельных их элементов в лабораторных условиях, и об этом тоже будет в докладе). Таким образом, этот материал не столько о том, в шкаф какого цвета разные вендоры упаковали свою продукцию, сколько об идеях, заложенных внутри этих комплексов.
...
Maksym Bezuglyi "Universal highload patterns on a specific example of a game ...Fwdays
Analysis of the architecture of the game server on Haskell. From a high-level model to code features - transactional memory, immutable data structures, actors, queues, parallel and concurrent computing. The model of dynamic scaling, optimization, solved problems and trade-offs.
Reasons for choosing Haskell
What technologies were considered and why they were not used (no spoilers)
Full stack of used technologies and their highload potential
Universal design patterns
4. HPC: Задачи
Науки о материалах
и нанотехнологии
Геномика Системная
биология
Гидродинамика
Финансы
и оценка рисков
Обработка
геофизических
данныхМоделирование климата
и землетрясений
Исследование
пандемий
4
5. HPC: Алгоритмы и программы
• Многие задачи сводятся к дифференциальным и
интегральным уравнениям
• Алгоритмы требуют большого количества обменов между
узлами
– MPI = Message Passing Interface
– PGAS = Partitioned Global Address Space
• Узлы многоядерные
– OpenMP, CUDA
– Гибридное программирование
• Математические библиотеки
– ESSL, ScaLAPACK, FFTW, …
• Прикладные программы
– Химия, биология, физика
– Визуализация
http://www.fz-juelich.de/ias/jsc/EN/Expertise/Support/Software/_node.html
5
6. HPC: Hardware = «суперкомпьютеры»
• Суперкомпьютер
– (почти) однородные узлы
– очень быстрая сеть
• Архитектура – тор или дерево
– Параллельная файловая система
• Lustre, IBM GPFS
– Бенчмарк
• Linpack http://www.netlib.org/linpack/
• Graph500 http://www.graph500.org/
– Основное внимание – утилизация cpu, memory, network
bandwidth
6
15. Big Data: Задачи
• Задачи, параллельные по данным
– Применение одного преобразования ко всем элементам
• Машинное обучение
• Примеры
– Анализ логов
• Поведение пользователей в интернете
– Рекомендательные системы
» Магазины
» Банки
» Сотовые операторы
» …
• Internet Of Things: сенсоры
– Anomaly detection
– Анализ графов
• Социальные сети
15
16. Big Data: Алгоритмы и программы
16
• Data Mining and Machine Learning
– Снижение размерности (“dimensionality reduction”)
• Principal Component Analysis, locally linear embedding, …
– Регрессия
– Классификация
– Кластеризация
– Anomaly detection
– Supervised learning
• Нейросети, логистическая регрессия, support vector machines, k-NN
• Численные методы линейной алгебры
• External memory and cache obliviousness
– Algorithms and data structures minimizing I/Os for data not fitting
on memory but fitting on disk. B-trees, buffer trees, multiway
mergesort, …
17. Big Data: Алгоритмы и программы (2)
17
High
dim.
data
Locality
sensitive
hashing
Clustering
Dimension
ality
reduction
Graph
data
PageRank,
SimRank
Community
Detection
Spam
Detection
Infinite
data
Filtering
data
streams
Web
advertising
Queries on
streams
Machine
learning
SVM
Decision
Trees
Perceptron,
kNN
Apps
Recommen
der
systems
Association
Rules
Duplicate
document
detection
J. Leskovec,A. Rajaraman, J. Ullman: Mining of Massive Datasets, http://www.mmds.org
18. Аналогия: HPC vs Big Data
• Параллельное перемножение больших матриц
• Поэлементное перемножение матриц
x =
C(m,n)Row A(m,k) Col B(k,n)
C(m,n)
x =
B(m,n)A(m,n)
18
19. Big Data: Hardware = «датацентры»
• Commodity Cluster
– Традиционный – on premise
– Cloud
• Сеть может быть не очень быстрая и/или очень
неоднородная
– Архитектура интерконнекта – обычно «черный ящик» (особенно
на cloud)
• Большой объем HDD
– Параллельная файловая система
• Так как датацентры строят из обычных компонентов, то велик
failure rate
– Необходима избыточность и fault tolerant software
• Бенчмарк
– 1PB Parallel sort
• Основной фокус – нагрузка на HDD, network bandwidth
19
20. Big Data: примеры датацентров
• Google
– ~1 миллион серверов
– Проиндексировано 60*10^12 веб страниц
– Суммарное энергопотребление - 260MW
– 3*10^6 поисков в минуту
– http://www.google.com/about/datacenters
• Microsoft
– ~1 миллион серверов
– Bing, One Drive, Azure cloud, …
• Facebook
– ~200 000 серверов
– Обеспечивает трафик для 1.35 миллиарда пользователей
– …которые закачивают 750Тб контента в сутки
– Собственная инфраструктура сети – data center fabric
• Yandex
– Около 10 датацентров
– http://habrahabr.ru/company/yandex/blog/258823/
20
22. Map Reduce
• Программная модель для обработки распределенных
данных
– Идея пришла из функциональных языков
• Map() = применение некоторой элементарной операции
ко всем элементам списка
• Reduce() = «свёртка» – преобразование списка к одному
значению при помощи заданной функции
• Google MapReduce (2004)
– http://research.google.com/archive/mapreduce.html
• Apache Hadoop – opensource реализация
– Всю работу по распределению работы фреймворк берет на
себя
22
23. Map Reduce: Пример
• Word Count
23
Image source: http://blog.trifork.com/2009/08/04/introduction-to-hadoop/
24. Hadoop Distributed File System
• Основные идеи
– Hardware failure tolerance
– Batch processing oriented
• High throughput instead of low latency
– Large datasets
• 10000+ nodes, ~450PB
– Simple Coherency Model
• Write once, read many - no appending writes
– “Moving Computation is Cheaper than Moving Data”
– Portability
• HDFS живет поверх файловой системы ОС
24
27. Map Reduce и дисковые операции
27
Итеративные алгоритмы работают очень медленно
28. Spark
• Развитие идей Hadoop Map Reduce
• Хранение промежуточных результатов в оперативной
памяти
– До 100 раз быстрее, чем Hadoop
• Итеративные алгоритмы машинного обучения
• Интерактивное изучение данных
• Real-time stream processing
• Написан на Scala
– + поддерживает Python, Java
28
29. Основная идея Spark
• Алгоритм формулируется в терминах преобразований
датасетов
• Resilient Distributed Dataset (RDD)
– Коллекция объектов, которые могут храниться в памяти или на
диске
– Построена при помощи параллельных преобразований
– Последовательность преобразований (lineage) записывается
– В случае сбоев объекты автоматически вычисляются заново
• Всю работу по распределению работы фреймворк берет
на себя
29
30. Возможные операции над RDD
map
filter
groupBy
union
join
leftOuterJoin
rightOuterJoibn
reduce
count
fold
reduceByKey
groupByKey
cogroup
flatMap
take
first
partitionBy
pipe
distinct
save
...
30
31. Word Count: From Map Reduce to Spark
Map Reduce Spark
31
http://www.slideshare.net/databricks/bdtc2
35. IBM and Spark
• http://www.ibm.com/analytics/us/en/technology/spark/
• IBM SystemML – технология машинного обучения будет
встроена в Spark
• IBM Analytics продукты будут поддерживать Spark
на IBM BlueMix
• Будет открыт Spark Technology Center в Сан-Франциско
• MOOC Обучение для data scientists
35
36. Big Data Online Education
• edX
– Introduction to Big Data with Apache Spark
• https://courses.edx.org/courses/BerkeleyX/CS100.1x/1T2015/info
– Scalable Machine Learning with Apache Spark
• https://courses.edx.org/courses/BerkeleyX/CS190.1x/1T2015/info
• Udacity
– Intro To Hadoop and Map Reduce
• https://www.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617
• Coursera
– Mining Massive Datasets
• https://www.coursera.org/course/mmds
– Machine Learning
• https://www.coursera.org/learn/machine-learning/home/info
• IBM Big Data University
– http://bigdatauniversity.com/
• Kaggle competitions
– https://www.kaggle.com/
36
37. Заключение
• HPC vs Big Data
– Нужно определиться с терминологией
– «Разные» задачи?
– «Разная» инфраструктура?
• Beouwlf cluster == HPC of 1994 == “Big Data” cluster of today
• Infiniband + Hadoop = HPC?
37
HPC
Big
Data
Big
Compute