SlideShare a Scribd company logo
СПбГУ
• Значительное увеличение объемов данных
по сравнению с возможностью их обработки.
• Сейчас объемы данных превышают объемы
доступных носителей для хранения информации.
Причины появления
больших данных (Big Data)
Признаки больших данных
(Big Data)
• Volume. Действительно большие.
• Variety. Слабо структурированные
и очень разнородные.
• Velocity. Требуют быстрой обработки.
• Value. Позволяют получить значимые
результаты анализа данных.
Классификация объемов
данных
• Большие наборы данных:
от тысячи мегабайт до сотен гигабайт.
• Огромные наборы данных:
от тысячи гигабайт до нескольких терабайт.
• Big Data:
от нескольких терабайт до сотен терабайт.
• Extremely Big Data:
от тысячи терабайт.
Отправитель ПолучательЭлектронное письмо
Разнородность структур
данных
Структурированная информация:
• таблицы с известными типами данных.
Полуструктурированная информация:
• XML-документы и XSD-схемы.
Неструктурированная информация:
• текстовые документы;
• видеоконтент;
• аудиоконтент.
Оперативная обработка
данных
• Применение инструментов и технологий
для распараллеливания вычислений
(Map-Reduce+Hadoop).
• Использование методов приближенной
обработки данных.
• Использование NoSQL DB.
Технология Map-Reduce
• Технология Map-Reduce – модель
для распределенных вычислений.
• Принцип работы:
• распределение входных данных
на рабочие узлы распределенной системы
для предварительной обработки (Map);
• объединение уже предварительно
обработанных данных (Reduce).
Hadoop  
• Технология	Map-Reduce	используется в	инструменте	Hadoop.
• Данные	хранятся	в	нескольких	копиях и	распределяются	по	тысячам
узлов.
• Система	практически	неограниченно масштабируется.
• Каждый узел является сервером и хранения, и обработки
• Обработка данных ведется в массивно-параллельном режиме
• Данные хранятся в нескольких копиях и отказ узла не ведет к потере
данных
• Система практически неограниченно масштабируется
Приближенная обработка
данных
• Ограничение во времени обусловливает применение приближенных методов
обработки больших данных.
• Для некоторых задач точное выполнение не имеет смысла.
• Используется метод случайных выборок относительно небольшого объема.
• Результаты, полученные только на основе выборки, будут приближенными,
их точность зависит от размеров выборки.
Internet of Things - примеры
• авиалайнеры;   
• автомобили;
• одежда;
• бытовые приборы;
• медицинские инструменты;
• парковки и т. д.
Internet of Things - новые
сферы применения
• Пациенты начинают глотать интернет-устройства,
позволяющие диагностировать некоторые
заболевания и выявлять их причины.
• Миниатюрные интернет-датчики закрепляют
на животных, растениях и геологических объектах.
Интернет стал проникать в ранее недоступные сферы.
Internet of Things в контексте
аналитической обработки
• Интернет вещей радикальным образом увеличивает объемы данных.
• Чем больше генерируется данных, тем больший объем знаний
можно получить в итоге.
• На основе большего объема знаний можно принимать решения
о дальнейшем поведении системы в целом.
Данные
• Данные — это сырой материал, который может
превратиться в полезную информацию в контексте
определенной задачи.
• Чем больше объем накопленных данных,
тем больше можно выявить закономерностей
и тенденций развития.
Обработка данных
• Агрегированная информация используется
для получения знаний не более чем на 10%.
• Аналитическая обработка данных, как правило,
осуществляется в рамках отдельной
локальной задачи.

More Related Content

Similar to 38 - Базы данных. Общее понятие BigData

Datamining – что это?
Datamining – что это?Datamining – что это?
Datamining – что это?
ForkConf
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture Archive
EOS-soft
 

Similar to 38 - Базы данных. Общее понятие BigData (20)

Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Top big data architecture patterns by Igor Chub
Top big data architecture patterns  by Igor ChubTop big data architecture patterns  by Igor Chub
Top big data architecture patterns by Igor Chub
 
Data Science Week 2016. Sberbank
Data Science Week 2016. SberbankData Science Week 2016. Sberbank
Data Science Week 2016. Sberbank
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Datamining – что это?
Datamining – что это?Datamining – что это?
Datamining – что это?
 
2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным
 
Особенности разработки для подключенных устройств
Особенности разработки для подключенных устройствОсобенности разработки для подключенных устройств
Особенности разработки для подключенных устройств
 
BigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнесаBigData в онлайн-маркетинге для малого и среднего бизнеса
BigData в онлайн-маркетинге для малого и среднего бизнеса
 
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСИнфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
сервисы персонализации на основе данных
сервисы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данных
 
Презентация ИТ Кластер Сколково
Презентация  ИТ Кластер СколковоПрезентация  ИТ Кластер Сколково
Презентация ИТ Кластер Сколково
 
Flexicapture Archive
Flexicapture ArchiveFlexicapture Archive
Flexicapture Archive
 
Big Data: вызовы и возможности
Big Data: вызовы и возможностиBig Data: вызовы и возможности
Big Data: вызовы и возможности
 
Big Data и ArcGIS
Big Data и ArcGISBig Data и ArcGIS
Big Data и ArcGIS
 
Опыт эффективной организации интеллектуального архива
Опыт эффективной организации интеллектуального архиваОпыт эффективной организации интеллектуального архива
Опыт эффективной организации интеллектуального архива
 
Oblachnye vychisleniya -_ponyatiya_i_tehnologii
Oblachnye vychisleniya -_ponyatiya_i_tehnologiiOblachnye vychisleniya -_ponyatiya_i_tehnologii
Oblachnye vychisleniya -_ponyatiya_i_tehnologii
 
Пётр Зайцев, Percona
Пётр Зайцев, PerconaПётр Зайцев, Percona
Пётр Зайцев, Percona
 
Особенности разработки для подключенных устройств
Особенности разработки для подключенных устройствОсобенности разработки для подключенных устройств
Особенности разработки для подключенных устройств
 

More from Roman Brovko

Bare metal training_06_I2C
Bare metal training_06_I2CBare metal training_06_I2C
Bare metal training_06_I2C
Roman Brovko
 
Bare metal training_05_uart
Bare metal training_05_uartBare metal training_05_uart
Bare metal training_05_uart
Roman Brovko
 
подготовка рабочего окружения
подготовка рабочего окруженияподготовка рабочего окружения
подготовка рабочего окружения
Roman Brovko
 

More from Roman Brovko (20)

Individual task Networking
Individual task NetworkingIndividual task Networking
Individual task Networking
 
Networking essentials lect3
Networking essentials lect3Networking essentials lect3
Networking essentials lect3
 
Gl embedded starterkit_ethernet
Gl embedded starterkit_ethernetGl embedded starterkit_ethernet
Gl embedded starterkit_ethernet
 
Networking essentials lect2
Networking essentials lect2Networking essentials lect2
Networking essentials lect2
 
Networking essentials lect1
Networking essentials lect1Networking essentials lect1
Networking essentials lect1
 
Bare metal training_07_spi_flash
Bare metal training_07_spi_flashBare metal training_07_spi_flash
Bare metal training_07_spi_flash
 
Bare metal training_06_I2C
Bare metal training_06_I2CBare metal training_06_I2C
Bare metal training_06_I2C
 
Glesk worshop
Glesk worshopGlesk worshop
Glesk worshop
 
Bare metal training_05_uart
Bare metal training_05_uartBare metal training_05_uart
Bare metal training_05_uart
 
Bare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensorBare metal training_04_adc_temp_sensor
Bare metal training_04_adc_temp_sensor
 
Bare metal training_03_timers_pwm
Bare metal training_03_timers_pwmBare metal training_03_timers_pwm
Bare metal training_03_timers_pwm
 
Bare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttonsBare metal training_02_le_ds_and_buttons
Bare metal training_02_le_ds_and_buttons
 
Bare metal training_01_hello_world
Bare metal training_01_hello_worldBare metal training_01_hello_world
Bare metal training_01_hello_world
 
Bare metal training_00_prerequisites
Bare metal training_00_prerequisitesBare metal training_00_prerequisites
Bare metal training_00_prerequisites
 
C language lect_23_advanced
C language lect_23_advancedC language lect_23_advanced
C language lect_23_advanced
 
C language lect_22_advanced
C language lect_22_advancedC language lect_22_advanced
C language lect_22_advanced
 
C language lect_21_advanced
C language lect_21_advancedC language lect_21_advanced
C language lect_21_advanced
 
подготовка рабочего окружения
подготовка рабочего окруженияподготовка рабочего окружения
подготовка рабочего окружения
 
C language lect_20_advanced
C language lect_20_advancedC language lect_20_advanced
C language lect_20_advanced
 
C language lect_19_basics
C language lect_19_basicsC language lect_19_basics
C language lect_19_basics
 

38 - Базы данных. Общее понятие BigData

  • 2. • Значительное увеличение объемов данных по сравнению с возможностью их обработки. • Сейчас объемы данных превышают объемы доступных носителей для хранения информации. Причины появления больших данных (Big Data)
  • 3. Признаки больших данных (Big Data) • Volume. Действительно большие. • Variety. Слабо структурированные и очень разнородные. • Velocity. Требуют быстрой обработки. • Value. Позволяют получить значимые результаты анализа данных.
  • 4. Классификация объемов данных • Большие наборы данных: от тысячи мегабайт до сотен гигабайт. • Огромные наборы данных: от тысячи гигабайт до нескольких терабайт. • Big Data: от нескольких терабайт до сотен терабайт. • Extremely Big Data: от тысячи терабайт.
  • 6. Разнородность структур данных Структурированная информация: • таблицы с известными типами данных. Полуструктурированная информация: • XML-документы и XSD-схемы. Неструктурированная информация: • текстовые документы; • видеоконтент; • аудиоконтент.
  • 7. Оперативная обработка данных • Применение инструментов и технологий для распараллеливания вычислений (Map-Reduce+Hadoop). • Использование методов приближенной обработки данных. • Использование NoSQL DB.
  • 8. Технология Map-Reduce • Технология Map-Reduce – модель для распределенных вычислений. • Принцип работы: • распределение входных данных на рабочие узлы распределенной системы для предварительной обработки (Map); • объединение уже предварительно обработанных данных (Reduce).
  • 9. Hadoop   • Технология Map-Reduce используется в инструменте Hadoop. • Данные хранятся в нескольких копиях и распределяются по тысячам узлов. • Система практически неограниченно масштабируется. • Каждый узел является сервером и хранения, и обработки • Обработка данных ведется в массивно-параллельном режиме • Данные хранятся в нескольких копиях и отказ узла не ведет к потере данных • Система практически неограниченно масштабируется
  • 10. Приближенная обработка данных • Ограничение во времени обусловливает применение приближенных методов обработки больших данных. • Для некоторых задач точное выполнение не имеет смысла. • Используется метод случайных выборок относительно небольшого объема. • Результаты, полученные только на основе выборки, будут приближенными, их точность зависит от размеров выборки.
  • 11. Internet of Things - примеры • авиалайнеры; • автомобили; • одежда; • бытовые приборы; • медицинские инструменты; • парковки и т. д.
  • 12. Internet of Things - новые сферы применения • Пациенты начинают глотать интернет-устройства, позволяющие диагностировать некоторые заболевания и выявлять их причины. • Миниатюрные интернет-датчики закрепляют на животных, растениях и геологических объектах. Интернет стал проникать в ранее недоступные сферы.
  • 13. Internet of Things в контексте аналитической обработки • Интернет вещей радикальным образом увеличивает объемы данных. • Чем больше генерируется данных, тем больший объем знаний можно получить в итоге. • На основе большего объема знаний можно принимать решения о дальнейшем поведении системы в целом.
  • 14. Данные • Данные — это сырой материал, который может превратиться в полезную информацию в контексте определенной задачи. • Чем больше объем накопленных данных, тем больше можно выявить закономерностей и тенденций развития.
  • 15. Обработка данных • Агрегированная информация используется для получения знаний не более чем на 10%. • Аналитическая обработка данных, как правило, осуществляется в рамках отдельной локальной задачи.