Что такое Big Data ?

BIG DATA
Революция в области хранения
и обработки данных

2
История появления термина BIG DATA
 Клиффорд Линч, редактор журнала Nature, в 2008 году впервые упомянул о термине BIG DATA в специальном
номере журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности
работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста
объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка
«от количества к качеству»
 В 2009 году термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и
решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году
большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях
используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные
аналитики рынка информационных технологий посвящают концепции выделенные
 В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической
инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг).
Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные
технологии в производстве ,здравоохранении, торговле, государственном управлении, а также в сферах и отраслях,
где регистрируются индивидуальные перемещения ресурсов

3
Что же такое BIG DATA?
Группа технологий и методов производительной обработки динамически растущих объемов
данных( структурированных и неструктурированных) в распределенных информационных
системах, обеспечивающих организацию качественно новой полезной информацией
Big Data — это наборы данных такого объема, что традиционные инструменты не
способны осуществлять их захват, управление и обработку за приемлемое для практики
время.
Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал
мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения
и анализа больших объемов данных.

4
Volume Variety Velocity
Volume Variety Velocity
Реально большие
объемы данных в
физическом смысле
Слабо
структурированные
и разнородные
данные
Необходимость
высокой скорости
обработки данных
1Gb, 1Tb, 1Pb, 1EXb, 1Zb DB, XML, Logs, Texts,
Video, Audio

5
Объем данных корпораций по отраслям в 2012г
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Ценные бумаги
Банкинг
Медицина
Энергетика
Правительство
Страхование
Коммуникации и медиа
Энергетика
Объем данных в Тб
Источник данных: McKinsey

6
Интернет и мобильные технологии
Twitter 175 млн твит сообщений в день
Facebook 300 млн фото загружаемых ежедневно
Google 24PB ежедневно
AT&T передает 30Pb в день
Walmart более 1 млн продаж в час
Объем данных, переданных/полученных на мобильные
устройства, — 1,3 эксабайт

7
Основные технологии анализа в BigData
 MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач с
использованием большого количества компьютеров (называемых «нодами»),
образующих кластер, разработанный компанией Google.
 Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения
распределённых программ, работающих на кластерах из сотен и тысяч узлов.
 NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих
существенные отличия от моделей, используемых в традиционных реляционных СУБД с
доступом к данным средствами языка SQL. Применяется к базам данных, в которых
делается попытка решить проблемы масштабируемости и доступности за
счёт атомарности и согласованности данных

9
Методы анализа используемые в BigData
Уникальность подхода больших данных заключается в агрегировании
огромного объема неструктурированной информации из разных
источников в одном месте.
 Классификация (методы категоризации новых данных на основе принципов,
ранее применённых к уже наличествующим данным)
 Кластерный анализ
 Регрессионный анализ
 Рекомендательные системы
 Искусственные нейронные сети, в том числе генетические алгоритмы;

10
Самые продвинутые отрасли BigData
01 Маркетинг 03
Сегментация рынка
Моделирование
приобретения и оттока
клиентов
Рекомендательные
системы
Анализ соц.медиа
02 Финансы Медицина
Детектирование
аномального поведения
Анализ кредитных рисков
Страховое моделирование
Генетический анализ
Анализ клинических
испытаний
Экспертные системы

11
Value для бизнеса
Value
Учитывая масштабность, перед бизнесом встала задача не только выбора
адекватного инструментария по анализу информации, но и построения
оптимальной вычислительной инфраструктуры, которая была бы
эффективной и не очень дорогой.
.Действительно, большие хранилища данных в сфере финансовых услуг, телекоммуникаций, розничной торговли и
государственных организаций существовали на протяжении многих лет. Применялись решения по обработке данных в
реальном времени для управления бизнес-процессами, например в торговле, а также высокопроизводительные
вычислительные системы для научных исследований. Различие их состоит в том, что те системы, которые раньше решали
отдельные проблемы бизнеса на больших предприятиях, сегодня становятся основой осуществления их бизнес-стратегии.
Технология Big Data позволяет уменьшить расходы на ИТ-инфраструктуру и ПО, сократить затраты на рабочую силу за счет
более эффективных методов интеграции данных, управления, анализа и выработки решения; обеспечить увеличение
дохода и прибыли путем новых или более эффективных способов ведения бизнеса. То есть на современном этапе те же
самые технологии представляют качественно новую ценность для предприятия

12
Кейс «Как компания может узнать о ваших секретах?»
Магазин Target и
беременная девочка,
США 2012г

13
Спасибо за
внимание!
Алексеев Михаил
alekseev.miha@gmail.com
Linkedin
Facebook
Vk

Что такое Big Data ?

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Что такое Big Data ?

Similar to Что такое Big Data ? (20)

Что такое Big Data ?

Editor's Notes