4. BigData
“Termo de mercado para o conjunto de
soluções que analisa informações em
variedade, volume e velocidade inéditos
variedade
até hoje - os três Vs, como chamam os
tecnólogos...”
5. BigData
“No dia a dia, a sociedade gera, em
média, mais de 15 petabytes de
informações sobre as suas operações
comerciais e financeiras, bem como sobre
clientes e fornecedores por dia...”
8. BigData
Um exemplo prático:
Estamos trabalhando em uma base com
volume de dados de aproximadamente
600 Gb
Temos um pouco mais de
85.000.000.000.000.000.000 quintilhões de
registros
11. BigData
...conta a história da mais famosa aplicação
do conceito: o gerente de um time de
beisebol que usa o Big Data para reunir um
elenco de primeira linha sem gastar muito
13. BigData
“A Renner usa o Big Data para monitorar, em
tempo real, o fluxo de mercadorias da loja
real
ao cruzar dados de localização GPS dos
caminhões dos fornecedores com os níveis
dos estoques” (Leandro Balbinot - Diretor de TI)
15. BigData
…devido a sua velocidade, que agilizava os
velocidade
processamentos de dados sísmicos
captados pela sondas que procuram petróleo
no fundo do mar.
Como são milhões as variáveis, o trabalho
variáveis
exige intermináveis simulações de
imagens, e só o Big Data é capaz de dar
conta do trabalho em um tempo melhor.
melhor
18. BigData
No último Fórum Econômico Mundial...
"Big Data, grande impacto: novas
possibilidades para o desenvolvimento
internacional"
internacional
…mostra como o Big Data pode ser uma
arma contra problemas sócio-econômicos
20. BigData
Caso de negócio:
O McKinsey Global Institute publicou
recentemente um relatório sobre as
oportunidades de negócios e do governo
ao usar BigData.
BigData
“Big Data: The Next Frontier for Innovation,
Competition and Productivity”
21. BigData
De acordo com a McKinsey, o uso de
BigGata está se tornando uma forma
essencial para as principais empresas a
superarem seus concorrentes.
concorrentes
22. BigData
"Nós estimamos que um revendedor com o
apoio de BigData tem o potencial de
aumentar a sua margem operacional em
mais de 60%”
23. BigData
“Big Data cria valor para as empresas
descobrindo padrões e relacionamentos
entre dados que antes estavam perdidos
não apenas em data warehouses internos,
mas na própria Web, em tuítes, comentários
no Facebook e mesmo videos no YouTube.”
26. BigData
Segundo a consultoria IDC, o mercado global
de Big Data crescerá quase 40% ao ano
entre 2010 e 2015, saltando de US$ 3,2
2015
bilhões para US$ 16,9 bilhões.
bilhões
27. BigData
A tecnologia envolve tanto dinheiro porque
soluciona um problema inadiável para a
economia global.
global
Se você se sente atordoado com a
enxurrada de posts no seu Twitter, imagine a
perda de produtividade em uma empresa
incapaz de compreender os dados que a
inundam.
33. MapReduce
Nos últimos anos, os pesquisadores e desenvolvedores do
Google tem implementado centenas de propostas de
técnicas e cálculos que processam grandes quantidades de
dados brutos e para computar vários tipos de dados
derivados, tais como:
● Índices invertidos
● Representações diversas da estrutura de gráfico de
documentos
● Resumos do número de páginas rastreadas por host
● Estatística das consultas mais frequentes em um
determinado dia.
34. MapReduce
– Os cálculos são conceitualmente simples...
– O problema é que os dados de entrada são muito grandes...
grandes
● Solução: Distribuir esses cálculos através de centenas ou
milhares de máquinas
– Garantir o término em um tempo razoável
35. MapReduce
“Como reação a essa complexidade, foi elaborado uma nova
abstração que nos permite expressar os cálculos simples que
estávamos tentando realizar, mas esconde os detalhes confusos de
paralelização, tolerância a falhas de distribuição de dados e
paralelização
balanceamento de carga”
carga
36. MapReduce
● A nova abstração é inspirado no 'Map' e 'Reduce' primitivos
presentes em Lisp e muitas outras linguagens funcionais.
“Percebemos que a maioria dos nossos cálculos envolvia a
aplicação de uma operação de Map para cada "registro" lógico
em nossa entrada, a fim de calcular um conjunto de pares
intermediários de chave/valor e, em seguida , a aplicação de
uma operação de Reduce a todos os valores que partilhavam a
mesma chave, a fim de combinar os dados derivados
apropriadamente.”
37. MapReduce
As maior contribuição dessa nova abordagem é a implantação de
uma simples e poderosa interface que permite a paralelização
automática e distribuição da computação em grande escala,
combinado com uma implementação desta interface que atinge alta
performance em grandes aglomerados de máquinas
38. MapReduce
O cálculo toma um conjunto de pares de entradas de chave/valor,
e produz um conjunto de pares de saídas chave/valor.
O usuário que implementa o MapReduce expressa o cálculo como
duas funções: Map e Raduce.
39. Reduce
A função Reduce, também escrito pelo usuário, aceita
● uma chave intermediária e um conjunto de valores para essa
chave.
● Ela faz uma fusão desses valores em conjunto, para formar um
menor conjunto de valores possível.
● Tipicamente apenas zero ou um valor de saída é produzido por
um método Reduce.
● Os valores intermédios são fornecidos para a função através de
uma iteração. Isto permite-nos lidar com listas de valores que
são demasiadamente grandes para caber na memória.
40. MapReduce
O modelo de programação MapReduce tem sido utilizado com sucesso no
Google para diversas finalidades. Atribui-se o sucesso a várias razões:
● o modelo é fácil de usar, mesmo para programadores sem experiência com os
sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização,
tolerância a falhas, otimização de localidade, e balanceamento de carga.
● Uma grande variedade de problemas são facilmente transcritos para o uso do
MapReduce.
● É usado para a geração de dados para o serviço de busca do Google, para
classificação, para mineração de dados, para aprendizado de máquina e
muitos outros sistemas.
50. Ferramentas
'
Hadoop é uma plataforma de software em Java de computação distribuída voltada
para clusters e processamento de grandes massas de dados.
dados
Foi inspirado pelo MapReduce e GoogleFS (GFS)
É, na pratica, uma combinação de dois projetos
separados, que são o Hadoop MapReduce (HMR),
que é um framework para processamento paralelo e
o Hadoop Distributed File System (HDFS)
Base de muitos serviços em Cloud
53. Ferramentas
Aprendizado de máquina escalável
Open-Source!!
Outrora domínio exclusivo de acadêmicos e corporações com grandes
orçamentos de pesquisa, as aplicações inteligentes que aprendem a
partir de dados e contribuição de usuário estão se tornando mais
comuns.