2. Alexandre Uehara
● Analista Desenvolvedor (E-commerce)
● Coordenador Trilha Big Data (TDC
2013)
http://www.thedevelopersconference.com.
br/tdc/2013/saopaulo/trilha-bigdata#programacao
● Geek e nerd, trabalha com Python,
Java, C, BigData, NoSQL, e outras
coisas mais que aparecem no dia a dia
5. Dia 1:
Introdução
Conceitos Básicos
Big Data
→ O que é?
→ 4 V's
→ Por que
agora?
→ Onde Usar?
→ Desafio
→ BI x Big Data
→Profissional de
Big Data
→ Ferramentas
→ Dicas
6. Dia 2 e 3:
Map Reduce e
Hadoop
→ História
(Google)
→ Conceito
MapReduce
→ Hadoop
→ Cases
42. ● Banco de Dados Hadoop
● Baseado no Google BigTable
● NoSQL - Orientado a
Colunas
● Leitura e Escrita em Real-
Time
● Funciona sobre o HDFS
● HSQL para quem sabe SQL
44. ● Sistema de exportação de logs
contendo grande quantidade de dados
para o HDFS
● Um loader em tempo real para
transmissão de seus dados para o
Hadoop
● Armazena dados no HDFS e HBase
46. ● Ferramenta de exportação de dados de
SGBDs
● Fornece transferência de dados
bidirecional entre o Hadoop e seu
banco de dados relacional
● Usa JDBC
48. ● Biblioteca de algoritmos de
aprendizado de máquina (Machine
Learning) e data mining
● Principal objetivo: ser escalável para
manipular grandes volumes de dados
49. O Mahout é utilizado quando se é preciso
trabalhar com:
● Matrizes e vetores
● Estruturas esparsas e densas
● Agrupamento
● Cobertura
● K-Means
● Análise de densidade de funções
● Filtragem colaborativa
51. ● "Coordenador" de serviços
● Permite que os processos
distribuídos em sistemas de grande
porte sincronizem informações um
com o outro sem falha, de modo que
todos os clientes que fazem
solicitações recebam dados
consistentes
63. ● Exemplo Código PIG:
Users = load `users' as (name, age);
Fltrd = filter Users by age >= 18 and age <= 25;
Pages = load `pages' as (user, url);
Jnd = join Fltrd by name, Pages by user;
Grpd = group Jnd by url;
Smmd = foreach Grpd generate group,
COUNT(Jnd) as clicks;
Srtd = order Smmd by clicks desc;
Top5 = limit Srtd 5;
store Top5 into `top5sites';
64. Em 2010, tarefas MapReduce geradas pelo
Pig correspondiam a 70% das tarefas
executadas no Yahoo!
O Pig também é usado pelo Twitter,
LinkedIn, Ebay, AOL, etc.
65. Usos comuns:
● Processamento de logs de servidores web
● Construção de modelos de predição de
comportamento de usuários
● Processamento de imagens
● Construção de índices de páginas da web
● Pesquisa em conjuntos de dados “brutos”
73. ● Custo acessível.
● 5 a 10 anos atrás era impossível
● Apenas para grandes empresas. Hoje startup, consegue
74. ● Custo acessível.
● 5 a 10 anos atrás era
impossível
● Apenas para grandes
empresas. Hoje startup,
consegue
76. ● Amazon Elastic MapReduce (Amazon
EMR)
● Distribui os dados e processa em um
cluster redimensionável de
instâncias do Amazon EC2
● Hive, Pig
78. ● 2007
● Converteu para PDF todos seus os
artigos publicados entre 1851 e 1980
● O Hadoop foi utilizado para converter
4 TB de imagens TIFF em 11 milhões de
arquivos PDF
79. ● Duração 24 horas
● 100 instâncias EC2 da Amazon
● Gerado 1,5 TB de arquivos PDF
● Custo aproximado: US$ 240,00
83. Por que agora?
● Dados crescendo exponencialmente
● Dados não estruturados
● Arquitetura
88. Compressão 60% a 70% mais eficiente que nos
bancos orientados a linhas.
92. Principais benefícios
● Acesso rápido a dados (desde que você
possa manter tudo na memória);
● Rápida replicação de dados /
distribuídos por vários nós;
● Esquema flexível (você pode adicionar
novas colunas instantaneamente);
94. Que problemas
podem ser
resolvidos (ou as
pessoas acham que
podem resolver)
com a ajuda de
NoSQL e Big Data?
Mais
desempenho e
mais esquemas
flexíveis
95. SQL x NoSQL
● Consistência e
integridade
● Normalização para
evitar dados
redundantes
● Linguagem
padronizada de
consulta (SQL)
● Escalabilidade
● Tolerância a Falhas
● Modelo de
consistência fraco
97. É um ramo da inteligência
artificial, onde o aprendizado é
feito a partir de dados.
98. Machine Learning - como?
1. dados são obtidos e armazenados
2. um modelo de análise é criado
3. quando novos dados chegam, o modelo é
capaz de fazer predições uteis
103. Linguagem R
● É a linguagem mais usada para Data Scientist (Pesquisa O'Reilley - Janeiro
2014)
● 70% dos Data Miners usam R (Pesquisa Rexer - Outubro 2013)
● R está na 15a posição das linguagens de programação mais
usadas (RedMonk ranking - Janeiro 2014)
● R está crescendo mais que qualquer outra linguagem de Data
Science (Pequisa KDNuggets - Agosto 2013)
● R é a linguagem número 1 no Google Search para Advanced
Analytics Software (Google Trends - Março 2014)
● R tem mais de 2 milhões de usuários no mundo (Estimativa Oracle - Fevereiro
2012)
107. As principais habilidades para os
cientistas de dados são:
● algoritmos,
● programas de back-end como JAVA,
● estatísticas Bayesiana,
● método de Monte Carlo,
● ferramentas como Hadoop para
dados massivos,
● negócios,
● estatísticas clássicas,
108. ● manipulação de dados como SAS,
● programas de front-end como
HTML,
● modelos gráficos como análise
estrutural de redes sociais,
● machine learning como árvore de
decisões e clustering,
● matemática como álgebra linear,
● otimização,
● desenvolvimento do produto,
● design experiencial,
109. ● simuladores,
● estatísticas espaciais,
● dados estruturados como SQL,
● marketing e pesquisa,
● sistemas administrativos,
● estatísticas temporais como
previsão,
● e dados não estruturados como
mineração de textos e
visualização de dados