Estes são os slides resumindo o MeetUp de fevereiro na Tis Tech Angola, em 17/02/2018. Nele apresentei uma visão geral sobre o "Big Data" e coloquei muitos links para pesquisa. É um bom ponto de partida para quem gostaria de saber mais sobre o assunto (baseado em muita informação recebida no MBA+ da FIAP) e em cursos online (Edx, Coursera e Datacamp) feitos após a conclusão do curso, em 2016.
Obs: procurei citar todas as fotes de pesquisa e respeitar a autoria das informações, o que deixou o material rico em referências para estudo.
3. VISÃO GERAL SOBRE BIG DATA
CONTEÚDO
• O que é? Como surgiu? Como tem sido útil?
• Os “Vs” do Big Data
• Quem está usando?
• A Matemática: estatística, otimização, Analytics
• Ferramentas de Desenvolvimento
• Visualização de Dados
• Os Bancos de Dados No-SQL
• Nuvem: XaaS
• Processamento Paralelo
• Ecossistema: Hadoop?
• As vagas no mercado e os unicórnios
• E o que mais? Por onde começar?
4. O QUE É?
TERMO GENÉRICO PARA SE REFERIR A
CONJUNTOS DE DADOS TÃO GRANDES OU
COMPLEXOS QUE SE TORNAM DIFÍCEIS DE
TRABALHAR USANDO FERRAMENTAS CONVENCIONAIS.
https://www.slideshare.net/GWOcon/big-data-analytics-with-r (slide 6)
5. COMO SURGIU?
• INFORMATIZAÇÃO CRESCENTE
• DISPOSITIVOS PORTÁTEIS
• BARATEAMENTO DO HARDWARE
• POPULARIZAÇÃO DA INTERNET
• CRESCIMENTO DA ECONOMIA DIGITAL
• DISPOSITIVOS “CONECTADOS”
• SOFTWARE OPEN SOURCE
http://www.dailyinfographic.com/what-happens-internet-in-60-seconds
https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#10e2776a65a1
8. COMO TEM SIDO ÚTIL?
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
9. COMO TEM SIDO ÚTIL?
DADOS PODEM SER UM ATIVO ESTRATÉGICO
PODEROSO SE AJUDAREM UMA EMPRESA A
ATINGIR A SUA VISÃO DE NEGÓCIO
10. COMO TEM SIDO ÚTIL?
AO LIDAR COM GRANDES QUANTIDADES DE DADOS...
• GENOMA / BIOMEDICINA, SAÚDE PERSONALIZADA
• GEOINFORMÁTICA, IMAGENS DE SATÉLITE
• INTERPRETAÇÃO DE IMAGENS / RECONHECIMENTO DE PADRÕES
• MELHOR ROTA NUM TRAJETO (NAQUELE MOMENTO)
• SMART CITIES, IOT (INTERNET DAS COISAS)
• DETECÇÃO DE FRAUDES ONLINE
• PERFORMANCE DE JOGADORES NUMA EQUIPE
11. COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
But enterprise software played a part,
too, in the form of big data analytics.
In October 2013, the German Football
Association (DFB) and SAP began
collaborating to develop a “Match
Insights” software system for the German
national team to use in preparation for
and during the tournament. SAP
delivered a prototype in March 2014
and Joachim Low’s management team
has been using the software ever since.
http://www.computerweekly.com/news/2240224421/SAP-helps-Germany-lift-the-World-Cup
12. COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
https://www.paypal.com/stories/br/como-o-big-data-e-a-analise-de-dados-mudaram-os-esportes
MBA BIG Data FIAP, Governança de Dados, slide 6 - Prof Marcelo Oliveira
13. OS “V”S DO BIG DATA
Guy Fawkes
https://pt.wikipedia.org/wiki/V_for_Vendetta; https://cinefreak.com.br/v-de-vinganca-pode-virar-serie-de-tv/
14. OS S DO BIG DATA
SÃO 3… AO MENOS PENSANDO NO QUE TODOS CONCORDAM…
RELACIONADOS ÀS NECESSIDADES DE CAPTURAR, PROCESSAR E RESPONDER AO
QUE OS DADOS MOSTRAM
TUDO SE RESUME AO QUE É PRECISO PARA FAZER
BIG DATA MINING (NÃO É IGUAL A DATA MINING)
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
15. OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
ELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
16. OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
17. OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
18. OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
19. OS S DO BIG DATA
MBA BIG Data FIAP, Governança de Dados, slide 7 - Prof Marcelo Oliveira
21. QUEM ESTÁ USANDO…
JOÃO DORIA (HTTP://WWW.BBC.COM/PORTUGUESE/BRASIL-41406420)
CIELO (HTTPS://CIELO.RIWEB.COM.BR/#)
OPERAÇÃO LAVA-JATO (HTTP://COMPUTERWORLD.COM.BR/POLICIA-FEDERAL-USA-TECNICA-FORENSE-PARA-INVESTIGAR-ENVOLVIDOS-NA-LAVA-JATO)
GLOBO.COM (HTTPS://REDEGLOBO.GLOBO.COM/NOVIDADES/NOTICIA/PROJETO-EM-BIG-DATA-DA-GLOBO-E-PREMIADO-NO-IBC.GHTML)
SELEÇÃO ALEMÃ DE FUTEBOL (HTTPS://EXAME.ABRIL.COM.BR/TECNOLOGIA/SOLUCAO-DE-BIG-DATA-E-UM-DOS-SEGREDOS-DA-ALEMANHA-NA-COPA-2/ )
AGRONEGÓCIO BRASILEIRO (HTTP://SNA.AGR.BR/USO-DE-BIG-DATA-NO-AGRONEGOCIO-DEVERA-CRESCER-NOS-PROXIMOS-ANOS/)
25. A MATEMÁTICA
ESTATÍSTICA, MUITA ESTATÍSTICA…
E MATEMÁTICA AVANÇADA…
http://bd2017.spm-pt.org/
https://www.prandiano.com.br/copy-of-big-data
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Teoria dos Suportes, Dendogramação Big Data, Função Sigmóide e AnovA,
Autovalores e Autovetores, Análise Multivariada, Support Vector Machine,
Discriminante de Fisher, Discriminante de Hellinger, KmeansS de MacQuenn, Elbow
Data Chart, Algoritmo Big Data Fuzzy, Pesquisa Operacional
29. A MATEMÁTICA
PROBLEMAS DE OTIMIZAÇÃO SÃO DE COMPLEXIDADE EXPONENCIAL
O = 2N (SE 2 POSSIBILIDADES PARA CADA N, COMO “TEM” OU NÃO “TEM”)
A PROBABILIDADE E A ESTATÍSTICA VÃO TE AJUDAR A ENTENDER A
COMPLEXIDADE DOS DADOS, VER COMO ELES SE COMPORTAM E, ASSIM, ACHAR
PADRÕES NELES…
MITx: 6.00.2x Introduction to Computational Thinking and Data Science
https://courses.edx.org/courses/course-v1:MITx+6.00.2x+3T2017/course/
30. A MATEMÁTICA
NOÇÕES QUE VÃO TE AJUDAR NA ANÁLISE DE DADOS
• MÉDIA, MODA, MEDIANA, CURVA NORMAL, DESVIO PADRÃO E OUTLIER
• REGRESSÃO LINEAR
• CLUSTERIZAÇÃO E K-MEANS
31. A MATEMÁTICA
Média (mean)
Moda (mode)
Mediana (median)
Probabilidade
80% Intervalo de
confiança
Desvio padrão: dispersão em
relação à média
Outlier: pontos extremos…
Quem “estraga” a média.
MedidasdeResumo
32. A MATEMÁTICA
A ESTATÍSTICA VAI TE AJUDAR A ENCONTRAR PADRÕES “OCULTOS” E A LIDAR
COM A ALEATORIEDADE, AS INCERTEZAS E COM GERAÇÃO DE AMOSTRAS DE
DADOS.
PROBLEMA DO MUNDO REAL
NÃO CONSEGUIMOS PREVER ALGUMAS SITUAÇÕES POR PURA FALTA DE
INFORMAÇÃO SOBRE ELAS OU SUAS CAUSAS. ENFIM, DEVEMOS TRATÁ-LAS
COMO ALEATÓRIAS. A ISSO SE CHAMA DE PROCESSO ESTOCÁSTICO.
33. O OLHAR DO ESTATÍSTICO
OLHANDO OS DADOS COMO UM ESTATÍSTICO… VAMOS USAR O SAS, POR EXEMPLO.
LÁ VOCÊ NÃO TEM UMA TABELA, TEM UM DATA SET (CONJUNTO DE DADOS).
O QUE ERA UMA LINHA DA TABELA, AGORA, TORNA-SE UMA OBSERVAÇÃO.
E EM UMA TABELA VOCÊ NÃO TEM COLUNAS, MAS VARIÁVEIS.
34. O OLHAR DO ESTATÍSTICO
…VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6
OBS 1 VAR 1 OBS 1 VAR 2 OBS 1 VAR 3 OBS 1 VAR 4 OBS 1 VAR 5 OBS 1 VAR 6
OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6
OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6
OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6
OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6
OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6
Universo(100%dados)
35. A MATEMÁTICA
VARIÁVEIS QUALITATIVAS (TEXTO)
E QUANTITATIVAS (NÚMEROS)
ASSOCIAÇÃO: VARIÁVEIS QUALITATIVAS
CORRELAÇÃO: VARIÁVEIS QUANTITATIVAS
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
36. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
37. ESTATÍSTICA E ANALYTICS
• REGRESSÃO LINEAR: MONEYBALL, PREVISÃO DE QUALIDADE DE VINHOS. UTILIZAR
UM MODELO PARA FAZER PREVISÕES A PARTIR DE TENDÊNCIAS.
• REGRESSÃO LOGÍSITICA: MEDICINA. PROBLEMAS DE CLASSIFICAÇÃO DE
INFORMAÇÃO. PROBABILIDADE DE ALGO ACONTECER. USA CONHECIMENTO
ESPECIALIZADO PARA JULGAR UMA SITUAÇÃO EM LARGA ESCALA.
• CART (ÁRVORES DE CLASSIFICAÇÃO E REGRESSÃO): PREVER DECISÕES JUDICIAIS.
MÉTODO AUXILIAR: RANDOM FORESTS: PODE SER MELHOR DO QUE ESPECIALISTAS
NAS PREVISÕES...
• CLUSTERIZAÇÃO E K-MEANS: NETFLIX (RECOMENDAÇÃO DE FILMES). RECONHECER
SEMELHANÇAS E PADRÕES NOS DADOS.
38. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
40. O DESENVOLVIMENTO
PYTHON (NUMPY, PANDAS… JUPYTER NOTEBOOKS)
R / RSTUDIO (COMPRADA PELA MICROSOFT)
JAVA (HDFS, HBASE, HADOP E QUASE TUDO FEITO EM JAVA)
SCALA (MAIS PERFORMANCE QUE PYTHON E USA A MESMA VM DO JAVA)
UNIX / LINUX – VMS CLOUDERA E HORTON WORKS… UBUNTU E CENTOS
https://www.rstudio.com/products/rstudio/download/#download
https://www.python.org/
https://www.scala-lang.org/download/
41. PYTHON
JUPYTER NOTEBOOKS << RODAR CÓDIGO EM QUALQUER LUGAR
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
NUMPY E PANDAS (INGESTÃO E ANÁLISE DE DADOS)
MATPLOTLIB (VISUALIZAÇÃO)
SCIKIT-LEARN (MODELOS E MACHINE LEARNING)
BEAUTIFULSOUP (LER XML E HTML DE MANEIRA FÁCIL)
https://youtu.be/rS0GJMSSHKY
42. R
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
CRAN: REPOSITÓRIO DE BIBLIOTECAS
CRIADA PARA ESTATÍSTICOS E POR ESTATÍSTICOS (AUCKLAND, NOVA ZELÂNDIA)
TEM ATÉ PACKAGE PARA DESENVOLVIMENTO WEB (SHINY)
....
43. VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
44. VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
45. VISUALIZAÇÃO DE DADOS
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
46. VISUALIZAÇÃO DE DADOS
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
48. BANCO DE DADOS “NO SQL”
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
Nomes sublinhados foram construídos em Java + Nome com * suporta mais tipos de modelos No SQL
Fonte: https://db-engines.com/
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
49. NO SQL MAIS POP: MONGO
OPEN SOURCE
PROJETO INICIADO EM 2009
NÃO SUPORTA SQL, UTILIZA JSON EM API PRÓPRIA
SUPORTADO POR VÁRIAS LINGUAGENS: JAVA, C#, DELPHI, GO (GOOGLE), PHP, PYTHON,
MATLAB, R, RUBY, SCALA ETC
UTILIZAÇÃO:
GERENCIAMENTO DE CONTEÚDO: FORBES E EBAY
PERSONALIZAÇÃO: EXPEDIA, EHARMONY, TELEFÔNICA
IOT (BOSCH), CATÁLOGOS (UNDER ARMOUR), REAL TIME ANALYTICS (BUZZFEED, CHICAGO)
https://db-engines.com/en/system/MongoDB
https://www.mongodb.com/
52. NUVEM
“NUVEM” (CLOUD) É UM TERMO UTILIZADO HÁ DÉCADAS NA ÁREA DE
TELECOMUNICAÇÕES
CONJUNTO DE ATIVOS QUE COMPÕEM UMA INFRAESTRUTURA E VIABILIZA A
OPERAÇÃO TRANSPARENTE E ESCALÁVEL, PONTA-A-PONTA, DOS SISTEMAS DE
COMUNICAÇÃO, EM PARTICULAR TELEFONIA (TaaS).
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
53. ATRÁS DAS NUVENS
TUDO É DATA CENTER
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
54. MODELOS DE CLOUD
POSSIBILIDADES PARA ADOTAR A “NUVEM”
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
56. GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
https://cloudharmony.com/status
57. SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
58. SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
59. SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
TRATADOS INTERNACIONAIS
LEGISLAÇÃO VIGENTE NO PAÍS / LOCAL
ÓRGÃO REGULADORES
CÓDIGO DO CONSUMIDOR
BOAS PRÁTICAS DE MERCADO
GERENCIAR A NUVEM (E OS DADOS)
60. PROCESSAMENTO PARALELO
O PROCESSAMENTO MASSIVO PARALELO (MPP, SIGLA EM INGLÊS) DEPENDE DE
HARDWARE E SOFTWARE E TAMBEM TEM SUAS LIMITAÇÕES DE GANHO (LEIS DE
AMDAHL E GUSTAFSON).
FELIZMENTE A ARQUITETURA TEM EVOLUÍDO E TIRAR PROVEITO DESTA POSSIBILIDADE
DE PROCESSAMENTO TEM FICADO MAIS ACESSÍVEL.
O HADOOP É UM DOS FRAMEWORKS MAIS CONHECIDOS DE PROCESSAMENTO
PARALELO DA ATUALIDADE.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
61. PROCESSAMENTO PARALELO
NÍVEIS DE PARALELISMO (E GRANULARIDADE):
• INSTRUÇÃO (BAIXA)
PIPELINED, VERY LONG INSTRUCTION WORD (VLIW), SUPER ESCALARES
• THREAD (MÉDIA)
MULTITHREADING E SIMULTANEOUS MULTITHREADING
• PROCESSO (ALTA)
MULTIPROCESSADORES E MULTICOMPUTADORES
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
62. PROCESSAMENTO PARALELO
4: UM CONJUNTO DE PROCESSADORES
EXECUTA AO MESMO TEMPO
SEQUENCIAS DIFERENTES DE INSTRUÇÕES
SOBRE CONJUNTOS DE DADOS
DIFERENTES.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
1
2
3
4
4
63. CLUSTER VERSUS GRID
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
COLVERO; DANTAS; CUNHA, 2005.
CONFIGURAÇÃO CLUSTER GRID
Domínio Único Múltiplos
Nós Milhares Milhões
Segurança do processamento e
dos recursos
Desnecessária (único domínio) Necessária
Granularidade do problema Grande Muito Grande
Sistemas Operacionais Homogêneo Heterogêneo
Observações 1) Geograficamente distribuído
2) Recursos Heterogêneos
64. ESCALABILIDADE
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
NÍVEIS DE ESCALABILIDADE
• VERTICAL (SCALE UP)
DEIXAR O MESMO COMPUTADOR CADA VEZ MAIS POTENTE (+CARO)
• HORIZONTAL (SCALE OUT)
ADICIONAR MAIS MÁQUINAS PARA TRABALHAR EM PARALELO (+BARATO)
65. HADOOP E O NOVO PARADIGMA
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
2002: PROJETO NUTCH (DOUG CUTTING E CAFARELLA)
2003: GOOGLE PUBLICA GFS E MAP REDUCE
2004: DOUG CRIA NTFS E ADICIONA MAP REDUCE AO NUTCH
2006: YAHOO CONTRATA DOUG. HADOOP NASCE.
2007: NYT CONVERTE 4 TB DE IMAGENS EM MAIS DE 100 EC2S
2008: YAHOO ORDENA 1 TB DE DADOS EM 3,5 MIN, UTILIZANDO 910
NÓS
2009: DOUG SE JUNTA À CLOUDERA, PROJETO SPARK INICIA (BERKELEY)
2010: YAHOO INICIA PROJETO APACHE HADOOP (TORNA OPEN)
2011: APARECEM HORTON WORKS E MAP-R
2013: SPARK VAI PARA APACHE TAMBEM…
2014: INTEL INVESTE MAIS U$ 700 MILHÕES NA CLOUDERA
66. O ECOSSISTEMA HADOOP
HADOOP… DA AMAZON (ELASTIC MAP REDUCE)
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
67. O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
69. O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
https://www.theregister.co.uk/2017/06/15/ibm_adopts_hortonworks_for_hadoop_distribution/
70. O ECOSSISTEMA
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) + IBM
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
https://www.sas.com/en_us/software/university-edition/download-software.html#windows
78. APACHE HADOOP
Processamento Distribuído de GRANDES
volumes de DADOS através de CLUSTERS
via modelos de programação
HDFS: Hadoop Distributed File System (feito em Java)
Map Reduce: sistema baseado no YARN para processamento
Paralelo de grandes volumes de dados (large datasets)
YARN: yet another resource negotiator – tecnologia para
Gerenciamento de CLUSTER
95. ONDE ESTUDAR ONLINE
YOUTUBE: DIGITE BIG DATA E VEJA O QUE APARECE
EDX, COURSERA, ALURA (SITE DA CAELUM - SP)
HORTONWORKS, CLOUDERA, SAS, EMC…
HTTPS://WWW.KAGGLE.COM/
INFORMAÇÕES ADICIONAIS
EM PT-BR: SEMANTIX
KD-NUGGETS
96. EVENTOS NO BRASIL
BIGDATA WEEK: SP EM 2015, RJ EM 2016, SP EM 2017
(HTTP://BIGDATAWEEK.COM/CITIES)
MEETUPS EM SP (ÚLTIMO NA VIVO, MAIO/2017 – EMPRESAS INCUBADAS)
98. FONTES (CURSOS)
• Material MBA em Big Data FIAP, 2015-2016
• Edx – The Analytics Edge (MITx 15.071x – usa “R”)
• Edx – Introduction to Computational Thinking and Data Science (MITx 6.00.2)
• Edx – Introduction to Python for Data Science (Microsoft DAT 208x)
• Hortonworks – Online Tutorials
• Cloudera – Online Tutorials
• SAS University (online)
https://www.slideshare.net/renangpa/big-data-e-a-globocom-2017
https://db-engines.com/en/ranking
http://www.csc.ncsu.edu/faculty/healey/PP/
https://www.infoq.com/presentations/nubank-financial-systems