SlideShare a Scribd company logo
1 of 101
Download to read offline
VISÃO GERAL
SOBRE BIG DATA
PORQUE NÃO É MODA E VALE A PENA BUSCAR
MAIS INFORMAÇÃO SOBRE O ASSUNTO
WORKSHOP
MARCO A F GUIMARÃES, 17/02/2018 (V6.0)
BIOGRAFIA RÁPIDA
VISÃO GERAL SOBRE BIG DATA
CONTEÚDO
• O que é? Como surgiu? Como tem sido útil?
• Os “Vs” do Big Data
• Quem está usando?
• A Matemática: estatística, otimização, Analytics
• Ferramentas de Desenvolvimento
• Visualização de Dados
• Os Bancos de Dados No-SQL
• Nuvem: XaaS
• Processamento Paralelo
• Ecossistema: Hadoop?
• As vagas no mercado e os unicórnios
• E o que mais? Por onde começar?
O QUE É?
TERMO GENÉRICO PARA SE REFERIR A
CONJUNTOS DE DADOS TÃO GRANDES OU
COMPLEXOS QUE SE TORNAM DIFÍCEIS DE
TRABALHAR USANDO FERRAMENTAS CONVENCIONAIS.
https://www.slideshare.net/GWOcon/big-data-analytics-with-r (slide 6)
COMO SURGIU?
• INFORMATIZAÇÃO CRESCENTE
• DISPOSITIVOS PORTÁTEIS
• BARATEAMENTO DO HARDWARE
• POPULARIZAÇÃO DA INTERNET
• CRESCIMENTO DA ECONOMIA DIGITAL
• DISPOSITIVOS “CONECTADOS”
• SOFTWARE OPEN SOURCE
http://www.dailyinfographic.com/what-happens-internet-in-60-seconds
https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#10e2776a65a1
COMO SURGIU? – TIMELINE
COMO SURGIU? – TIMELINE ENXUTA
COMO TEM SIDO ÚTIL?
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
?????????????????????????????????????????????????????????????????????????????????????????????
COMO TEM SIDO ÚTIL?
DADOS PODEM SER UM ATIVO ESTRATÉGICO
PODEROSO SE AJUDAREM UMA EMPRESA A
ATINGIR A SUA VISÃO DE NEGÓCIO
COMO TEM SIDO ÚTIL?
AO LIDAR COM GRANDES QUANTIDADES DE DADOS...
• GENOMA / BIOMEDICINA, SAÚDE PERSONALIZADA
• GEOINFORMÁTICA, IMAGENS DE SATÉLITE
• INTERPRETAÇÃO DE IMAGENS / RECONHECIMENTO DE PADRÕES
• MELHOR ROTA NUM TRAJETO (NAQUELE MOMENTO)
• SMART CITIES, IOT (INTERNET DAS COISAS)
• DETECÇÃO DE FRAUDES ONLINE
• PERFORMANCE DE JOGADORES NUMA EQUIPE
COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
But enterprise software played a part,
too, in the form of big data analytics.
In October 2013, the German Football
Association (DFB) and SAP began
collaborating to develop a “Match
Insights” software system for the German
national team to use in preparation for
and during the tournament. SAP
delivered a prototype in March 2014
and Joachim Low’s management team
has been using the software ever since.
http://www.computerweekly.com/news/2240224421/SAP-helps-Germany-lift-the-World-Cup
COMO TEM SIDO ÚTIL?
EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE
https://www.paypal.com/stories/br/como-o-big-data-e-a-analise-de-dados-mudaram-os-esportes
MBA BIG Data FIAP, Governança de Dados, slide 6 - Prof Marcelo Oliveira
OS “V”S DO BIG DATA
Guy Fawkes
https://pt.wikipedia.org/wiki/V_for_Vendetta; https://cinefreak.com.br/v-de-vinganca-pode-virar-serie-de-tv/
OS S DO BIG DATA
SÃO 3… AO MENOS PENSANDO NO QUE TODOS CONCORDAM…
RELACIONADOS ÀS NECESSIDADES DE CAPTURAR, PROCESSAR E RESPONDER AO
QUE OS DADOS MOSTRAM
TUDO SE RESUME AO QUE É PRECISO PARA FAZER
BIG DATA MINING (NÃO É IGUAL A DATA MINING)
https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
ELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3…
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
OS S DO BIG DATA
http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS
VOLUME DE DADOS (QUANTIDADE)
VARIEDADE (DIVERSIDADE DE FONTES E TIPOS)
VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
OS S DO BIG DATA
MBA BIG Data FIAP, Governança de Dados, slide 7 - Prof Marcelo Oliveira
QUEM ESTÁ USANDO…
QUEM ESTÁ USANDO…
JOÃO DORIA (HTTP://WWW.BBC.COM/PORTUGUESE/BRASIL-41406420)
CIELO (HTTPS://CIELO.RIWEB.COM.BR/#)
OPERAÇÃO LAVA-JATO (HTTP://COMPUTERWORLD.COM.BR/POLICIA-FEDERAL-USA-TECNICA-FORENSE-PARA-INVESTIGAR-ENVOLVIDOS-NA-LAVA-JATO)
GLOBO.COM (HTTPS://REDEGLOBO.GLOBO.COM/NOVIDADES/NOTICIA/PROJETO-EM-BIG-DATA-DA-GLOBO-E-PREMIADO-NO-IBC.GHTML)
SELEÇÃO ALEMÃ DE FUTEBOL (HTTPS://EXAME.ABRIL.COM.BR/TECNOLOGIA/SOLUCAO-DE-BIG-DATA-E-UM-DOS-SEGREDOS-DA-ALEMANHA-NA-COPA-2/ )
AGRONEGÓCIO BRASILEIRO (HTTP://SNA.AGR.BR/USO-DE-BIG-DATA-NO-AGRONEGOCIO-DEVERA-CRESCER-NOS-PROXIMOS-ANOS/)
QUEM ESTÁ USANDO…
https://www.bigdatacorp.info/single-post/Os-Dados-e-o-Agronegocio
https://www.infoq.com/presentations/nubank-financial-systems
https://www.cielo.com.br/venda-mais/cielofarol/, https://cielo.riweb.com.br/
http://www.bbc.com/portuguese/brasil-41406420
A MATEMÁTICA
https://atitudereflexiva.wordpress.com/2018/01/01/tributumulus-prandiano/#comment-1656
https://www.providr.com/everybody-hates-chris-then-and-now
https://www.biography.com/news/home-alone-25th-anniversary-facts
Prof Aguinaldo Prandini Ricieri
A MATEMÁTICA
http://www.history.com/topics/womens-history/florence-nightingale
https://www.youtube.com/watch?v=sYZnzt0CJtE
https://www.obaricentrodamente.com/2014/06/florence-nightingale-e-os-graficos_7.html
SEC XIX FOI DA SAÚDE: Florence Nightingale (1820 - 1910)
LEMBRADA PELA ENFERMAGEM
E ESTATÍSTICA COM
USO DE GRÁFICOS!
A MATEMÁTICA
ESTATÍSTICA, MUITA ESTATÍSTICA…
E MATEMÁTICA AVANÇADA…
http://bd2017.spm-pt.org/
https://www.prandiano.com.br/copy-of-big-data
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
Teoria dos Suportes, Dendogramação Big Data, Função Sigmóide e AnovA,
Autovalores e Autovetores, Análise Multivariada, Support Vector Machine,
Discriminante de Fisher, Discriminante de Hellinger, KmeansS de MacQuenn, Elbow
Data Chart, Algoritmo Big Data Fuzzy, Pesquisa Operacional
A MATEMÁTICA
http://bd2017.spm-pt.org/
https://www.prandiano.com.br/copy-of-big-data
https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
ESTATÍSTICA PARA QUÊ?
ANALYTICS!!!
A MATEMÁTICA
https://www.thefreedictionary.com/analytics
https://www.slideshare.net/GWOcon/big-data-analytics-with-r/6 (slide 9)
ANALYTICS: RAMO DA LÓGICA QUE TRATA DA ANÁLISE DE INFORMAÇÃO
É A COMBINAÇÃO DE TÉCNICAS DE MATEMÁTICA,
ESTATÍSTICA E HEURÍSTICA PARA ENTENDER ALGO
A PARTIR DOS DADOS (E OBTER INSIGHTS ETC)
A MATEMÁTICA
http://www.dailymail.co.uk/sciencetech/article-3441166/Has-robot-taken-job-New-figures-reveal-America-record-breaking-260-000-robots-working-factories.html
OTIMIZAÇÃO E ORDENAÇÃO DE DADOS
O TRABALHO ÁRDUO DO COMPUTADOR…
A MATEMÁTICA
PROBLEMAS DE OTIMIZAÇÃO SÃO DE COMPLEXIDADE EXPONENCIAL
O = 2N (SE 2 POSSIBILIDADES PARA CADA N, COMO “TEM” OU NÃO “TEM”)
A PROBABILIDADE E A ESTATÍSTICA VÃO TE AJUDAR A ENTENDER A
COMPLEXIDADE DOS DADOS, VER COMO ELES SE COMPORTAM E, ASSIM, ACHAR
PADRÕES NELES…
MITx: 6.00.2x Introduction to Computational Thinking and Data Science
https://courses.edx.org/courses/course-v1:MITx+6.00.2x+3T2017/course/
A MATEMÁTICA
NOÇÕES QUE VÃO TE AJUDAR NA ANÁLISE DE DADOS
• MÉDIA, MODA, MEDIANA, CURVA NORMAL, DESVIO PADRÃO E OUTLIER
• REGRESSÃO LINEAR
• CLUSTERIZAÇÃO E K-MEANS
A MATEMÁTICA
Média (mean)
Moda (mode)
Mediana (median)
Probabilidade
80% Intervalo de
confiança
Desvio padrão: dispersão em
relação à média
Outlier: pontos extremos…
Quem “estraga” a média.
MedidasdeResumo
A MATEMÁTICA
A ESTATÍSTICA VAI TE AJUDAR A ENCONTRAR PADRÕES “OCULTOS” E A LIDAR
COM A ALEATORIEDADE, AS INCERTEZAS E COM GERAÇÃO DE AMOSTRAS DE
DADOS.
PROBLEMA DO MUNDO REAL
NÃO CONSEGUIMOS PREVER ALGUMAS SITUAÇÕES POR PURA FALTA DE
INFORMAÇÃO SOBRE ELAS OU SUAS CAUSAS. ENFIM, DEVEMOS TRATÁ-LAS
COMO ALEATÓRIAS. A ISSO SE CHAMA DE PROCESSO ESTOCÁSTICO.
O OLHAR DO ESTATÍSTICO
OLHANDO OS DADOS COMO UM ESTATÍSTICO… VAMOS USAR O SAS, POR EXEMPLO.
LÁ VOCÊ NÃO TEM UMA TABELA, TEM UM DATA SET (CONJUNTO DE DADOS).
O QUE ERA UMA LINHA DA TABELA, AGORA, TORNA-SE UMA OBSERVAÇÃO.
E EM UMA TABELA VOCÊ NÃO TEM COLUNAS, MAS VARIÁVEIS.
O OLHAR DO ESTATÍSTICO
…VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6
OBS 1 VAR 1 OBS 1 VAR 2 OBS 1 VAR 3 OBS 1 VAR 4 OBS 1 VAR 5 OBS 1 VAR 6
OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6
OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6
OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6
OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6
OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6
Universo(100%dados)
A MATEMÁTICA
VARIÁVEIS QUALITATIVAS (TEXTO)
E QUANTITATIVAS (NÚMEROS)
ASSOCIAÇÃO: VARIÁVEIS QUALITATIVAS
CORRELAÇÃO: VARIÁVEIS QUANTITATIVAS
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
ESTATÍSTICA E ANALYTICS
• REGRESSÃO LINEAR: MONEYBALL, PREVISÃO DE QUALIDADE DE VINHOS. UTILIZAR
UM MODELO PARA FAZER PREVISÕES A PARTIR DE TENDÊNCIAS.
• REGRESSÃO LOGÍSITICA: MEDICINA. PROBLEMAS DE CLASSIFICAÇÃO DE
INFORMAÇÃO. PROBABILIDADE DE ALGO ACONTECER. USA CONHECIMENTO
ESPECIALIZADO PARA JULGAR UMA SITUAÇÃO EM LARGA ESCALA.
• CART (ÁRVORES DE CLASSIFICAÇÃO E REGRESSÃO): PREVER DECISÕES JUDICIAIS.
MÉTODO AUXILIAR: RANDOM FORESTS: PODE SER MELHOR DO QUE ESPECIALISTAS
NAS PREVISÕES...
• CLUSTERIZAÇÃO E K-MEANS: NETFLIX (RECOMENDAÇÃO DE FILMES). RECONHECER
SEMELHANÇAS E PADRÕES NOS DADOS.
FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
O DESENVOLVIMENTO
O DESENVOLVIMENTO
PYTHON (NUMPY, PANDAS… JUPYTER NOTEBOOKS)
R / RSTUDIO (COMPRADA PELA MICROSOFT)
JAVA (HDFS, HBASE, HADOP E QUASE TUDO FEITO EM JAVA)
SCALA (MAIS PERFORMANCE QUE PYTHON E USA A MESMA VM DO JAVA)
UNIX / LINUX – VMS CLOUDERA E HORTON WORKS… UBUNTU E CENTOS
https://www.rstudio.com/products/rstudio/download/#download
https://www.python.org/
https://www.scala-lang.org/download/
PYTHON
JUPYTER NOTEBOOKS << RODAR CÓDIGO EM QUALQUER LUGAR
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
NUMPY E PANDAS (INGESTÃO E ANÁLISE DE DADOS)
MATPLOTLIB (VISUALIZAÇÃO)
SCIKIT-LEARN (MODELOS E MACHINE LEARNING)
BEAUTIFULSOUP (LER XML E HTML DE MANEIRA FÁCIL)
https://youtu.be/rS0GJMSSHKY
R
GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS)
CRAN: REPOSITÓRIO DE BIBLIOTECAS
CRIADA PARA ESTATÍSTICOS E POR ESTATÍSTICOS (AUCKLAND, NOVA ZELÂNDIA)
TEM ATÉ PACKAGE PARA DESENVOLVIMENTO WEB (SHINY)
....
VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
VISUALIZAÇÃO DE DADOS
90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL.
NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS
RÁPIDO DO QUE UM TEXTO.
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
VISUALIZAÇÃO DE DADOS
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
VISUALIZAÇÃO DE DADOS
FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
BANCO DE DADOS
https://db-engines.com/en/ranking
BANCO DE DADOS “NO SQL”
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
Nomes sublinhados foram construídos em Java + Nome com * suporta mais tipos de modelos No SQL
Fonte: https://db-engines.com/
>>>>> NOT ONLY SQL
CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003)
COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011)
GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998)
DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011)
MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
NO SQL MAIS POP: MONGO
OPEN SOURCE
PROJETO INICIADO EM 2009
NÃO SUPORTA SQL, UTILIZA JSON EM API PRÓPRIA
SUPORTADO POR VÁRIAS LINGUAGENS: JAVA, C#, DELPHI, GO (GOOGLE), PHP, PYTHON,
MATLAB, R, RUBY, SCALA ETC
UTILIZAÇÃO:
GERENCIAMENTO DE CONTEÚDO: FORBES E EBAY
PERSONALIZAÇÃO: EXPEDIA, EHARMONY, TELEFÔNICA
IOT (BOSCH), CATÁLOGOS (UNDER ARMOUR), REAL TIME ANALYTICS (BUZZFEED, CHICAGO)
https://db-engines.com/en/system/MongoDB
https://www.mongodb.com/
NUVEM
https://clutch.co/cloud
https://www.youtube.com/watch?time_continue=2&v=5kMDIBpxi_k
NUVEM
http://sortbenchmark.org/
https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
NUVEM
“NUVEM” (CLOUD) É UM TERMO UTILIZADO HÁ DÉCADAS NA ÁREA DE
TELECOMUNICAÇÕES
CONJUNTO DE ATIVOS QUE COMPÕEM UMA INFRAESTRUTURA E VIABILIZA A
OPERAÇÃO TRANSPARENTE E ESCALÁVEL, PONTA-A-PONTA, DOS SISTEMAS DE
COMUNICAÇÃO, EM PARTICULAR TELEFONIA (TaaS).
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
ATRÁS DAS NUVENS
TUDO É DATA CENTER
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
MODELOS DE CLOUD
POSSIBILIDADES PARA ADOTAR A “NUVEM”
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
VIABILIDADE ECONÔMICA: CLOUD
DISTRIBUIÇÃO DOS CUSTOS DE INFRA
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
https://cloudharmony.com/status
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
GERENCIAR A NUVEM (E OS DADOS)
SEGURANÇA, GOVERNANÇA E COMPLIANCE
FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
TRATADOS INTERNACIONAIS
LEGISLAÇÃO VIGENTE NO PAÍS / LOCAL
ÓRGÃO REGULADORES
CÓDIGO DO CONSUMIDOR
BOAS PRÁTICAS DE MERCADO
GERENCIAR A NUVEM (E OS DADOS)
PROCESSAMENTO PARALELO
O PROCESSAMENTO MASSIVO PARALELO (MPP, SIGLA EM INGLÊS) DEPENDE DE
HARDWARE E SOFTWARE E TAMBEM TEM SUAS LIMITAÇÕES DE GANHO (LEIS DE
AMDAHL E GUSTAFSON).
FELIZMENTE A ARQUITETURA TEM EVOLUÍDO E TIRAR PROVEITO DESTA POSSIBILIDADE
DE PROCESSAMENTO TEM FICADO MAIS ACESSÍVEL.
O HADOOP É UM DOS FRAMEWORKS MAIS CONHECIDOS DE PROCESSAMENTO
PARALELO DA ATUALIDADE.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PROCESSAMENTO PARALELO
NÍVEIS DE PARALELISMO (E GRANULARIDADE):
• INSTRUÇÃO (BAIXA)
PIPELINED, VERY LONG INSTRUCTION WORD (VLIW), SUPER ESCALARES
• THREAD (MÉDIA)
MULTITHREADING E SIMULTANEOUS MULTITHREADING
• PROCESSO (ALTA)
MULTIPROCESSADORES E MULTICOMPUTADORES
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PROCESSAMENTO PARALELO
4: UM CONJUNTO DE PROCESSADORES
EXECUTA AO MESMO TEMPO
SEQUENCIAS DIFERENTES DE INSTRUÇÕES
SOBRE CONJUNTOS DE DADOS
DIFERENTES.
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
1
2
3
4
4
CLUSTER VERSUS GRID
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
COLVERO; DANTAS; CUNHA, 2005.
CONFIGURAÇÃO CLUSTER GRID
Domínio Único Múltiplos
Nós Milhares Milhões
Segurança do processamento e
dos recursos
Desnecessária (único domínio) Necessária
Granularidade do problema Grande Muito Grande
Sistemas Operacionais Homogêneo Heterogêneo
Observações 1) Geograficamente distribuído
2) Recursos Heterogêneos
ESCALABILIDADE
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
NÍVEIS DE ESCALABILIDADE
• VERTICAL (SCALE UP)
DEIXAR O MESMO COMPUTADOR CADA VEZ MAIS POTENTE (+CARO)
• HORIZONTAL (SCALE OUT)
ADICIONAR MAIS MÁQUINAS PARA TRABALHAR EM PARALELO (+BARATO)
HADOOP E O NOVO PARADIGMA
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
2002: PROJETO NUTCH (DOUG CUTTING E CAFARELLA)
2003: GOOGLE PUBLICA GFS E MAP REDUCE
2004: DOUG CRIA NTFS E ADICIONA MAP REDUCE AO NUTCH
2006: YAHOO CONTRATA DOUG. HADOOP NASCE.
2007: NYT CONVERTE 4 TB DE IMAGENS EM MAIS DE 100 EC2S
2008: YAHOO ORDENA 1 TB DE DADOS EM 3,5 MIN, UTILIZANDO 910
NÓS
2009: DOUG SE JUNTA À CLOUDERA, PROJETO SPARK INICIA (BERKELEY)
2010: YAHOO INICIA PROJETO APACHE HADOOP (TORNA OPEN)
2011: APARECEM HORTON WORKS E MAP-R
2013: SPARK VAI PARA APACHE TAMBEM…
2014: INTEL INVESTE MAIS U$ 700 MILHÕES NA CLOUDERA
O ECOSSISTEMA HADOOP
HADOOP… DA AMAZON (ELASTIC MAP REDUCE)
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
BRIGA!!
FINAL DE
2014…
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
O ECOSSISTEMA
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM)
HADOOP… DA MAPR
HADOOP… DA IBM (OPEN PLATFORM)
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
HADOOP… DA PIVOTAL
https://www.theregister.co.uk/2017/06/15/ibm_adopts_hortonworks_for_hadoop_distribution/
O ECOSSISTEMA
HADOOP… DA CLOUDERA (CDH DISTRIBUTION)
HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) + IBM
HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS
HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT)
https://www.sas.com/en_us/software/university-edition/download-software.html#windows
MAIS ALGUÉM?
https://www.sas.com/en_us/software/university-edition/download-software.html#windows
MAS VAMOS VOLTAR AO FOCO…
HADOOOP?
APACHE HADOOOP…
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE
https://www.infoworld.com/article/2607063/open-source-software/88714-15-high-impact-Apache-projects.html#slide2
APACHE HADOOP
Processamento Distribuído de GRANDES
volumes de DADOS através de CLUSTERS
via modelos de programação
HDFS: Hadoop Distributed File System (feito em Java)
Map Reduce: sistema baseado no YARN para processamento
Paralelo de grandes volumes de dados (large datasets)
YARN: yet another resource negotiator – tecnologia para
Gerenciamento de CLUSTER
APACHE HADOOP
https://opensource.com/life/14/8/intro-apache-hadoop-big-data
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PROCESSAMENTO PARALELO
FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
PERFIL
https://whatsthebigdata.com/2015/10/17/how-to-become-a-unicorn-data-scientist-and-make-more-than-240000/
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
PERFIL
https://www.kdnuggets.com/2015/11/different-data-science-roles-industry.html
Data Analyst
Business Analyst
Statician
Data Engineer
Data Architect
Manager
“O cara”
ONDE ESTUDAR ONLINE
YOUTUBE: DIGITE BIG DATA E VEJA O QUE APARECE
EDX, COURSERA, ALURA (SITE DA CAELUM - SP)
HORTONWORKS, CLOUDERA, SAS, EMC…
HTTPS://WWW.KAGGLE.COM/
INFORMAÇÕES ADICIONAIS
EM PT-BR: SEMANTIX
KD-NUGGETS
EVENTOS NO BRASIL
BIGDATA WEEK: SP EM 2015, RJ EM 2016, SP EM 2017
(HTTP://BIGDATAWEEK.COM/CITIES)
MEETUPS EM SP (ÚLTIMO NA VIVO, MAIO/2017 – EMPRESAS INCUBADAS)
AFRICA E ANGOLA
HTTP://ANGOLA.OPENDATAFORAFRICA.ORG/
E DO MUNDO TODO…
HTTPS://DATA.WORLDBANK.ORG/
FONTES (CURSOS)
• Material MBA em Big Data FIAP, 2015-2016
• Edx – The Analytics Edge (MITx 15.071x – usa “R”)
• Edx – Introduction to Computational Thinking and Data Science (MITx 6.00.2)
• Edx – Introduction to Python for Data Science (Microsoft DAT 208x)
• Hortonworks – Online Tutorials
• Cloudera – Online Tutorials
• SAS University (online)
https://www.slideshare.net/renangpa/big-data-e-a-globocom-2017
https://db-engines.com/en/ranking
http://www.csc.ncsu.edu/faculty/healey/PP/
https://www.infoq.com/presentations/nubank-financial-systems
FONTES - TIMELINE
• https://docs.oracle.com/cd/B13789_01/server.101/b10759/intro001.htm;
• https://gcn.com/articles/2013/05/30/gcn30-timeline-big-data.aspx;
• https://www.biography.com/people/ada-lovelace-20825323;
• http://www.computerhistory.org/timeline/
• http://www.lnmb.nl/conferences/2018/programlnmbconference/Aarts.pdf;
• http://www.dataversity.net/a-short-history-of-data-warehousing/;
• https://www.slideshare.net/GWOcon/big-data-analytics-with-r;
• http://iml.jou.ufl.edu/projects/Fall02/Moody/history.html;
• https://thoughts.manthan.com/wp-content/uploads/2015/11/timeline-of-analytics.jpg
• https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/2/#7fe93f814343
• https://hadoop.apache.org/
• http://sortbenchmark.org
• https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
https://www.virtualbox.org/ https://www.vmware.com/
https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html
https://www.virtualbox.org/wiki/Downloads
https://logos-download.com/9688-docker-logo-download.html
https://hortonworks.com/downloads/#sandbox
https://www.docker.com/community-edition
https://hortonworks.com/
https://www.cloudera.com/downloads/quickstart_vms/5-12.html
VAMOS ESTUDAR?
MUITO
OBRIGADO!
MARCO ANTONIO FILGUEIRAS GUIMARÃES, 17/02/2018
WORKSHOP

More Related Content

Similar to Workshop / Meetup: Visão geral sobre Big Data

Come diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniCome diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniDonatella Cambosu
 
7 key recipes for data engineering
7 key recipes for data engineering7 key recipes for data engineering
7 key recipes for data engineeringunivalence
 
Data Science Provenance: From Drug Discovery to Fake Fans
Data Science Provenance: From Drug Discovery to Fake FansData Science Provenance: From Drug Discovery to Fake Fans
Data Science Provenance: From Drug Discovery to Fake FansJameel Syed
 
Strata Conference NYC 2013
Strata Conference NYC 2013Strata Conference NYC 2013
Strata Conference NYC 2013Taewook Eom
 
Building intelligent applications, experimental ML with Uber’s Data Science W...
Building intelligent applications, experimental ML with Uber’s Data Science W...Building intelligent applications, experimental ML with Uber’s Data Science W...
Building intelligent applications, experimental ML with Uber’s Data Science W...DataWorks Summit
 
Challenges in Analytics for BIG Data
Challenges in Analytics for BIG DataChallenges in Analytics for BIG Data
Challenges in Analytics for BIG DataPrasant Misra
 
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...Sarah Aerni
 
Foresight conversation
Foresight conversationForesight conversation
Foresight conversationsuresh sood
 
Sistemi Informativi Territoriali e Software Libero
Sistemi Informativi Territoriali e Software LiberoSistemi Informativi Territoriali e Software Libero
Sistemi Informativi Territoriali e Software LiberoMaurizio Napolitano
 
6 years of my private G+ Spotfire community
6 years of my private G+ Spotfire community6 years of my private G+ Spotfire community
6 years of my private G+ Spotfire communityChristof Gaenzler
 
Congratulations you privacy definitions have been successfully updated
Congratulations you privacy definitions have been successfully updatedCongratulations you privacy definitions have been successfully updated
Congratulations you privacy definitions have been successfully updatedAlberto Dávila
 
Public data ecosystems in and for smart cities: how to make open / Big / smar...
Public data ecosystems in and for smart cities: how to make open / Big / smar...Public data ecosystems in and for smart cities: how to make open / Big / smar...
Public data ecosystems in and for smart cities: how to make open / Big / smar...Anastasija Nikiforova
 
Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Gabriel Moreira
 
GalvanizeU Seattle: Eleven Almost-Truisms About Data
GalvanizeU Seattle: Eleven Almost-Truisms About DataGalvanizeU Seattle: Eleven Almost-Truisms About Data
GalvanizeU Seattle: Eleven Almost-Truisms About DataPaco Nathan
 
Visualizing data spring2012
Visualizing data spring2012Visualizing data spring2012
Visualizing data spring2012Lisa Kurt
 
Where does hadoop come handy
Where does hadoop come handyWhere does hadoop come handy
Where does hadoop come handyPraveen Sripati
 

Similar to Workshop / Meetup: Visão geral sobre Big Data (20)

Come diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo PellegriniCome diventare data scientist - Paolo Pellegrini
Come diventare data scientist - Paolo Pellegrini
 
7 key recipes for data engineering
7 key recipes for data engineering7 key recipes for data engineering
7 key recipes for data engineering
 
Data Science Provenance: From Drug Discovery to Fake Fans
Data Science Provenance: From Drug Discovery to Fake FansData Science Provenance: From Drug Discovery to Fake Fans
Data Science Provenance: From Drug Discovery to Fake Fans
 
SENCER_panel.ppt
SENCER_panel.pptSENCER_panel.ppt
SENCER_panel.ppt
 
Strata Conference NYC 2013
Strata Conference NYC 2013Strata Conference NYC 2013
Strata Conference NYC 2013
 
Building intelligent applications, experimental ML with Uber’s Data Science W...
Building intelligent applications, experimental ML with Uber’s Data Science W...Building intelligent applications, experimental ML with Uber’s Data Science W...
Building intelligent applications, experimental ML with Uber’s Data Science W...
 
Ets train ppt_big_data_basics_v2.0
Ets train ppt_big_data_basics_v2.0Ets train ppt_big_data_basics_v2.0
Ets train ppt_big_data_basics_v2.0
 
Challenges in Analytics for BIG Data
Challenges in Analytics for BIG DataChallenges in Analytics for BIG Data
Challenges in Analytics for BIG Data
 
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
Data Science as a Commodity: Use MADlib, R, & other OSS Tools for Data Scienc...
 
Foresight conversation
Foresight conversationForesight conversation
Foresight conversation
 
Sistemi Informativi Territoriali e Software Libero
Sistemi Informativi Territoriali e Software LiberoSistemi Informativi Territoriali e Software Libero
Sistemi Informativi Territoriali e Software Libero
 
Data mining
Data miningData mining
Data mining
 
6 years of my private G+ Spotfire community
6 years of my private G+ Spotfire community6 years of my private G+ Spotfire community
6 years of my private G+ Spotfire community
 
Congratulations you privacy definitions have been successfully updated
Congratulations you privacy definitions have been successfully updatedCongratulations you privacy definitions have been successfully updated
Congratulations you privacy definitions have been successfully updated
 
Public data ecosystems in and for smart cities: how to make open / Big / smar...
Public data ecosystems in and for smart cities: how to make open / Big / smar...Public data ecosystems in and for smart cities: how to make open / Big / smar...
Public data ecosystems in and for smart cities: how to make open / Big / smar...
 
1 mapreduce-fest
1 mapreduce-fest1 mapreduce-fest
1 mapreduce-fest
 
Python for Data Science - TDC 2015
Python for Data Science - TDC 2015Python for Data Science - TDC 2015
Python for Data Science - TDC 2015
 
GalvanizeU Seattle: Eleven Almost-Truisms About Data
GalvanizeU Seattle: Eleven Almost-Truisms About DataGalvanizeU Seattle: Eleven Almost-Truisms About Data
GalvanizeU Seattle: Eleven Almost-Truisms About Data
 
Visualizing data spring2012
Visualizing data spring2012Visualizing data spring2012
Visualizing data spring2012
 
Where does hadoop come handy
Where does hadoop come handyWhere does hadoop come handy
Where does hadoop come handy
 

Recently uploaded

Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024BookNet Canada
 
Injustice - Developers Among Us (SciFiDevCon 2024)
Injustice - Developers Among Us (SciFiDevCon 2024)Injustice - Developers Among Us (SciFiDevCon 2024)
Injustice - Developers Among Us (SciFiDevCon 2024)Allon Mureinik
 
Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Neo4j
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupFlorian Wilhelm
 
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024BookNet Canada
 
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024BookNet Canada
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions
 
AI as an Interface for Commercial Buildings
AI as an Interface for Commercial BuildingsAI as an Interface for Commercial Buildings
AI as an Interface for Commercial BuildingsMemoori
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountPuma Security, LLC
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...shyamraj55
 
Key Features Of Token Development (1).pptx
Key  Features Of Token  Development (1).pptxKey  Features Of Token  Development (1).pptx
Key Features Of Token Development (1).pptxLBM Solutions
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonetsnaman860154
 
Connect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationConnect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationSlibray Presentation
 
CloudStudio User manual (basic edition):
CloudStudio User manual (basic edition):CloudStudio User manual (basic edition):
CloudStudio User manual (basic edition):comworks
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Scott Keck-Warren
 
Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?Mattias Andersson
 
Swan(sea) Song – personal research during my six years at Swansea ... and bey...
Swan(sea) Song – personal research during my six years at Swansea ... and bey...Swan(sea) Song – personal research during my six years at Swansea ... and bey...
Swan(sea) Song – personal research during my six years at Swansea ... and bey...Alan Dix
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDGMarianaLemus7
 

Recently uploaded (20)

Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
Transcript: New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
 
Injustice - Developers Among Us (SciFiDevCon 2024)
Injustice - Developers Among Us (SciFiDevCon 2024)Injustice - Developers Among Us (SciFiDevCon 2024)
Injustice - Developers Among Us (SciFiDevCon 2024)
 
Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project Setup
 
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptxE-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
E-Vehicle_Hacking_by_Parul Sharma_null_owasp.pptx
 
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
New from BookNet Canada for 2024: BNC BiblioShare - Tech Forum 2024
 
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
#StandardsGoals for 2024: What’s new for BISAC - Tech Forum 2024
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping Elbows
 
AI as an Interface for Commercial Buildings
AI as an Interface for Commercial BuildingsAI as an Interface for Commercial Buildings
AI as an Interface for Commercial Buildings
 
Breaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path MountBreaking the Kubernetes Kill Chain: Host Path Mount
Breaking the Kubernetes Kill Chain: Host Path Mount
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
 
Key Features Of Token Development (1).pptx
Key  Features Of Token  Development (1).pptxKey  Features Of Token  Development (1).pptx
Key Features Of Token Development (1).pptx
 
How to convert PDF to text with Nanonets
How to convert PDF to text with NanonetsHow to convert PDF to text with Nanonets
How to convert PDF to text with Nanonets
 
Connect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationConnect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck Presentation
 
CloudStudio User manual (basic edition):
CloudStudio User manual (basic edition):CloudStudio User manual (basic edition):
CloudStudio User manual (basic edition):
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024
 
Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?Are Multi-Cloud and Serverless Good or Bad?
Are Multi-Cloud and Serverless Good or Bad?
 
Swan(sea) Song – personal research during my six years at Swansea ... and bey...
Swan(sea) Song – personal research during my six years at Swansea ... and bey...Swan(sea) Song – personal research during my six years at Swansea ... and bey...
Swan(sea) Song – personal research during my six years at Swansea ... and bey...
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDG
 
DMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special EditionDMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special Edition
 

Workshop / Meetup: Visão geral sobre Big Data

  • 1. VISÃO GERAL SOBRE BIG DATA PORQUE NÃO É MODA E VALE A PENA BUSCAR MAIS INFORMAÇÃO SOBRE O ASSUNTO WORKSHOP MARCO A F GUIMARÃES, 17/02/2018 (V6.0)
  • 3. VISÃO GERAL SOBRE BIG DATA CONTEÚDO • O que é? Como surgiu? Como tem sido útil? • Os “Vs” do Big Data • Quem está usando? • A Matemática: estatística, otimização, Analytics • Ferramentas de Desenvolvimento • Visualização de Dados • Os Bancos de Dados No-SQL • Nuvem: XaaS • Processamento Paralelo • Ecossistema: Hadoop? • As vagas no mercado e os unicórnios • E o que mais? Por onde começar?
  • 4. O QUE É? TERMO GENÉRICO PARA SE REFERIR A CONJUNTOS DE DADOS TÃO GRANDES OU COMPLEXOS QUE SE TORNAM DIFÍCEIS DE TRABALHAR USANDO FERRAMENTAS CONVENCIONAIS. https://www.slideshare.net/GWOcon/big-data-analytics-with-r (slide 6)
  • 5. COMO SURGIU? • INFORMATIZAÇÃO CRESCENTE • DISPOSITIVOS PORTÁTEIS • BARATEAMENTO DO HARDWARE • POPULARIZAÇÃO DA INTERNET • CRESCIMENTO DA ECONOMIA DIGITAL • DISPOSITIVOS “CONECTADOS” • SOFTWARE OPEN SOURCE http://www.dailyinfographic.com/what-happens-internet-in-60-seconds https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/#10e2776a65a1
  • 6. COMO SURGIU? – TIMELINE
  • 7. COMO SURGIU? – TIMELINE ENXUTA
  • 8. COMO TEM SIDO ÚTIL? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ????????????????????????????????????????????????????????????????????????????????????????????? ?????????????????????????????????????????????????????????????????????????????????????????????
  • 9. COMO TEM SIDO ÚTIL? DADOS PODEM SER UM ATIVO ESTRATÉGICO PODEROSO SE AJUDAREM UMA EMPRESA A ATINGIR A SUA VISÃO DE NEGÓCIO
  • 10. COMO TEM SIDO ÚTIL? AO LIDAR COM GRANDES QUANTIDADES DE DADOS... • GENOMA / BIOMEDICINA, SAÚDE PERSONALIZADA • GEOINFORMÁTICA, IMAGENS DE SATÉLITE • INTERPRETAÇÃO DE IMAGENS / RECONHECIMENTO DE PADRÕES • MELHOR ROTA NUM TRAJETO (NAQUELE MOMENTO) • SMART CITIES, IOT (INTERNET DAS COISAS) • DETECÇÃO DE FRAUDES ONLINE • PERFORMANCE DE JOGADORES NUMA EQUIPE
  • 11. COMO TEM SIDO ÚTIL? EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE But enterprise software played a part, too, in the form of big data analytics. In October 2013, the German Football Association (DFB) and SAP began collaborating to develop a “Match Insights” software system for the German national team to use in preparation for and during the tournament. SAP delivered a prototype in March 2014 and Joachim Low’s management team has been using the software ever since. http://www.computerweekly.com/news/2240224421/SAP-helps-Germany-lift-the-World-Cup
  • 12. COMO TEM SIDO ÚTIL? EXEMPLO: PERFORMANCE DE JOGADORES NUMA EQUIPE https://www.paypal.com/stories/br/como-o-big-data-e-a-analise-de-dados-mudaram-os-esportes MBA BIG Data FIAP, Governança de Dados, slide 6 - Prof Marcelo Oliveira
  • 13. OS “V”S DO BIG DATA Guy Fawkes https://pt.wikipedia.org/wiki/V_for_Vendetta; https://cinefreak.com.br/v-de-vinganca-pode-virar-serie-de-tv/
  • 14. OS S DO BIG DATA SÃO 3… AO MENOS PENSANDO NO QUE TODOS CONCORDAM… RELACIONADOS ÀS NECESSIDADES DE CAPTURAR, PROCESSAR E RESPONDER AO QUE OS DADOS MOSTRAM TUDO SE RESUME AO QUE É PRECISO PARA FAZER BIG DATA MINING (NÃO É IGUAL A DATA MINING) https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1
  • 15. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) ELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO)
  • 16. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO) ->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
  • 17. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO) ->EXTRAS: VERACIDADE, VARIABILIDADE, VALOR
  • 18. OS S DO BIG DATA http://www.brandsoftheworld.com/logo/v-for-vendetta-0?original=1 SÃO 3… O RESTO É CONVERSA… MAS TUDO É CENTRADO NOS DADOS VOLUME DE DADOS (QUANTIDADE) VARIEDADE (DIVERSIDADE DE FONTES E TIPOS) VELOCIDADE (ALTA CAPACIDADE DE PROCESSAMENTO – DISTRIBUÍDA)
  • 19. OS S DO BIG DATA MBA BIG Data FIAP, Governança de Dados, slide 7 - Prof Marcelo Oliveira
  • 21. QUEM ESTÁ USANDO… JOÃO DORIA (HTTP://WWW.BBC.COM/PORTUGUESE/BRASIL-41406420) CIELO (HTTPS://CIELO.RIWEB.COM.BR/#) OPERAÇÃO LAVA-JATO (HTTP://COMPUTERWORLD.COM.BR/POLICIA-FEDERAL-USA-TECNICA-FORENSE-PARA-INVESTIGAR-ENVOLVIDOS-NA-LAVA-JATO) GLOBO.COM (HTTPS://REDEGLOBO.GLOBO.COM/NOVIDADES/NOTICIA/PROJETO-EM-BIG-DATA-DA-GLOBO-E-PREMIADO-NO-IBC.GHTML) SELEÇÃO ALEMÃ DE FUTEBOL (HTTPS://EXAME.ABRIL.COM.BR/TECNOLOGIA/SOLUCAO-DE-BIG-DATA-E-UM-DOS-SEGREDOS-DA-ALEMANHA-NA-COPA-2/ ) AGRONEGÓCIO BRASILEIRO (HTTP://SNA.AGR.BR/USO-DE-BIG-DATA-NO-AGRONEGOCIO-DEVERA-CRESCER-NOS-PROXIMOS-ANOS/)
  • 25. A MATEMÁTICA ESTATÍSTICA, MUITA ESTATÍSTICA… E MATEMÁTICA AVANÇADA… http://bd2017.spm-pt.org/ https://www.prandiano.com.br/copy-of-big-data https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century Teoria dos Suportes, Dendogramação Big Data, Função Sigmóide e AnovA, Autovalores e Autovetores, Análise Multivariada, Support Vector Machine, Discriminante de Fisher, Discriminante de Hellinger, KmeansS de MacQuenn, Elbow Data Chart, Algoritmo Big Data Fuzzy, Pesquisa Operacional
  • 27. A MATEMÁTICA https://www.thefreedictionary.com/analytics https://www.slideshare.net/GWOcon/big-data-analytics-with-r/6 (slide 9) ANALYTICS: RAMO DA LÓGICA QUE TRATA DA ANÁLISE DE INFORMAÇÃO É A COMBINAÇÃO DE TÉCNICAS DE MATEMÁTICA, ESTATÍSTICA E HEURÍSTICA PARA ENTENDER ALGO A PARTIR DOS DADOS (E OBTER INSIGHTS ETC)
  • 29. A MATEMÁTICA PROBLEMAS DE OTIMIZAÇÃO SÃO DE COMPLEXIDADE EXPONENCIAL O = 2N (SE 2 POSSIBILIDADES PARA CADA N, COMO “TEM” OU NÃO “TEM”) A PROBABILIDADE E A ESTATÍSTICA VÃO TE AJUDAR A ENTENDER A COMPLEXIDADE DOS DADOS, VER COMO ELES SE COMPORTAM E, ASSIM, ACHAR PADRÕES NELES… MITx: 6.00.2x Introduction to Computational Thinking and Data Science https://courses.edx.org/courses/course-v1:MITx+6.00.2x+3T2017/course/
  • 30. A MATEMÁTICA NOÇÕES QUE VÃO TE AJUDAR NA ANÁLISE DE DADOS • MÉDIA, MODA, MEDIANA, CURVA NORMAL, DESVIO PADRÃO E OUTLIER • REGRESSÃO LINEAR • CLUSTERIZAÇÃO E K-MEANS
  • 31. A MATEMÁTICA Média (mean) Moda (mode) Mediana (median) Probabilidade 80% Intervalo de confiança Desvio padrão: dispersão em relação à média Outlier: pontos extremos… Quem “estraga” a média. MedidasdeResumo
  • 32. A MATEMÁTICA A ESTATÍSTICA VAI TE AJUDAR A ENCONTRAR PADRÕES “OCULTOS” E A LIDAR COM A ALEATORIEDADE, AS INCERTEZAS E COM GERAÇÃO DE AMOSTRAS DE DADOS. PROBLEMA DO MUNDO REAL NÃO CONSEGUIMOS PREVER ALGUMAS SITUAÇÕES POR PURA FALTA DE INFORMAÇÃO SOBRE ELAS OU SUAS CAUSAS. ENFIM, DEVEMOS TRATÁ-LAS COMO ALEATÓRIAS. A ISSO SE CHAMA DE PROCESSO ESTOCÁSTICO.
  • 33. O OLHAR DO ESTATÍSTICO OLHANDO OS DADOS COMO UM ESTATÍSTICO… VAMOS USAR O SAS, POR EXEMPLO. LÁ VOCÊ NÃO TEM UMA TABELA, TEM UM DATA SET (CONJUNTO DE DADOS). O QUE ERA UMA LINHA DA TABELA, AGORA, TORNA-SE UMA OBSERVAÇÃO. E EM UMA TABELA VOCÊ NÃO TEM COLUNAS, MAS VARIÁVEIS.
  • 34. O OLHAR DO ESTATÍSTICO …VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6 OBS 1 VAR 1 OBS 1 VAR 2 OBS 1 VAR 3 OBS 1 VAR 4 OBS 1 VAR 5 OBS 1 VAR 6 OBS 2 VAR 1 OBS 2 VAR 2 OBS 2 VAR 3 OBS 2 VAR 4 OBS 2 VAR 5 OBS 2 VAR 6 OBS 3 VAR 1 OBS 3 VAR 2 OBS 3 VAR 3 OBS 3 VAR 4 OBS 3 VAR 5 OBS 3 VAR 6 OBS 4 VAR 1 OBS 4 VAR 2 OBS 4 VAR 3 OBS 4 VAR 4 OBS 4 VAR 5 OBS 4 VAR 6 OBS 5 VAR 1 OBS 5 VAR 2 OBS 5 VAR 3 OBS 5 VAR 4 OBS 5 VAR 5 OBS 5 VAR 6 OBS 6 VAR 1 OBS 6 VAR 2 OBS 6 VAR 3 OBS 6 VAR 4 OBS 6 VAR 5 OBS 6 VAR 6 Universo(100%dados)
  • 35. A MATEMÁTICA VARIÁVEIS QUALITATIVAS (TEXTO) E QUANTITATIVAS (NÚMEROS) ASSOCIAÇÃO: VARIÁVEIS QUALITATIVAS CORRELAÇÃO: VARIÁVEIS QUANTITATIVAS FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 36. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 37. ESTATÍSTICA E ANALYTICS • REGRESSÃO LINEAR: MONEYBALL, PREVISÃO DE QUALIDADE DE VINHOS. UTILIZAR UM MODELO PARA FAZER PREVISÕES A PARTIR DE TENDÊNCIAS. • REGRESSÃO LOGÍSITICA: MEDICINA. PROBLEMAS DE CLASSIFICAÇÃO DE INFORMAÇÃO. PROBABILIDADE DE ALGO ACONTECER. USA CONHECIMENTO ESPECIALIZADO PARA JULGAR UMA SITUAÇÃO EM LARGA ESCALA. • CART (ÁRVORES DE CLASSIFICAÇÃO E REGRESSÃO): PREVER DECISÕES JUDICIAIS. MÉTODO AUXILIAR: RANDOM FORESTS: PODE SER MELHOR DO QUE ESPECIALISTAS NAS PREVISÕES... • CLUSTERIZAÇÃO E K-MEANS: NETFLIX (RECOMENDAÇÃO DE FILMES). RECONHECER SEMELHANÇAS E PADRÕES NOS DADOS.
  • 38. FIAP – MBA em BIG DATA, prof Regina Bernal (Análise de Associação e Correlação, 2016)
  • 40. O DESENVOLVIMENTO PYTHON (NUMPY, PANDAS… JUPYTER NOTEBOOKS) R / RSTUDIO (COMPRADA PELA MICROSOFT) JAVA (HDFS, HBASE, HADOP E QUASE TUDO FEITO EM JAVA) SCALA (MAIS PERFORMANCE QUE PYTHON E USA A MESMA VM DO JAVA) UNIX / LINUX – VMS CLOUDERA E HORTON WORKS… UBUNTU E CENTOS https://www.rstudio.com/products/rstudio/download/#download https://www.python.org/ https://www.scala-lang.org/download/
  • 41. PYTHON JUPYTER NOTEBOOKS << RODAR CÓDIGO EM QUALQUER LUGAR GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS) NUMPY E PANDAS (INGESTÃO E ANÁLISE DE DADOS) MATPLOTLIB (VISUALIZAÇÃO) SCIKIT-LEARN (MODELOS E MACHINE LEARNING) BEAUTIFULSOUP (LER XML E HTML DE MANEIRA FÁCIL) https://youtu.be/rS0GJMSSHKY
  • 42. R GRANDE NÚMERO DE PACKAGES (BIBLIOTECAS) CRAN: REPOSITÓRIO DE BIBLIOTECAS CRIADA PARA ESTATÍSTICOS E POR ESTATÍSTICOS (AUCKLAND, NOVA ZELÂNDIA) TEM ATÉ PACKAGE PARA DESENVOLVIMENTO WEB (SHINY) ....
  • 43. VISUALIZAÇÃO DE DADOS 90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL. NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS RÁPIDO DO QUE UM TEXTO. FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
  • 44. VISUALIZAÇÃO DE DADOS 90% DA INFORMAÇÃO TRANSMITIDA AO CÉREBRO É VISUAL. NO CÉREBRO AS INFORMAÇÕES VISUAIS SÃO PROCESSADAS 60.000 VEZES MAIS RÁPIDO DO QUE UM TEXTO. FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
  • 45. VISUALIZAÇÃO DE DADOS FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
  • 46. VISUALIZAÇÃO DE DADOS FIAP – MBA em BIG DATA, AULA prof Rafael Shoji (Exploração de Dados Visuais, 2016)
  • 48. BANCO DE DADOS “NO SQL” >>>>> NOT ONLY SQL CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003) COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011) GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998) DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011) MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003) Nomes sublinhados foram construídos em Java + Nome com * suporta mais tipos de modelos No SQL Fonte: https://db-engines.com/ >>>>> NOT ONLY SQL CHAVE-VALOR: REDIS* (2009), DYNAMO DB* (AMAZON, 2012), MEMCACHED (2003) COLUNAR: CASSANDRA (2008), HBASE (HADOOP - 2008) , DATASTAX (2011) GRAFOS: NEO4J (2007), COSMOS DB* (AZURE, 2014), VIRTUOSO* (1998) DOCUMENTOS: MONGO DB (2009), COUCH DB (2005), COUCHBASE (2011) MOTOR DE BUSCA: ELASTICSEARCH (2010), SOLR/LUCENE (2004), SPLUNK (2003)
  • 49. NO SQL MAIS POP: MONGO OPEN SOURCE PROJETO INICIADO EM 2009 NÃO SUPORTA SQL, UTILIZA JSON EM API PRÓPRIA SUPORTADO POR VÁRIAS LINGUAGENS: JAVA, C#, DELPHI, GO (GOOGLE), PHP, PYTHON, MATLAB, R, RUBY, SCALA ETC UTILIZAÇÃO: GERENCIAMENTO DE CONTEÚDO: FORBES E EBAY PERSONALIZAÇÃO: EXPEDIA, EHARMONY, TELEFÔNICA IOT (BOSCH), CATÁLOGOS (UNDER ARMOUR), REAL TIME ANALYTICS (BUZZFEED, CHICAGO) https://db-engines.com/en/system/MongoDB https://www.mongodb.com/
  • 52. NUVEM “NUVEM” (CLOUD) É UM TERMO UTILIZADO HÁ DÉCADAS NA ÁREA DE TELECOMUNICAÇÕES CONJUNTO DE ATIVOS QUE COMPÕEM UMA INFRAESTRUTURA E VIABILIZA A OPERAÇÃO TRANSPARENTE E ESCALÁVEL, PONTA-A-PONTA, DOS SISTEMAS DE COMUNICAÇÃO, EM PARTICULAR TELEFONIA (TaaS). FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 53. ATRÁS DAS NUVENS TUDO É DATA CENTER FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 54. MODELOS DE CLOUD POSSIBILIDADES PARA ADOTAR A “NUVEM” FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 55. VIABILIDADE ECONÔMICA: CLOUD DISTRIBUIÇÃO DOS CUSTOS DE INFRA FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016)
  • 56. GERENCIAR A NUVEM (E OS DADOS) SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) https://cloudharmony.com/status
  • 57. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) GERENCIAR A NUVEM (E OS DADOS)
  • 58. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) GERENCIAR A NUVEM (E OS DADOS)
  • 59. SEGURANÇA, GOVERNANÇA E COMPLIANCE FIAP – MBA em BIG DATA, prof Fabian Martins (Arquitetura de Cloud Computing, 2016) TRATADOS INTERNACIONAIS LEGISLAÇÃO VIGENTE NO PAÍS / LOCAL ÓRGÃO REGULADORES CÓDIGO DO CONSUMIDOR BOAS PRÁTICAS DE MERCADO GERENCIAR A NUVEM (E OS DADOS)
  • 60. PROCESSAMENTO PARALELO O PROCESSAMENTO MASSIVO PARALELO (MPP, SIGLA EM INGLÊS) DEPENDE DE HARDWARE E SOFTWARE E TAMBEM TEM SUAS LIMITAÇÕES DE GANHO (LEIS DE AMDAHL E GUSTAFSON). FELIZMENTE A ARQUITETURA TEM EVOLUÍDO E TIRAR PROVEITO DESTA POSSIBILIDADE DE PROCESSAMENTO TEM FICADO MAIS ACESSÍVEL. O HADOOP É UM DOS FRAMEWORKS MAIS CONHECIDOS DE PROCESSAMENTO PARALELO DA ATUALIDADE. FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 61. PROCESSAMENTO PARALELO NÍVEIS DE PARALELISMO (E GRANULARIDADE): • INSTRUÇÃO (BAIXA) PIPELINED, VERY LONG INSTRUCTION WORD (VLIW), SUPER ESCALARES • THREAD (MÉDIA) MULTITHREADING E SIMULTANEOUS MULTITHREADING • PROCESSO (ALTA) MULTIPROCESSADORES E MULTICOMPUTADORES FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 62. PROCESSAMENTO PARALELO 4: UM CONJUNTO DE PROCESSADORES EXECUTA AO MESMO TEMPO SEQUENCIAS DIFERENTES DE INSTRUÇÕES SOBRE CONJUNTOS DE DADOS DIFERENTES. FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) 1 2 3 4 4
  • 63. CLUSTER VERSUS GRID FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) COLVERO; DANTAS; CUNHA, 2005. CONFIGURAÇÃO CLUSTER GRID Domínio Único Múltiplos Nós Milhares Milhões Segurança do processamento e dos recursos Desnecessária (único domínio) Necessária Granularidade do problema Grande Muito Grande Sistemas Operacionais Homogêneo Heterogêneo Observações 1) Geograficamente distribuído 2) Recursos Heterogêneos
  • 64. ESCALABILIDADE FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) NÍVEIS DE ESCALABILIDADE • VERTICAL (SCALE UP) DEIXAR O MESMO COMPUTADOR CADA VEZ MAIS POTENTE (+CARO) • HORIZONTAL (SCALE OUT) ADICIONAR MAIS MÁQUINAS PARA TRABALHAR EM PARALELO (+BARATO)
  • 65. HADOOP E O NOVO PARADIGMA FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016) 2002: PROJETO NUTCH (DOUG CUTTING E CAFARELLA) 2003: GOOGLE PUBLICA GFS E MAP REDUCE 2004: DOUG CRIA NTFS E ADICIONA MAP REDUCE AO NUTCH 2006: YAHOO CONTRATA DOUG. HADOOP NASCE. 2007: NYT CONVERTE 4 TB DE IMAGENS EM MAIS DE 100 EC2S 2008: YAHOO ORDENA 1 TB DE DADOS EM 3,5 MIN, UTILIZANDO 910 NÓS 2009: DOUG SE JUNTA À CLOUDERA, PROJETO SPARK INICIA (BERKELEY) 2010: YAHOO INICIA PROJETO APACHE HADOOP (TORNA OPEN) 2011: APARECEM HORTON WORKS E MAP-R 2013: SPARK VAI PARA APACHE TAMBEM… 2014: INTEL INVESTE MAIS U$ 700 MILHÕES NA CLOUDERA
  • 66. O ECOSSISTEMA HADOOP HADOOP… DA AMAZON (ELASTIC MAP REDUCE) HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL
  • 67. O ECOSSISTEMA HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL
  • 68. BRIGA!! FINAL DE 2014… FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 69. O ECOSSISTEMA HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) HADOOP… DA MAPR HADOOP… DA IBM (OPEN PLATFORM) HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) HADOOP… DA PIVOTAL https://www.theregister.co.uk/2017/06/15/ibm_adopts_hortonworks_for_hadoop_distribution/
  • 70. O ECOSSISTEMA HADOOP… DA CLOUDERA (CDH DISTRIBUTION) HADOOP… DA HORTONWORKS (HORTON DATA PLATFORM) + IBM HADOOP… DA AMAZON (ELASTIC MAP REDUCE) AWS HADOOP… DA MICROSOFT (AZURE’S HD INSIGHT) https://www.sas.com/en_us/software/university-edition/download-software.html#windows
  • 72. MAS VAMOS VOLTAR AO FOCO…
  • 78. APACHE HADOOP Processamento Distribuído de GRANDES volumes de DADOS através de CLUSTERS via modelos de programação HDFS: Hadoop Distributed File System (feito em Java) Map Reduce: sistema baseado no YARN para processamento Paralelo de grandes volumes de dados (large datasets) YARN: yet another resource negotiator – tecnologia para Gerenciamento de CLUSTER
  • 80.
  • 82. FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 83. PROCESSAMENTO PARALELO FIAP – MBA em BIG DATA, prof Samuel Schmidt (Processamento Massivo Paralelo, 2016)
  • 84.
  • 85.
  • 95. ONDE ESTUDAR ONLINE YOUTUBE: DIGITE BIG DATA E VEJA O QUE APARECE EDX, COURSERA, ALURA (SITE DA CAELUM - SP) HORTONWORKS, CLOUDERA, SAS, EMC… HTTPS://WWW.KAGGLE.COM/ INFORMAÇÕES ADICIONAIS EM PT-BR: SEMANTIX KD-NUGGETS
  • 96. EVENTOS NO BRASIL BIGDATA WEEK: SP EM 2015, RJ EM 2016, SP EM 2017 (HTTP://BIGDATAWEEK.COM/CITIES) MEETUPS EM SP (ÚLTIMO NA VIVO, MAIO/2017 – EMPRESAS INCUBADAS)
  • 97. AFRICA E ANGOLA HTTP://ANGOLA.OPENDATAFORAFRICA.ORG/ E DO MUNDO TODO… HTTPS://DATA.WORLDBANK.ORG/
  • 98. FONTES (CURSOS) • Material MBA em Big Data FIAP, 2015-2016 • Edx – The Analytics Edge (MITx 15.071x – usa “R”) • Edx – Introduction to Computational Thinking and Data Science (MITx 6.00.2) • Edx – Introduction to Python for Data Science (Microsoft DAT 208x) • Hortonworks – Online Tutorials • Cloudera – Online Tutorials • SAS University (online) https://www.slideshare.net/renangpa/big-data-e-a-globocom-2017 https://db-engines.com/en/ranking http://www.csc.ncsu.edu/faculty/healey/PP/ https://www.infoq.com/presentations/nubank-financial-systems
  • 99. FONTES - TIMELINE • https://docs.oracle.com/cd/B13789_01/server.101/b10759/intro001.htm; • https://gcn.com/articles/2013/05/30/gcn30-timeline-big-data.aspx; • https://www.biography.com/people/ada-lovelace-20825323; • http://www.computerhistory.org/timeline/ • http://www.lnmb.nl/conferences/2018/programlnmbconference/Aarts.pdf; • http://www.dataversity.net/a-short-history-of-data-warehousing/; • https://www.slideshare.net/GWOcon/big-data-analytics-with-r; • http://iml.jou.ufl.edu/projects/Fall02/Moody/history.html; • https://thoughts.manthan.com/wp-content/uploads/2015/11/timeline-of-analytics.jpg • https://www.forbes.com/sites/gilpress/2013/05/09/a-very-short-history-of-big-data/2/#7fe93f814343 • https://hadoop.apache.org/ • http://sortbenchmark.org • https://www.wired.com/2015/11/alibaba-cloud-wins-worldwide-battle-of-the-machines/
  • 101. MUITO OBRIGADO! MARCO ANTONIO FILGUEIRAS GUIMARÃES, 17/02/2018 WORKSHOP