SlideShare a Scribd company logo
1 of 59
Download to read offline
BigData → MapReduce
Agenda



Qual a motivação ?
Agenda
BigData


“Termo de mercado para o conjunto de
 soluções que analisa informações em
variedade, volume e velocidade inéditos
variedade
 até hoje - os três Vs, como chamam os
              tecnólogos...”
BigData


    “No dia a dia, a sociedade gera, em
      média, mais de 15 petabytes de
  informações sobre as suas operações
comerciais e financeiras, bem como sobre
     clientes e fornecedores por dia...”
BigData


   1 Petabyte (PB) = 1 024 TB
           1 048 576 GB
        1 073 741 824 MB
      1 099 511 627 776 kB
1 125 899 906 842 624 (250) Bytes
BigData



Não estamos falando de quantidade de
 dados e sim de VOLUME DE DADOS
BigData
          Um exemplo prático:

Estamos trabalhando em uma base com
 volume de dados de aproximadamente
               600 Gb

       Temos um pouco mais de

85.000.000.000.000.000.000 quintilhões de
                registros
BigData




Seguindo novos rumos...
BigData
BigData



...conta a história da mais famosa aplicação
    do conceito: o gerente de um time de
beisebol que usa o Big Data para reunir um
  elenco de primeira linha sem gastar muito
BigData
BigData


“A Renner usa o Big Data para monitorar, em
 tempo real, o fluxo de mercadorias da loja
        real
  ao cruzar dados de localização GPS dos
 caminhões dos fornecedores com os níveis
    dos estoques” (Leandro Balbinot - Diretor de TI)
BigData




Segundo especialistas o Big Data foi de grande importância
para o descobrimento do pré-sal...
BigData

…devido a sua velocidade, que agilizava os
               velocidade
   processamentos de dados sísmicos
captados pela sondas que procuram petróleo
             no fundo do mar.

Como são milhões as variáveis, o trabalho
                      variáveis
   exige intermináveis simulações de
 imagens, e só o Big Data é capaz de dar
 conta do trabalho em um tempo melhor.
                                melhor
BigData




No último “Fórum Econômico Mundial”
BigData




No último “Fórum Econômico Mundial”
BigData

 No último Fórum Econômico Mundial...

   "Big Data, grande impacto: novas
 possibilidades para o desenvolvimento
             internacional"
             internacional

 …mostra como o Big Data pode ser uma
arma contra problemas sócio-econômicos
BigData
Conhecimento Estratégico...
BigData
             Caso de negócio:

 O McKinsey Global Institute publicou
   recentemente um relatório sobre as
oportunidades de negócios e do governo
            ao usar BigData.
                    BigData

“Big Data: The Next Frontier for Innovation,
      Competition and Productivity”
BigData



 De acordo com a McKinsey, o uso de
 BigGata está se tornando uma forma
essencial para as principais empresas a
   superarem seus concorrentes.
                     concorrentes
BigData



"Nós estimamos que um revendedor com o
   apoio de BigData tem o potencial de
 aumentar a sua margem operacional em
              mais de 60%”
BigData


   “Big Data cria valor para as empresas
descobrindo padrões e relacionamentos
 entre dados que antes estavam perdidos
 não apenas em data warehouses internos,
mas na própria Web, em tuítes, comentários
no Facebook e mesmo videos no YouTube.”
BigData
BigData



Um mercado de US$ 17 bi em 2015
BigData


Segundo a consultoria IDC, o mercado global
  de Big Data crescerá quase 40% ao ano
  entre 2010 e 2015, saltando de US$ 3,2
                2015
      bilhões para US$ 16,9 bilhões.
                             bilhões
BigData
A tecnologia envolve tanto dinheiro porque
soluciona um problema inadiável para a
            economia global.
                       global

    Se você se sente atordoado com a
enxurrada de posts no seu Twitter, imagine a
 perda de produtividade em uma empresa
 incapaz de compreender os dados que a
                inundam.
Ministério das Comunicações
Como a internet Estimulou o BigData?
Alguns Serviços na Web...
Problemáticas
Soluções?




MapReduce
MapReduce
Nos últimos anos, os pesquisadores e desenvolvedores do
Google tem implementado centenas de propostas de
técnicas e cálculos que processam grandes quantidades de
dados brutos e para computar vários tipos de dados
derivados, tais como:


 ●    Índices invertidos
 ●    Representações diversas da estrutura de gráfico de
     documentos
 ●    Resumos do número de páginas rastreadas por host
 ●    Estatística das consultas mais frequentes em um
     determinado dia.
MapReduce

–   Os cálculos são conceitualmente simples...


–   O problema é que os dados de entrada são muito grandes...
                                                   grandes


     ●   Solução: Distribuir esses cálculos através de centenas ou
         milhares de máquinas
          – Garantir o término em um tempo razoável
MapReduce



“Como reação a essa complexidade, foi elaborado uma nova
abstração que nos permite expressar os cálculos simples que
estávamos tentando realizar, mas esconde os detalhes confusos de
paralelização, tolerância a falhas de distribuição de dados e
paralelização
balanceamento de carga”
                   carga
MapReduce

●   A nova abstração é inspirado no 'Map' e 'Reduce' primitivos
    presentes em Lisp e muitas outras linguagens funcionais.


    “Percebemos que a maioria dos nossos cálculos envolvia a
    aplicação de uma operação de Map para cada "registro" lógico
    em nossa entrada, a fim de calcular um conjunto de pares
    intermediários de chave/valor e, em seguida , a aplicação de
    uma operação de Reduce a todos os valores que partilhavam a
    mesma chave, a fim de combinar os dados derivados
    apropriadamente.”
MapReduce



As maior contribuição dessa nova abordagem é a implantação de
uma simples e poderosa interface que permite a paralelização
automática e distribuição da computação em grande escala,
combinado com uma implementação desta interface que atinge alta
performance em grandes aglomerados de máquinas
MapReduce



O cálculo toma um conjunto de pares de entradas de chave/valor,
e produz um conjunto de pares de saídas chave/valor.
 O usuário que implementa o MapReduce expressa o cálculo como
duas funções: Map e Raduce.
Reduce
A função Reduce, também escrito pelo usuário, aceita
●   uma chave intermediária e um conjunto de valores para essa
    chave.
●   Ela faz uma fusão desses valores em conjunto, para formar um
    menor conjunto de valores possível.
●   Tipicamente apenas zero ou um valor de saída é produzido por
    um método Reduce.
●   Os valores intermédios são fornecidos para a função através de
    uma iteração. Isto permite-nos lidar com listas de valores que
    são demasiadamente grandes para caber na memória.
MapReduce
O modelo de programação MapReduce tem sido utilizado com sucesso no
Google para diversas finalidades. Atribui-se o sucesso a várias razões:

●   o modelo é fácil de usar, mesmo para programadores sem experiência com os
    sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização,
    tolerância a falhas, otimização de localidade, e balanceamento de carga.


●   Uma grande variedade de problemas são facilmente transcritos para o uso do
    MapReduce.


●   É usado para a geração de dados para o serviço de busca do Google, para
    classificação, para mineração de dados, para aprendizado de máquina e
    muitos outros sistemas.
MapReduce




Exemplo...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
'




      Apach
            e Had   oop


           NoS   QL
    Bancos

             ra
       Cloude
Ferramentas
   '

Bancos NoSQL (Not Only SQL)
Ferramentas
     '




Hadoop é uma plataforma de software em Java de computação distribuída voltada
para clusters e processamento de grandes massas de dados.
                                                   dados

Foi inspirado pelo MapReduce e GoogleFS (GFS)

É, na pratica, uma combinação de dois projetos
separados, que são o Hadoop MapReduce (HMR),
que é um framework para processamento paralelo e
o Hadoop Distributed File System (HDFS)


 Base de muitos serviços em Cloud
Ferramentas
'
Ferramentas



Data Mining?
Ferramentas




      Aprendizado de máquina escalável
               Open-Source!!
Outrora domínio exclusivo de acadêmicos e corporações com grandes
orçamentos de pesquisa, as aplicações inteligentes que aprendem a
partir de dados e contribuição de usuário estão se tornando mais
comuns.
Ferramentas
Ferramentas
Ferramentas




 São distribuições Linux prontas ao uso
   para constituir um cluster Hadoop.

Cloudera é hoje uma referência no mundo
                 Hadoop
Considerações Finais



BigData é uma bolha?
●




2012 é o ano do BigData
●




Indo mais além...
●
Dúvidas?
BigData → MapReduce

More Related Content

What's hot

Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesGuilherme Araújo
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemOtávio Carvalho
 
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...wesleylouzeiro
 

What's hot (20)

Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e Aplicações
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em NuvemAnálise e Caracterização das Novas Ferramentas para Computação em Nuvem
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
 
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
 

Similar to BigData MapReduce

Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Lucas Modesto
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016Thiago Santiago
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018everis
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
 

Similar to BigData MapReduce (20)

Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016BigData & Hadoop - Technology Latinoware 2016
BigData & Hadoop - Technology Latinoware 2016
 
Google BigQuery
Google BigQueryGoogle BigQuery
Google BigQuery
 
Big data
Big dataBig data
Big data
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Big Data
Big DataBig Data
Big Data
 
BigData
BigDataBigData
BigData
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Keynote AWS RoadShow Porto Alegre 2013
Keynote AWS RoadShow Porto Alegre 2013Keynote AWS RoadShow Porto Alegre 2013
Keynote AWS RoadShow Porto Alegre 2013
 

More from João Gabriel Lima

Deep marketing - Indoor Customer Segmentation
Deep marketing - Indoor Customer SegmentationDeep marketing - Indoor Customer Segmentation
Deep marketing - Indoor Customer SegmentationJoão Gabriel Lima
 
Aplicações de Alto Desempenho com JHipster Full Stack
Aplicações de Alto Desempenho com JHipster Full StackAplicações de Alto Desempenho com JHipster Full Stack
Aplicações de Alto Desempenho com JHipster Full StackJoão Gabriel Lima
 
Realidade aumentada com react native e ARKit
Realidade aumentada com react native e ARKitRealidade aumentada com react native e ARKit
Realidade aumentada com react native e ARKitJoão Gabriel Lima
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
Mineração de Dados no Weka - Regressão Linear
Mineração de Dados no Weka -  Regressão LinearMineração de Dados no Weka -  Regressão Linear
Mineração de Dados no Weka - Regressão LinearJoão Gabriel Lima
 
Segurança na Internet - Estudos de caso
Segurança na Internet - Estudos de casoSegurança na Internet - Estudos de caso
Segurança na Internet - Estudos de casoJoão Gabriel Lima
 
Segurança na Internet - Google Hacking
Segurança na Internet - Google  HackingSegurança na Internet - Google  Hacking
Segurança na Internet - Google HackingJoão Gabriel Lima
 
Segurança na Internet - Conceitos fundamentais
Segurança na Internet - Conceitos fundamentaisSegurança na Internet - Conceitos fundamentais
Segurança na Internet - Conceitos fundamentaisJoão Gabriel Lima
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...João Gabriel Lima
 
Mineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoMineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoJoão Gabriel Lima
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaJoão Gabriel Lima
 
Visualizacao de dados - Come to the dark side
Visualizacao de dados - Come to the dark sideVisualizacao de dados - Come to the dark side
Visualizacao de dados - Come to the dark sideJoão Gabriel Lima
 
REST x SOAP : Qual abordagem escolher?
REST x SOAP : Qual abordagem escolher?REST x SOAP : Qual abordagem escolher?
REST x SOAP : Qual abordagem escolher?João Gabriel Lima
 
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...João Gabriel Lima
 
E-trânsito cidadão - IPVA em suas mãos
E-trânsito cidadão - IPVA em suas mãosE-trânsito cidadão - IPVA em suas mãos
E-trânsito cidadão - IPVA em suas mãosJoão Gabriel Lima
 
[Estácio - IESAM] Automatizando Tarefas com Gulp.js
[Estácio - IESAM] Automatizando Tarefas com Gulp.js[Estácio - IESAM] Automatizando Tarefas com Gulp.js
[Estácio - IESAM] Automatizando Tarefas com Gulp.jsJoão Gabriel Lima
 
Hackeando a Internet das Coisas com Javascript
Hackeando a Internet das Coisas com JavascriptHackeando a Internet das Coisas com Javascript
Hackeando a Internet das Coisas com JavascriptJoão Gabriel Lima
 

More from João Gabriel Lima (20)

Cooking with data
Cooking with dataCooking with data
Cooking with data
 
Deep marketing - Indoor Customer Segmentation
Deep marketing - Indoor Customer SegmentationDeep marketing - Indoor Customer Segmentation
Deep marketing - Indoor Customer Segmentation
 
Aplicações de Alto Desempenho com JHipster Full Stack
Aplicações de Alto Desempenho com JHipster Full StackAplicações de Alto Desempenho com JHipster Full Stack
Aplicações de Alto Desempenho com JHipster Full Stack
 
Realidade aumentada com react native e ARKit
Realidade aumentada com react native e ARKitRealidade aumentada com react native e ARKit
Realidade aumentada com react native e ARKit
 
JS - IA
JS - IAJS - IA
JS - IA
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
Mineração de Dados no Weka - Regressão Linear
Mineração de Dados no Weka -  Regressão LinearMineração de Dados no Weka -  Regressão Linear
Mineração de Dados no Weka - Regressão Linear
 
Segurança na Internet - Estudos de caso
Segurança na Internet - Estudos de casoSegurança na Internet - Estudos de caso
Segurança na Internet - Estudos de caso
 
Segurança na Internet - Google Hacking
Segurança na Internet - Google  HackingSegurança na Internet - Google  Hacking
Segurança na Internet - Google Hacking
 
Segurança na Internet - Conceitos fundamentais
Segurança na Internet - Conceitos fundamentaisSegurança na Internet - Conceitos fundamentais
Segurança na Internet - Conceitos fundamentais
 
Web Machine Learning
Web Machine LearningWeb Machine Learning
Web Machine Learning
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Mineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoMineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - Clusterização
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Visualizacao de dados - Come to the dark side
Visualizacao de dados - Come to the dark sideVisualizacao de dados - Come to the dark side
Visualizacao de dados - Come to the dark side
 
REST x SOAP : Qual abordagem escolher?
REST x SOAP : Qual abordagem escolher?REST x SOAP : Qual abordagem escolher?
REST x SOAP : Qual abordagem escolher?
 
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
 
E-trânsito cidadão - IPVA em suas mãos
E-trânsito cidadão - IPVA em suas mãosE-trânsito cidadão - IPVA em suas mãos
E-trânsito cidadão - IPVA em suas mãos
 
[Estácio - IESAM] Automatizando Tarefas com Gulp.js
[Estácio - IESAM] Automatizando Tarefas com Gulp.js[Estácio - IESAM] Automatizando Tarefas com Gulp.js
[Estácio - IESAM] Automatizando Tarefas com Gulp.js
 
Hackeando a Internet das Coisas com Javascript
Hackeando a Internet das Coisas com JavascriptHackeando a Internet das Coisas com Javascript
Hackeando a Internet das Coisas com Javascript
 

BigData MapReduce

  • 4. BigData “Termo de mercado para o conjunto de soluções que analisa informações em variedade, volume e velocidade inéditos variedade até hoje - os três Vs, como chamam os tecnólogos...”
  • 5. BigData “No dia a dia, a sociedade gera, em média, mais de 15 petabytes de informações sobre as suas operações comerciais e financeiras, bem como sobre clientes e fornecedores por dia...”
  • 6. BigData 1 Petabyte (PB) = 1 024 TB 1 048 576 GB 1 073 741 824 MB 1 099 511 627 776 kB 1 125 899 906 842 624 (250) Bytes
  • 7. BigData Não estamos falando de quantidade de dados e sim de VOLUME DE DADOS
  • 8. BigData Um exemplo prático: Estamos trabalhando em uma base com volume de dados de aproximadamente 600 Gb Temos um pouco mais de 85.000.000.000.000.000.000 quintilhões de registros
  • 11. BigData ...conta a história da mais famosa aplicação do conceito: o gerente de um time de beisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito
  • 13. BigData “A Renner usa o Big Data para monitorar, em tempo real, o fluxo de mercadorias da loja real ao cruzar dados de localização GPS dos caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)
  • 14. BigData Segundo especialistas o Big Data foi de grande importância para o descobrimento do pré-sal...
  • 15. BigData …devido a sua velocidade, que agilizava os velocidade processamentos de dados sísmicos captados pela sondas que procuram petróleo no fundo do mar. Como são milhões as variáveis, o trabalho variáveis exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor. melhor
  • 16. BigData No último “Fórum Econômico Mundial”
  • 17. BigData No último “Fórum Econômico Mundial”
  • 18. BigData No último Fórum Econômico Mundial... "Big Data, grande impacto: novas possibilidades para o desenvolvimento internacional" internacional …mostra como o Big Data pode ser uma arma contra problemas sócio-econômicos
  • 20. BigData Caso de negócio: O McKinsey Global Institute publicou recentemente um relatório sobre as oportunidades de negócios e do governo ao usar BigData. BigData “Big Data: The Next Frontier for Innovation, Competition and Productivity”
  • 21. BigData De acordo com a McKinsey, o uso de BigGata está se tornando uma forma essencial para as principais empresas a superarem seus concorrentes. concorrentes
  • 22. BigData "Nós estimamos que um revendedor com o apoio de BigData tem o potencial de aumentar a sua margem operacional em mais de 60%”
  • 23. BigData “Big Data cria valor para as empresas descobrindo padrões e relacionamentos entre dados que antes estavam perdidos não apenas em data warehouses internos, mas na própria Web, em tuítes, comentários no Facebook e mesmo videos no YouTube.”
  • 25. BigData Um mercado de US$ 17 bi em 2015
  • 26. BigData Segundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano entre 2010 e 2015, saltando de US$ 3,2 2015 bilhões para US$ 16,9 bilhões. bilhões
  • 27. BigData A tecnologia envolve tanto dinheiro porque soluciona um problema inadiável para a economia global. global Se você se sente atordoado com a enxurrada de posts no seu Twitter, imagine a perda de produtividade em uma empresa incapaz de compreender os dados que a inundam.
  • 29. Como a internet Estimulou o BigData?
  • 33. MapReduce Nos últimos anos, os pesquisadores e desenvolvedores do Google tem implementado centenas de propostas de técnicas e cálculos que processam grandes quantidades de dados brutos e para computar vários tipos de dados derivados, tais como: ● Índices invertidos ● Representações diversas da estrutura de gráfico de documentos ● Resumos do número de páginas rastreadas por host ● Estatística das consultas mais frequentes em um determinado dia.
  • 34. MapReduce – Os cálculos são conceitualmente simples... – O problema é que os dados de entrada são muito grandes... grandes ● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas – Garantir o término em um tempo razoável
  • 35. MapReduce “Como reação a essa complexidade, foi elaborado uma nova abstração que nos permite expressar os cálculos simples que estávamos tentando realizar, mas esconde os detalhes confusos de paralelização, tolerância a falhas de distribuição de dados e paralelização balanceamento de carga” carga
  • 36. MapReduce ● A nova abstração é inspirado no 'Map' e 'Reduce' primitivos presentes em Lisp e muitas outras linguagens funcionais. “Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”
  • 37. MapReduce As maior contribuição dessa nova abordagem é a implantação de uma simples e poderosa interface que permite a paralelização automática e distribuição da computação em grande escala, combinado com uma implementação desta interface que atinge alta performance em grandes aglomerados de máquinas
  • 38. MapReduce O cálculo toma um conjunto de pares de entradas de chave/valor, e produz um conjunto de pares de saídas chave/valor. O usuário que implementa o MapReduce expressa o cálculo como duas funções: Map e Raduce.
  • 39. Reduce A função Reduce, também escrito pelo usuário, aceita ● uma chave intermediária e um conjunto de valores para essa chave. ● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível. ● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce. ● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.
  • 40. MapReduce O modelo de programação MapReduce tem sido utilizado com sucesso no Google para diversas finalidades. Atribui-se o sucesso a várias razões: ● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga. ● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce. ● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.
  • 48. ' Apach e Had oop NoS QL Bancos ra Cloude
  • 49. Ferramentas ' Bancos NoSQL (Not Only SQL)
  • 50. Ferramentas ' Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. dados Foi inspirado pelo MapReduce e GoogleFS (GFS) É, na pratica, uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS) Base de muitos serviços em Cloud
  • 53. Ferramentas Aprendizado de máquina escalável Open-Source!! Outrora domínio exclusivo de acadêmicos e corporações com grandes orçamentos de pesquisa, as aplicações inteligentes que aprendem a partir de dados e contribuição de usuário estão se tornando mais comuns.
  • 56. Ferramentas São distribuições Linux prontas ao uso para constituir um cluster Hadoop. Cloudera é hoje uma referência no mundo Hadoop
  • 57. Considerações Finais BigData é uma bolha? ● 2012 é o ano do BigData ● Indo mais além... ●