0
BigData → MapReduce
AgendaQual a motivação ?
Agenda
BigData“Termo de mercado para o conjunto de soluções que analisa informações emvariedade, volume e velocidade inéditosvari...
BigData    “No dia a dia, a sociedade gera, em      média, mais de 15 petabytes de  informações sobre as suas operaçõescom...
BigData   1 Petabyte (PB) = 1 024 TB           1 048 576 GB        1 073 741 824 MB      1 099 511 627 776 kB1 125 899 906...
BigDataNão estamos falando de quantidade de dados e sim de VOLUME DE DADOS
BigData          Um exemplo prático:Estamos trabalhando em uma base com volume de dados de aproximadamente               6...
BigDataSeguindo novos rumos...
BigData
BigData...conta a história da mais famosa aplicação    do conceito: o gerente de um time debeisebol que usa o Big Data par...
BigData
BigData“A Renner usa o Big Data para monitorar, em tempo real, o fluxo de mercadorias da loja        real  ao cruzar dados...
BigDataSegundo especialistas o Big Data foi de grande importânciapara o descobrimento do pré-sal...
BigData…devido a sua velocidade, que agilizava os               velocidade   processamentos de dados sísmicoscaptados pela...
BigDataNo último “Fórum Econômico Mundial”
BigDataNo último “Fórum Econômico Mundial”
BigData No último Fórum Econômico Mundial...   "Big Data, grande impacto: novas possibilidades para o desenvolvimento     ...
BigDataConhecimento Estratégico...
BigData             Caso de negócio: O McKinsey Global Institute publicou   recentemente um relatório sobre asoportunidade...
BigData De acordo com a McKinsey, o uso de BigGata está se tornando uma formaessencial para as principais empresas a   sup...
BigData"Nós estimamos que um revendedor com o   apoio de BigData tem o potencial de aumentar a sua margem operacional em  ...
BigData   “Big Data cria valor para as empresasdescobrindo padrões e relacionamentos entre dados que antes estavam perdido...
BigData
BigDataUm mercado de US$ 17 bi em 2015
BigDataSegundo a consultoria IDC, o mercado global  de Big Data crescerá quase 40% ao ano  entre 2010 e 2015, saltando de ...
BigDataA tecnologia envolve tanto dinheiro porquesoluciona um problema inadiável para a            economia global.       ...
Ministério das Comunicações
Como a internet Estimulou o BigData?
Alguns Serviços na Web...
Problemáticas
Soluções?MapReduce
MapReduceNos últimos anos, os pesquisadores e desenvolvedores doGoogle tem implementado centenas de propostas detécnicas e...
MapReduce–   Os cálculos são conceitualmente simples...–   O problema é que os dados de entrada são muito grandes...      ...
MapReduce“Como reação a essa complexidade, foi elaborado uma novaabstração que nos permite expressar os cálculos simples q...
MapReduce●   A nova abstração é inspirado no Map e Reduce primitivos    presentes em Lisp e muitas outras linguagens funci...
MapReduceAs maior contribuição dessa nova abordagem é a implantação deuma simples e poderosa interface que permite a paral...
MapReduceO cálculo toma um conjunto de pares de entradas de chave/valor,e produz um conjunto de pares de saídas chave/valo...
ReduceA função Reduce, também escrito pelo usuário, aceita●   uma chave intermediária e um conjunto de valores para essa  ...
MapReduceO modelo de programação MapReduce tem sido utilizado com sucesso noGoogle para diversas finalidades. Atribui-se o...
MapReduceExemplo...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
Apach            e Had   oop           NoS   QL    Bancos             ra       Cloude
Ferramentas   Bancos NoSQL (Not Only SQL)
Ferramentas     Hadoop é uma plataforma de software em Java de computação distribuída voltadapara clusters e processamento...
Ferramentas
FerramentasData Mining?
Ferramentas      Aprendizado de máquina escalável               Open-Source!!Outrora domínio exclusivo de acadêmicos e cor...
Ferramentas
Ferramentas
Ferramentas São distribuições Linux prontas ao uso   para constituir um cluster Hadoop.Cloudera é hoje uma referência no m...
Considerações FinaisBigData é uma bolha?●2012 é o ano do BigData●Indo mais além...●
Dúvidas?
BigData → MapReduce
Upcoming SlideShare
Loading in...5
×

BigData MapReduce

883

Published on

Apresentação sobre MapReduce e BigData feita pelo LINC (Laboratório de Inteligência Computacional) para a turma de DataMining do PPGE

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
883
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
42
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "BigData MapReduce"

  1. 1. BigData → MapReduce
  2. 2. AgendaQual a motivação ?
  3. 3. Agenda
  4. 4. BigData“Termo de mercado para o conjunto de soluções que analisa informações emvariedade, volume e velocidade inéditosvariedade até hoje - os três Vs, como chamam os tecnólogos...”
  5. 5. BigData “No dia a dia, a sociedade gera, em média, mais de 15 petabytes de informações sobre as suas operaçõescomerciais e financeiras, bem como sobre clientes e fornecedores por dia...”
  6. 6. BigData 1 Petabyte (PB) = 1 024 TB 1 048 576 GB 1 073 741 824 MB 1 099 511 627 776 kB1 125 899 906 842 624 (250) Bytes
  7. 7. BigDataNão estamos falando de quantidade de dados e sim de VOLUME DE DADOS
  8. 8. BigData Um exemplo prático:Estamos trabalhando em uma base com volume de dados de aproximadamente 600 Gb Temos um pouco mais de85.000.000.000.000.000.000 quintilhões de registros
  9. 9. BigDataSeguindo novos rumos...
  10. 10. BigData
  11. 11. BigData...conta a história da mais famosa aplicação do conceito: o gerente de um time debeisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito
  12. 12. BigData
  13. 13. BigData“A Renner usa o Big Data para monitorar, em tempo real, o fluxo de mercadorias da loja real ao cruzar dados de localização GPS dos caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)
  14. 14. BigDataSegundo especialistas o Big Data foi de grande importânciapara o descobrimento do pré-sal...
  15. 15. BigData…devido a sua velocidade, que agilizava os velocidade processamentos de dados sísmicoscaptados pela sondas que procuram petróleo no fundo do mar.Como são milhões as variáveis, o trabalho variáveis exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor. melhor
  16. 16. BigDataNo último “Fórum Econômico Mundial”
  17. 17. BigDataNo último “Fórum Econômico Mundial”
  18. 18. BigData No último Fórum Econômico Mundial... "Big Data, grande impacto: novas possibilidades para o desenvolvimento internacional" internacional …mostra como o Big Data pode ser umaarma contra problemas sócio-econômicos
  19. 19. BigDataConhecimento Estratégico...
  20. 20. BigData Caso de negócio: O McKinsey Global Institute publicou recentemente um relatório sobre asoportunidades de negócios e do governo ao usar BigData. BigData“Big Data: The Next Frontier for Innovation, Competition and Productivity”
  21. 21. BigData De acordo com a McKinsey, o uso de BigGata está se tornando uma formaessencial para as principais empresas a superarem seus concorrentes. concorrentes
  22. 22. BigData"Nós estimamos que um revendedor com o apoio de BigData tem o potencial de aumentar a sua margem operacional em mais de 60%”
  23. 23. BigData “Big Data cria valor para as empresasdescobrindo padrões e relacionamentos entre dados que antes estavam perdidos não apenas em data warehouses internos,mas na própria Web, em tuítes, comentáriosno Facebook e mesmo videos no YouTube.”
  24. 24. BigData
  25. 25. BigDataUm mercado de US$ 17 bi em 2015
  26. 26. BigDataSegundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano entre 2010 e 2015, saltando de US$ 3,2 2015 bilhões para US$ 16,9 bilhões. bilhões
  27. 27. BigDataA tecnologia envolve tanto dinheiro porquesoluciona um problema inadiável para a economia global. global Se você se sente atordoado com aenxurrada de posts no seu Twitter, imagine a perda de produtividade em uma empresa incapaz de compreender os dados que a inundam.
  28. 28. Ministério das Comunicações
  29. 29. Como a internet Estimulou o BigData?
  30. 30. Alguns Serviços na Web...
  31. 31. Problemáticas
  32. 32. Soluções?MapReduce
  33. 33. MapReduceNos últimos anos, os pesquisadores e desenvolvedores doGoogle tem implementado centenas de propostas detécnicas e cálculos que processam grandes quantidades dedados brutos e para computar vários tipos de dadosderivados, tais como: ● Índices invertidos ● Representações diversas da estrutura de gráfico de documentos ● Resumos do número de páginas rastreadas por host ● Estatística das consultas mais frequentes em um determinado dia.
  34. 34. MapReduce– Os cálculos são conceitualmente simples...– O problema é que os dados de entrada são muito grandes... grandes ● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas – Garantir o término em um tempo razoável
  35. 35. MapReduce“Como reação a essa complexidade, foi elaborado uma novaabstração que nos permite expressar os cálculos simples queestávamos tentando realizar, mas esconde os detalhes confusos deparalelização, tolerância a falhas de distribuição de dados eparalelizaçãobalanceamento de carga” carga
  36. 36. MapReduce● A nova abstração é inspirado no Map e Reduce primitivos presentes em Lisp e muitas outras linguagens funcionais. “Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”
  37. 37. MapReduceAs maior contribuição dessa nova abordagem é a implantação deuma simples e poderosa interface que permite a paralelizaçãoautomática e distribuição da computação em grande escala,combinado com uma implementação desta interface que atinge altaperformance em grandes aglomerados de máquinas
  38. 38. MapReduceO cálculo toma um conjunto de pares de entradas de chave/valor,e produz um conjunto de pares de saídas chave/valor. O usuário que implementa o MapReduce expressa o cálculo comoduas funções: Map e Raduce.
  39. 39. ReduceA função Reduce, também escrito pelo usuário, aceita● uma chave intermediária e um conjunto de valores para essa chave.● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível.● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce.● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.
  40. 40. MapReduceO modelo de programação MapReduce tem sido utilizado com sucesso noGoogle para diversas finalidades. Atribui-se o sucesso a várias razões:● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga.● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce.● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.
  41. 41. MapReduceExemplo...
  42. 42. MapReduce: Exemplos...
  43. 43. MapReduce: Exemplos...
  44. 44. MapReduce: Exemplos...
  45. 45. MapReduce: Exemplos...
  46. 46. MapReduce: Exemplos...
  47. 47. MapReduce: Exemplos...
  48. 48. Apach e Had oop NoS QL Bancos ra Cloude
  49. 49. Ferramentas Bancos NoSQL (Not Only SQL)
  50. 50. Ferramentas Hadoop é uma plataforma de software em Java de computação distribuída voltadapara clusters e processamento de grandes massas de dados. dadosFoi inspirado pelo MapReduce e GoogleFS (GFS)É, na pratica, uma combinação de dois projetosseparados, que são o Hadoop MapReduce (HMR),que é um framework para processamento paralelo eo Hadoop Distributed File System (HDFS) Base de muitos serviços em Cloud
  51. 51. Ferramentas
  52. 52. FerramentasData Mining?
  53. 53. Ferramentas Aprendizado de máquina escalável Open-Source!!Outrora domínio exclusivo de acadêmicos e corporações com grandesorçamentos de pesquisa, as aplicações inteligentes que aprendem apartir de dados e contribuição de usuário estão se tornando maiscomuns.
  54. 54. Ferramentas
  55. 55. Ferramentas
  56. 56. Ferramentas São distribuições Linux prontas ao uso para constituir um cluster Hadoop.Cloudera é hoje uma referência no mundo Hadoop
  57. 57. Considerações FinaisBigData é uma bolha?●2012 é o ano do BigData●Indo mais além...●
  58. 58. Dúvidas?
  59. 59. BigData → MapReduce
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×