BIG DATA

1,444 views
1,355 views

Published on

Apresentação sobre o tema BIG DATA

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,444
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
94
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

BIG DATA

  1. 1. BigBig DataData Marcos Luiz Lins FilhoMarcos Luiz Lins Filho Setembro 2013Setembro 2013
  2. 2. 2 .:: Agenda ::.  Motivação O problema As oportunidades Curiosidades  Histórico  Conceitos O que é Big Data ? Por que “Big Data”?  Os 3 V´s do Big Data  + 2 V´s do Big Data
  3. 3. 3 .:: Agenda ::.  Aplicações  Tecnologias MapReduce O Framework Hadoop NoSQL e BDinMemory Big Data em 3 Etapas  Trabalhos Relacionados  Conclusão
  4. 4. 4 .:: Motivação ::. O problema Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011 “A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões.” (IDC, 2011)
  5. 5. 5 .:: Motivação ::. As oportunidades Fonte: http://corporate.canaltech.com.br/noticia/banco-de-dados/A-maioria-das-empresas-ainda-nao-se-adaptou-ao-Big-Data/  Estudo com 500 empresa americanas de vários setores + 42% das empresas não estão familiarizadas com análise de Big Data; + 34 % estão apenas começando a lidar com essa tendência; + 9 % afirmam ter muitos dados e não saber o que fazer com eles;  A maioria enxerga a importância do Big Data, mas não sabe quando vai investir em soluções para tal;
  6. 6. 6 .:: Motivação ::. As oportunidades Fonte: http://www.businessinsider.com/billion-dollar-tech-trends-2012-11?utm_source=feedburner&utm_medium=feed&utm _campaign=Feed%3A+typepad%2Falleyinsider%2Fsilicon_alley_insider+%28Silicon+Alley+Insider%29&utm_content=Google+Reade /  9 Tendências de Tecnologia segundo o IDC + Os gastos com TI serão da ordem de U$ 2,1 trilhões em 2013; + Crescimento considerável da TI em países emergentes; + 2013 é o ano decisivo para o Mercado Móvel; + Crescimento das soluções de SaaS (Grandes x Pequenos) + Surgimento de empresas menores especializadas em Nuvem; + Todo mundo vai se tornar uma pessoa de TI; + Crescimento de 40% no mercado de dados (Big Data ainda maior) + DataCenters migrarão para um novo modelo (Sistemas Convergentes) + Mudança de BYOD para BYID;
  7. 7. 7 .:: Motivação ::. As oportunidades  4,4 milhões de empregos na área de TI até 2015 por conta do Big Data (Gartner,2012)  A profissão do futuro será o Cientista de Dados (Gartner, 2012);  Silício Nanofotônico = Pulsos de Luz para transmissão de informações – ate 25Gpbs (IBM, 2012)  Processadores da Linha AVOTON Intel - Novo paradigma voltado para aplicações específicas (Intel,2012)
  8. 8. 8 .:: Motivação ::. Curiosidades  Fonte: Using Private Cloud to solve Big Data problems, disponível em https://www.panasas.com/sites/default/files/uploads/docs/Panasas_Private_Cloud_Storage_by%20Intersect360_wp_1074.PDF
  9. 9. 9 .:: Motivação ::. Curiosidades  Fonte: “Big Data and the Web: Algorithms for Data Intensive Scalable Computing”, Ph.D Thesis, Gianmarco
  10. 10. 10  Alguns Números do Facebook + 500 TB de informações todos os dias; + 2,7 Bilhões de “Curtir”; + 2,5 Bilhões de compartilhamentos diários; + Disco Hadoop tem 100 petabytes de capacidade; + 300 milhões de fotos postadas por dia. .:: Motivação ::. Curiosidades  Fonte: http://www.slashgear.com/facebook-data-grows-by-over-500-tb-daily-3243691/? utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+slashgear+%28SlashGear %29&utm_content=Google+Reader]
  11. 11. 11 Fonte: IBM .:: Motivação ::. Curiosidades
  12. 12. 12  Até 2003 :: 5 bilhões de gigabytes (exabytes) de dados  2011 : : 5 bilhões de gigabytes (exabytes) a cada 2 dias.  2013 : : 5 bilhões de gigabytes (exabytes) a cada 10min. .:: Motivação ::. Curiosidades Fonte: IDC
  13. 13. 13 .:: Histórico ::.  Crescimento de Dados Científicos  Computação Distribuída  Bancos de Dados Relacional
  14. 14. 14 .:: Histórico ::. Fonte: EMC  Crescimento de Dados Científicos
  15. 15. 15 .:: Histórico ::. Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf  Computação Distribuída
  16. 16. 16 .:: Histórico ::. Fonte: https://under-linux.org/entry.php?b=2603  Computação Distribuída Computação distribuída significa pegar uma tarefa, dividi-la em pedaços menores e dar cada pedaço a um servidor diferente, depois pegar cada resultado, uni-los (de maneira coerente) e apresentá-lo. Dificuldade Processamento X Distribuição (Divisão) Integridade e Disponibilidade em Cloud Computing
  17. 17. 17 .:: Histórico ::. Fonte: IMD  Banco de Dados Relacional
  18. 18. 18 .:: Conceitos ..: O que é Big Data? Demchenko, Y., P. Membrey, P.Grosso, C. de Laat, Addressing Big Data Issues in Scientific Data Infrastructure. First International Symposium on Big Data and Data Analytics in Collaboration (BDDAC 2013). Part of The 2013 Int. Conf. on Collaboration Technologies and Systems (CTS 2013), May 20 - 24, 2013, San Diego, California, USA. “Big Data: a massive volume of both structured and unstructured data that is so large that it's difficult to process using traditional database and software techniques.”
  19. 19. 19 .:: Conceitos ..: O que é Big Data? FONTE: EMC
  20. 20. 20 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento;
  21. 21. 21 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  22. 22. 22 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  23. 23. 23 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento; + Aumento do poder de processamento;
  24. 24. 24 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  25. 25. 25 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/  Aspectos Fundamentais para o crescimento do “Big Data”: + Aumento da capacidade de armazenamento; + Aumento do poder de processamento; + Disponibilidade do dados — Dados empresariais; — Dados de dispositivos móveis e mídias sociais; — Dados da Internet das coisas.
  26. 26. 26 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  27. 27. 27 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  28. 28. 28 .:: Conceitos ..: Por que “Big Data”? Fonte: http://videolectures.net/eswc2012_grobelnik_big_data/
  29. 29. 29 .:: Conceitos ..: 3 V’s do Big Data Fonte: IBM
  30. 30. 30 .:: Conceitos ..: + 2 V’s do Big Data Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/ VeracidadeVeracidade ValorValor
  31. 31. 31 Big Data Exploration Find, visualize, understand all big data to improve decision making Enhanced 360o View of the Customer Extend existing customer views (MDM, CRM, etc) by incorporating additional internal and external information sources Operations Analysis Analyze a variety of machine data for improved business results Data Warehouse Augmentation Integrate big data and data warehouse capabilities to increase operational efficiency Security/Intelligence Extension Lower risk, detect fraud and monitor cyber security in real-time .:: Aplicações ::. Fonte: IBM
  32. 32. 32 Lower-frequency operations High-frequency operations Data Source .:: Aplicações ::. Capital markets Write/index all trades, store tick data Show consolidated risk across traders Call initiation request Real-time authorization Fraud detection/analysis Inbound HTTP requests Visitor logging, analysis, alerting Traffic pattern analytics Online game Rank scores: •Defined intervals •Player “bests” Leaderboard lookups Real-time ad trading systems Match form factor, placement criteria, bid/ask Report ad performance from exhaust stream Mobile device location sensor Location updates, QoS, transactions Analytics on transactions Fonte: VoltDB
  33. 33. 33 .:: Tecnologias ::. MapReduce  Criado pela Equipe do Google em 2004;  Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum; Fonte: https://under-linux.org/entry.php?b=2603
  34. 34. 34 .:: Tecnologias ::. MapReduce Fonte: https://under-linux.org/entry.php?b=2603
  35. 35. 35 .:: Tecnologias ::. MapReduce  Divide uma tarefa em pedaços menores;  Envia as tarefas para os servidores;  Coleta os resultados das tarefas;  Processa os resultados obtendo uma resposta única Fonte: https://under-linux.org/entry.php?b=2603
  36. 36. 36 .:: Tecnologias ::. O framework Hadoop Hadoop é um framework para facilitar o desenvolvimento de aplicações distribuídas. E dentro desse framework existem essas duas funcionalidades importantes: MapReduce e DFS Fonte: https://under-linux.org/entry.php?b=2603
  37. 37. 37 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/  Criado pela Equipe do Google em 2004;  Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum;
  38. 38. 38 .:: Tecnologias ::. O framework Hadoop Fonte: http://www.ime.usp.br/~danielc/papers/erad-hadoop-DanielCordeiro.pdf Composto por: • Hadoop Common • Hadoop MapReduce • Hadoop Distributed File System (HDFS)
  39. 39. 39 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/ Principais características do Hadoop. Escalável: ele pode armazenar e processar petabytes sem problemas; Econômico: o Hadoop distribui os dados e o processamento através dos clusters. Estes clusters podem ter milhares de nós (máquinas); Eficiente: Por distribuir os dados, o Hadoop pode processar eles em paralelo por meio dos nós, onde os dados estão alocados. Isto é feito de forma extremamente rápida; Confiável: ele automaticamente mantém múltiplas cópias dos dados e automaticamente remaneja as tarefas em caso de falhas.
  40. 40. 40 .:: Tecnologias ::. O framework Hadoop Fonte: http://ensinar.wordpress.com/2009/06/16/hadoop-introducao/
  41. 41. 41 .:: Tecnologias ::. NoSQL e BDinMemory NoSQL FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data  Tipo de banco de dados que não segue normas de tabelas (schemas) dos BDs Relacionais;  Conceito de que o banco de dados não necessita de normalização e relacionamentos – (Not only SQL – NoSQL);  Necessidade, ou seja, oferecer performance superior e de uma alta escalabilidade;  Toda informação num só registro;
  42. 42. 42 BD in Memory .:: Tecnologias ::. NoSQL e BDinMemory BD in Memory - Desafios  Unificar o processo transacional e de análises num único sistema;  Mesmo tipo de instâncias de dados;  Executar análises em tempo real;  Rodar transações e análises na “velocidade do pensamento”; FONTE: http://www.slideshare.net/SAPTechnology/inmemory-database-platform-for-big-data
  43. 43. 43 .:: Tecnologias ::. Big Data em 3 etapas Online gaming Ad serving Sensor data Internet commerc e SaaS, Web 2.0 Mobile platforms Financial trade  Structured data  ACID guarantees  Relational/SQL  Real-time analytics NewSQL  Unstructured data  Eventual consistency  Schemaless  KV, document NoSQL Other OLAP data stores Analytic Datastore High Velocity High Volume Fonte: VoltDB
  44. 44. 44 .:: Tecnologias ::. Big Data em 3 etapas Online gaming Ad serving Sensor data Internet commerc e SaaS, Web 2.0 Mobile platforms Financial trade NewSQL NoSQL Other OLAP data stores Analytic Datastore High Velocity High Volume Fonte: VoltDB
  45. 45. 45 .:: Trabalhos Relacionados ::.  Storage: projetar sistemas apropriados para lidar com o crescente volume de dados de forma efetiva;  Management: questões relacionadas com a gestão dos dados. Como validar e selecionar? Ausência de padrões.  Processing: Como inspecionar, analisar dados não estruturados? Como extrair significado relevante para tomada de decisão. Algoritmos mais eficientes para grandes volumes de dados. Big Data: Issues and Challenges Moving Forward Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. Big Data: Issues and Challenges Moving Forward.System Sciences .46th Hawaii International Conference on (pp. 995-1004), 2013. http://dx.doi.org/10.1109/HICSS.2013.645
  46. 46. 46 .:: Trabalhos Relacionados ::.  Associação do problema de processamento de Big Data com Cloud Computing, redução de custo e escalabilidade;  Considerações a respeito da arquitetura de nuvem e técnicas para distribuir tasks de processamento em Cloud;  Limitações de protocolos para transferência de dados;  Gestão de dados na nuvem, melhorias baseadas nos dados, segurança e privacidade;  Desenvolvimento com foco em sistemas de consultas em tempo real;  Adoção de SQL em Big Data; State of Big Data Analysis in the Cloud AHUJA, Sanjay P, MOORE, Bryan. State of Big Data Analysis in the Cloud. Network and Communication Technologies, Vol. 2, No. 1, June 2013. DOI: 10.5539/nct.v2n1p62
  47. 47. 47 .:: Conclusão ::.  Muitos desafios a serem superados;  Empresas ainda não sabem utilizar os recurso de Big Data;  Faltam profissionais capacitados para lidar com Big Data;  Ainda é um terreno desconhecido para profissionais de TI;  É difícil extrair informações relevantes do Big Data;  Não há métricas bem definidas para mensurar ROI;  Faltam padrões;  Ferramentas disponíveis ainda exigem conhecimento técnico avançado e pouco difundido;

×