Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data, JVM e Redes Sociais

603 views

Published on

Big Data, JVM e Redes Sociais

Published in: Technology
  • Be the first to comment

Big Data, JVM e Redes Sociais

  1. 1. Big Data, JVM e Redes Sociais José Renato Pequeno
  2. 2. Zé Pequeno?
  3. 3. Objetivos • Explosão de dados • O que Big Data não é • O que é Big Data? • Por quê Big Data? • Estudo de Caso • Quais são as técnicas e tecnologias que envolvem Big Data? • MapReduce (Hadoop) • NoSQL (HBase) • Machine Learning (Mahout/OpenNLP) • Experimento e Resultados • Conclusão
  4. 4. Mídias Sociais
  5. 5. Mídias Sociais
  6. 6. Mídias Sociais
  7. 7. Explosão de Dados Fonte : http://www.thebigdatainsightgroup.com/site/article/big-data-infographic
  8. 8. Explosão de Dados
  9. 9. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  10. 10. Explosão de Dados Propaganda da IBM Fonte : http://www.youtube.com/watch?v=4MHCH56QRcU
  11. 11. Explosão de Dados Cena do Filme “Controle Absoluto” Fonte : http://www.youtube.com/watch?v=QkQ5jjpvhU0
  12. 12. Explosão de Dados
  13. 13. Explosão de Dados
  14. 14. Explosão de Dados
  15. 15. O que Big Data não é! • Um Produto. • Uma plataforma. • Uma solução. • Algo tangível. • Data Warehouse • Business Inteligence
  16. 16. Estudo de Caso Fonte : http://info.abril.com.br/noticias/ti/big-data-ajudou-obama-a-ganhar-eleicoes- 15012013-25.shl
  17. 17. Estudo de Caso Fonte : http://www.twistsystems.com/blog/2012/08/06/voce-sabe-o-que-e-big- data/#.U0yMC8eLdPo
  18. 18. Quais são as profissões, técnicas e tecnologias que envolvem Big Data? • Para extrair todas as possibilidades do big data, você precisa aprimorar suas técnicas ou mesmo desenvolver novas técnicas para conseguir desbloquear o potencial dos dados. Hoje o potencial é superior ao que havia antes, pois os dados em tempo real não estruturado é enorme. • "Qualquer tolo pode saber... o ponto é entender”, Albert Einstein. • O ponto principal é entender, para PREVER. É disso que o conhecimento se trata. Isso se chama Inteligência Preditiva.
  19. 19. Uma nova Profissão – Cientista de Dados
  20. 20. Uma nova Profissão – Cientista de Dados
  21. 21. Uma nova Profissão – Cientista de Dados
  22. 22. Analista de Negócio
  23. 23. Profissional de TI
  24. 24. Profissional de TI
  25. 25. Profissional de TI
  26. 26. O Momento Big Data Fonte:http://www.gartner.com/newsroom/id/2575515
  27. 27. Falta de Profissionais Recentes pesquisas estimam que por volta de 2015 big data demandará cerca de 4,4 milhões de profissionais em todo o mundo e que apenas 1/3 destes cargos poderá ser preenchido com as capacitações disponíveis hoje em dia. Fonte: http://imasters.com.br/banco-de-dados/as-novas-profissoes-que-a- disseminacao-do-big-data-trara-para-o-mercado/ Brasil precisa formar profissionais para Big Data, diz Gartner Área vai gerar 4,4 milhões de vagas em todo o mundo até 2015, sendo que 500 mil oportunidades serão geradas no País, prevê a consultoria. Fonte: http://computerworld.com.br/especiais/2012/10/29/brasil-precisa-formar- profissionais-para-big-data-diz-gartner/
  28. 28. Quais são as profissões, técnicas e tecnologias que envolvem Big Data?
  29. 29. MapReduce • Criado pela equipe do Google em 2004. • Objetivo : É uma técnica, que mapeia um problema e seus dados associados, para um grande número de computadores (paralelismo), estejam eles procurando por texto ou realizando cálculos. Os sistemas retornam os resultados (MAP) e a informação é, então, “reduzida” (Reduce) para as respostas que quem definiu o problema estava procurando.
  30. 30. Hadoop • Projeto Open Source • Criado pela Yahoo em 2005 • Licenciado pela Apache • É a combinação de dois projetos : Hadoop MapReduce (HMR) Hadoop Distributed File System (HDFS)
  31. 31. Hadoop Apache Hadoop é um framework que permite o processamento de grandes volumes de dados através de clusters. É um sistema distribuído usando uma arquitetura Master-Slave armazenando informações através do Hadoop Distributed File System (HDFS) e implementa algoritmos de MapReduce.
  32. 32. Hadoop MapReduce (HMR) • O HMR é a implementação do Hadoop do MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu buscador. Fonte : https://developers.google.com/appengine/docs/python/dataprocessing/over view
  33. 33. Hadoop MapReduce (HMR)
  34. 34. Hadoop MapReduce (HMR)
  35. 35. Hadoop MapReduce (HMR)
  36. 36. Hadoop Distributed File System (HDFS) • O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System.
  37. 37. Eco Sistema Hadoop
  38. 38. Eco Sistema Hadoop
  39. 39. • Em torno do Hadoop, a comunidade Apache mantém diversos projetos relacionados, como o Hbase, que é um banco de dados NoSQL que trabalha em cima do HDFS. • Utilizado pelo Facebook para suportar seu sistema de mensagens e os seus serviços de informações analíticas em tempo real.
  40. 40. • É um sistema de captura de dados e framework de análise que trabalha com o Hadoop para processar e analisar grandes volumes de logs. Possui um conjuntos de ferramentas para visualizar e monitorar os dados capturados. Fonte : http://incubator.apache.org/chukwa/
  41. 41. • É um sistema distribuído para capturar de forma eficiente, agregar e mover grandes quantidades de dados de log de diferentes origens (servidores) para um repositório central, simplificando assim o processo de novas coletas dos dados para posterior análise pelo Hadoop. Flume e Chukwa são projetos parecidos, a principal diferença entre eles é que o Chukwa é utilizado para processamento batch. Fonte : http://flume.apache.org
  42. 42. • É um sistema de Data Warehouse para Hadoop que facilita a agregação dos dados, queries e análise de grandes datasets armazenados no Hadoop. Hive proporciona métodos de consulta de dados com uma linguagem parecida com o SQL, chamado de HiveQL. Possui interfaces JDBC/ODBC para integração com ferramentas de BI. Fonte : http://hive.apache.org/
  43. 43. • É um projeto que permite criar aprendizado automático e data mining usando Hadoop. Através do Apache Mahout, padrões podem ser descobertos através de grandes datasets. Possui algoritmos de identificação e classificação. Fonte : http://mahout.apache.org/
  44. 44. • É uma ferramenta utilizada para transferir de forma eficiente grandes quantidades de dados entre o Hadoop e sistemas de armazenamento de dados estruturados, como base de dados relacionais. • Permite importar tabelas individuais ou bases de dados entre o HDFS. • Gera classes Java que permitem manipular os dados importados. Fonte : http://sqoop.apache.org
  45. 45. • É um projeto Apache que proporciona uma infraestrutura centralizada de serviços que permitem a sincronização dos clusters. Fonte : http://zookeeper.apache.org
  46. 46. • É uma ferramenta de desenvolvimento, permite que os usuário de Hadoop se concentrem na análise dos dados e não em desenvolvimento de programas MapReduce. A análise é simplificada através de uma linguagem procedural de alto nível. Fonte :http://pig.apache.org/
  47. 47. Jaql • É uma linguagem de consulta funcional e declarativa que facilita a exploração de informações no forma JSON (Javascript Object Notation) e arquivos semi-estruturado de texto. Projeto iniciado na IBM, o Jaql permite fazer select, join, group by e filtrar dados armazenados em HDFS. Fonte :https://code.google.com/p/jaql/
  48. 48. • É um sistema de serialização de dados. Os projetos Hadoop manipulam grande quantidade de dados e a serialização destes dados tem que ser uma excelente performance. Esta serialização pode ser de texto, json e em formato binário. Com Avro podemos armazenar e ler dados facilmente através de diferentes linguagens de programação. Fonte :http://avro.apache.org
  49. 49. • Apache UIMA (Unstructured Information Management Applications) É um framework para análise de grande volume de dados não estruturados, como texto, vídeo, audio, etc, obtendo conhecimento que pode ser relevante para uma determinada situação. Fonte :http://uima.apache.org/
  50. 50. O que é Big Data? Segundo a Wikipedia: “Big Data consiste em datasets que crescem em uma escala tão grande e complexa que fica difícil de processar utilizando as ferramentas de gerenciamento de banco de dados tradicionais. As dificuldades incluem captura, armazenamento, busca, compartilhamento, analise e visualização.”
  51. 51. O que é Big Data?
  52. 52. O que é Big Data?
  53. 53. O que é Big Data?
  54. 54. O que é Big Data?
  55. 55. Referências • Aditya B. Patel, Manashvi Birla, Ushma Nair (2012), Addressing Big Data Problem Using Hadoop and Map Reduce. • Kapil Bakshi (2012), Considerations for Big Data: Architecture and Approach. • Sachchidanand Singh(2012), Big Data Analytics. • https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/ conhecendo_hadoop?lang=en • http://manifestonaweb.wordpress.com/2009/06/02/entendendo- mapreduce/ • http://mentablog.soliveirajr.com/2012/12/intro-to-parallel- processing-with-mapreduce/ • http://static.googleusercontent.com/external_content/untrusted_dlcp/res earch.google.com/en//archive/mapreduce-osdi04.pdf • https://developers.google.com/appengine/docs/python/dataprocessing/o verview#Determining_When_a_MapreducePipeline_Job_is_Complete

×