Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN

2,207 views

Published on

Palestra sobre Big Data ministrada para funcionários da DATANORTE - Governo do Estado do Rio Grande do Norte em 09 de outubro de 2014.

Published in: Internet

Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN

  1. 1. 1 BBiigg DDaattaa eemm 88 ppeerrgguunnttaass
  2. 2. 2 Quem eu sou e o que faço? Marcos Luiz Lins Filho o Técnico em Processamento de Dados IFPB o Graduado em Ciência da Computação UFCG o MBA Gestão de TI - UFRN o Mestrado em Computação – UFPE o Há 10 anos trabalho na Petrobras Distribuidora S/A o Trabalhei como Analista de Sistemas e hoje atuo na área de Negócios o Não deixo nunca de estudar e buscar novos conhecimentos, o famoso CURIOSO
  3. 3. 3 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) O que Big Data tem de diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data ?
  4. 4. 4 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) O que Big Data tem de diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data ?
  5. 5. 5 Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014
  6. 6. 6 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) O que Big Data tem de diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data ?
  7. 7. História do Big Data  Se divide em dois momentos  Expansão no campo científico e de negócios basicamente através do uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)  (Tilly, 1984) usa pela primeira vez o termo Big Data em textos acadêmicos;  Uma primeira pesquisa publicada em 1987 relativa a uma técnica de programação chamada small code, big data;  Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big Data;  (Laney , 2001) publica trabalho com o título os 3 V´s do Big Data (Volume, Variedade e Velocidade) Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
  8. 8. História do Big Data  Se divide em dois momentos  Difusão do termo já com viés tecnológico e econômico, estudo de tecnologias, desenvolvimento de ferramentas para análise de dados etc (meados de 2008)  (Lohr, 2008) Jornalista do New York Times publicou artigo em que citava que cientistas de computação e executivos da indústria já enxergavam que o termo Big Data saia da esfera acadêmica e já começava a trazer resultados econômicos.  A Wired publica em junho de 2008 um artigo “The Petabyte Age: because more isn’t just more, more is different”, que apresenta as oportunidades e implicações do Big Data  (Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008 na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012, com a publicação do 1 ebook sobre ᵒ tecnologias de Big Data. Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012
  9. 9. O que é Big Data? “A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões.” Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011 (IDC, 2011)
  10. 10. O que é Big Data? FONTE: EMC
  11. 11. O 3Vs do Big Data  “Big Data são os grandes conjuntos de dados que possuem três características principais: volume, velocidade e variedade.” Fonte: IBM
  12. 12. 12 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) O que Big Data tem de diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data ?
  13. 13. Por que Big Data é diferente ? Aumento na quantidade de Dados Fonte: EMC
  14. 14. Por que Big Data é diferente ? Maior demanda por Computação Distribuída Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf
  15. 15. Por que Big Data é diferente ? Maior demanda por Computação Distribuída Computação distribuída significa pegar uma tarefa, dividi-la em pedaços menores e dar cada pedaço a uma “máquina” diferente, depois pegar cada resultado, uni-los (de maneira coerente) e apresentá-lo. Fonte: https://under-linux.org/entry.php?b=2603 Dificuldade Processamento X Distribuição (Divisão) Integridade e Disponibilidade em Cloud Computing
  16. 16. Limitações dos Bancos de Dados Relacionais Fonte: IMD Por que Big Data é diferente ?
  17. 17. O 3Vs do Big Data  “Big Data são os grandes conjuntos de dados que possuem três características principais: volume, velocidade e variedade.” Fonte: IBM Aumento na quantidade de Dados Maior demanda por Computação Distribuída Limitações dos Bancos de Dados Relacionais
  18. 18. + 3 V’s do Big Data VVeerraacciiddaaddee Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/ VVaalloorr VViiaabbiilliiddaaddee
  19. 19. Os dados são de 3 tipos  Estruturados  Semi-estruturados  Não estruturados Fonte: Joyanes, 2013 Por que Big Data é diferente ?
  20. 20. Estruturados Dados que possuem esquema de campos fixos Formato bem definido Normalmente armazenado em BD Relacionais Conhecimento prévio da estrutura dos dados São gerados em uma ordem especificada Fonte: Joyanes, 2013 Por que Big Data é diferente ?
  21. 21. Semi-estruturados Possuem um fluxo lógico O formato pode ser bem definido, mas não necessariamente é fixo Não possui fácil compreensão por parte do usuário leigo Tem como característica marcante o uso de etiquetas e marcadores para separar elementos dos dados Regras complexas para manipulação dos dados Fonte: Joyanes, 2013 Por que Big Data é diferente ?
  22. 22. Não estruturados Sem tipo predefinido; Não possuem estrutura uniforme (ex. Documentos, objetos); Pouco ou nenhum controle sobre eles; Dificuldade de “manipulação” para extração de informação Fonte: Joyanes, 2013 Por que Big Data é diferente ?
  23. 23. De onde vem os dados do Big Data? Web e Redes Sociais (clicks, cookies, twitter, facebook) Mobilidade Internet das Coisas (RFID/NFC, Sensores, GPS e Telemetria) Biometria (Reconhecimento fácil, impressão digital, dados genéticos) Dados gerados por pessoas (Voz, email, SMS, etc) Dados gerados por governos, institutos de pesquisas e empresas Fonte: Soares, 2012 Por que Big Data é diferente ?
  24. 24. 24 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  25. 25. O que vai mudar com o Big Data? (Tecnologia) IInntteeggrraaççããoo
  26. 26. O que vai mudar com o Big Data? (Negócios) EEssttrraattééggiiaa
  27. 27. O que vai mudar com o Big Data? (Gestão) OO qquuee mmuuddaa?? TTOOMMAADDAA DDEE DDEECCIISSÃÃOO
  28. 28. O que vai mudar com o Big Data? (Gestão) BBII xx BBIIGG DDAATTAA
  29. 29. O que vai mudar com o Big Data? (Gestão) BBII ((TTrraaddiicciioonnaall)) Cubo OLAP (On-line Analytical Processing) • Bases de dados e Datawarehouse • Ferramentas OLAP • Mineração de Dados • Sistemas de apoio a decisão • Relatórios • Visualização
  30. 30. O que vai mudar com o Big Data? (Gestão) BBII xx BBIIGG DDAATTAA  Dados transacionais + outros dados  Decisão baseada em dados de tempo real  Análise voltada a predição  Universo de dados ilimitado  Busca aprendizado a partir dos dados  Dados transacionais  Decisão baseada em dados passados  Análise Intuitiva  Universo de dados limitado  Busca Analisar dados AA ddiiffeerreennççaa eessttáá nnooss 33VV’’ss
  31. 31. 31 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  32. 32. Por que o Big Data está em evidência?  O que Cloud Computing tem a ver com Big Data?  Nova infraestrutura para computação sob demanda  Tornou o Big Data mais próximo da realidade  Big Data evolui em paralelo com a consolidação da computação em Nuvem  SoLoMo e IoT convergem com Cloud Computing e Big Data criando novas perspectivas para as empresas
  33. 33. Por que o Big Data está em evidência? Fonte: NIST, 2011
  34. 34. Por que o Big Data está em evidência? Fonte: CONTROL4.COM
  35. 35. 35 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data ? 5) Por que o termo Big Data está em evidência ? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  36. 36. 36 Desafios do Big data? 1) Coletar 2) Armazenar 3) Processar 4) ETL (Extract, Transform, Load) 5) Buscar informações 6) Machine Learning 7) Visualização 8) Relatórios
  37. 37. 37 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data? 5) Por que o termo Big Data está em evidência? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  38. 38. 38 Desafios do Big data? 1) Coletar 2) Armazenar 3) Processar 4) ETL (Extract, Transform, Load) 5) Buscar informações 6) Machine Learning 7) Visualização 8) Relatórios
  39. 39. 39 Como funciona o Big Data na prática?
  40. 40. BDs - Relacionais, NoSQL e in-memory Fonte: Soares, 2013  BD Relacionais  Largamente utilizados atualmente pelas empresas  Utiliza relações (tabelas) como elementos básicos  Tabelas compostas por linhas e colunas  Faz uso de restrições para manutenção de integridade (chaves)  Utiliza NORMALIZAÇÃO  SQL é a linguagem de consulta  Os SGBDs relacionais implementam outras funções (controle de concorrência, segurança, controle de transações, recuperação de falhas etc)
  41. 41. BDs - Relacionais, NoSQL e in-memory Fonte: Soares, 2013  BDs No SQL  De volta ao passado… (Sistemas de Arquivos)  Estrutura mais flexível  Melhor adaptado para questões de escalabilidade  Não veio para acabar com o Modelo Relacional  Abandonou a NORMALIZAÇÃO  São livres de esquemas de tabelas e sem JOINs  Iniciou em 2004 Big Table (Google), 2007 Dynamo (Amazon), 2008 Cassandra (Facebook)  Escalabilidade Linear, Acesso rápido, Manipulação de dados não estruturados
  42. 42. BDs - Relacionais, NoSQL e in-memory Fonte: Soares, 2013
  43. 43. BDs - Relacionais, NoSQL e in-memory Fonte: Joyanes, 2013
  44. 44. BDs - Relacionais, NoSQL e in-memory Fonte: Joyanes, 2013
  45. 45. BDs - Relacionais, NoSQL e in-memory Fonte: SAP, 2012
  46. 46. O framework Hadoop “The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model (Divide to Conquer) Fonte: https://under-linux.org/entry.php?b=2603
  47. 47. Fonte: Joyanes, 2013 O framework Hadoop
  48. 48. Fonte: Joyanes, 2013 O framework Hadoop
  49. 49. Fonte: Joyanes, 2013 O framework Hadoop
  50. 50. • Baseado no conceito de Dividir para Conquistar • GRID COMPUTING • Várias implementações existentes: Hadoop, Disco, Skynet, FileMap e Greenplum; Fonte: https://under-linux.org/entry.php?b=2603 O algoritmo MapReduce
  51. 51. O algoritmo MapReduce Dividido em 3 passos  1. Seleciona os dados de entrada  2. Aplica as duas operações em sequência (MAP/REDUCE)  3. Recupera os dados de saída e obtém a resposta
  52. 52. Fonte: Fabiane Nardon, 2013 - QconSP O algoritmo MapReduce
  53. 53. Fonte: https://under-linux.org/entry.php?b=2603 O algoritmo MapReduce
  54. 54. O que é ??? Fonte: APACHE HADOOP O framework Hadoop
  55. 55. Composto pelos módulos: • Hadoop Common • Hadoop MapReduce • Hadoop Distributed File System (HDFS) • Hadoop YARN Fonte: Apache Hadoop O framework Hadoop
  56. 56. Fonte: Apache Hadoop O framework Hadoop Composto pelos módulos: •Hadoop Common: The common utilities that support the other Hadoop modules. • Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data. • Hadoop YARN: A framework for job scheduling and cluster resource management. • Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
  57. 57. 57 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data? 5) Por que o termo Big Data está em evidência? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  58. 58. Fonte: INFO, 2014 Cases
  59. 59. Ferramenta Match Analytics Coleta e Análise de informações de treino e jogos Analisa desde esquema tático até informação de precisão de chutes Avalia situações de jogo e predizem o melhor treinamento para cada jogador Possui interface que facilita o uso inclusive pelos jogadores Roda sob a plataforma HANA da SAP De quebra, faz análise de redes sociais analisando sentimento de torcedores com relação ao desempenho da equipe e dos atletas Fonte: INFO, 2014 Cases
  60. 60. ROLLS ROYCE Inclusão de sensores nos motores Informação em tempo real de peças Vantagem competitiva: Substituição de produto por SERVIÇO SMART METERS - IBM Medições de consumo de energia Sensores enviam dados em tempo real Hábitos de consumo e mudança de estratégias com premiação Criação das chamadas Smart Grids Fonte: JOYANES, 2013 Cases
  61. 61. GOOGLE - FluTrends Fonte: GOOGLE Cases
  62. 62. GOOGLE - FluTrends Fonte: GOOGLE Cases
  63. 63. Cases
  64. 64. Cases
  65. 65. Cases
  66. 66. 66 Agenda 1) Por que pensar em Big Data ? 2) De onde vem e o que é o Big Data ? 3) Por que o Big Data é diferente ? 4) O que vai mudar com o Big Data? 5) Por que o termo Big Data está em evidência? 6) Quais os maiores desafios do Big Data ? 7) Como funciona o Big Data na prática ? 8) Quem já usa o Big Data e em quê ?
  67. 67. 67 Obrigado !!! Marcos Luiz Lins Filho www.f acebook.com/ mar cosluiz.linsf i lho @marcoslinsfilho mar coslins@gmail.com

×