Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

943 views

Published on

Serão apresentados os conceitos gerais sobre Big Data, as características as atividades do profissional de Big Data ( Cientista de Dados ), como tornar-se um cientista de dados, as principais ferramentas de mercado, e como este profissional pode usar o potencial das ferramentas de software livre e software aberto para dominar esta área de atuação.

Published in: Technology

Palestra: Cientista de Dados – Dominando o Big Data com Software Livre

  1. 1. Cientista de Dados – Dominando o Big Data com Software Livre XIII Semana de Atualização em Tecnologia da Informação Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br
  2. 2. Marcio Junior Vieira ● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Fundador da Ambiente Livre Tecnologia. ● Instrutor de Hadoop e Pentaho
  3. 3. Ecosistema Ambiente Livre
  4. 4. Colaborações com Eventos
  5. 5. Big Data - Muito se fala...
  6. 6. 2005 na apresentação do Papa Bento XVI
  7. 7. 2013 na apresentação do Papa Francisco
  8. 8. Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  9. 9. Big Data
  10. 10. Os 4 V's ● Velocidade , Volume , Variedade e Valor
  11. 11. Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  12. 12. Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  13. 13. Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  14. 14. Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  15. 15. O novo V: Veracidade Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .
  16. 16. O momento é agora
  17. 17. Tomada de Decisão ● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem ● 56% sentem sobrecarregados com a quantidade de dados que gerenciam ● 60% acreditam que precisam melhorar captura e entender informações rapidamente. ● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade fonte : Survey KPMG.
  18. 18. Onde usar Big Data ? ● Sistemas de recomendação ● Redes Sociais
  19. 19. Onde usar Big Data ? ● Analise de Risco (Crédito, Seguros , Mercado Financeiro) ● Dados Espaciais ( Clima , Imagens, Trafego, Monitoramento) ● Energia Fotovoltaica (Medições , Estudos, Resultados )
  20. 20. Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  21. 21. Case Linkendin ● Pesquisador, percebeu que a rede social estava monótona e que as pessoas realizavam poucas interações. ● Sugeriu um algoritmo que apresentasse sugestões de amizades, conhecido como ‘People You May Know’, ● Foi um sucesso e ajudou com que a rede se tornasse uma das mais utilizadas no mundo. ● O algoritmo utilizava informações disponibilizadas nos perfis, por exemplo, o colégio onde o usuário cursou o Ensino Médio. Comparando com os outros usuários, o algoritmo poderia sugerir pessoas que também estudaram no mesmo colégio, fazendo assim que as pessoas aumentassem seu número de conexões, proporcionando maiores interações.
  22. 22. Cases
  23. 23. O Profissional “data scientist” Novo profissional: Cientista de Dados
  24. 24. Cientista de dados ● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina) ● Estima-se que apenas um terço disso será preenchido. ( Gartner ) ● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data ● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
  25. 25. Competências ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  26. 26. De onde ?
  27. 27. Ferramentas de Big Data
  28. 28. Software Livre
  29. 29. Software Livre ● "Software livre" se refere à liberdade dos usuários executarem, copiarem, distribuírem, estudarem, modificarem e aperfeiçoarem o software. São 4 tipos de liberdade, para os usuários do software: ● 1. A liberdade de executar o programa, para qualquer propósito. ● 2. A liberdade de estudar como o programa funciona, e adaptá-lo para as suas necessidades. Acesso ao código-fonte é um pré-requisito para esta liberdade. ● 3. A liberdade de redistribuir cópias de modo que você possa ajudar ao seu próximo. ● 4. A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie.
  30. 30. Open Source ● Criado pela OSI (Open Source Initiative) ● Não refere-se a software também conhecido por software livre. ● Qualquer licença de software livre é também uma licença de código aberto (Open Source) ● Mas o contrário nem sempre é verdade ● Criado por Eric Raymond e outros fundadores da OSI.
  31. 31. Free Software X OSI ● 4 Lei da GPL ● OBRIGATORIEDADE: A liberdade de aperfeiçoar o programa, e liberar os seus aperfeiçoamentos, de modo que toda a comunidade se beneficie. X
  32. 32. Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
  33. 33. Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuído ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  34. 34. Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce
  35. 35. Motivações Atuais - Hadoop ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  36. 36. Ecosistema - Hadoop
  37. 37. O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  38. 38. Características do HDFS ● Inspirado em GFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade
  39. 39. HDFS ● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
  40. 40. Arquitetura Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
  41. 41. HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  42. 42. MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  43. 43. Programação Distribuída
  44. 44. MapReduce Você especifica o map (...) e reduce (...) funções ● map = (lista (k, v) -> lista (k, v)) ● reduce = (k, lista (v) -> k, v) O Framework faz o resto ● Dividir os dados ● Executa vários mappers sobre as divisões ● Embaralhar os dados para os redutores ● Executa vários redutores ● Guarda os resultados finais
  45. 45. MapReduce Map Reduce
  46. 46. Outros componentes ● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados.
  47. 47. Hbase ● Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias)
  48. 48. Outros componentes ● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. ● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. ● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
  49. 49. ● Solução de BI Open Source. ● Tem versões Community Edition e Enterprise Edition. ● Solução completa de BI e BA ( ETL, Reporting, Mineração, OLAP e Dashbards, etc)
  50. 50. Pentaho Orquestrando Hadoop
  51. 51. Possibilidades de Uso ● DataWareHouse ● Business Intelligence ● Aplicações analíticas ● Mídias Sociais ● Sugestão de Compras ● Analise preditiva ● Compras Coletivas ● Recomendações
  52. 52. Modelo tradicional de Uso
  53. 53. Resultado ● ● ● ● ● Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados que são processados em tempo real Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber quando um jogador chegou ao seu limite físico Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua participação nos jogos além do seu desempenho físico e média da equipe
  54. 54. Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  55. 55. Big Data no Brasil e com Hadoop
  56. 56. Principais desafios ● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudanç de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013) ● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia tazer ao seu negocio( COMPUTERWORLD, 2012) ● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem. ● Desafios dos Os 5 V ! ● Privacidade, A identidade do usuário, mesmo preservada pode ser buscada... ( Marco Civil da Internet )
  57. 57. Recomendações ● Comece com o problema , e não com os dados ● Compartilhe dados para receber dados ● Suporte gerencial e executivo ● Orçamento suficiente ● Melhores parceiros e fornecedores
  58. 58. Big Data ● “Big Data hoje é o que era a Web em 1993. ● Sabemos que será algo grande, mas não sabemos como...” COPPEAD/UFRJ
  59. 59. Convite – Próximos Eventos ● Latinoware 2014 ● Pentaho Day Brasil 2015 ● FISL 2015
  60. 60. Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre

×