Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

TDC2017 - Misturando dados com Pentaho para insights mais significativos

746 views

Published on

Apresentação realizada na trilha de Big Data do TDC Florianópolis 2017

Published in: Technology
  • Be the first to comment

TDC2017 - Misturando dados com Pentaho para insights mais significativos

  1. 1. Misturando Dados com Pentaho para Insights mais significativos! Trilha: Big Data Palestrante: Marcio Junior Vieira CEO e Data Scientist na Ambiente Livre marcio@ambientelivre.com.br
  2. 2. Marcio Junior Vieira ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day, TDC. ● Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
  3. 3. Nosso Ecossistema
  4. 4. Algumas informações ● Não confundir Misturar com “Ofuscar Dados” ● Misturar no contexto de Mesclar! ● Vamos programar através de muitos componentes prontos, mas não se preocupe temos como codificar muitas vezes por prazer :)
  5. 5. O V do Valor ● V que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor. ● É importante que empresas entrem no negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se está fazendo.
  6. 6. Desafios em misturar dados ● Conhecer diversas tecnologias ( HDFS, Mapreduce, Spark, Pig, Java, Shell , Amazon AWS, NoSQL, Hashmap, etc) . ● Conhecer diversos formatos ( JSON, XML, CSV, HL7, YAML, ESRI, RSS, Serialized) ● Conhecer diversas APIs (Google Maps, Google Analytics Twitter, etc) . ● Conhecer diversas linguagens de consulta (CQL, SQL, MDX, CMIS, HiveQL, MQL, Table Scan ) ● Acessos incorretos ou com baixo conhecimento podem acarretar em performance ● Governança de dados e SOX ( Quem pode, Quando pode , Quando fez).
  7. 7. Desafio dos Dados ● Dados Inconsistentes (Ex. Campo sexo tem valor M, F, X , Z, H, 1, ?, null ou vazio ) ● Regras de Relacionamento Complexas ( Ex. É cliente “master” se comprou produto tal na loja tal no período tal junto com produto tal e choveu no dia! ) ● Tipos de Dados Distintos para mesma informação ( ex. String X Int X Float ) ● Dados Faltantes ou incompletos (Ex. Campo sexo tem valor null ou vazio ) ● Os famosos “de → para” ● Tratamento dos Dados gerais dos dados o T do ETL ( transformations ) ● O desafio dos 5 V do Big Data!
  8. 8. Capturar Dados ● Dados Abertos ● Parcerias (Cartões de crédito, lojas, sites, Waze, etc) ● Rastreamento Web (Crawler, Spiders, Robot, Scutter) ● Redes Sociais e Web Sites. ● IOT Plataforms ● Tradicionais Databases corporativos (ERP, CRM, CDRs, E-Commerce, etc) ● E-mails, Documentos
  9. 9. Armazenamento ● Antes de tratar já armazene sua fonte original! ● Amazon S3, Hadoop HDFS, Amazon EMR, Data Lake, etc. ● Armazene dado tratado. ● Espaço e barato $! , processamento e indisponibilidade é caro $$$$!
  10. 10. Arquitetura Fonte Armazenamento Analise
  11. 11. Insights Significativos (Ex. Saúde) ● Dados Climáticos (Dados externos - API ) ● Histórico de medicamentos consumidos (Compras em farmácias ou prontuários – CSVs mensal ) ● Histórico de Parentes ( Documentos Digitalizados, OCR ) ● Histórico de procedimentos (Plano de Saúde – databases “atenção as normas e leis” , HL7 Internacional ) ● Consumo em Redes de Varejo (Cartão Fidelidade – API Rest ) ● Medições com Apps de Saúde e Atividades Físicas (Rest/Apis ) ● Medições de atividades físicas e de saúde com IOT (logs/stores locais e sincronia com nuvens) ● Dados Geo Referenciados, Rotas ( Waze, GMaps, Shapes, etc) ● Dados Espaciais de Satélites e Sensores ( Nasa, AEB, INPE, Monitoramento de Desastres )
  12. 12. Insights em Dashboards
  13. 13. Equipe envolvida ● 1 Dev MongoDB ● 1 Dev Java / MapReduce ● 1 Dev Cassandra ● 1 Dev Sales Force, SuiteCRM ● 2 Consultor do ERP (RH, Finan ) ● 1 Dev Front-End (Gráficos) ● 1 WebDesigner ● 3 DBAs (Oracle, MSSQL, PostgreSQL) ● 1 Dev ElasticSearch ● 1 Dev Spark com escala ● 1 Analista de Negócio ● 1 Estatístico ● 1 Arquiteto de Soluções ● 1 Gerente de projetos Como nasce um Mito Reunião do RH Gerencia de Projetos e Administradores Data Scientist
  14. 14. Pentaho ● Plataforma completa para Business Intelligence e Business Analytics e Big Data Analytics. ● ETL, Reporting, Data Mining, OLAP e Dashbards.
  15. 15. 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  16. 16. Pentaho Data Integration ● Ferramenta completa de ETL ● “Programação e Fluxo Visual” ● Aproximadamente 350 steps diferentes
  17. 17. Pentaho Data Integration ● Processa dados em Paralelo ● Acessar dados diretamente (se necessário sem Data Warehouse ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards.
  18. 18. PDI Debuggers ● Previews de dados ● Tratamento de fluxos por erros ou condições ● Geração de logs de erros ● Break points
  19. 19. Integração ampla e adaptável de Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop (Cloudera, Hortonworks, MapR e Amazon) ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores, incluindo MongoDB e Cassandra ● Conectividade a BDs analíticos (Vertica, Redshift, SAP HANA , etc.
  20. 20. PDI Cluster ● Suporte a Clusterização ● Clusterização e processamento paralelo de dados.
  21. 21. Pentaho Report Designer
  22. 22. Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ... ● Big Data Reports ( integra-se com PDI )
  23. 23. ETL como Data Source ● O data source do report é um ETL. ● Isso muda tudo!
  24. 24. Exemplo de dados do Twitter Report ● Libere na API acesso ● Crie seu ETL no PDI ( Pentaho Data Integration ) ● Defina onde quer os dados ( database, hadoop, Report ou dashboard )
  25. 25. CTools - Dashboards ● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars
  26. 26. CDE ( CTools ) ● Editor de Dashboards
  27. 27. Dashboards ETL ● Dashboards permiter integração com ETL
  28. 28. ETL para datasets D3.js http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  29. 29. Pentaho Sparkl ● Fremawork que usa o PDI como “fonte” ● App Builder que permite desenvolver plugins de Big Data Analytics e outros em alguns passos. ● Menus = Dados ● Campos = metaDados ● Botão = Dispara Serviço ● Filtros = Lista Dados ● Todos mais faça JS/Jquery :)
  30. 30. Pentaho Data Mining ● Solução completa para Machine Learning ● 79 Algorítimos - Classificação - Associação - Cluster
  31. 31. ETL com Data Mining ● Novamente o PDI se integra, e pode fazer analise de sentimento com os posts do twitter!
  32. 32. Hadoop, HDFS, MapReduce
  33. 33. Pentaho e Pig ● Linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados. ● Executado no HDFS e grupos MapReduce.
  34. 34. Pentaho e HBase ● Decodificados de chave e dados valor que é emitido pelo TableInputFormat
  35. 35. Mongo DB ● Acessível via PDI (ETL) ● Acessível via PRD ( Report ) ● Suporte a Mongo 3.0
  36. 36. Pentaho e Cassandra ● NoSQL Database ● Cluster Database
  37. 37. Pentaho e Amazon ● MapReduce sob Demanda ● ●
  38. 38. Pentaho e Kafka ● Distributed Messaging System
  39. 39. Pentaho e ElasticSearch ● Query via REST ● Bulk Insert
  40. 40. Pentaho e Apache Sqoop ● Permite copiar dados em tabelas de banco de dados para HDFS
  41. 41. Pentaho e Apache Flume ● Coletor de dados escalável que leva dados de vários servidores e agrega-os ao Hadoop Data Lake.
  42. 42. Pentaho e Storm ● Distributed real-time computation system ● https://github.com/pentaho/kettle-storm ●
  43. 43. Pentaho e Apache Avro ● Data serialization system
  44. 44. Pentaho com Spark ● Spark é um mecanismo de processamento na memória que podem ser agrupados / escalado usando Hadoop.
  45. 45. Pentaho Metadata ● Governança de dados ● Extração de Dados fácil pelos usuários de negócio ●
  46. 46. Mondrian OLAP + Saiku Analytics
  47. 47. Pentaho Big Data Analytics Plataform
  48. 48. Vantagens ● Integração de dados fortemente acoplada e plataforma de análise de negócios acelerando a realização do valor de dados misturados. ● Conjunto de análises: acesso e integração de dados à visualização de dados e análise preditiva. ● Permite aos usuários arquivar grandes misturas de dados na fonte e enviá-las diretamente para análises mais completas e precisas ● Capacidade de detectar dados online com acesso imediato a análises, incluindo gráficos, visualizações e relatórios, a partir de qualquer etapa da preparação de dados ● Suporta amplo espectro de fontes de Big Data, aproveitando as capacidades específicas e exclusivas de cada tecnologia. ● A arquitetura aberta e baseada em padrões torna fácil integrar ou estender a infra-estrutura existente.
  49. 49. Tempo de Dev com Hadoop ● O Uso de Pentaho em projetos com Hadoop e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  50. 50. Magic Quadrant for BI & Analytics Platforms
  51. 51. Comunidade Brasileira
  52. 52. Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão com + de 1900 membros ● Organiza a 6 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  53. 53. Contatos e Convite! ● Pentaho Day 2017 em Curitiba ● 39 palestrantes ● 35 palestras ( 2 internacionais) ● 11 minicursos ● http://pentahobrasil.com.br ● Contatos ● marcio @ ambientelivre.com.br ● @ambientelivre / @marciojvieira / Linkedin ● blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre

×