Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

TDC2017 - Misturando dados com Pentaho para insights mais significativos

906 views

Published on

Apresentação realizada na trilha de Big Data do TDC Florianópolis 2017

Published in: Technology
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download Full EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download Full doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THIS can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THIS is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THIS Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THIS the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THIS Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download Full doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download PDF EBOOK here { https://urlzs.com/UABbn } ......................................................................................................................... Download EPUB Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... Download doc Ebook here { https://urlzs.com/UABbn } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THI5 BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

TDC2017 - Misturando dados com Pentaho para insights mais significativos

  1. 1. Misturando Dados com Pentaho para Insights mais significativos! Trilha: Big Data Palestrante: Marcio Junior Vieira CEO e Data Scientist na Ambiente Livre marcio@ambientelivre.com.br
  2. 2. Marcio Junior Vieira ● 17 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial e Analise de Dados. ● Trabalhando com Free Software e Open Source desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante FLOSS em: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day, TDC. ● Organizador Geral do Pentaho Day 2017,2015 e apoio nas edições 2013 e 2014. ● CEO da Ambiente Livre. ● Data Scientist, Instrutor e Consultor de Big Data com tecnologias abertas.
  3. 3. Nosso Ecossistema
  4. 4. Algumas informações ● Não confundir Misturar com “Ofuscar Dados” ● Misturar no contexto de Mesclar! ● Vamos programar através de muitos componentes prontos, mas não se preocupe temos como codificar muitas vezes por prazer :)
  5. 5. O V do Valor ● V que torna Big Data relevante: tudo bem ter acesso a uma quantidade massiva de informação a cada segundo, mas isso não adianta nada se não puder gerar valor. ● É importante que empresas entrem no negócio do Big Data, mas é sempre importante lembrar dos custos e benefícios e tentar agregar valor ao que se está fazendo.
  6. 6. Desafios em misturar dados ● Conhecer diversas tecnologias ( HDFS, Mapreduce, Spark, Pig, Java, Shell , Amazon AWS, NoSQL, Hashmap, etc) . ● Conhecer diversos formatos ( JSON, XML, CSV, HL7, YAML, ESRI, RSS, Serialized) ● Conhecer diversas APIs (Google Maps, Google Analytics Twitter, etc) . ● Conhecer diversas linguagens de consulta (CQL, SQL, MDX, CMIS, HiveQL, MQL, Table Scan ) ● Acessos incorretos ou com baixo conhecimento podem acarretar em performance ● Governança de dados e SOX ( Quem pode, Quando pode , Quando fez).
  7. 7. Desafio dos Dados ● Dados Inconsistentes (Ex. Campo sexo tem valor M, F, X , Z, H, 1, ?, null ou vazio ) ● Regras de Relacionamento Complexas ( Ex. É cliente “master” se comprou produto tal na loja tal no período tal junto com produto tal e choveu no dia! ) ● Tipos de Dados Distintos para mesma informação ( ex. String X Int X Float ) ● Dados Faltantes ou incompletos (Ex. Campo sexo tem valor null ou vazio ) ● Os famosos “de → para” ● Tratamento dos Dados gerais dos dados o T do ETL ( transformations ) ● O desafio dos 5 V do Big Data!
  8. 8. Capturar Dados ● Dados Abertos ● Parcerias (Cartões de crédito, lojas, sites, Waze, etc) ● Rastreamento Web (Crawler, Spiders, Robot, Scutter) ● Redes Sociais e Web Sites. ● IOT Plataforms ● Tradicionais Databases corporativos (ERP, CRM, CDRs, E-Commerce, etc) ● E-mails, Documentos
  9. 9. Armazenamento ● Antes de tratar já armazene sua fonte original! ● Amazon S3, Hadoop HDFS, Amazon EMR, Data Lake, etc. ● Armazene dado tratado. ● Espaço e barato $! , processamento e indisponibilidade é caro $$$$!
  10. 10. Arquitetura Fonte Armazenamento Analise
  11. 11. Insights Significativos (Ex. Saúde) ● Dados Climáticos (Dados externos - API ) ● Histórico de medicamentos consumidos (Compras em farmácias ou prontuários – CSVs mensal ) ● Histórico de Parentes ( Documentos Digitalizados, OCR ) ● Histórico de procedimentos (Plano de Saúde – databases “atenção as normas e leis” , HL7 Internacional ) ● Consumo em Redes de Varejo (Cartão Fidelidade – API Rest ) ● Medições com Apps de Saúde e Atividades Físicas (Rest/Apis ) ● Medições de atividades físicas e de saúde com IOT (logs/stores locais e sincronia com nuvens) ● Dados Geo Referenciados, Rotas ( Waze, GMaps, Shapes, etc) ● Dados Espaciais de Satélites e Sensores ( Nasa, AEB, INPE, Monitoramento de Desastres )
  12. 12. Insights em Dashboards
  13. 13. Equipe envolvida ● 1 Dev MongoDB ● 1 Dev Java / MapReduce ● 1 Dev Cassandra ● 1 Dev Sales Force, SuiteCRM ● 2 Consultor do ERP (RH, Finan ) ● 1 Dev Front-End (Gráficos) ● 1 WebDesigner ● 3 DBAs (Oracle, MSSQL, PostgreSQL) ● 1 Dev ElasticSearch ● 1 Dev Spark com escala ● 1 Analista de Negócio ● 1 Estatístico ● 1 Arquiteto de Soluções ● 1 Gerente de projetos Como nasce um Mito Reunião do RH Gerencia de Projetos e Administradores Data Scientist
  14. 14. Pentaho ● Plataforma completa para Business Intelligence e Business Analytics e Big Data Analytics. ● ETL, Reporting, Data Mining, OLAP e Dashbards.
  15. 15. 3 Pilares do Pentaho ● Plataforma abrangente para integração de dados e Business Analytics.
  16. 16. Pentaho Data Integration ● Ferramenta completa de ETL ● “Programação e Fluxo Visual” ● Aproximadamente 350 steps diferentes
  17. 17. Pentaho Data Integration ● Processa dados em Paralelo ● Acessar dados diretamente (se necessário sem Data Warehouse ) ● Permite publicar dados diretamente em Reports, Ad-Hoc Reports e Dasboards.
  18. 18. PDI Debuggers ● Previews de dados ● Tratamento de fluxos por erros ou condições ● Geração de logs de erros ● Break points
  19. 19. Integração ampla e adaptável de Big Data ● Conexões nativas e camada adaptável de Big Data e acesso funcionalidades dos populares big data stores. ● Capacidade de acessar dados, processá-los, combiná-los e consumi-los em qualquer lugar. ● Flexibilidade, isolamento das mudanças no ecossistema de dados ● Suporte a distros Hadoop (Cloudera, Hortonworks, MapR e Amazon) ● Acessar dados para preparação via SQL no Spark e orquestrar aplicativos Spark (Scala, Java e Python) ● Integração com NoSQL stores, incluindo MongoDB e Cassandra ● Conectividade a BDs analíticos (Vertica, Redshift, SAP HANA , etc.
  20. 20. PDI Cluster ● Suporte a Clusterização ● Clusterização e processamento paralelo de dados.
  21. 21. Pentaho Report Designer
  22. 22. Pentaho Report Designer ● Visualização Web ou Embed. ● Assistente de geração de relatórios ● Amplo suporte de fonte de dados, incluindo relacionais, OLAP, XML e Pentaho Analysis, arquivos flat, objetos Java e ... ● Big Data Reports ( integra-se com PDI )
  23. 23. ETL como Data Source ● O data source do report é um ETL. ● Isso muda tudo!
  24. 24. Exemplo de dados do Twitter Report ● Libere na API acesso ● Crie seu ETL no PDI ( Pentaho Data Integration ) ● Defina onde quer os dados ( database, hadoop, Report ou dashboard )
  25. 25. CTools - Dashboards ● CTools – Tem um conjunto de Ferramentas para Desenvolvimento de Dashboars
  26. 26. CDE ( CTools ) ● Editor de Dashboards
  27. 27. Dashboards ETL ● Dashboards permiter integração com ETL
  28. 28. ETL para datasets D3.js http://romsson.github.io/dragit/example/nations.html https://bl.ocks.org/mbostock/1136236 http://bl.ocks.org/brattonc/5e5ce9beee483220e2f6
  29. 29. Pentaho Sparkl ● Fremawork que usa o PDI como “fonte” ● App Builder que permite desenvolver plugins de Big Data Analytics e outros em alguns passos. ● Menus = Dados ● Campos = metaDados ● Botão = Dispara Serviço ● Filtros = Lista Dados ● Todos mais faça JS/Jquery :)
  30. 30. Pentaho Data Mining ● Solução completa para Machine Learning ● 79 Algorítimos - Classificação - Associação - Cluster
  31. 31. ETL com Data Mining ● Novamente o PDI se integra, e pode fazer analise de sentimento com os posts do twitter!
  32. 32. Hadoop, HDFS, MapReduce
  33. 33. Pentaho e Pig ● Linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados. ● Executado no HDFS e grupos MapReduce.
  34. 34. Pentaho e HBase ● Decodificados de chave e dados valor que é emitido pelo TableInputFormat
  35. 35. Mongo DB ● Acessível via PDI (ETL) ● Acessível via PRD ( Report ) ● Suporte a Mongo 3.0
  36. 36. Pentaho e Cassandra ● NoSQL Database ● Cluster Database
  37. 37. Pentaho e Amazon ● MapReduce sob Demanda ● ●
  38. 38. Pentaho e Kafka ● Distributed Messaging System
  39. 39. Pentaho e ElasticSearch ● Query via REST ● Bulk Insert
  40. 40. Pentaho e Apache Sqoop ● Permite copiar dados em tabelas de banco de dados para HDFS
  41. 41. Pentaho e Apache Flume ● Coletor de dados escalável que leva dados de vários servidores e agrega-os ao Hadoop Data Lake.
  42. 42. Pentaho e Storm ● Distributed real-time computation system ● https://github.com/pentaho/kettle-storm ●
  43. 43. Pentaho e Apache Avro ● Data serialization system
  44. 44. Pentaho com Spark ● Spark é um mecanismo de processamento na memória que podem ser agrupados / escalado usando Hadoop.
  45. 45. Pentaho Metadata ● Governança de dados ● Extração de Dados fácil pelos usuários de negócio ●
  46. 46. Mondrian OLAP + Saiku Analytics
  47. 47. Pentaho Big Data Analytics Plataform
  48. 48. Vantagens ● Integração de dados fortemente acoplada e plataforma de análise de negócios acelerando a realização do valor de dados misturados. ● Conjunto de análises: acesso e integração de dados à visualização de dados e análise preditiva. ● Permite aos usuários arquivar grandes misturas de dados na fonte e enviá-las diretamente para análises mais completas e precisas ● Capacidade de detectar dados online com acesso imediato a análises, incluindo gráficos, visualizações e relatórios, a partir de qualquer etapa da preparação de dados ● Suporta amplo espectro de fontes de Big Data, aproveitando as capacidades específicas e exclusivas de cada tecnologia. ● A arquitetura aberta e baseada em padrões torna fácil integrar ou estender a infra-estrutura existente.
  49. 49. Tempo de Dev com Hadoop ● O Uso de Pentaho em projetos com Hadoop e Big Data pode diminuir em 15x o tempo do Projeto. Codificação Java ETL com Pentaho X
  50. 50. Magic Quadrant for BI & Analytics Platforms
  51. 51. Comunidade Brasileira
  52. 52. Comunidade Brasileira ● Maior comunidade do Mundo! ● Lista de Discussão com + de 1900 membros ● Organiza a 6 anos o Pentaho Day Brasil ● Composta por desenvolvedores, usuários , empresas e acadêmia. ● Utilizado em mais de 185 países. ● +10.000 Produtos desenvolvidos sobre a plataforma Pentaho. ● + 4 milhões de Downloads ● Em 2015 +- 60.000 downloads dia
  53. 53. Contatos e Convite! ● Pentaho Day 2017 em Curitiba ● 39 palestrantes ● 35 palestras ( 2 internacionais) ● 11 minicursos ● http://pentahobrasil.com.br ● Contatos ● marcio @ ambientelivre.com.br ● @ambientelivre / @marciojvieira / Linkedin ● blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre

×