Interoperabilidade com
BigData Hadoop para
Windows Azure
Alessandro de Oliveira Binhara
Data Scientist – Horton Works Syst...
Agenda
 O que é BigData e BI ?
 O que é um Cientista de Dados ?
 O que é Hadoop ?
 O que é a HortonWoks Haddoop ?
 Cr...
Por que??? BigData ??? CloudComputing??
 Em 2001 : Centenas de milhares de dólares para
sequenciar um Gene
 Atualmente: ...
O que é BigData ?
O que é Um Cientista de Dados ?
 O cientista de dados é um especialista em análise de
informações. A característica mais ...
Curiosidades sobre ZetaBytes
Não confunda os conceitos
 CloudComputing – computação em nuvem
 BigData – Armazenamento e Processamento de Grandes
Volu...
O que é Hadoop ?
 O Apache Hadoop é um projeto desenvolvimento como
open-source software para escalável , confiável e com...
Por que ?
 Requisitos
 500M+ usuário únicos por mês
 Bilhões de eventos interessantes por
dia
 Necessidade de scalabil...
Características
 Um sistema escalável e confiável para armazenamento
compartilhado e análises.
 Ele automaticamente trat...
Eco Sistema
 Hadoop Core
 Distributed File System
 MapReduce Framework
 Pig (criado pelo Yahoo!)
 Parallel Programmin...
Hadoop no FaceBook
 Cluster em produção
 4800 cores, 600 máquina, 16GB por máquina – Abril/2009
 8000 cores, 1000 máqui...
Cluster no Yahoo
 É investidor da HortonWorks
 Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
HDFS – Hadoop File System
 Inspirado em GFS
 Projetado para
trabalhar com arquivos
muito grandes
 Executado
em hardware...
HDFS- MapReduce Data Flow
O que é MapReduce
 MapReduce é um modelo de programação e
implementação associados para o processamento e
geração de gran...
Exemplo Simplifica de Map/Reduce
map (String key, String value):
// key: nome documento
// value: Conteudo documento
for e...
Funcionamento do Map/Reduce
Arquitetura Moderna
HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
 A única 100% open source e
complet...
Uso Comum do Hadoop
1. Social
Entenda como seus clientes se sentem sobre a sua marca
e produtos – agora
2. Clickstream
Cap...
Demonstração HortonWorks
 Gera sentimento em relação o IronMan 3
 Coleta do Stream do Twitter
 Dados do Twiter são salv...
Por que Hadoop no Windows
 De acordo com a IDC Windows Server tem 73% em 2012
 Hadoop foi tradicionalmente construído pa...
HortonWorks Data Platform for Windows
 HDP é a primeira e únição hadoop para Windows e Linux
 Empresa de suporte Apache ...
Interoperability com Microsoft Tools
 Integrado com ferramentas da Microsoft
para análise de dados grande nativa
 Conect...
Por dentro do HDP for Windows
 Hortonworks
Data Platform (HDP)
 For Windows
 100% Open Source Enterprise
Hadoop
 Compo...
Treinamentos
Presencias, On-line e Semipresenciais
 Curso: Apache Hadoop Essencial
(8horas )
 Curso: Introdução ao Futur...
Criando Cluster
no Azure
O que é windows Azure
 É plataforma de hardware e Software da microsoft
Data Center Azure
HDInsight – Hadoop Eco System
Azure Blob
Criando seu Cluster Hadoop no Azure
Definido o Tamanho do Cluster
Interface Administrativa
Interface Administrativa
Interface Administrativa
InterFace Hive
Jobs
Job Info
Exemplo de Hadoop no Azure
Map Reduce em C#
Map
Reduce
Maximise sua escolha para o Hadoop
 Use HDP para Windows para no local de implantação no Windows Server
 Ideal para usuá...
Cases !
Sistema de Recomendação
 Sistema de Recomendação de Produtos
 Vitrines inteligentes para lojas online
 Aumento em 60% o...
Case Uniter
 45 mil alunos
 Crescimento da Base 1GB por dia
 Preocessamento do dados 2 semanas
 Com upload para cloud ...
Sistema
BigData China
Arquitetura
ODBC
DRIVER
HBASE
HDFS
HCATOLOG
MAPREDUCE
HIVE
PIG
Apache
Tomcat
WEB Service
StarGATE
EXCEL
FLUME
Server Local...
Captura e Processamento dos Vídeos
 As imagens são capturadas e processadas em
tempo real.
 Podemos notar as marcações r...
Etapa 2 – Transmissão Via WebServices
Gravando dados no Hadoop
Etapa 5 - Consulta dos dados
 Usando PowerPivot , geramos os relatórios que são consultas diretamente na
base do HBASE , ...
Tabelas do HBase vista pelo Excel via
ODBC
Etapa 6 – Construção dos relatórios
 Foram construídos uma série de relatórios:
 Número de Eventos por câmera
 Número d...
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Exemplo de Relatório
 asd
Fotos Georeferenciados
Perguntas ???
Binhara@azuris.com.br
@binhara
www.azuris.com.br
Interoperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows Azure
Upcoming SlideShare
Loading in...5
×

Interoperabilidade com BigData Hadoop para Windows Azure

255

Published on

O que é BigData e BI ?
O que é um Cientista de Dados ?
O que é Hadoop ?
O que é a HortonWoks Haddoop ?
Criando um Cluster Hadoop no Windows Azure?
Integrando com Power BI
Apresentação de Case de uso.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
255
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Interoperabilidade com BigData Hadoop para Windows Azure

  1. 1. Interoperabilidade com BigData Hadoop para Windows Azure Alessandro de Oliveira Binhara Data Scientist – Horton Works System Integrator
  2. 2. Agenda  O que é BigData e BI ?  O que é um Cientista de Dados ?  O que é Hadoop ?  O que é a HortonWoks Haddoop ?  Criando um Cluster Hadoop no Windows Azure?  Integrando com Power BI  Apresentação de Case de uso.
  3. 3. Por que??? BigData ??? CloudComputing??  Em 2001 : Centenas de milhares de dólares para sequenciar um Gene  Atualmente: menos de 6 mil dólares por Gene  Atualmente o sequenciamento gerar cerca de 50petabyte de dados.  1 semana para decodificar 1 Gene  Atualmente: Se Faz o sequenciamento de 100 Gene por dia
  4. 4. O que é BigData ?
  5. 5. O que é Um Cientista de Dados ?  O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional, portanto, é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira.  “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", diz o professor Renato Souza, responsável pelo mestrado de modelagem matemática da informação, da Fundação Getulio Vargas do Rio de Janeiro (FGV-RJ), lançado em 2011. Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.
  6. 6. Curiosidades sobre ZetaBytes
  7. 7. Não confunda os conceitos  CloudComputing – computação em nuvem  BigData – Armazenamento e Processamento de Grandes Volumes de Dados  BI Businnes Inteligence – Apresentar a informações de forma clara, sendo a fonte de inteligencia para os negocios  Cientista de Dados – é a pessoa capaz de orquestrar todos esses conceitos apresentando o valor que a empresa quer das informações
  8. 8. O que é Hadoop ?  O Apache Hadoop é um projeto desenvolvimento como open-source software para escalável , confiável e com processamento distribuído. Um sistema escalável e confiável para armazenamento compartilhado e análises. Ele automaticamente trata da replicação de dados e das falhas em cada nó. Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados Permite que os aplicativos usem petabytes de dados em paralelo.
  9. 9. Por que ?  Requisitos  500M+ usuário únicos por mês  Bilhões de eventos interessantes por dia  Necessidade de scalabilidade massiva  PB’s de storage, milhares de arquivos, 1000’s de nós  Necessidade de ter baixo custo  Uso de hardware comum  Compartilhar recursos com vários projetos  Fornecer escala quando necessário  Precisa de infraestrutura confiável  Deve ser capaz de lidar com falhas - hardware, software, networking  A falha é esperada, e não uma exceção  Transparente para as aplicações  muito caro para construir confiabilidade em cada aplicação  A infra-estrutura do Hadoop prove essas capacidade.
  10. 10. Características  Um sistema escalável e confiável para armazenamento compartilhado e análises.  Ele automaticamente trata da replicação de dados e da falhas em cada nó.  Ele faz o trabalho duro - desenvolvedor pode se concentrar em processamento da lógica de dados  Permite que os aplicativos usem petabytes de dados em paralelo
  11. 11. Eco Sistema  Hadoop Core  Distributed File System  MapReduce Framework  Pig (criado pelo Yahoo!)  Parallel Programming Language e Runtime  Hbase (criado pelo Powerset)  Table storage for semi-structured data  Zookeaper (criado pelo Yahoo!)  Coordinating distributed systems  Hive (criado pelo Facebook)  SQL-like query language and metastore
  12. 12. Hadoop no FaceBook  Cluster em produção  4800 cores, 600 máquina, 16GB por máquina – Abril/2009  8000 cores, 1000 máquinas, 32 GB por máquina – julho/2009  4 SATA discos de 1 TB por máquina  2 níveis de rede hierarquica, 40 máquinas por rack  Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009  Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage.  Atualmente eles moveram 30PB de para um novo Cluster  Todos os dias o Facebook recebe 380milhões de novas fotos
  13. 13. Cluster no Yahoo  É investidor da HortonWorks  Atualmente o Yahoo tem um cluster com mais de 42mil máquinas
  14. 14. HDFS – Hadoop File System  Inspirado em GFS  Projetado para trabalhar com arquivos muito grandes  Executado em hardware commodity  Streaming de acesso a dados  Replicação e localidade
  15. 15. HDFS- MapReduce Data Flow
  16. 16. O que é MapReduce  MapReduce é um modelo de programação e implementação associados para o processamento e geração de grandes conjuntos de dados (Jeffrey Dean e Sanjay Ghemawat, 2004)  A ideia tem mais de 40 anos  Baseado em um modelo de programação funcional (como Lisp, Ml, etc)  Processamento de dados base em batch  A abstração limpa para programadores  Paralelização automática e distribuição  Tolerância a falhas
  17. 17. Exemplo Simplifica de Map/Reduce map (String key, String value): // key: nome documento // value: Conteudo documento for each word w in value: EmitIntermediate(w, "1"); reduce(String key, Iterator values): // key: a palavra // values: a lista de valores int result = 0; for each v in values: result += ParseInt(v); Emit(AsString(result));
  18. 18. Funcionamento do Map/Reduce
  19. 19. Arquitetura Moderna
  20. 20. HDP: Enterprise Hadoop Distribution Hortonworks Data Platform (HDP) Enterprise Hadoop  A única 100% open source e completa  Classe empresarial, provado e testado em escala  Ecossistema endossado para garantir a interoperabilidade
  21. 21. Uso Comum do Hadoop 1. Social Entenda como seus clientes se sentem sobre a sua marca e produtos – agora 2. Clickstream Capturar e analisar as pistas de dados visitantes do site e otimizar seu site 3. Sensor/Machine Descobrir padrões nos dados que fluem automaticamente a partir de sensores e máquinas remotas 4. Geolocation Analisar dados baseados em localização para gerenciar as operações onde ocorrem 5. Server Logs Log de pesquisa para diagnosticar falhas no processo e prevenir violações de segurança 6. Unstructured (text, video, pictures, etc..) Compreender padrões de texto através de milhões de produtos de trabalho não estruturados: páginas web, e- mails, vídeos, fotos e documentos Valor
  22. 22. Demonstração HortonWorks  Gera sentimento em relação o IronMan 3  Coleta do Stream do Twitter  Dados do Twiter são salvos pelo flume no hadoop  Com uma tabela de classificação de sentimento  É processada a base e gerar informações a respeito do filme
  23. 23. Por que Hadoop no Windows  De acordo com a IDC Windows Server tem 73% em 2012  Hadoop foi tradicionalmente construído para servidores Linux de forma que há um grande número de organizações carentes  De acordo com o estudo de 2012 Barclays CIO big data supera Virtualização como tendência N º 1 iniciativas de gastos  Crescimento de dados não estruturados superior a 80% ano / ano na maioria das empresas  Apache Hadoop é a plataforma de dados defato grande. Para o processamento de grandes quantidades de dados não estruturados  Complementar às tecnologias existentes da Microsoft  Há uma enorme comunidade de desenvolvedores do Windows inexplorado e parceiros do ecossistema  Forte parceria Microsoft-Hortonworks e 18 meses de desenvolvimento
  24. 24. HortonWorks Data Platform for Windows  HDP é a primeira e únição hadoop para Windows e Linux  Empresa de suporte Apache Hadoop no Windows  Permite mesma experiência para Hadoop no Windows e Linux  Mais parceiros, mais desenvolvedores para Hadoop  Nativa Apache Hadoop disponível para o Windows ecossistema  Mais opções para o Windows focada organizações  Hortonworks foco: Empresa Apache Hadoop para todas as plataformas  Distribuição pronta para produção confiável Confiável para on-premise Hadoop em implantações do Windows  Construído com investimentos conjuntos e com contribuições da Microsoft  Relacionamento engenharia profunda garante integração e desempenho máximo
  25. 25. Interoperability com Microsoft Tools  Integrado com ferramentas da Microsoft para análise de dados grande nativa  Conectores bidirecionais para SQL Server e SQL Azure através Sqoop  Integração ODBC Excel através Hive  Dirigindo-se a demanda por Hadoop no Windows  Ideal para clientes Windows com? Hadoop experiência operacional  Permite que as cargas de trabalho do Hadoop mais comuns na empresa  Refinamento de dados e ETL para descarregar? De grande volume de dados de desembarque  Exploração de dados para a descoberta de novas oportunidades de negócios  Enriquecimento de dados para entrega sintonizado multado e mecanismos de recomendação
  26. 26. Por dentro do HDP for Windows  Hortonworks Data Platform (HDP)  For Windows  100% Open Source Enterprise Hadoop  Component and version compatible with HDInsight  Availability  Beta release available now  GA early 2Q 2013
  27. 27. Treinamentos Presencias, On-line e Semipresenciais  Curso: Apache Hadoop Essencial (8horas )  Curso: Introdução ao Futuro Cientista de Dados (8h)  Curso: DataScientist e BigData for Bussines (16h)  Curso: Apache Hadoop Fundamental (24h)  Treinamento e Workshop Ferramentas de BigData com EcoSistema Hadoop (40h)  Treinamento Apache Sqoop (8h)  Treinamento Apache Cassandra (16h)  Treinamento HBase (16h)  Treinamento Hive (16h)  Treimento Mahout (16h)  Curso + Treinamento em BI aplicado a máquinas de aprendizado Mahout (30h)  Curso de Splunk (16h)  Curso Pig e Pig Latin (16h)  Curos de Programaçao em MapReduce com Java e C# (16h)  Curso de Flume (16h)
  28. 28. Criando Cluster no Azure
  29. 29. O que é windows Azure  É plataforma de hardware e Software da microsoft
  30. 30. Data Center Azure
  31. 31. HDInsight – Hadoop Eco System
  32. 32. Azure Blob
  33. 33. Criando seu Cluster Hadoop no Azure
  34. 34. Definido o Tamanho do Cluster
  35. 35. Interface Administrativa
  36. 36. Interface Administrativa
  37. 37. Interface Administrativa
  38. 38. InterFace Hive
  39. 39. Jobs
  40. 40. Job Info
  41. 41. Exemplo de Hadoop no Azure
  42. 42. Map Reduce em C#
  43. 43. Map
  44. 44. Reduce
  45. 45. Maximise sua escolha para o Hadoop  Use HDP para Windows para no local de implantação no Windows Server  Ideal para usuários de Windows com experiência Hadoop  Perfeito próximo passo para aqueles que estão prontos para se deslocar de POC para produção  Use HDInsight para Microsoft ferramentas e gerenciamento e provisionamento  Serviço HDInsight que oferece todos os benefícios do Windows Azure (por exemplo, elasticidade e de baixo custo) - disponível em Visualizar hoje  HDInsight Servidor para a plena integração do Hadoop com ferramentas da Microsoft no local - Developer Preview disponível hoje  Escolha completa interoperabilidade e implantação em todas as plataformas  Implementar aplicações de dados grandes que funcionam on-premise e nuvem  Ao alavancar open source HDP, permite a interoperabilidade transparente entre ambientes: Linux, Windows, Windows Azure
  46. 46. Cases !
  47. 47. Sistema de Recomendação  Sistema de Recomendação de Produtos  Vitrines inteligentes para lojas online  Aumento em 60% o volume de faturamento das lojas  Cluster com 70nós  Mais de 1.5 milhões de transações por segundo
  48. 48. Case Uniter  45 mil alunos  Crescimento da Base 1GB por dia  Preocessamento do dados 2 semanas  Com upload para cloud diários 1 hora  Processamento em 12 maquinas com PIG  Tempo de processamento baixou para 1 horas por dia
  49. 49. Sistema BigData China
  50. 50. Arquitetura ODBC DRIVER HBASE HDFS HCATOLOG MAPREDUCE HIVE PIG Apache Tomcat WEB Service StarGATE EXCEL FLUME Server Local De Captura Server Local De Captura Server Local De Captura
  51. 51. Captura e Processamento dos Vídeos  As imagens são capturadas e processadas em tempo real.  Podemos notar as marcações realizadas pelo software de análise.  Ele consegue identificar os carros em movimentos e verificar várias infrações, como :  Velocidade acima de 10% do limite  Velocidade acima de 20% do limite  Avanço de Sinal  Caminhão fora de horário  Sobre a faixa de pedestre
  52. 52. Etapa 2 – Transmissão Via WebServices
  53. 53. Gravando dados no Hadoop
  54. 54. Etapa 5 - Consulta dos dados  Usando PowerPivot , geramos os relatórios que são consultas diretamente na base do HBASE , via ODBC da HortonWorks.
  55. 55. Tabelas do HBase vista pelo Excel via ODBC
  56. 56. Etapa 6 – Construção dos relatórios  Foram construídos uma série de relatórios:  Número de Eventos por câmera  Número de Eventos por mês  Numero de Eventos por semana  Número de eventos por Infrações  Por tipo de evento  Por Posição geográfica no mapa
  57. 57. Exemplo de Relatório  asd
  58. 58. Exemplo de Relatório  asd
  59. 59. Exemplo de Relatório  asd
  60. 60. Exemplo de Relatório  asd
  61. 61. Fotos Georeferenciados
  62. 62. Perguntas ??? Binhara@azuris.com.br @binhara www.azuris.com.br
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×