Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data Lake As a Service? Comparativo entre BigQuery, Presto e Athena

397 views

Published on

Através de uma abordagem prática com exemplos reais, serão comentados os pontos fortes e fracos dos serviços Google BigQuery, Amazon EMR com Presto e Amazon Athena. O objetivo é compartilhar com o espectador a experiência com esses serviços, mostrando como eles podem viabilizar análises com o melhor custo-benefício para ambientes de todos os tamanhos.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Data Lake As a Service? Comparativo entre BigQuery, Presto e Athena

  1. 1. DATA LAKE AS A SERVICE? Comparativo entre BigQuery, Presto e Athena Matheus Espanhol 2 de Junho de 2017
  2. 2. Data Lake é um repositório que armazena um grande e variado volume de dados, estruturados e não estruturados, em seu formato natural
  3. 3. Data Swamp
  4. 4. data lake não necessariamente substitui data warehouse
  5. 5. Por que Cloud?
  6. 6. Por que Cloud?
  7. 7. Por que Cloud Storage?
  8. 8. Cloud Storage Escalabilidade Custo Redundância Performance Segurança
  9. 9. Amazon S3 Simple Storage Service Durabilidade de 99.999999999% Disponibilidade de 99.99% Transferência de dados usando SSL Criptografia automática dos dados Integrado com outros serviços da AWS $0.023/GB $0.0125/GB $0.004/GB
  10. 10. Google Cloud Storage (GCS) Durabilidade de 99.999999999% Disponibilidade de 99.95% Transferência de dados usando SSL Criptografia automática dos dados Integrado com outros serviços do Google Acesso instantâneo a todas classes de storage $0.026/GB $0.023/GB $0.016/GB $0.010/GB
  11. 11. Cloud Storages - Temperaturas HOT COLDCOOLWARM AWS S3 Standard GCS Multiregional GCS Regional AWS S3 Standard I/A GCS Nearline AWS Glacier GCS Coldline AWS S3 Standard Ideal para dados acessados com frequência. Baixa latência. Ideal para dados acessados com frequência. Baixa latência. Dados replicados para datacenters da mesma região (GCS). Ideal para dados acessados esporadicamente. Baixa latência. Custo adicional por volume de dados recuperado. Ideal para dados quase nunca acessados. Propostas diferentes de acesso aos dados. Custo adicional alto por volume de dados recuperado.
  12. 12. A Movile Líder em marketplaces móveis Nosso sonho é fazer a vida de 1 bilhão de pessoas melhor por meio dos nossos apps 100 milhões de pessoas utilizam os serviços da Movile todo mês Estamos conectados a mais de 70 operadoras em toda América
  13. 13. Comparativo entre cloud storages Tabela: event_YYYYMM - 380 GB/mês 9 meses 2017 5 anos (event_201201 - event_201612) 3 meses 2017 Coldline Nearline Regional 18.2 TB 3.4 TB 1.1 TBGCS: $ 184,68 / mês 9 meses 2017 5 anos (event_201201 - event_201612) IA Standard 18.2 TB 3.4 TB 1.1 TB Glacier 12 meses 2017 5 anos (event_201201 - event_201612) Standard 18.2 TB 4.5 TB IA S3: $ 141,81 / mês S3: $ 296,97 / mês
  14. 14. Presto Engine SQL distribuído e In-memory Desenvolvido pelo Facebook em 2012 Suporte ANSI SQL com funções analíticas Combina dados de várias fontes em uma única query Hive, Kafka, Cassandra, PostgreSQL, SQL Server, Redis, MySQL, MongoDB Extensível Conectores JDBC e ODBC para ferramentas de BI
  15. 15. Presto
  16. 16. Presto - Monitoramento
  17. 17. Presto - Airpal
  18. 18. Amazon Elastic Map Reduce (EMR) Facilita a configuração e gerenciamento de clusters Hadoop EMR File System (EMRFS) para compatibilidade entre S3 e HDFS Possibilidade de alocar instâncias Spot Substituição automática de nós do cluster Monitoramento com CloudWatch
  19. 19. Presto + EMR Prós Arquivos do S3 disponíveis para consulta SQL Escalabilidade de verdade (up/down) Suporte SQL suficiente para ferramentas analíticas Junção de dados de diferentes fontes Alocação de custo controlada (processamento, memória e disco) Otimização de custos com instâncias Spot Contras Cobrado por hora ~20 minutos para provisionar um cluster Requer particionamento de dados no S3 para melhorar performance Necessária a conversão para outros formatos de arquivo e compactações para melhorar performance (Text, Parquet, ORC) Suporte a CSV limitado
  20. 20. Presto - Spark - Hive - EMR Text Gzip Parquet Snappy Parquet Gzip ORC Tempo de conversão do arquivo 93 min 37 min 78 min Tamanho do arquivo no S3 61.4 GB +197.1 GB +45.1 GB +42.3 GB Tempo de count 3:35 min 1:01 min 11 sec 16 sec Tempo de query com agregação 3:40 min 47 sec 2:19 min 22 sec Linhas transferidas por segundo 1.72M rows/s 6.12M rows/s 34.7M rows/s 19.7M rows/s Taxa de transferência 292MB/s 1.85GB/s 2.93GB/s 14.6MB/s Tamanho dos dados varridos 61.4 GB 112 GB 31.3 GB 274 MB
  21. 21. Presto - Estimativa de custo mensal Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 15 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 10800 $3.283,05 Extra S3 Storage (ORC) $230,52 1 RDS PostgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $4.008,92 Serviço AWS $/hora Horas/mês Custo/mês 1 EMR EC2 m4.xlarge full time (MASTER) $0,30 720 $218,87 5 EMR EC2 m4.xlarge full time (CORE + TASK) $0,30 3600 $1.094,35 10 EMR EC2 m3.xlarge SPOT (TASK) $0,06 7200 $467,32 Extra S3 Storage (ORC) $230,52 1 RDS PosgreSQL db.t2.micro para os metadados $0,019 720 $14,33 Retorno de dados S3/IA $262,15 $296,97 + $2.287,54 -$1.721,38 Storage Processamento
  22. 22. Bigquery SQL as a Service Baseado no Dremel Suporte a operações batch ou stream Suporte ANSI SQL limitado Permite o mapeamento de arquivos no GCS
  23. 23. Bigquery
  24. 24. Bigquery e GCS Suporte a dados externos: Google Cloud Storage Google Bigtable Google Drive Consulta todas as temperaturas do Cloud Storage CSV JSON Avro Cloud Datastore backups bq mk --external_table_definition=/tmp/event.json@CSV=gs://movile-de/events/ kiwi.event_201704 bq query 'SELECT event_type, count(*) FROM kiwi.event_201704 GROUP BY event_type'
  25. 25. Bigquery Prós Realmente rápido Provisionamento automático Disponibilidade Nenhum esforço de manutenção Contras Suporte SQL ANSI limitado Suporte limitado a alterações em registros Não possui driver de conexão JDBC/ODBC oficial e gratuito Curva de aprendizado para usuário final
  26. 26. BigQuery + GCS - Estimativa de custo mensal Período / GCS CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Bigquery Custo leitura GCS 3 meses (Regional) 1.1 10 150 7.10 $35,50 9 meses (Nearline) 3.4 3 2 17.8 $50,60 $219,28 5 anos (Coldline) 18.2 3 0,2 8.11 $47,50 $109,53 $133,60 $328,81 $462,41 Storage Processamento $184,68 $647,09
  27. 27. Amazon Athena Serviço de SQL sobre dados armazenados S3 “Presto as a Service” Alta disponibilidade Escalabilidade transparente Suporte SQL ANSI Sistema de cobrança semelhante ao Google Bigquery
  28. 28. Amazon Athena
  29. 29. Amazon Athena Prós Provisionamento automático Disponibilidade Nenhum esforço de manutenção Suporte SQL completo Driver de conexão JDBC oficial e gratuito Parse de arquivos texto com expressão regular Contras Requer particionamento de dados no S3 para melhorar performance Necessária a conversão para outros formatos de arquivo e compactação para melhorar performance (Parquet, ORC) Suporte a CSV limitado Limitação de 5 conexões simultâneas por conta
  30. 30. Athena - Estimativa de custo mensal Período / S3 CSV Gzip (TB) Usuários Consultas/mês TBs processados Custo Athena Custo leitura S3 12 meses (Standard) 4.5 13 152 24.9 $86.10 5 anos (I/A) 18.2 3 0,2 8.11 $47,50 $83,05 $133,60 $83,05 $216,65$296,97 Storage Processamento $513,62
  31. 31. Novas tecnologias, novas possibilidades Redshift Spectrum Lançado em Abril/2017 Permite mapeamento de tabelas do Athena a partir do Redshift Presto no Google Cloud Dataproc Hardware com melhor custo-benefício Referências: https://cloud.google.com/blog/big-data/2016/05/bigquery-and-dataproc-shine-in-independent-big-data-platform-comparison http://tech.marksblogg.com/faster-queries-google-cloud-dataproc.html
  32. 32. Contato twitter.com/matheusespanhol linkedin.com/in/matheusespanhol slideshare.net/matheus.espanhol matheusespanhol@gmail.com

×