Eric Ferreira | ericfe@amazon.com | @ericnf
Senior Database Engineer
Amazon Redshift
Vários Tutoriais , treinamentos e mentoria em
português
Inscreva-se agora !!
http://awshub.com.br
Data Warehousing do jeito AWS
Pague pelo uso
Alta performance a um preço baixo
Suporte a ferramentas padrão (SQL)
Fácil de...
Nosso objetivo foi criar…
Um serviço de DW simples, rápido e escalável. O resultado foi
~ 10x mais rápido
~ 10x menos cust...
Alguns resultados dos Clientes Redshift
Consultas 5x – 20x mais rápidas;
Redução de 4x no custo comparado a HIVE
Redução d...
Amazon Redshift reduz I/O
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados grande
ID Age State Amount
1...
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados gra...
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados gra...
Amazon Redshift reduz I/O
• Banco de dados colunar
• Compressão de dados
• “Zone maps”
• Disco local
• Blocos de dados gra...
Arquitetura do Amazon Redshift
• Nó Líder
– SQL
– Armazena meta-data
– Coordena execução
• Nó Computacional
– Armazenament...
Amazon Redshift usa hardware customizado
HS1.8XL: 128 GB RAM, 16 Cores, 24 discos, 16 TB espaço comprimido, 2 GB/sec taxa ...
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade • Carga em paralelo do S3 o...
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• Backups para S3 é automát...
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• Ampliação/redução acontec...
Amazon Redshift = Tudo em Paralelo
• Consulta
• Carga de Dados
• Backup/Restore
• Elasticidade
• DNS é atualizado automati...
Amazon Redshift permite que você comece pequeno e cresça
Extra Large Node (HS1.XL)
3 spindles, 2 TB, 16 GB RAM, 2 cores
Nó...
Amazon Redshift : preço permite analisar todos os seus dados
Preço por Hora/Nó
HS1.XL
Preço por Hora/TB Preço por Ano/TB
O...
Amazon Redshift é fácil de usar
• Provisionamento em Minutos
• Monitoramento de Performance
• Elasticidade simples
• Segur...
Provisionamento em Minutos
Monitoramento de Performance
Elasticidade simples
Segurança embutida
• SSL garante segurança de transmissão
• Criptografia protege dados em repouso
– AES-256; aceleração po...
Amazon Redshift: Operação Simples
• Replicação de dados em múltiplos nos e copia para S3 garante durabilidade.
• Backups p...
Amazon Redshift integra com varias fontes de dados
Amazon
DynamoDB
Amazon Elastic
MapReduce
Amazon Simple
Storage Service ...
Amazon Redshift várias opções de carga de dados
• Amazon S3
• AWS Direct Connect
• AWS Import/Export
• Parceiros
Mais opçõ...
Amazon Redshift compatível com suas ferramentas
JDBC/ODBC
Amazon Redshift
Mais opções em breve …
Dicas Práticas para começar com Redshift
• Prepare-se para adaptar seu processo ETL/ELT para tirar vantagem das
caracterís...
Mais informações - Q&A
• Eric Ferreira | ericfe@amazon.com | @ericnf
• http://aws.amazon.com/redshift
• https://aws.amazon...
Upcoming SlideShare
Loading in...5
×

Introducao ao Amazon Redshift

743

Published on

Introducao ao Amazon Redshift

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
743
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
65
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Introducao ao Amazon Redshift

  1. 1. Eric Ferreira | ericfe@amazon.com | @ericnf Senior Database Engineer Amazon Redshift
  2. 2. Vários Tutoriais , treinamentos e mentoria em português Inscreva-se agora !! http://awshub.com.br
  3. 3. Data Warehousing do jeito AWS Pague pelo uso Alta performance a um preço baixo Suporte a ferramentas padrão (SQL) Fácil de provisionar
  4. 4. Nosso objetivo foi criar… Um serviço de DW simples, rápido e escalável. O resultado foi ~ 10x mais rápido ~ 10x menos custo fácil de usar Amazon Redshift
  5. 5. Alguns resultados dos Clientes Redshift Consultas 5x – 20x mais rápidas; Redução de 4x no custo comparado a HIVE Redução de 20x – 40x tempo de consulta Redução de 50% em custo, Consultas 2x mais rápidas
  6. 6. Amazon Redshift reduz I/O • Compressão de dados • “Zone maps” • Disco local • Blocos de dados grande ID Age State Amount 123 20 CA 500 345 25 WA 250 678 40 FL 125 957 37 WA 375 • Não precisa acessar ou retornar todas as colunas para calcular a soma de “Amount”
  7. 7. Amazon Redshift reduz I/O • Banco de dados colunar • Compressão de dados • “Zone maps” • Disco local • Blocos de dados grande • Compressão por coluna reduz o uso de espaço e acelera leitura • Amazon Redshift pode fazer a escolha para você, automaticamente analyze compression listing; Table | Column | Encoding ---------+----------------+---------- listing | listid | delta listing | sellerid | delta32k listing | eventid | delta32k listing | dateid | bytedict listing | numtickets | bytedict listing | priceperticket | delta32k listing | totalprice | mostly32 listing | listtime | raw
  8. 8. Amazon Redshift reduz I/O • Banco de dados colunar • Compressão de dados • “Zone maps” • Disco local • Blocos de dados grande • Cada bloco registra o valor mínimo/máximo, em memória. • Blocos que não vão satisfazer o filtro, não são lidos. • O I/O mais rápido é aquele que não precisa ser feito.
  9. 9. Amazon Redshift reduz I/O • Banco de dados colunar • Compressão de dados • “Zone maps” • Disco local • Blocos de dados grande • Disco local maximiza a taxa de transferência • Hardware otimizado para processamento de informação • Bloco grande aproveita cada acesso • Amazon Redshift garante a durabilidade dos dados
  10. 10. Arquitetura do Amazon Redshift • Nó Líder – SQL – Armazena meta-data – Coordena execução • Nó Computacional – Armazenamento local e colunar – Consultas executam em paralelo – Carga, Backup/Restore usa Amazon S3 – Carga em paralelo com Amazon DynamoDB • Opção de nó único disponível 10 GigE (HPC) Ingestion Backup Restore JDBC/ODBC
  11. 11. Amazon Redshift usa hardware customizado HS1.8XL: 128 GB RAM, 16 Cores, 24 discos, 16 TB espaço comprimido, 2 GB/sec taxa de busca HS1.XL: 16 GB RAM, 2 Cores, 3 discos, 2 TB espaço comprimido • Otimizado para I/O intenso • Alta densidade de disco • Usa HPC – Rede de 10 Gbit/sec • HS1.8XL disponível no Amazon EC2
  12. 12. Amazon Redshift = Tudo em Paralelo • Consulta • Carga de Dados • Backup/Restore • Elasticidade
  13. 13. Amazon Redshift = Tudo em Paralelo • Consulta • Carga de Dados • Backup/Restore • Elasticidade • Carga em paralelo do S3 ou DynamoDB • Dados automaticamente distribuídos e ordenados de acordo com o DDL • Escala linearmente com o número de nós.
  14. 14. Amazon Redshift = Tudo em Paralelo • Consulta • Carga de Dados • Backup/Restore • Elasticidade • Backups para S3 é automático, continuo e incremental • Período de retenção configurável • Copias manuais usando API e console web • “Streaming restores” possibilitam estar on-line mais rápido.
  15. 15. Amazon Redshift = Tudo em Paralelo • Consulta • Carga de Dados • Backup/Restore • Elasticidade • Ampliação/redução acontece on-line (leitura) • Provisionamento invisível • Dados transferidos em paralelo por nó • Você só paga o cluster origem durante o processo.
  16. 16. Amazon Redshift = Tudo em Paralelo • Consulta • Carga de Dados • Backup/Restore • Elasticidade • DNS é atualizado automaticamente • Cluster original é descartado • Operação simples usando AWS Console ou API
  17. 17. Amazon Redshift permite que você comece pequeno e cresça Extra Large Node (HS1.XL) 3 spindles, 2 TB, 16 GB RAM, 2 cores Nó Único (2 TB) Cluster 2-32 Nós (4 TB – 64 TB) 8x Extra Large Node (HS1.8XL) 24 spindles, 16 TB, 128 GB RAM, 16 cores, 10 GigE Cluster 2-100 Nós (32 TB – 1.6 PB)
  18. 18. Amazon Redshift : preço permite analisar todos os seus dados Preço por Hora/Nó HS1.XL Preço por Hora/TB Preço por Ano/TB On-Demand $ 0.850 $ 0.425 $ 3,723 Reserva 1 ano $ 0.500 $ 0.250 $ 2,190 Reserva 3 anos $ 0.228 $ 0.114 $ 999 Preço Simples Número de nós x Custo por hora Sem custo para o nó líder Pague pelo uso
  19. 19. Amazon Redshift é fácil de usar • Provisionamento em Minutos • Monitoramento de Performance • Elasticidade simples • Segurança embutida • Backups automáticos
  20. 20. Provisionamento em Minutos
  21. 21. Monitoramento de Performance
  22. 22. Elasticidade simples
  23. 23. Segurança embutida • SSL garante segurança de transmissão • Criptografia protege dados em repouso – AES-256; aceleração por hardware – Todos os blocos em disco e no Amazon S3 criptografados • Sem acesso direto a nós de computação • Suporta Amazon VPC 10 GigE (HPC) Ingestion Backup Restore Customer VPC Internal VPC JDBC/ODBC
  24. 24. Amazon Redshift: Operação Simples • Replicação de dados em múltiplos nos e copia para S3 garante durabilidade. • Backups para Amazon S3 contínuo, automático e incremental. – Projetado para 11 noves de durabilidade • Monitoramento contínuo e recuperação automática de falhas de drives e nós • Capaz de restaurar para qualquer zona de disponibilidade (AZ) dentro de uma região
  25. 25. Amazon Redshift integra com varias fontes de dados Amazon DynamoDB Amazon Elastic MapReduce Amazon Simple Storage Service (S3) Amazon Elastic Compute Cloud (EC2) AWS Storage Gateway Service Corporate Data Center Amazon Relational Database Service (RDS) Amazon Redshift Mais opções em breve …
  26. 26. Amazon Redshift várias opções de carga de dados • Amazon S3 • AWS Direct Connect • AWS Import/Export • Parceiros Mais opções em breve … Data Integration Systems Integrators
  27. 27. Amazon Redshift compatível com suas ferramentas JDBC/ODBC Amazon Redshift Mais opções em breve …
  28. 28. Dicas Práticas para começar com Redshift • Prepare-se para adaptar seu processo ETL/ELT para tirar vantagem das características da Amazon Cloud • Reserve tempo para testar configurações diferentes – Distkey, sortkey, ,compressão – Número de nós e filas (WLM) • Use S3/Glacier para arquivamento de dados (UNLOAD) • Simule partições cronológicas com tabelas separadas e visões • Considere Carga -> Duplicação -> Consultas para situações apropriadas • De-normalize apenas para evitar JOIN onde distkey das tabelas não casa
  29. 29. Mais informações - Q&A • Eric Ferreira | ericfe@amazon.com | @ericnf • http://aws.amazon.com/redshift • https://aws.amazon.com/marketplace/redshift/ • “Best Practices” – http://docs.aws.amazon.com/redshift/latest/dg/c_loading-data-best-practices.html – http://docs.aws.amazon.com/redshift/latest/dg/c_designing-tables-best-practices.html – http://docs.aws.amazon.com/redshift/latest/dg/c-optimizing-query-performance.html
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×