2. Conteúdo
• Introdução de Big Data em AWS
• Big Data Analytics Opções na AWS
• Padrões de uso e anti-padrões
• Performance & Custos
• Durabilidade & Escalabilidade
• Interfaces
• Construindo soluções Big Data – Abordagem AWS
• Cenários de exemplo
3. Big Data na AWS
Disponibilidade Imediata. Deploy instantâneo. Sem compra de
hardware, sem infra-estrutura para manter e escalar.
Seguro e confiável. Desenhado para atender requisitos rigorosos
de segurança. Auditoria continua, incluindo certificações : ISO
27001, FedRAMP, DoD CSM, and PCI DSS.
Capilaridade de serviços. Mais de 50 serviços e centenas de
funcionalidades para suportar virtualmente qualquer workload de
big data.
Centenas de parceiros e soluções. Obtenha ajuda de nossos
parceiros de consultoria ou escolha entre centenas de
ferramentas em nosso marktplace
6. Amazon Redshift
• Padrões de uso
• Dados de vendas
• Dado históricos
• Dados de jogos
• Dados de redes sociais
• Dados de campanha de publicidade
• Performance
• Processamento paralelo massivo
• Armazenamento colunar
• Compressão de dados
• Mapeamento
• Discos diretamente conectados
• Modelo de custo
• Sem investimento inicial ou contratos
• Backup gratuíto (storage equivalente a 100% do
storage provisionado)
Com armazenamento colunar,
você acessa apenas o dado
que você precisa.
7. Amazon Redshift
• Escalabilidade & Elasticidade
• Aumentar ou Diminuir - Número ou tipo de
node com alguns clicks
• Durabilidade e disponibilidade
• Replicação
• Backup
• Automated recovery para falhas de discos &
nodes
• Interfaces
• JDBC/ODBC interface com ferramentas de
BI/ETL
• Amazon S3 ou DynamoDB
• Anti-padrões
• Pequenos datasets
• OLTP
• Dados não estruturados
• Blob Data
10 GigE
(HPC)
Ingestion
Backup
Restore
JDBC/ODBC
9. Amazon Kinesis Streams
• Padrões de uso – Streaming de
dados, ingestão e processamento
• Data analytics em tempo real
• Ingestão de dados e processamento ex.
logs
• Métricas e reports em tempo real
• Performance
• Throughput baseado em shards
• Modelo de custo
• Sem investimento inicial ou contratos
• Pague pelo que usar
• Custo hora por shard
• Cobrança por 1 million de transações
PUT
10. Amazon Kinesis Streams
• Escalabilidade e Elasticidade
• Aumente o número de shards
• Durabilidade e Disponibilidade
• Replicação
• Cursor preservation
• Interfaces
• Input – data in
• Output – data out
• Kinesis Firehose
• Anti-padrões
• Pequenas taxas de transferência
• Armazenamento de longo prazo
11. Inicie cluster em minutos
Pague por hora e economize com
instâncias spot
MapReduce, Apache Spark, Presto
Amazon EMR
12. Amazon EMR
• Padrões de uso
• Processamento de log and analytics
• Grande ETL e movimentacao de dados
• Risk modeling and threat analytics
• Sucesso de publicidade and click stream
analytics
• Genoma
• Análise preditiva
• Ad-hoc data mining and analytics
• Performance
• Tipo de instância
• Número de instâncias
• Cost model
• Pague pelas horas de execução
• EC2 instance e EMR
13. Amazon EMR
• Escalabilidade e Elasticidade
• Resize de cluster
• Adicione instâncias core ou task
• Durabilidade e Disponibilidade
• Tolerância a falha slave node (HDFS)
• Backup com S3 para resiliência do master
node
• Interfaces
• Hive, Pig, Spark, Hbase, Impala, Hunk,
Presto, etc..
• Anti-padrões
• Pequenos data sets
• ACID (Atomicity, Consistency, Isolation and
Durability)
15. Amazon DynamoDB
• Padrões de uso
• Mobile apps, jogos, digital ad serving, votaçao
em tempo real, rede de sensores, ingestão de
logs
• Controle de acesso a conteudo web, carrinho
de compras para e-commerce
• Gerenciamento de sessões web
• Performance
• SSD
• Provisione throughput por tabela
• Escalabilidade e Elasticidade
• Sem limite de dados armazenados
• Aumentar ou diminuir a capacidade de leitura e
escrita por tabela
• Modelo de custo
• Pague pelo que usar
• Provisione throughput (por hora)
• Indexe dados armazenados (por GB por mês)
• Data transfer in or out (por GB por mês)
Provisioned read/write performance per table.
Predictable high performance scaled via console or API
16. Amazon DynamoDB
• Durabilidade e Disponibilidade
• Três Availability Zones (AZ)
• Interfaces
• AWS Console
• API’s
• SDK’s
• Anti-padrões
• Applicação de bancos de dados relacional
• Joins e/ou transações complexas
• BLOB data
• Muitos dados com pouco I/O
AZ-A
AZ-B
AZ-C
17. Serviço gerenciado projetado para tornar
mais fácil para os desenvolvedores o uso de
machine learning
Baseado na mesma tecnologia ML usado há
anos por cientistas de dados internos da
Amazon
Amazon Machine Learning é altamente
escalavel e utiliza padrões de ML. (Análise
preditiva)
Amazon
Machine Learning
18. Amazon Machine Learning
• Padrões de uso
• Alertas de transações suspeitas
• Personalize application content
• Predição de atividade do usuário
• Analise rede social
• Modelo de custo
• Pague pelo que usar
• Sem gerenciamento de instâncias, apenas
serviço
• Performance
• Predições em tempo real Real-time
predictions projetado para responder em
pelo menos 100ms
• 200 transações por segundo
19. Amazon Machine Learning
• Durabilidade e Disponibilidade
• Sem janela de manutençao
• Desenhado para multiplas AZ’s
• Escalabilidade e Elasticidade
• Modelo de treino de ate100GB
• Multiplo jobs simultâneos
• Interfaces
• Origem de dados a partir do S3, RDS e
Redshift
• Intereção ML via console, SDKs, e ML
API
• Anti-padrões
• Grandes Data Sets > 100GB
• Sequência de predição ou tasks não
supervisionada
21. AWS Lambda
• Padrões de uso
• Procesamento de arquivos em tempo real
• Extract, Transform, Load (ETL)
• Performance
• Processamento de eventos em milliseconds
• Modelos de custo
• Pague pelo que usar
• Sem gerênciamento de instâncias, pague
apenas pelo serviço
• Lambda free tier incluí 1Milhão de
requisições gratuitas
22. AWS Lambda
• Durabilidade e Disponibilidade
• Sem janelas de manutenção ou
downtime agendado
• Funções Async são executadas até 3
times caso falhem
• Escalabilidade e Elasticidade
• Alta concorrência de execuções
simultânea
• AWS Lambda Aloca dinamicamente
capacidade para executar os eventos.
• Interfaces
• Lambda suportas Java, Node.js, e
Python
• Execução por evento ou agendas
• Anti-padrões
• Execuções longas de aplicações
• Aplicações Stateful no Lambda
23. Instale um cluster de Elasticsearch em
minutos
Integrado com Logstash and Kibana
Escale o seu cluster Elasticsearch
perfeitamente
Amazon
Elasticsearch
Service
24. Amazon Elasticsearch
• Padrões de uso
• Análise de logs
• Análise de stream de dados e/ou updates de
outros serviços AWS
• Prover uma busca rica e uma boa experiência de
uso/navegação
• Monitorar o uso de aplicações mobile
• Performance
• Depende de multiplos fatores, incluindo tipo de
instância, workload, index, número de shards no
cluster, replicas de leitura
• Configurações de disco – instance storage ou EBS
storage
• Modelos de custo
• Pague pelo que usar
• Pague somente pela instância de elasticsearch e
disco utilizado
25. Amazon Elasticsearch
• Durabilidade e Disponibilidade
• Zone Awareness
• Snapshots automático e manual.
• Escalabilidade e Elasticidade
• Adicione e remova instâncias
• Altere os volumes EBS conforme
crescimento
• Interfaces
• AWS Console
• API’s
• SDK’s
• Kibana and Logstash (ELK Stack)
• Anti-padrões
• OLTP
• Workloads que precisam de mais de 5TB de
armazenamento
Elasticsearch + Logstash + Kibana =
real-time analytics & visualization
26. Construa visualizações
Performance para processamento ad-hoc
Compartilhamento de dasboards(storyboards)
Acesso nativo com as principais
plataformas mobile
Amazon QuickSight
27. Introdução Amazon QuickSight
Serviço em Cloud de Business Intelligence com 1/10th
do custo de um software de BI tradicional
Sem esforço de TI. Sem modelagem dimensional
Auto-discovery de fonte de dados (AWS)
Rapido, processamento paralelo, Calculos em
memória
100% gerenciado
Available in Preview
aws.amazon.com/quicksight
28. Aumente ou diminua conforme
necessidade.
Pague somente pelo que usar.
Multipla opções.
Construa sua própria aplicação big
data.
Amazon EC2
29. Abordagem AWS
• Flexivel. Use a melhor ferramenta para cada tarefa
• Estrutura de dados, latência, alta capacidade de rede, padrões
de acesso.
• Escalável. Imutável (Tarefa única)
• Execuções Batch/velocidade (Camadas)
• Mínimo de administração. Serviços AWS gerenciados
• Sem ou com administração mínima
• Baixo custo. Big data ≠ big cost
30. Scenario 1: Enterprise Data Warehouse
Scenario 2: Capture e analise dados de sensores
Scenario 3: Análise de sentimento de rede social
Big Data
Cenários
31. Cenário 1: Enterprise Data Warehouse
Data Warehouse Architecture
Data
Sources
Amazon
S3
Amazon
EMR
Amazon
S3
Amazon
Redshift
Amazon
QuickSight
33. Cenário 3: Análise de sentimento Rede social
Social
Media Data
Amazon
EC2
Amazon
Lambda
Amazon
ML
Amazon
Kinesis
Amazon
S3
Amazon
SNS
1 2 4 5 6
3 7
34. Próximos passos
• Assine o feed do AWS Big Data Blog
blogs.aws.amazon.com/bigdata
• Leia mais sobre o assunto, tutoriais, guias e laboratórios
aws.amazon.com/big-data
• Registre-se para os próximos Webinars
aws.amazon.com/about-aws/events/monthlywebinarseries
Editor's Notes
Follow Up Email
Amazon
https://www.youtube.com/watch?v=P4KPPvEb_QI
Generates weblogs @ 2TB/day, growing 67% YoY
Oracle RAC legacy system
Scan rate: 1 week of data/hour
Hit RAC node limit of 32 nodes
More data => Slower queries
Migrated to Redshift
Scan rate: 15 months of data (2.25 trillion rows) in 14 min
Scaled to a 101 node DS1.8XL cluster – Petabytes
More than 10X performance
21B rows joined with 10B rows in under 2 hours from days
security, HasOffers loads 60M rows per day in 2 min intervals, Desk: high concurrency user facing portal (read/write cluster), Amazon.com/NTT PB scale. Pinterest saw 50-100x speed ups when moved 300TB from Hadoop to Redshift. Nokia saw 50% reduction in costs.
https://www.youtube.com/watch?v=O4wAH5FQjS8
30 Million Ad opportunities per month.
Yelp uses Amazon S3 to store daily logs and photos, generating around 1.2TB of logs per day. The company also uses Amazon EMR to power approximately 20 separate batch scripts, most of those processing the logs. Features powered by Amazon Elastic MapReduce include:
Yelp developers advise others working with AWS to use the boto API as well as mrjob to ensure full utilization of Amazon Elastic MapReduce job flows. Yelp runs approximately 250 Amazon Elastic MapReduce jobs per day, processing 30TB of data and is grateful for AWS Support that helped with their Hadoop application development.
Dropcam - Dropcam runs video streaming and storage servers on Amazon EC2 and Amazon S3, and uses Amazon DynamoDB to scale and maintain throughput. “DynamoDB grows with the number of cameras that are connected to the service,” says Nelson. “Throughput is very steady as cameras come online. By using DynamoDB, we reduced delivery time for video events to less than 50 milliseconds,” says Nelson.
Dropcam - Dropcam runs video streaming and storage servers on Amazon EC2 and Amazon S3, and uses Amazon DynamoDB to scale and maintain throughput. “DynamoDB grows with the number of cameras that are connected to the service,” says Nelson. “Throughput is very steady as cameras come online. By using DynamoDB, we reduced delivery time for video events to less than 50 milliseconds,” says Nelson.
Build Fax - Uses Amazon Machine Learning to provide roof-age and job-cost estimations for insurers and builders, with property-specific values that don’t need to rely on broad, ZIP code-level estimates. Models that previously took six months or longer to create are now complete in four weeks or less. Creates opportunities for new data analytics services that BuildFax can offer to customers, such as text analysis in Amazon ML to estimate job costs with 80 percent accuracy.
VidRoll - AWS Lambda enables NoOps, allowing us to start and stay at scale without having to worry about infrastructure. As an exponential organization, it is critical that our developers focus on innovation. Lambda frees us from ever having to code for issues like concurrency, distributed file systems and other ‘success problems’ that typically present themselves when systems need to scale. We save time and money with Lambda.
Amazon Elasticsearch service allows you to easily and securely deploy and scale an ELK stack in minutes. Integration with Logstash is tightly coupled and a Kibana instance is automatically configured for you. The service automatically detects and replaces failed Elasticsearch nodes, reducing the overhead associated with self-managed infrastructure and Elasticsearch software.
https://aws.amazon.com/solutions/case-studies/major-league-baseball-mlbam/
Major League Baseball Advanced Media, L.P, which operates MLB.com, uses Elasticsearch extensively on its advanced game day statistics application. “Elasticsearch allows us to easily and quickly build bleeding edge big data and analytics applications using the ELK stack.” said Sean Curtis, Architect at MLB.com. “By offering direct access to the Elasticsearch API while offloading administrative tasks, Amazon Swift gives us the manageability, flexibility and control we need.”
Before we go into solving the Big architecture, I want to introduce some “tried and test” architecture principles.
Here at AWS we believe you should be using the right tool for the job – “instead of using a big swiss army knife for using a screw dreive, it will be best to use a screw drive - this is especially important for big data architectures. We’ll talk about this more.
Decoupled architecture http://whatis.techtarget.com/definition/decoupled-architecture - In general, a decoupled architecture is a framework for complex work that allows components to remain completely autonomous and unaware of each other…this has been tried and battle test.
Managed services – this is relatively now - Should I install Cassandra or MongoDB or CouchDB on AWS. You obviously can. Sometimes there are good reasons for doing this. Many customers still do this. Netflix is a great example. They run a multi-region Cassandra and are a poster child for how to do this. But for most customers, delegating this task to AWS makes more sense….you are better of spending your time on building features for your customers rather than building highly scalable distributed systems.
Lambda Architecture -