• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Cloud computing e big data
 

Cloud computing e big data

on

  • 530 views

 

Statistics

Views

Total Views
530
Views on SlideShare
530
Embed Views
0

Actions

Likes
1
Downloads
21
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Cloud computing e big data Cloud computing e big data Presentation Transcript

    • Cloud Computing e Big Data Rodolpho Ugolini - @rugolini Amazon Web Services
    • O que é Computação em Nuvem Sem despesas de Baixo custo Pague apenas capital antecipadas pelo que usa Escalabilidade Agilidade e Time Infraestrutura simples e to Market Self-Service automática Deploy
    • Como a Amazon… About Amazon Web Services Deep experience in building and ? operating global web scale systems …passou a oferecer Cloud Computing?
    • Trafego do mês de Novembro da amazon.com
    • Quanto de capacidade devemos provisionar?
    • Infrestrutura Tradicional não é mais suficiente Desperdício Ambientes de Testes Volume de Dados Picos de Demanda Eventos Sazonais Insatisfação do cliente
    • Infraestrutura de computação tradicional é cara e complexa
    • Precisamos de capacidade ajustável!
    • ... e torça para que tudo dê certo...
    • Existe um outro jeito!
    • Plataforma de Computação AWS Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
    • Disponivel Globalmente Region US-WEST (N. California) EU-WEST (Ireland) GOV CLOUD ASIA PAC (Tokyo) US-EAST (Virginia)US-WEST (Oregon) ASIA PAC (Singapore) SOUTH AMERICA (Sao Paulo)
    • Apoiando-se nos ombros do gigante… Dados Você Sua Aplicação Sistema Operacional Serviços Básicos Amazon Compute Storage Database Networking Zonas de Disponibilidade Pontos de Infraestrutura Distribuição CDN Global Regiões
    • A cada dia, a AWS adiciona o equivalente em capacidade computacional, ao que era necessário para manter a Amazon.com de 2000
    • APIs e Automação
    • AutomaçãoEscale capacidade automaticamente
    • Utility computing
    • Utility computing Compute Scaling Security CDN Backup DNS Database Storage Load Balancing Workflow Monitoring Networking Messaging
    • 6 am
    • 10 am
    • 10 am
    • 10 am
    • 7 pm
    • 7 pm
    • 7 pm
    • 40 a 5000 em 3 dias Pico de 5000 instancias Numero de Instancias EC2 Divulagação Viral Lançamento da Integração com Facebook 40 instancias 4/12/2008 4/13/2008 4/14/2008 4/15/2008 4/16/2008 4/17/2008 4/18/2008 4/19/2008 4/20/2008
    • Seu “Data Center” pessoal
    • Objetos armazenados no S3 1 Trilhão 1000,000 750,000 500,000 250,000 0,000 Pico de 750 mil transações por segundo
    • A análise de grandes volumes de dados está se tornando a grande barreira parainovação, competição e produtividade.
    • O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados  Logs (web sites, jogos)  Sensores (tempo, água)  Imagens/vídeos (cameras, segurança) Gerados por pessoas  Blogs/Resenhas/Emails/Fotos Redes Sociais  Facebook, Linkedin, Twitter
    • Big Data está ficando cada vez maior 2.7 Zetabytes em 2012 Mais de 90% não estruturada Dados espalhados em diversos silos Precisamos de ferramentas para lidar com Big Data!
    • Onde se vê Big Data Marketing e Mídia/ Instituições Jogos Óleo e Gás Varejo Telecom SegurançaPropaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulações mental Recomen- dações de Monte Dirigidos Carlo Cobrança Log de Análise Detecção Análise de Ligações Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Análise de Análise de vídeos e Transações Riscos Reconheci- imagens mento de Métricas Imagens “In-game”
    • O que é Hadoop?Apache Hadoop  Sistema de storage distribuído e tolerante a falhas (HDFS)  Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídosBenefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema
    • "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce
    • RDBMS MapReduce (Hadoop) Schema definido Schema não requerido Explora índices para Análises rápidas de dados e recuperação rápida performance uniforme de queries SQL apenas Suporta SQL + outras linguagensNão escala linearmente Escalabilidade linear para reads + writes
    • Implantar um cluster hadoop é difícilhttp://eddie.niese.net/20090313/dont-pity-incompetence/
    • Big Data requer infraestrutura flexível Infraestrutura física leva a hardware e software estático e planejado para atender picos… …e muitas vezes acaba gerando longas filas de processamento
    • +
    • Data Warehouse Elástico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estável) (Estável) Diminui Aumenta para para 25 9 instancias instancias
    • S3Input data
    • S3 Input dataCode Elastic MapReduce
    • S3 Input dataCode Elastic Name MapReduce node
    • S3 Input dataCode Elastic Name MapReduce node Elastic cluster
    • S3 Input dataCode Elastic Name MapReduce node HDFS Elastic cluster
    • S3 Input dataCode Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
    • S3 Input dataCode Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster
    • S3Input data Output S3 + SimpleDB
    • OBRIGADO! aws.amazon.comRodolpho UgoliniAmazon Web Services@rugolini