SlideShare a Scribd company logo
1 of 33
Download to read offline
<Insert Picture Here>
MySQL e o Big Data
Alexandre M de Almeida
Consultor Senior em Banco de Dados
2
O que é Big Data?
• Big  Grande
• Data  Dados
3
O que é Big Data?
Variedade
Volume
Velocidade
• Quão novo é o conceito?
• 2001 (3V) de Doug Laney (Meta Group/Gartner)
Validade
4
O que é Big Data?
“Big Data é um modelo para administrar enormes
quantidades de dados (acima da capacidade dos
RDBMS atuais). Dados estes, normalmente, não
estruturados, de diversas fontes e, em sua, maioria não
tratados (sem confiabilidade), e, que apesar de seu alto
volume possa ser manipulado em tempo razoavelmente
baixo. Big Data utiliza-se do alto volume e diversidade
como forma de, estatisticamente, sobrepujar a baixa
qualidade dos dados”
“Perceber, capturar, armazenar e analisar. Este é o
objetivo das tecnologia de Big Data”
Computação Big Data: Criando Avanços Revolucionários para o comércio,
ciência e sociedade – CCC Computing Community Consortium, 2008
5
O que é Big Data?
• Grande volume de dados (10TB+)
– Bases menores podem ser melhor endereçadas por RDBMS
• Grande variedade de dados
– Maior quantidade para mitigar a má qualidade
– Não estruturados (e/ou estruturados)
– Formatos e fontes diferentes
• Grande velocidade
– Processar enormes quantidades de dados em menor tempo
– Processamento distribuído, paralelismo, + caixas + velocidade
• Medir e mensurar tudo
– Geração de conhecimento sobre dados difusos
• Essencialmente Analítico
– O objetivo primeiro, apesar de distorções, é OLAP!
6
Qual a origem do Big Data?
• 1944 – Arthur Freemont Rider
– Conteúdo universitário dobra a cada 16 anos
• 1961 – Derek Price
– Publicações científicas dobram a cada 15 anos
• 1964 – Harry J. Gray e Henry Ruston
– Publicam artigo sobre a “explosão dos dados”
• 1967 – B.A. Marron
– “Compressão de dados automática”
• 1971 – Arthur Miller
– “O homem será medido pela quantidade de bits que o descrevem”
• 1975 – Japão conduz censo sobre “Fluxo da Informação”
– Introduz a contagem de palavras para medir volume de dados
• 1980 – I.A. Tjomsland
– “Para onde vamos agora?” sobre como armazenar os dados produzidos
• 1981 – Centro de Estatística da Hungria
– Pesquisa sobre o volume de dados do país e como gerenciá-lo
7
Qual a motivação para o Big Data?
• Vivemos em novo mundo orientado à “informação”
• Sensores, robôs, rastreadores, capturam toneladas
de bytes (e até o Obama)
• Geramos informações tão difusas quanto complexas
• Analisar estas informações de várias formas
• Em tempo que não afete nossa ansiedade
• Produzir conhecimento em qualquer área
8
Crescimento de dados e impacto
9
Crescimento de dados e impacto
10
Crescimento de dados e impacto
Os dados são produzidos a todo
instante, por toda sorte de fonte.
Como vamos coletá-los?
Como vamos armazena-los?
Como vamos recupera-los e
interpreta-los em tempo razoável?
Como vamos produzir
conhecimento corporativo,
científico ou governamental em
prol do lucro ou da humanidade?
11
Como o Big Data afeta pessoas e empresas
• Pessoas
– Quem não faz parte de algum tipo de rede social?
– O Big Data produz um dossiê vivo, online
– Pessoas se conectam à pessoas
– Interagem melhor com o mundo
• Empresas
– Entendem melhor seu consumidor, competidores e mercado
– Investem melhor em áreas conhecidas e desconhecidas
• Governo
– Conhece melhor seu povo, costumes, necessidades
– Prevê tragédias e antecipa-se à necessidades futuras
• Ciência
– Simulações de todo tipo com “zilhões” de combinações (dados)
– Mapeia o universo externo e o nosso universo interno (genética)
– Construir máquinas, equipamentos, estruturas virtuais e testá-las
12
<Insert Picture Here>
“Nenhum de nós nesta sala irá ver o fim dos RBMS, e sim, seu
melhor uso ao estilo OLTP, e como fonte de apoio, indissolúvel,
ao Big Data. O Big Data vem para dar uma nova definição de
mundo, uma maneira, completamente, nova de explorar o
universo dos bytes, produzir conhecimento. O Big Data e sua
capacidade de analisar milhares de terabytes será uma
contribuição fundamental para a explosão do conhecimento”
Big Data e o RDBMS
13
Exemplos de uso do Big Data
• Wal-Mart
– Com sua base de mais de 10 petabyes (10.000 trilhões de
bytes) representados por mais de 350 milhões de transações
diárias de 6.000 lojas espalhadas pelo mundo, cria estratégias
de preços e logística, altamente, eficientes
• LSST (Large Synopit Survey Telescope)
– Instalado no topo de uma montanha no Chile escaneia o céu e
produz 30 trilhões de bytes em imagem por dia! Estes dados
serão analisados para conhecer o universo.
• LHC (Large Hadron Collider)
– O super acelerador de partículas produz 60 terabytes de dados
por dia (15 petabytes) por ano. O estudo destes dados
possibilitará enormes avanços na ciência.
14
Exemplos de uso do Big Data
• eCommerce
– Coletar cada click, cada visualização, cada navegação (tags internas e tags de
parceiros):
• Criar campanhas orientadas para regiões, grupos, e indivíduos
• Identificar oportunidades (ABC/Custo Oportunidade)
• Melhorar capacidade logística
• Seguros
– Coletar dados de diversas fontes: bases internas, segurança pública, redes sociais,
climáticas, etc:
• Análise de risco que afetam prêmio, franquia e lucro
• Entender as necessidades de proteção (novos produtos)
• Portais
– Analisar o perfil do internauta para entregar publicidade com alto grau de assertividade
– Redes sociais podem traçar perfis e sugerir (e encontrar) amigos
• Governo
– Engenharia de Tráfego: coletar, através de sensores, quantidade de veículos, rotas,
saturação e criar semáforos inteligentes
– Através de sensores metereológicos fazer previsões climáticas que possam ajudar os
diversos setores que são impactados por mudanças climáticas, e, prever tragédias
15
Exemplos de uso do Big Data
• Segurança Pública
– Capturar emails, twitters, blogs, ligações telefônicas, redes sociais
(Volume e Variedade de dados não estruturados) e prever ataques
terroristas, manifestações (***), identificar e capturar criminosos
• Supermercados
– Através de PDV’s ou RFID’s coletar e analisar informações sobre
consumo de cada indivíduo ou comunidade para ofertar produtos mais
adequados, gerando maior valor agregado e, evitando, perdas com
produtos pouco atrativos
• Infraestrutura e Segurança de Redes
– Analisar navegação e emails de funcionários para prevenir roubos e
fraudes
– Analisar milhões de linhas de logs de servidores para identificar e
prevenir problemas
16
Quem é quem no cenário de Big Data?
• Apache Hadoop
• Google BigQuery
• HPPC Systems
• Twitter/Backtype Storm
• Amazon Redshift
• Nokia Disco
• Berkeley Spark
• GraphLab
• E mais outros 123 players
– Variantes do Hadoop
– Variantes do MapReduce
– Linguagens
– Indexadores
– Frameworks
17
Quem é quem no cenário de Big Data?
• Alternativas interessantes:
– MongoDB
– Cassandra
– RavenDB
– Microsoft Azure Table Storage
– DynamoDB
18
Alternativas tecnológicas
• Existem várias, cada qual com suas virtudes e vicissitudes
• Para escolher é preciso saber:
– Tamanho mínimo e máximo do dataset
– Latência
– Sustentação (instalação, gerenciamento, disponibilidade, etc)
– Acessibilidade (como os dados são acessados, linguagens)
– Consultas em tempo real, consultas “Ad hoc”, etc
• Alternativas, realmente, viáveis:
– CDH – Cloudera Distribution of Hadoop
– Google BigQuery
– HPCC (High Performance Computing Cluster)
– Storm + Cassandra
19
Olha o passo do elefantinho…
• Hadoop
– Entre 80% e 90% das implementações de Big Data
– Hadoop tem se provado como melhor alternativa
– Vários casos de sucesso (NOAA, NASA, FBI, CIA, Wal-Mart,
Expedia, Groupon, eBay, Yahoo!, Google, Facebook,
Linkedin, Mercado Livre, Ning, Rakuten, Telefonica, Twitter)
– CDH da Cloudera é a melhor distribuição:
• Fácil de instalar e implementar (NNF)
• Gerenciador de Cluster
• Melhor conjunto de complementos:
• Hadoop, Flume, Hive, Mahout, Oozie, Pig, Sqoop, Whirr,
Zoekeeper, Hue, Hbase e Impala
• Free!!!
20
CDH – Cloudera Distribution of Hadoop
21
MySQL e o Big Data
• 5 Terabytes é Big Data?
– Maioria das implementações c/ MySQL: 150GB e 500GB
– É possível, somente, com MySQL?
– Técnicas:
• Particionamento
• Sharding
• Replicação, balanceamento, clusterização
• Covering Index
• MyISAM para OLAP
• InnoDB para OLTP
• E lógico… Hardware adequado!
22
MySQL e o Big Data
• 10 Terabytes é Big Data?
• TokuDB
– Storage engine by Totutek
– Transacional (ACID e MVCC)
– Índice fractal ao invés de B-tree
– +10,000 inserts/segundo
• InfiniDB
– Storage engine by CalPont
– MPP – Massive Parallel Processing
– Particionamento automático
– Altamente escalável para múltiplos nós
– Suporte transacional (ACID e MVCC)
• Resolvem problemas típicos:
•Performance
•Load
•Manutenção
23
MySQL e o Big Data
• Muitos terabytes é Big Data!
• Integrar o MySQL com o Hadoop é opção PREMIUM
24
MySQL e o Big Data
• Aquisição de Dados
– MySQL 5.6 inclui novas características de NoSQL (memcache)
– Grande capacidade de cargas unitárias (inserts) e/ou batch (loads)
– ACID e MVCC
– Sem necessidade de storage engine de terceiros
– Permite fazer um pré-processamento antes do Hadoop
– Pré-análise dos dados recém “adquiridos”
– Aplicar PCI / HIPAA / Sarbanes
25
• Organização
– Uma vez que os dados estão no MySQL  Consultas Real Time
– Transformar, consolidar, higienizar, padronizar, unificar (DQ)
– Exportar dados
• Batch (cargas)
• Real-Time
• Unidirecional
• Bi-Direcional
– Apache Sqooop
– MySQL Applier
MySQL e o Big Data
26
MySQL e o Big Data
27
MySQL e o Big Data
28
• Exemplos Sqoop:
sqoop-import --connect jdbc:mysql://meu_servidor/meu_banco --driver com.mysql.jdbc.Driver –
username meu_usuario –password minha_senha --table user --hbase-table user --hbase-row-key id
--column-family data
sqoop-import --connect jdbc:mysql://meu_servidor/meu_banco --driver com.mysql.jdbc.Driver –
username meu_usuario –password minha_senha --hbase-table user --hbase-row-key id --column-
family data --query ”SELECT a.*, b.* FROM a JOIN b WHERE condição”
MySQL e o Big Data
29
• Análise
– Cadê o MySQL?
– Nesta fase é onde acontece o processamento de grandes datasets
– Os dados já foram “transportados” para o HDFS (ou repositório)
– Geralmente em clusters de servidores
– Manipulação:
• Hive
• Pig
• Mahout
• Hue (GUI)
– Map/Reduce
• E seus derivativos
MySQL e o Big Data
30
• Decisão
– Após o processamento mais pesado na fase de análise, pode-se
“transportar” os dados novamente para o MySQL
– Disponibilização de relatórios e cubos de dados
– Utilização de ferramentas de BI para produção de conhecimento
MySQL e o Big Data
31
• Ou você pega o Big Data ou ele vai pegar você
• É melhor preparar-se do que ser atropelado por ele
• MySQL pode ser utilizado sozinho até 2TB
• Acima de 2TB será necessário técnicas especiais
• Hadoop é o padrão
• Cloudera entrega a melhor distribuição
• Utilizar o MySQL + Hadoop como parte de um portfolio
para um Big Data de qualidade, distribuindo carga e
tarefas, é a melhor solução
Conclusão
32
<Insert Picture Here>
OBRIGADO!
Alexandre M de Almeida
alexandremalmeida.com.br
alex_almeida_db
33

More Related Content

Viewers also liked

Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webRobson Santos
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab msBonoBee
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaJoão Gabriel Lima
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra Otávio Santana
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMatheus Pereira
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoDalton Martins
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com PythonAna Paula Gomes
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...João Gabriel Lima
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013PentahoBrasil
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crmRamón Díaz
 
Desenvolvendo mvp com python
Desenvolvendo mvp com pythonDesenvolvendo mvp com python
Desenvolvendo mvp com pythonBruno Rocha
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016] Apache Cassandra Estratégias de Modelagem de DadosEiti Kimura
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosRubem Ventura Alves
 

Viewers also liked (19)

Usabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na webUsabilidade de interface para busca e recuperação de informação na web
Usabilidade de interface para busca e recuperação de informação na web
 
Palestra MVP living lab ms
Palestra MVP   living lab msPalestra MVP   living lab ms
Palestra MVP living lab ms
 
Mineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e WekaMineração de dados na prática com RapidMiner e Weka
Mineração de dados na prática com RapidMiner e Weka
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Mantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e GitMantendo seu Tempo a salvo com Python e Git
Mantendo seu Tempo a salvo com Python e Git
 
Mineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informaçãoMineração de dados e novas oportunidades de análise para sistemas de informação
Mineração de dados e novas oportunidades de análise para sistemas de informação
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Análise de Redes Sociais com Python
Análise de Redes Sociais com PythonAnálise de Redes Sociais com Python
Análise de Redes Sociais com Python
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
 
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
Criando soluções de BI com Pentaho e Dados Abertos @ Pentaho Day 2013
 
Cases big data
Cases big dataCases big data
Cases big data
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Modelos analiticos crm
Modelos analiticos crmModelos analiticos crm
Modelos analiticos crm
 
Desenvolvendo mvp com python
Desenvolvendo mvp com pythonDesenvolvendo mvp com python
Desenvolvendo mvp com python
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Relatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta WekaRelatório Utilização da Ferramenta Weka
Relatório Utilização da Ferramenta Weka
 
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados[TDC2016]  Apache Cassandra Estratégias de Modelagem de Dados
[TDC2016] Apache Cassandra Estratégias de Modelagem de Dados
 
Análise de Problemas Big Data
Análise de Problemas Big DataAnálise de Problemas Big Data
Análise de Problemas Big Data
 
Weka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de DadosWeka – Ferramenta Livre para Mineração de Dados
Weka – Ferramenta Livre para Mineração de Dados
 

More from MySQL Brasil

MySQL como Document Store PHP Conference 2017
MySQL como Document Store PHP Conference 2017MySQL como Document Store PHP Conference 2017
MySQL como Document Store PHP Conference 2017MySQL Brasil
 
MySQL no Paypal Tesla e Uber
MySQL no Paypal Tesla e UberMySQL no Paypal Tesla e Uber
MySQL no Paypal Tesla e UberMySQL Brasil
 
Alta disponibilidade com MySQL Enterprise
Alta disponibilidade com MySQL EnterpriseAlta disponibilidade com MySQL Enterprise
Alta disponibilidade com MySQL EnterpriseMySQL Brasil
 
MySQL Roadmap NoSQL HA Fev17
MySQL Roadmap NoSQL HA Fev17MySQL Roadmap NoSQL HA Fev17
MySQL Roadmap NoSQL HA Fev17MySQL Brasil
 
Segurança no MySQL
Segurança no MySQLSegurança no MySQL
Segurança no MySQLMySQL Brasil
 
5 razões estratégicas para usar MySQL
5 razões estratégicas para usar MySQL5 razões estratégicas para usar MySQL
5 razões estratégicas para usar MySQLMySQL Brasil
 
Alta disponibilidade no MySQL 5.7 GUOB 2016
Alta disponibilidade no MySQL 5.7 GUOB 2016Alta disponibilidade no MySQL 5.7 GUOB 2016
Alta disponibilidade no MySQL 5.7 GUOB 2016MySQL Brasil
 
MySQL 5.7 como Document Store
MySQL 5.7 como Document StoreMySQL 5.7 como Document Store
MySQL 5.7 como Document StoreMySQL Brasil
 
Enabling digital transformation with MySQL
Enabling digital transformation with MySQLEnabling digital transformation with MySQL
Enabling digital transformation with MySQLMySQL Brasil
 
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPAlta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPMySQL Brasil
 
Alta Disponibilidade no MySQL 5.7
Alta Disponibilidade no MySQL 5.7Alta Disponibilidade no MySQL 5.7
Alta Disponibilidade no MySQL 5.7MySQL Brasil
 
NoSQL no MySQL 5.7
NoSQL no MySQL 5.7NoSQL no MySQL 5.7
NoSQL no MySQL 5.7MySQL Brasil
 
10 Razões para Usar MySQL em Startups
10 Razões para Usar MySQL em Startups10 Razões para Usar MySQL em Startups
10 Razões para Usar MySQL em StartupsMySQL Brasil
 
Novidades do MySQL para desenvolvedores ago15
Novidades do MySQL para desenvolvedores ago15Novidades do MySQL para desenvolvedores ago15
Novidades do MySQL para desenvolvedores ago15MySQL Brasil
 
Estratégias de Segurança e Gerenciamento para MySQL
Estratégias de Segurança e Gerenciamento para MySQLEstratégias de Segurança e Gerenciamento para MySQL
Estratégias de Segurança e Gerenciamento para MySQLMySQL Brasil
 
Novidades do Universo MySQL julho-15
Novidades do Universo MySQL julho-15Novidades do Universo MySQL julho-15
Novidades do Universo MySQL julho-15MySQL Brasil
 
Serviços Escaláveis e de Alta Performance com MySQL e Java
Serviços Escaláveis e de Alta Performance com MySQL e JavaServiços Escaláveis e de Alta Performance com MySQL e Java
Serviços Escaláveis e de Alta Performance com MySQL e JavaMySQL Brasil
 
MySQL The State of the Dolphin - jun15
MySQL The State of the Dolphin - jun15MySQL The State of the Dolphin - jun15
MySQL The State of the Dolphin - jun15MySQL Brasil
 

More from MySQL Brasil (20)

MySQL como Document Store PHP Conference 2017
MySQL como Document Store PHP Conference 2017MySQL como Document Store PHP Conference 2017
MySQL como Document Store PHP Conference 2017
 
MySQL no Paypal Tesla e Uber
MySQL no Paypal Tesla e UberMySQL no Paypal Tesla e Uber
MySQL no Paypal Tesla e Uber
 
MySQL 8.0.1 DMR
MySQL 8.0.1 DMRMySQL 8.0.1 DMR
MySQL 8.0.1 DMR
 
Alta disponibilidade com MySQL Enterprise
Alta disponibilidade com MySQL EnterpriseAlta disponibilidade com MySQL Enterprise
Alta disponibilidade com MySQL Enterprise
 
MySQL Roadmap NoSQL HA Fev17
MySQL Roadmap NoSQL HA Fev17MySQL Roadmap NoSQL HA Fev17
MySQL Roadmap NoSQL HA Fev17
 
Segurança no MySQL
Segurança no MySQLSegurança no MySQL
Segurança no MySQL
 
5 razões estratégicas para usar MySQL
5 razões estratégicas para usar MySQL5 razões estratégicas para usar MySQL
5 razões estratégicas para usar MySQL
 
Alta disponibilidade no MySQL 5.7 GUOB 2016
Alta disponibilidade no MySQL 5.7 GUOB 2016Alta disponibilidade no MySQL 5.7 GUOB 2016
Alta disponibilidade no MySQL 5.7 GUOB 2016
 
MySQL 5.7 como Document Store
MySQL 5.7 como Document StoreMySQL 5.7 como Document Store
MySQL 5.7 como Document Store
 
Enabling digital transformation with MySQL
Enabling digital transformation with MySQLEnabling digital transformation with MySQL
Enabling digital transformation with MySQL
 
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHPAlta Disponibilidade no MySQL 5.7 para aplicações em PHP
Alta Disponibilidade no MySQL 5.7 para aplicações em PHP
 
Alta Disponibilidade no MySQL 5.7
Alta Disponibilidade no MySQL 5.7Alta Disponibilidade no MySQL 5.7
Alta Disponibilidade no MySQL 5.7
 
NoSQL no MySQL 5.7
NoSQL no MySQL 5.7NoSQL no MySQL 5.7
NoSQL no MySQL 5.7
 
OpenStack & MySQL
OpenStack & MySQLOpenStack & MySQL
OpenStack & MySQL
 
10 Razões para Usar MySQL em Startups
10 Razões para Usar MySQL em Startups10 Razões para Usar MySQL em Startups
10 Razões para Usar MySQL em Startups
 
Novidades do MySQL para desenvolvedores ago15
Novidades do MySQL para desenvolvedores ago15Novidades do MySQL para desenvolvedores ago15
Novidades do MySQL para desenvolvedores ago15
 
Estratégias de Segurança e Gerenciamento para MySQL
Estratégias de Segurança e Gerenciamento para MySQLEstratégias de Segurança e Gerenciamento para MySQL
Estratégias de Segurança e Gerenciamento para MySQL
 
Novidades do Universo MySQL julho-15
Novidades do Universo MySQL julho-15Novidades do Universo MySQL julho-15
Novidades do Universo MySQL julho-15
 
Serviços Escaláveis e de Alta Performance com MySQL e Java
Serviços Escaláveis e de Alta Performance com MySQL e JavaServiços Escaláveis e de Alta Performance com MySQL e Java
Serviços Escaláveis e de Alta Performance com MySQL e Java
 
MySQL The State of the Dolphin - jun15
MySQL The State of the Dolphin - jun15MySQL The State of the Dolphin - jun15
MySQL The State of the Dolphin - jun15
 

MySQL e o Big Data - HTI Tecnologia - 07ago2013

  • 1. <Insert Picture Here> MySQL e o Big Data Alexandre M de Almeida Consultor Senior em Banco de Dados
  • 2. 2 O que é Big Data? • Big  Grande • Data  Dados
  • 3. 3 O que é Big Data? Variedade Volume Velocidade • Quão novo é o conceito? • 2001 (3V) de Doug Laney (Meta Group/Gartner) Validade
  • 4. 4 O que é Big Data? “Big Data é um modelo para administrar enormes quantidades de dados (acima da capacidade dos RDBMS atuais). Dados estes, normalmente, não estruturados, de diversas fontes e, em sua, maioria não tratados (sem confiabilidade), e, que apesar de seu alto volume possa ser manipulado em tempo razoavelmente baixo. Big Data utiliza-se do alto volume e diversidade como forma de, estatisticamente, sobrepujar a baixa qualidade dos dados” “Perceber, capturar, armazenar e analisar. Este é o objetivo das tecnologia de Big Data” Computação Big Data: Criando Avanços Revolucionários para o comércio, ciência e sociedade – CCC Computing Community Consortium, 2008
  • 5. 5 O que é Big Data? • Grande volume de dados (10TB+) – Bases menores podem ser melhor endereçadas por RDBMS • Grande variedade de dados – Maior quantidade para mitigar a má qualidade – Não estruturados (e/ou estruturados) – Formatos e fontes diferentes • Grande velocidade – Processar enormes quantidades de dados em menor tempo – Processamento distribuído, paralelismo, + caixas + velocidade • Medir e mensurar tudo – Geração de conhecimento sobre dados difusos • Essencialmente Analítico – O objetivo primeiro, apesar de distorções, é OLAP!
  • 6. 6 Qual a origem do Big Data? • 1944 – Arthur Freemont Rider – Conteúdo universitário dobra a cada 16 anos • 1961 – Derek Price – Publicações científicas dobram a cada 15 anos • 1964 – Harry J. Gray e Henry Ruston – Publicam artigo sobre a “explosão dos dados” • 1967 – B.A. Marron – “Compressão de dados automática” • 1971 – Arthur Miller – “O homem será medido pela quantidade de bits que o descrevem” • 1975 – Japão conduz censo sobre “Fluxo da Informação” – Introduz a contagem de palavras para medir volume de dados • 1980 – I.A. Tjomsland – “Para onde vamos agora?” sobre como armazenar os dados produzidos • 1981 – Centro de Estatística da Hungria – Pesquisa sobre o volume de dados do país e como gerenciá-lo
  • 7. 7 Qual a motivação para o Big Data? • Vivemos em novo mundo orientado à “informação” • Sensores, robôs, rastreadores, capturam toneladas de bytes (e até o Obama) • Geramos informações tão difusas quanto complexas • Analisar estas informações de várias formas • Em tempo que não afete nossa ansiedade • Produzir conhecimento em qualquer área
  • 10. 10 Crescimento de dados e impacto Os dados são produzidos a todo instante, por toda sorte de fonte. Como vamos coletá-los? Como vamos armazena-los? Como vamos recupera-los e interpreta-los em tempo razoável? Como vamos produzir conhecimento corporativo, científico ou governamental em prol do lucro ou da humanidade?
  • 11. 11 Como o Big Data afeta pessoas e empresas • Pessoas – Quem não faz parte de algum tipo de rede social? – O Big Data produz um dossiê vivo, online – Pessoas se conectam à pessoas – Interagem melhor com o mundo • Empresas – Entendem melhor seu consumidor, competidores e mercado – Investem melhor em áreas conhecidas e desconhecidas • Governo – Conhece melhor seu povo, costumes, necessidades – Prevê tragédias e antecipa-se à necessidades futuras • Ciência – Simulações de todo tipo com “zilhões” de combinações (dados) – Mapeia o universo externo e o nosso universo interno (genética) – Construir máquinas, equipamentos, estruturas virtuais e testá-las
  • 12. 12 <Insert Picture Here> “Nenhum de nós nesta sala irá ver o fim dos RBMS, e sim, seu melhor uso ao estilo OLTP, e como fonte de apoio, indissolúvel, ao Big Data. O Big Data vem para dar uma nova definição de mundo, uma maneira, completamente, nova de explorar o universo dos bytes, produzir conhecimento. O Big Data e sua capacidade de analisar milhares de terabytes será uma contribuição fundamental para a explosão do conhecimento” Big Data e o RDBMS
  • 13. 13 Exemplos de uso do Big Data • Wal-Mart – Com sua base de mais de 10 petabyes (10.000 trilhões de bytes) representados por mais de 350 milhões de transações diárias de 6.000 lojas espalhadas pelo mundo, cria estratégias de preços e logística, altamente, eficientes • LSST (Large Synopit Survey Telescope) – Instalado no topo de uma montanha no Chile escaneia o céu e produz 30 trilhões de bytes em imagem por dia! Estes dados serão analisados para conhecer o universo. • LHC (Large Hadron Collider) – O super acelerador de partículas produz 60 terabytes de dados por dia (15 petabytes) por ano. O estudo destes dados possibilitará enormes avanços na ciência.
  • 14. 14 Exemplos de uso do Big Data • eCommerce – Coletar cada click, cada visualização, cada navegação (tags internas e tags de parceiros): • Criar campanhas orientadas para regiões, grupos, e indivíduos • Identificar oportunidades (ABC/Custo Oportunidade) • Melhorar capacidade logística • Seguros – Coletar dados de diversas fontes: bases internas, segurança pública, redes sociais, climáticas, etc: • Análise de risco que afetam prêmio, franquia e lucro • Entender as necessidades de proteção (novos produtos) • Portais – Analisar o perfil do internauta para entregar publicidade com alto grau de assertividade – Redes sociais podem traçar perfis e sugerir (e encontrar) amigos • Governo – Engenharia de Tráfego: coletar, através de sensores, quantidade de veículos, rotas, saturação e criar semáforos inteligentes – Através de sensores metereológicos fazer previsões climáticas que possam ajudar os diversos setores que são impactados por mudanças climáticas, e, prever tragédias
  • 15. 15 Exemplos de uso do Big Data • Segurança Pública – Capturar emails, twitters, blogs, ligações telefônicas, redes sociais (Volume e Variedade de dados não estruturados) e prever ataques terroristas, manifestações (***), identificar e capturar criminosos • Supermercados – Através de PDV’s ou RFID’s coletar e analisar informações sobre consumo de cada indivíduo ou comunidade para ofertar produtos mais adequados, gerando maior valor agregado e, evitando, perdas com produtos pouco atrativos • Infraestrutura e Segurança de Redes – Analisar navegação e emails de funcionários para prevenir roubos e fraudes – Analisar milhões de linhas de logs de servidores para identificar e prevenir problemas
  • 16. 16 Quem é quem no cenário de Big Data? • Apache Hadoop • Google BigQuery • HPPC Systems • Twitter/Backtype Storm • Amazon Redshift • Nokia Disco • Berkeley Spark • GraphLab • E mais outros 123 players – Variantes do Hadoop – Variantes do MapReduce – Linguagens – Indexadores – Frameworks
  • 17. 17 Quem é quem no cenário de Big Data? • Alternativas interessantes: – MongoDB – Cassandra – RavenDB – Microsoft Azure Table Storage – DynamoDB
  • 18. 18 Alternativas tecnológicas • Existem várias, cada qual com suas virtudes e vicissitudes • Para escolher é preciso saber: – Tamanho mínimo e máximo do dataset – Latência – Sustentação (instalação, gerenciamento, disponibilidade, etc) – Acessibilidade (como os dados são acessados, linguagens) – Consultas em tempo real, consultas “Ad hoc”, etc • Alternativas, realmente, viáveis: – CDH – Cloudera Distribution of Hadoop – Google BigQuery – HPCC (High Performance Computing Cluster) – Storm + Cassandra
  • 19. 19 Olha o passo do elefantinho… • Hadoop – Entre 80% e 90% das implementações de Big Data – Hadoop tem se provado como melhor alternativa – Vários casos de sucesso (NOAA, NASA, FBI, CIA, Wal-Mart, Expedia, Groupon, eBay, Yahoo!, Google, Facebook, Linkedin, Mercado Livre, Ning, Rakuten, Telefonica, Twitter) – CDH da Cloudera é a melhor distribuição: • Fácil de instalar e implementar (NNF) • Gerenciador de Cluster • Melhor conjunto de complementos: • Hadoop, Flume, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, Zoekeeper, Hue, Hbase e Impala • Free!!!
  • 20. 20 CDH – Cloudera Distribution of Hadoop
  • 21. 21 MySQL e o Big Data • 5 Terabytes é Big Data? – Maioria das implementações c/ MySQL: 150GB e 500GB – É possível, somente, com MySQL? – Técnicas: • Particionamento • Sharding • Replicação, balanceamento, clusterização • Covering Index • MyISAM para OLAP • InnoDB para OLTP • E lógico… Hardware adequado!
  • 22. 22 MySQL e o Big Data • 10 Terabytes é Big Data? • TokuDB – Storage engine by Totutek – Transacional (ACID e MVCC) – Índice fractal ao invés de B-tree – +10,000 inserts/segundo • InfiniDB – Storage engine by CalPont – MPP – Massive Parallel Processing – Particionamento automático – Altamente escalável para múltiplos nós – Suporte transacional (ACID e MVCC) • Resolvem problemas típicos: •Performance •Load •Manutenção
  • 23. 23 MySQL e o Big Data • Muitos terabytes é Big Data! • Integrar o MySQL com o Hadoop é opção PREMIUM
  • 24. 24 MySQL e o Big Data • Aquisição de Dados – MySQL 5.6 inclui novas características de NoSQL (memcache) – Grande capacidade de cargas unitárias (inserts) e/ou batch (loads) – ACID e MVCC – Sem necessidade de storage engine de terceiros – Permite fazer um pré-processamento antes do Hadoop – Pré-análise dos dados recém “adquiridos” – Aplicar PCI / HIPAA / Sarbanes
  • 25. 25 • Organização – Uma vez que os dados estão no MySQL  Consultas Real Time – Transformar, consolidar, higienizar, padronizar, unificar (DQ) – Exportar dados • Batch (cargas) • Real-Time • Unidirecional • Bi-Direcional – Apache Sqooop – MySQL Applier MySQL e o Big Data
  • 26. 26 MySQL e o Big Data
  • 27. 27 MySQL e o Big Data
  • 28. 28 • Exemplos Sqoop: sqoop-import --connect jdbc:mysql://meu_servidor/meu_banco --driver com.mysql.jdbc.Driver – username meu_usuario –password minha_senha --table user --hbase-table user --hbase-row-key id --column-family data sqoop-import --connect jdbc:mysql://meu_servidor/meu_banco --driver com.mysql.jdbc.Driver – username meu_usuario –password minha_senha --hbase-table user --hbase-row-key id --column- family data --query ”SELECT a.*, b.* FROM a JOIN b WHERE condição” MySQL e o Big Data
  • 29. 29 • Análise – Cadê o MySQL? – Nesta fase é onde acontece o processamento de grandes datasets – Os dados já foram “transportados” para o HDFS (ou repositório) – Geralmente em clusters de servidores – Manipulação: • Hive • Pig • Mahout • Hue (GUI) – Map/Reduce • E seus derivativos MySQL e o Big Data
  • 30. 30 • Decisão – Após o processamento mais pesado na fase de análise, pode-se “transportar” os dados novamente para o MySQL – Disponibilização de relatórios e cubos de dados – Utilização de ferramentas de BI para produção de conhecimento MySQL e o Big Data
  • 31. 31 • Ou você pega o Big Data ou ele vai pegar você • É melhor preparar-se do que ser atropelado por ele • MySQL pode ser utilizado sozinho até 2TB • Acima de 2TB será necessário técnicas especiais • Hadoop é o padrão • Cloudera entrega a melhor distribuição • Utilizar o MySQL + Hadoop como parte de um portfolio para um Big Data de qualidade, distribuindo carga e tarefas, é a melhor solução Conclusão
  • 32. 32 <Insert Picture Here> OBRIGADO! Alexandre M de Almeida alexandremalmeida.com.br alex_almeida_db
  • 33. 33