Your SlideShare is downloading. ×
  • Like
OS CINCO Vs DO BIG DATA
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

OS CINCO Vs DO BIG DATA

  • 2,824 views
Published

Apresentação de Leo Oliveira da Semantix na Internews em Workshop sobre Big Data no dia 26 de junho de 2013.

Apresentação de Leo Oliveira da Semantix na Internews em Workshop sobre Big Data no dia 26 de junho de 2013.

Published in Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,824
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
170
Comments
0
Likes
9

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • Para ter mais mel, você precisa de abelhas maiores ou de mais abelhas?
  • Qual é a diferença?
  • Onde encontrar valor?

Transcript

  • 1. 5 Vs do Big Data Como as soluções de Big Data têm revolucionado o mercado mundial
  • 2. Sobre a Semantix • Startup B2B • Fundada em 2007. Open Source desde 2010. • Parceira da LucidWorks e da Cloudera • Possui profissionais certificados Cloudera – Apenas 12 brasileiros, dos quais 3 vivem fora do Brasil. • Especializada em busca, recomendações, machine learning, processamento de linguagem natural e web semântica.
  • 3. Nossos Serviços • Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais. • Consultoria Open Source personalizada com profissionais certificados. • Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search. • Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
  • 4. Entre em contato! Leo Oliveira CTO & Co-Founder www.semantix.com.br loliveira@semantix.com.br faleconosco@semantix.com.br Skype: lennydays Twitter: @SemantixBR Facebook: www.facebook.com/SemantixBR LinkedIn: http://www.linkedin.com/in/leonardodias LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
  • 5. Agenda Virtude Volume Variedade Velocidade Valor
  • 6. Parte 1: Volume
  • 7. Parte 1: Ponta do Iceberg 99% dos dados estão “debaixo d’água” e não são utilizados nas empresas
  • 8. Parte 1: Onde colocar tanta informação?
  • 9. Parte 1: Onde colocar tanta informação?
  • 10. Parte 1: Onde colocar tanta informação?
  • 11. Parte 1: Como processar tanta informação? • Em 2007, o Google processava 400 PB de dados por mês; • Em 2010, o Facebook processava 100 PB por mês; • Tecnologia de Big Data é usada por todos os grandes players de internet. • A partir de 2006, empresas de outros ramos passam a adotar soluções de Big Data nos EUA.
  • 12. Parte 1: Como tudo começou? “We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.”
  • 13. Parte 1: Como tudo começou? • Google precisava: • Gravar grandes volumes de dados não-estruturados (páginas HTML); • Processar essas páginas para buscar as citações (links) e calcular o PageRank dessas páginas de acordo com as citações; • Criar um mecanismo de busca que utilizasse regras de busca textual (TF- IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.
  • 14. Parte 1: Como tudo começou? • Google percebeu que: • Informações não cabiam num único servidor; • Servidores quebram eventualmente; • Não existiam mecanismos que pudessem armazenar informações não- estruturadas ou estruturadas de forma horizontal.
  • 15. Parte 1: Como tudo começou? • Google criou: • Google File System: sistema de arquivo distribuído entre vários servidores que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir bastante a chance de perda de dados; • MapReduce: criou um framework que facilitaria para os desenvolvedores extrair informação de dados armazenados no Google File System, de forma paralelizada para aumentar a velocidade • Engenheiros do Google publicaram papers sobre o GFS e sobre o MapReduce nos anos de 2003 e 2004.
  • 16. Parte 1: Como tudo começou? • Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca. • Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web. • Se depara com o mesmo problema do Google: máquinas quebram. • Solução? Escrever um novo sistema baseado nos papers publicados pelos engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS. • Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com uma licença Open Source da Fundação Apache. • Surge também uma database NoSQL inspirada em outro projeto do Google, o BigTable, chamada HBase.
  • 17. Parte 1: Como tudo começou? • Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado atualmente. • Já possui conectores com grandes ferramentas de BI e analytics • Usado também para processamento semântico • Escala horizontalmente para Petabytes de dados • Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce • Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL) e Pig. HDFS + MapReduce = HADOOP
  • 18. Parte 1: Como tudo começou? Podemos adicionar à lista também as ferramentas Solr (2006) e ElasticSearch (2010) como databases NoSQL com modelo de documentos e voltadas para Search. Também são ferramentas de Big Data.
  • 19. Parte 2: Variedade
  • 20. Parte 2: Variedade
  • 21. Parte 2: Variedade FILES WEB LOGS SOCIAL MEDIA TRANSACTIONAL DATA SMART GRIDS OPERATIONAL DATA DIGITAL CONTENT R&D DATA AD IMPRESSIONS
  • 22. Parte 2: Exemplos • Processar imagens de fotos para encontrar textos e catalogá-los (MapReduce); • Fazer um “join” de dados de log do servidor web com tabelas do banco de dados para fazer uma análise do que cada usuário está navegando no site (Pig, Hive); • Buscar em logs de eventos de transações financeiras possíveis anomalias para detecção de fraude (Pig, Hive, MapReduce); • Analisar o comportamento de milhões de usuários em um determinado serviço para construir data products (Pig, Hive, MapReduce, Tableau, QlikView, R); • Criar mecanismos de machine learning a partir de avaliações de usuários feitas a produtos ou serviços para gerar recomendações inteligentes (Mahout, R, Octave, MatLab, Streaming); • Fazer consultas semânticas de texto complexas utilizando ferramentas adequadas e obtendo rápidos resultados tanto para buscas quanto para recomendações inteligentes (Solr, ElasticSearch, Lucene);
  • 23. Parte 3: Velocidade Assumption 3: A data set fits on one machine...
  • 24. Parte 3: A metáfora da colméia
  • 25. Parte 3: Novos paradigmas • Sistemas que utilizam muito memória RAM e logs de transações para aumentar a performance e garantir a confiabilidade; • Computação paralelizada • Escalabilidade de petabytes, em vez de gigabytes • Armazenamento e processamento distribuído • Sistemas de Big Data aumentam a capacidade de sistemas existentes em vez de substituí-los • Em alguns casos é possível substituir bancos transacionais para algumas aplicações utilizando bancos de dados NoSQL como Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch dentre outros • Cada ferramenta de Big Data tem a sua especialização. É necessário conhecer mais do que uma para tirar vantagens.
  • 26. Parte 4: Virtude
  • 27. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade
  • 28. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Simplicidade: “É preciso trabalhar duro para fazer o simples.” Steve Jobs.
  • 29. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Generosidade: investir sem uma expectativa de retorno imediata, mas com retorno no longo prazo
  • 30. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Caridade: compaixão, enten dimento dos clientes, política de privacidade, esclar ecimento do público
  • 31. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Vontade: os profissionais envolvidos devem ter muita vontade de manipular dados. Data jujutsu.
  • 32. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Prudência: novamente os limites da ética. Exemplo do câncer e da Angelina Jolie. Big Data pode mudar muitas coisas.
  • 33. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Paciência: é preciso paciência. Desenvolver para Big Data lidar com exceções e muito trabalho amostral é realizado antes do final.
  • 34. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Humildade: Big Data é uma forma de autoconheciment o. É necessário ter humildade para aceitar o que os dados mostram.
  • 35. Parte 5: Valor
  • 36. Parte 5: Valor “A vida é a flor da qual o amor é o mel”. Victor Hugo
  • 37. Parte 5: Morgan Stanley • Análise de Portfolio: • Sistemas de database e de grid tradicionais não funcionam • Construíram um sistema baseado em Hadoop com uma infraestrutura barata • Arquitetura escalável para processar dados ainda maiores • Detecção de fraude: • Análise de logs de banco de dados comparada com análise de logs web • Dados alterados no banco sem correspondência na web ligam um alerta • Economia de bilhões em fraudes. Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/
  • 38. Parte 5: Facebook • Real-Time Big Data Analytics: • Arquitetura MapReduce não é suficiente por não ser real-time • Utilizou soluções que armazenam dados em memória para exibir informações sobre opções “curtir” • Coloca 80% dos dados em memória • RAM é 100 a 1000x mais rápida do que disco • Coloca o código onde estão os dados • Armazena os dados persistentes após serem processados em bancos como MySQL, HBase e Cassandra Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
  • 39. Parte 5: Crossbow • Genoma e testes genéticos por menos de 100 dólares • Arquitetura MapReduce para processar genes • Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos de 100 dólares • Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética • Técnicas: detecção de padrões, classificação e cálculo de probabilidades. Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
  • 40. Parte 5: Netflix • Série House of Cards • A partir da análise de navegação e reviews, Netflix percebeu que poderia criar uma série de sucesso; • Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados; • Entendeu que thrillers políticos tinham grande apelo com o seu público; • Recomendação de filmes • Utiliza machine learning com técnicas de filtro colaborativo e k-nearest neighbor. • Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o catálogo é menor, mas ainda assim a precisão é muito boa. Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data
  • 41. Parte 5: LinkedIn • Criou uma série de data products baseados em Hadoop como: • “People you may know” (2 pessoas) • “Year in review email” (1 pessoa, 1 mês) • “Network updates” (1 pessoa, 3 meses) • “Skills and Endorsements” (2 pessoas) • LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes projetos”. Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop
  • 42. Parte 5: Amazon • O grande segredo da Amazon: recomendações • Recomendações por e-mail • Recomendações no momento da compra • Compras casadas • Análise do comportamento dos usuários Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/
  • 43. Parte 5: Obama • Análise de sentimento no Twitter e exército de apoiadores no Facebook • Levantamento de dados de mídias sociais • Análise de sentimento • Alcançar o eleitor certo na hora certa • Diversas técnicas de data science sendo utilizadas Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/
  • 44. Parte 5: Ford • Análise da cadeia de suprimentos e de que features colocará em cada carro • Comportamento dos usuários • Comportamento de compra • Integração com smartphones nos veículos • Carros melhores com dados analisados • Natural Language Processing para analisar comentários e sugestões de usuários Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/
  • 45. Parte 5: Aetna • Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever doenças • Resultados de exames • Consultas médicas (grafo) • Prevenção de câncer Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 46. Parte 5: Globo.com • Recomendação de notícias • Recomendação de notícias personalizada para usuários ou de acordo com os artigos • Utiliza Hadoop, Mahout e Solr • Mais de 100 Gb por dia de log processados • Um dos maiores sites do Brasil em termos de audiência • Cliente Semantix de Big Data Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 47. Parte 5: Doinet.com.br • Busca de documentos • Mais de 90 milhões de documentos • Consulta com relevância • Cada documento podendo conter mais de 1000 páginas de dados • Formatos variados (PDF, Texto) • Recomendação de conteúdo. Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 48. Parte 5: Catho • Mais de 10 data products de: • Busca (vagas, CVs, Empresas etc) • Recomendação por e-mail • Recomendação no site • Geração de conteúdo • Mais de 4 milhões de currículos • Utiliza Solr para os seus aplicativos de busca. Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 49. Parte 5: Como extrair valor? • Capacitação profissional • Formação de novos Data Scientists • Capacitação nas novas tecnologias • Entendimento das tecnologias para melhor escolha de custo-benefício • Criação de projetos • Data Scientists criam Data Products • Data Analytics (dashboards, análises complexas, dados na íntegra em vez de amostras) • Servidores de Busca • Aplicativos e softwares • Machine Learning • Fim dos relatórios “executivos” tradicionais • Entrega de produtos que podem ser analisados pelos executivos de forma ad-hoc e não mais os antigos relatórios impressos • Mudança de cultura em toda a empresa para uma readaptação à nova realidade.
  • 50. Parte 5: E a infra? • Prepare-se para a escalabilidade horizontal. • Privada • Custos com data center • Masters x Slaves • Masters requerem muita memória, mas pouco disco, com RAID e gravando dados em NFS para não perder nada. • Slaves requerem menos memória e CPU e muitos discos. Não vale a pena usar RAID. O melhor é JBOD: Just a Bunch of Disks. • Pública • AWS (EC2 e EMR) • Azure • Escalabilidade On-Demand
  • 51. Parte 5: Sem SQL? • NoSQL no Hadoop: Impala • Capacidade de executar queries SQL em Real-Time • Habilita conservação de dados na memória RAM do Cluster • Consultas complexas de SQL usando álgebra relacional, em vez de MapReduce (diferente do Hive) • Lançado em 2013
  • 52. Parte 5: Search & Recommendation • Solr 4 ou SolrCloud – Escalabilidade horizontal – Habilidade e versatilidade em consulta de dados – Orientada a documentos – Capaz de alimentar sistemas de análise, pois possui ótimo sistema de agregação de dados (facets) – Alta disponibilidade aliada a alto poder de busca – Foi incorporado pela Cloudera recentemente como ferramenta para consultar dados em larga escala.
  • 53. INFINITAS POSSIBILIDADES
  • 54. Sobre a Semantix • Startup B2B • Fundada em 2007. Open Source desde 2010. • Parceira da LucidWorks e da Cloudera • Possui profissionais certificados Cloudera – Apenas 12 brasileiros, dos quais 3 vivem fora do Brasil. • Especializada em busca, recomendações, machine learning, processamento de linguagem natural e web semântica.
  • 55. Nossos Serviços • Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais. • Consultoria Open Source personalizada com profissionais certificados. • Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search. • Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
  • 56. Entre em contato! Leo Oliveira CTO & Co-Founder www.semantix.com.br loliveira@semantix.com.br faleconosco@semantix.com.br Skype: lennydays Twitter: @SemantixBR Facebook: www.facebook.com/SemantixBR LinkedIn: http://www.linkedin.com/in/leonardodias LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil