Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data e a globo.com - 2017

3,245 views

Published on

Introdução a Big Data tendo como plano de fundo a globo.com .

Published in: Data & Analytics
  • Visit this site: tinyurl.com/sexinarea and find sex in your area for one night)) You can find me on this site too)
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Sex in your area for one night is there tinyurl.com/hotsexinarea Copy and paste link in your browser to visit a site)
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Girls for sex are waiting for you https://bit.ly/2TQ8UAY
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Meetings for sex in your area are there: https://bit.ly/2TQ8UAY
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Muito legal!!! Tinha publicado sobre um pouco desse assunto mas mais para área de UX Designer https://medium.com/@adrianoresende/como-um-portal-de-noticias-pode-melhorar-a-experiencia-de-usuarios-bac3c7ceafb1
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Big data e a globo.com - 2017

  1. 1. BIG DATA E A GLOBO.COM @renan_oliveira www.renanoliveira.net
  2. 2. O QUE É BIG DATA? e por que "todo mundo" quer
  3. 3. SERÁ?
  4. 4. 3 MILHÕES DE NOTÍCIAS NO GOOGLE 700 só na globo.com
  5. 5. “A cada dois dias nós criamos 5 exabytes de dados, isso é o mesmo que foi criado do início da civilização até 2003. -Eric Schmidt (CEO do Google)
  6. 6. 5 V ➤ Volume: Grandes de dados, desafios de armazenamento ➤ Variedade: Diferentes formatos de dados estruturados e/ou não ➤ Veracidade: Acurácia e autenticidade ➤ Valor: Retorno desses dados para o negócio/sociedade ➤ Velocidade: Tempo entre o dado gerado e analisado
  7. 7. PRA QUE TANTOS DADOS? ➤ Predição ➤ Personalização ➤ As pessoas tem interesses individuais ➤ Tantas informações são passadas que cronológico perde sentido ➤ Mostrar a mesma publicidade pra mim e pra minha mãe não faz sentido ➤ Queremos saber mais sobre o público
  8. 8. ORIGEM Google e a comunidade open source
  9. 9. GOOGLE FILE SYSTEM ➤ Publicação de 2003 ➤ Revolucionário ➤ Barateando o custo de processamento - máquinas baratas ➤ Os arquivos são divididos em chunks de 64mb ➤ Cada chunk tá no mínimo em 3 máquinas (localidade) ➤ É uma aplicação e não uma alteração no kernel http://cloudgroup.neu.edu.cn/papers/cloud%20data%20storage/gfs.pdf
  10. 10. MAPREDUCE ➤ Publicação de 2004 do Google ➤ Modelo para processar grande volume de dados dividindo o trabalho em tarefas para serem processadas independentemente ➤ A técnica de map e reduce era muito usadas em linguagens funcionais https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf
  11. 11. OPENSOURCE ➤ Nasceu no Yahoo em 2006 por Doug Cutting ➤ HDFS - Hadoop Distributed File System, implementação do GFS ➤ Hadoop MapReduce - Framework, implementação do MapReduce ➤ Hadoop Yarn - gestor e "agendador" de recursos ➤ Java é a sua principal linguagem
  12. 12. ➤ Se tornou um ecossistema ➤ Existem Bancos de dados baseados nele e novos Frameworks baseados nele surgiram ➤ Tem como contribuidores Yahoo, Facebook, LinkedIn, eBay, IBM, Google ➤ Cloudera, Hortonworks e MapR são algumas das empresas/consultorias que surgiram para difundir o Hadoop APACHE HADOOP
  13. 13. GLOBO.COM o que? pra que? onde? resultados
  14. 14. Como aprendemos os interesses dos usuários dado a sua navegação. desde 2012
  15. 15. EVENTOS ➤ 3 Bilhões de eventos diários ➤ 2 milhões de conexões simultâneas ➤ 50 milhões de usuários únicos por mês ➤ 100 mil novos conteúdos por mês
  16. 16. O QUE FAZEMOS? ➤ Recomendação ➤ Personalização ➤ Machine Learning ➤ Análise de consumo ➤ Análise de comportamento ➤ Experimentos ➤ Testes A/B ➤ Publicidade segmentada ➤ Data Driven Organization
  17. 17. NÚMEROS ➤ 100 mil recomendações por minuto ➤ 15 ms de tempo de resposta (p50) ➤ +300 testes A/B ➤ +20 algoritmos diferentes ➤ Presente em todos os produtos da globo.com (G1, GloboEsportes, GShow, TechTudo, GloboPlay) ➤ Time de Growth focados na melhoria em cada produto
  18. 18. FORMAS DE FAZER RECOMENDAÇÃO ➤ Usamos 2 formas de fazer recomendação ➤ User-Item - Muito usado em homes, página de chegada não demostrou um interesse específico. Dado um usuário o que ele tá mais propenso a ver ➤ Item-item - Dado uma matéria ou vídeo quais outros conteúdos lhe interessam
  19. 19. COLLABORATIVE FILTERING CONTENT BASED TOP
  20. 20. COLLABORATIVE FILTERING CONTENT BASED TOP
  21. 21. COLLABORATIVE FILTERING CONTENT BASED TOP
  22. 22. COLLABORATIVE FILTERING CONTENT BASED TOP surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero flamengo STJD copa do brasil fluminense henrique brasileirão
  23. 23. COLLABORATIVE FILTERING CONTENT BASED TOP
  24. 24. CONTENT BASED ➤ Coisas parecidas com essas, com as mesmas palavras-chave ➤ Ele tem uma rápida atualização ➤ Preciso conhecer do usuário ou do item ➤ Usado no Spotify para criação de playlists automáticas ➤ Duas abordagens são usadas na globo.com TF-IDF e Semântica ➤ TF-IDF: Automático para extração de palavras-chave ➤ Semântica: Os editores indicam no momento da criação sobre quem é e onde ocorreu o fato
  25. 25. COLLABORATIVE FILTERING ➤ O que usuários parecidos comigo viram que eu não vi ➤ É o de maior taxa de conversão, o mais assertivo ➤ Ele tem uma atualização lenta, não é bom para notícias bombásticas de agora e preciso conhecer o usuário ➤ Famoso pelo uso na Amazon ➤ Usado em e-commerces de todo mundo ➤ Netflix ficou famoso por fazer um ganho de performance com o algoritmo ALS - Fatoração de matriz ➤ ALS tem um ótimo resultado dentro da globo.com
  26. 26. TOPS ➤ Conteúdos mais visitados ➤ Usado quando não sabemos nada sobre o usuário ➤ Resolve o problema das notícias "bombásticas" ➤ Podem ser inteligentes, top por região do usuário
  27. 27. RESULTADOS - GLOBO.COM +60%
  28. 28. RESULTADOS - GLOBOESPORTE +22%
  29. 29. RESULTADOS - GSHOW +70%
  30. 30. RESULTADOS - TECHTUDO +30%
  31. 31. 80% da audiência 20% da audiência vs
  32. 32. 80% da audiência 20% da audiência vs
  33. 33. 80% da audiência 20% da audiência vs+78%conversão
  34. 34. TESTES A/B ➤ Método de avaliação de desempenho entre grupos ➤ Sempre temos um cenário que conhecemos, chamamos ele de controle ➤ Ajuda a dizer se um "botão" é melhor que outro ou se um algoritmo vence na maioria das vezes ➤ Método científico ➤ + de 400 testes já foram feitos na globo
  35. 35. JUPYTER ➤ Interface web para programar em Julia, Python, R (e outras linguagens) ➤ Usamos para validar futuros algoritmos por sua simplicidade ➤ É usado para os estudos sobre o comportamento dos usuários ➤ Ótimo para compartilhar ➤ O GitHub fez um renderizador ➤ Tem suporte a Spark (framework de processamento de grandes dados)
  36. 36. SUPERSET ➤ Criado pelo Airbnb em 2015 ➤ Democrático, não precisa saber programar para usar ➤ Explorador de dados ➤ Gerador de dashboard ➤ Gráficos para acompanhamento dos acontecimentos ➤ Facilidade de integração com muitos bancos de dados ➤ Estamos integrando nesse momento na globo.com
  37. 37. TECNOLOGIAS e o que usamos na globo.com
  38. 38. event tracker by globo.com
  39. 39. ARQUITETURA - LAMBDA
  40. 40. REAL TIME ➤ Consumimos do Kafka ➤ Usamos Spark Streaming ➤ Usamos Scala ou Java ➤ Salvamos os dados brutos em formato Parquet - "usuário fez algo em algum lugar” ➤ Algoritmos de decisão em tempo real ➤ Atualização dos modelos ➤ Sumarização usando o conceito de janela
  41. 41. BATCH ➤ Consumimos de muitos bancos de dados ➤ Usamos Spark + MLib ➤ Usamos Scala, Python ou R ➤ Usamos o Airflow para disparar o Job ➤ Bom pra ler os Parquets, muitos dados demoram para serem processados ➤ A maioria dos algoritmos usam essa estratégia
  42. 42. API - SERVING LAYER ➤ Escrevemos principalmente em Java e Scala ➤ Retornamos JSON ➤ Usamos Netty e Finagle ➤ Nginx para proxy reverso ➤ +100 mil requisições por minuto ➤ Tempo de resposta inferior a 20ms ➤ Usamos bancos de chave/valor - HBase e Redis
  43. 43. APACHE KAFKA ➤ Barramento (gestor de filas e tópicos) ➤ Para grandes volumes de entrada com baixa latência para processamento em tempo real ➤ Tem uma estrutura de cluster ➤ Criado no LinkedIn em 2011 ➤ Principal contribuidor é a Confluent ➤ Quem mais usa: Netflix, Uber, Spotify e PayPal
  44. 44. APACHE SPARK ➤ É um framework para N linguagens (Scala, Python, Java e R) - SQL ➤ Todos os nossos Jobs são feitos usando-o, tanto streaming quanto batch ➤ Estatísticos friendly ➤ Usa o conceito de DataFrame o mesmo usado no Pandas e R ➤ Conexão com várias entradas e saídas de dados ➤ Além do MapReduce
  45. 45. APACHE PARQUET ➤ Formato colunar ➤ Todos os nossos dados brutos ficam armazenados nesse formato ➤ Abstraindo ele é estruturados parecidos com o excel ou com CSV ➤ Ele fica salvo no HDFS ➤ Mais usado para salvar dados brutos (TB, PB de dados) ➤ Tem um ótimo compressor ➤ Os dados tem um schema
  46. 46. df = spark.read.parquet(“people.parquet”) df.printSchema() # root # |-- age: long (nullable = true) # |-- name: string (nullable = true) df.select("name").show() # +-------+ # | name| # +-------+ # |Michael| # | Andy| # | Justin| # +-------+
  47. 47. # Select everybody, but increment the age by 1 df.select(df['name'], df['age'] + 1).show() # +-------+---------+ # | name|(age + 1)| # +-------+---------+ # |Michael| null| # | Andy| 31| # | Justin| 20| # +-------+---------+ # Count people by age df.groupBy("age").count().show() # +----+-----+ # | age|count| # +----+-----+ # | 19| 1| # |null| 1| # | 30| 1| # +----+-----+
  48. 48. APACHE HBASE ➤ "KeyValue" de alta performance ➤ Feito para guardar dados para serem acessados de forma muito rápida ➤ Bom para salvar dados sem ocupar o espaço do chunk ➤ Salvamos os resultados da nossas recomendações nele para ter perfomance de leitura ➤ Os dados ficam armazenados em regiões (e essas regiões são ocupadas em ordem lexicográfica)
  49. 49. HABILIDADES e profissões
  50. 50. https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  51. 51. IF YOU WANT TO CONVINCE ME OF SOMETHING… SHOW ME NUMBERS
  52. 52. OBRIGADO @renan_oliveira www.renanoliveira.net

×