Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big data e globo.com - Uma visão sobre a cultura de dados

3,864 views

Published on

Apresentação na TDC SP em 2017 na trilha de Data Science.
Apresentando arquitetura e a cultura de dado presentes na globo.com

Published in: Data & Analytics
  • Be the first to comment

Big data e globo.com - Uma visão sobre a cultura de dados

  1. 1. BIG DATA E A GLOBO.COM
  2. 2. ENGENHEIRO DE DADOS NA GLOBO.COM @renan_oliveira
  3. 3. Como aprendemos os interesses dos usuários dado a sua navegação.
  4. 4. EVENTOS 3 Bilhões de eventos diários 2 milhões de conexões simultâneas 50 milhões de usuários únicos por mês 100 mil novos conteúdos por mês
  5. 5. O QUE FAZEMOS? ➤ Recomendação ➤ Personalização ➤ Machine Learning ➤ Publicidade segmentada ➤ Análise de consumo ➤ Análise de comportamento ➤ Experimentos ➤ Testes A/B ➤ Data Driven Organization
  6. 6. SOPA DE LETRINHAS para manter um dos maiores cases do Brasil
  7. 7. event tracker by globo.com
  8. 8. ARQUITETURA - LAMBDA
  9. 9. REAL TIME ➤ Consumimos do Kafka ➤ Usamos Spark Streaming ➤ Usamos Scala ou Java ➤ Salvamos os dados brutos em formato Parquet - "usuário fez algo em algum lugar” ➤ Algoritmos de decisão em tempo real ➤ Atualização dos modelos ➤ Sumarização usando o conceito de janela
  10. 10. BATCH ➤ Consumimos de muitos bancos de dados ➤ Usamos Spark + MLib ➤ Usamos Scala, Python ou R ➤ Usamos o Airflow para disparar o Job ➤ Bom pra ler os Parquets, muitos dados demoram para serem processados ➤ A maioria dos algoritmos usam essa estratégia
  11. 11. PLATAFORMA DE EXPERIMENTOS testes a/b
  12. 12. THERE IS NO INNOVATION WITHOUT EXPERIMENTATION
  13. 13. TESTES A/B ➤ Método de avaliação de desempenho entre grupos ➤ Sempre temos um cenário que conhecemos, chamamos ele de controle ➤ Ajuda a dizer se um "botão" é melhor que outro ou se um algoritmo vence na maioria das vezes ➤ Método científico ➤ + de 100 testes rodando HOJE
  14. 14. 80% da audiência 20% da audiência vs
  15. 15. 80% da audiência 20% da audiência vs
  16. 16. 80% da audiência 20% da audiência vs +X% conversão
  17. 17. JUPYTER ➤ Interface web para programar em Julia, Python, R (e outras linguagens) ➤ Usamos para validar futuros algoritmos por sua simplicidade ➤ É usado para os estudos sobre o comportamento dos usuários ➤ Ótimo para compartilhar ➤ O GitHub fez um renderizador ➤ Tem suporte a Spark (framework de processamento de grandes dados)
  18. 18. SUPERSET ➤ Criado pelo Airbnb em 2015 ➤ Democrático, não precisa saber programar para usar ➤ Explorador de dados ➤ Gerador de dashboard ➤ Gráficos para acompanhamento dos acontecimentos ➤ Facilidade de integração com muitos bancos de dados
  19. 19. RECOMENDAÇÃO + growth
  20. 20. NÚMEROS ➤ 100 mil recomendações por minuto ➤ 15 ms de tempo de resposta (p50) ➤ +500 testes A/B ➤ +20 algoritmos diferentes ➤ Presente em todos os produtos da globo.com (G1, GloboEsportes, GShow, TechTudo, GloboPlay) ➤ Time de Growth focados na melhoria em cada produto
  21. 21. COLLABORATIVE FILTERING CONTENT BASED TOP
  22. 22. COLLABORATIVE FILTERING CONTENT BASED TOP
  23. 23. COLLABORATIVE FILTERING CONTENT BASED TOP
  24. 24. COLLABORATIVE FILTERING CONTENT BASED TOP surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero flamengo STJD copa do brasil fluminense henrique brasileirão
  25. 25. COLLABORATIVE FILTERING CONTENT BASED TOP
  26. 26. RESULTADOS - GLOBO PLAY +X%
  27. 27. RESULTADOS - GLOBOESPORTE +X%
  28. 28. RESULTADOS - G1 +25%+X%
  29. 29. RESULTADOS - GSHOW +25%+X%
  30. 30. GROWTH É A FUSÃO DO CONHECIMENTO DO PRODUTO COM OS DADOS DE BIG DATA desde 2017
  31. 31. DATA SCIENTIST DATA ENGINEER DESENVOLVEDOR POUX
  32. 32. CULTURA DE DADOS não existe uma fórmula pra isso
  33. 33. O maior desafio é mudar a cultura
  34. 34. O caminho é encontrar valor nos dados
  35. 35. Use ferramentas que facilitem a integração
  36. 36. Crie sua 
 data university!
  37. 37. IF YOU WANT TO CONVINCE ME of somethings…
  38. 38. SHOW ME NUMBERS
  39. 39. OBRIGADO! @renan_oliveira www.renanoliveira.net

×