Successfully reported this slideshow.
Your SlideShare is downloading. ×

Machine Learning na globo-com

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Big Data to Machine Learning
Big Data to Machine Learning
Loading in …3
×

Check these out next

1 of 57 Ad

Machine Learning na globo-com

Nessa apresentação falaremos sobre nossa stack, como construímos sistemas de recomendação usando várias técnicas, como aprendemos sobre o comportamento dos usuário usando Reinforcement Learning e como fazemos predições/análises, mantendo mais de 50 modificações de algoritmos em produção para recomendação gerando impacto em mais de 70 milhões de usuários únicos por mês. Falaremos sobre o nosso ambiente altamente focado em sistemas open-source e como estamos estamos com isso tornando a empresa cada dia mais Data Driven.

Nessa apresentação falaremos sobre nossa stack, como construímos sistemas de recomendação usando várias técnicas, como aprendemos sobre o comportamento dos usuário usando Reinforcement Learning e como fazemos predições/análises, mantendo mais de 50 modificações de algoritmos em produção para recomendação gerando impacto em mais de 70 milhões de usuários únicos por mês. Falaremos sobre o nosso ambiente altamente focado em sistemas open-source e como estamos estamos com isso tornando a empresa cada dia mais Data Driven.

Advertisement
Advertisement

More Related Content

Similar to Machine Learning na globo-com (20)

More from Renan Moreira de Oliveira (12)

Advertisement

Recently uploaded (20)

Machine Learning na globo-com

  1. 1. MACHINE LEARNING na globo.com @renan_oliveira
  2. 2. CARA QUE GOSTA DE DADOS NA GLOBO.COM @renan_oliveira
  3. 3. Líderemaudiênciaeumadasprincipais empresasdetecnologiadoBrasil
  4. 4. 86 MILHÕESDE USUÁRIOS ÚNICOS POR MÊS comScore fev/2018
  5. 5. 10milhõesde usuários únicos por dia 2milhõesde conexões simultâneas 4bilhõesde eventos diários 100mil novos conteúdos por mês
  6. 6. Como aprendemosos interesses dos usuários dado a sua navegação. desde2012
  7. 7. Big Data é a nossa base
  8. 8. 2013 antes de ser legal
  9. 9. 100% grátis e melhor
  10. 10. REC first love
  11. 11. Machine Learning para conteúdo
  12. 12. SUPERVISED Prediçõessão o seu ponto forte Gabaritocom as respostas Clássicosepoderosos
  13. 13. REGRESSÃO Alvos são contínuos “Prever o "lifetime value" do usuário?"
  14. 14. CLASSIFICAÇÃO Alvos são categóricos “Qual a editoria o usuário mais gosta?”
  15. 15. UNSUPERVISED Agrupamento de usuários e itens com características em comum Descobridorpadrões Podeserummeioenãoofinal
  16. 16. CLUSTERING Alvos são agrupamentos “Quais são os grupos dos usuários do Globo Esporte?”
  17. 17. REDUÇÃO DE DIMENSÃO Fatores que mais definem “Quais informações sobre um usuário são mais importantes antes de rodar um modelo?”
  18. 18. REINFORCEMENT Otimizadorde parâmetros Retroalimentaçãodo modelo Modernoseeficientes
  19. 19. REINFORCEMENT Aprendersempre “Qual a melhor combinação de algoritmos dado o feedback dos usuários?”
  20. 20. Recomendação nosso foco
  21. 21. Milhões de usuários Milhares de conteúdos interesses padrões segmentos termos audiência história
  22. 22. FEED M I X D E A L G O R I T M O S
  23. 23. 100algoritmos SUPERVISED UNSUPERVISED REINFORCEMENT
  24. 24. COLLABORATIVE FILTERING CONTENT BASED TOP
  25. 25. COLLABORATIVE FILTERING CONTENT BASED TOP
  26. 26. COLLABORATIVE FILTERING CONTENT BASED TOP
  27. 27. surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero flamengo STJD copa do brasil fluminense henrique brasileirão COLLABORATIVE FILTERING CONTENT BASED TOP
  28. 28. COLLABORATIVE FILTERING CONTENT BASED TOP
  29. 29. Coisasparecidascomessas,comasmesmaspalavras-chave Ele temuma rápida atualização Preciso conhecerdousuáriooudoitem Usado noSpotify paracriaçãode playlistsautomáticas Duasabordagenssãousadasna globo.comTF-IDFeSemântica TF-IDF: Automáticoparaextraçãodepalavras-chave Semântica:Oseditoresindicamnomomento dacriaçãosobrequem éeondeocorreuofato CONTENT BASED
  30. 30. Oque usuáriosparecidos comigoviramque eu não vi Éo de maiortaxadeconversão,omais assertivo Ele temumaatualizaçãolenta,nãoébomparanotícias bombásticasdeagoraeprecisoconhecerousuário Famosopelousona Amazon Usadoeme-commercesdetodomundo Netflixficoufamosoporfazerumganhodeperformancecomo algoritmoALS-Fatoraçãodematriz ALS tem umótimo resultadodentrodaglobo.com COLLABORATIVE FILTERING
  31. 31. Conteúdos maisvisitados Usadoquandonão sabemos nadasobreousuário Resolve oproblemadas notícias"bombásticas" Podem ser inteligentes,topporregiãodousuário TOPS
  32. 32. Ensemble
  33. 33. CTRindo além DIVERSITY COVERAGE FRESHNESS SERENDIPITY
  34. 34. hadoop datalake documentos usuários recomendação api
  35. 35. PIPELINETF
  36. 36. Experimentação orientada a dados
  37. 37. ABteste METRIFICANDO O IMPACTO CTRCOMO PRINCIPAL META CULTURADE DADOS
  38. 38. MAB ML PARA AB RLVOLTADO PARA EXPERIENCIA MINIMIZAA EXBIÇÃO DA PIOR EMPODERAMENTO DO EDITOR
  39. 39. QueméDíaz-Canel,indicadoparasucederRaúlCastroemCuba? IndicadoparasucederRaúlCastronasceuapósaRevoluçãoCubana https://g1.globo.com/mundo/noticia/quem-e-miguel-diaz-canel-o-discipulo-predileto-de-raul-castro-que-assume-o-poder-em-cuba.ghtml TÍTULO1 TÍTULO2 TÍTULO1 >15%
  40. 40. Extração de dados saindo do comum
  41. 41. WEBSEMÂNTICA ONTOLOGIAS FEITAS EM CASA COBERTURA NOS PRODUTOS MANUALMENTE INFORMADA
  42. 42. DADOS 6milhõesdeinstancias 300classes na ontologia 55milhõesdetriplas 96%dasmatériasanotadas
  43. 43. MLENTITY EXTRACTION CORPUSBASE MUITO GRANDE APRENDER QUAL SERIA A ANOTAÇÃO SIMPLIFICARA CLASSIFICAR CONTEÚDOS POCANOTADORCOMML
  44. 44. featured extraction Perfil e Segmentação para ter a sua cara
  45. 45. ENTIDADES NOMEADAS INTERESSESPOR CLASSE SPREADING ACTIVATION EXCELSIOR
  46. 46. SPREADINGACTIVATION
  47. 47. USER CENTRIC INTERESSESDE LONGO PRAZO UXLAB EM TEMPO REAL PUBLICIDADE SEGMENTADA
  48. 48. Growth focado no seu produto
  49. 49. análises preditivas
  50. 50. GROWTHMACHINE Análise exploratória Formulação de hipóteses Implementação Análise do experimento Aprendizado
  51. 51. CHURN
  52. 52. ATIVAÇÃO
  53. 53. DICAS Estatísticavai entrar no seu dia Infraestruturatem que tá na veia - DevOps Publicaçõestem que ser rotina de leitura TensorFlowolhe ele com muito carinho
  54. 54. OBRIGADO! @renan_oliveira www.renanoliveira.net http://slideshare.net/renangpa
  55. 55. talentos.globo.com

×