Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
MACHINE LEARNING
na globo.com
@renan_oliveira
CARA QUE
GOSTA DE
DADOS NA
GLOBO.COM
@renan_oliveira
Líderemaudiênciaeumadasprincipais
empresasdetecnologiadoBrasil
86 MILHÕESDE USUÁRIOS ÚNICOS POR MÊS
comScore fev/2018
10milhõesde usuários únicos por dia
2milhõesde conexões simultâneas
4bilhõesde eventos diários
100mil novos conteúdos por ...
Como aprendemosos
interesses dos usuários
dado a sua navegação.
desde2012
Big Data
é a nossa base
2013
antes de ser legal
100%
grátis e melhor
REC
first love
Machine Learning
para conteúdo
SUPERVISED
Prediçõessão o seu ponto forte
Gabaritocom as respostas
Clássicosepoderosos
REGRESSÃO
Alvos são contínuos
“Prever o "lifetime value" do
usuário?"
CLASSIFICAÇÃO
Alvos são categóricos
“Qual a editoria o usuário mais
gosta?”
UNSUPERVISED
Agrupamento de usuários e itens
com características em comum
Descobridorpadrões
Podeserummeioenãoofinal
CLUSTERING
Alvos são agrupamentos
“Quais são os grupos dos usuários
do Globo Esporte?”
REDUÇÃO DE DIMENSÃO
Fatores que mais definem
“Quais informações sobre um
usuário são mais importantes
antes de rodar um mod...
REINFORCEMENT
Otimizadorde parâmetros
Retroalimentaçãodo modelo
Modernoseeficientes
REINFORCEMENT
Aprendersempre
“Qual a melhor combinação de
algoritmos dado o feedback dos
usuários?”
Recomendação
nosso foco
Milhões
de usuários
Milhares
de conteúdos
interesses
padrões
segmentos
termos
audiência
história
FEED
M I X D E A L G O R I T M O S
100algoritmos
SUPERVISED
UNSUPERVISED
REINFORCEMENT
COLLABORATIVE
FILTERING
CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
surf medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
flum...
COLLABORATIVE
FILTERING
CONTENT BASED TOP
Coisasparecidascomessas,comasmesmaspalavras-chave
Ele temuma rápida atualização
Preciso conhecerdousuáriooudoitem
Usado no...
Oque usuáriosparecidos comigoviramque eu não vi
Éo de maiortaxadeconversão,omais assertivo
Ele temumaatualizaçãolenta,nãoé...
Conteúdos maisvisitados
Usadoquandonão sabemos nadasobreousuário
Resolve oproblemadas notícias"bombásticas"
Podem ser inte...
Ensemble
CTRindo além
DIVERSITY
COVERAGE
FRESHNESS
SERENDIPITY
hadoop
datalake
documentos usuários
recomendação
api
PIPELINETF
Experimentação
orientada a dados
ABteste
METRIFICANDO
O IMPACTO
CTRCOMO
PRINCIPAL META
CULTURADE
DADOS
MAB
ML PARA AB
RLVOLTADO PARA
EXPERIENCIA
MINIMIZAA
EXBIÇÃO DA PIOR
EMPODERAMENTO
DO EDITOR
QueméDíaz-Canel,indicadoparasucederRaúlCastroemCuba?
IndicadoparasucederRaúlCastronasceuapósaRevoluçãoCubana
https://g1.gl...
Extração de dados
saindo do comum
WEBSEMÂNTICA
ONTOLOGIAS
FEITAS EM CASA
COBERTURA
NOS PRODUTOS
MANUALMENTE
INFORMADA
DADOS
6milhõesdeinstancias
300classes na ontologia
55milhõesdetriplas
96%dasmatériasanotadas
MLENTITY EXTRACTION
CORPUSBASE
MUITO GRANDE
APRENDER
QUAL SERIA A ANOTAÇÃO
SIMPLIFICARA
CLASSIFICAR CONTEÚDOS
POCANOTADORC...
featured extraction
Perfil e Segmentação
para ter a sua cara
ENTIDADES
NOMEADAS
INTERESSESPOR
CLASSE
SPREADING
ACTIVATION
EXCELSIOR
SPREADINGACTIVATION
USER
CENTRIC
INTERESSESDE
LONGO PRAZO
UXLAB EM TEMPO
REAL
PUBLICIDADE
SEGMENTADA
Growth
focado no seu produto
análises preditivas
GROWTHMACHINE
Análise
exploratória
Formulação
de hipóteses
Implementação
Análise do
experimento
Aprendizado
CHURN
ATIVAÇÃO
DICAS
Estatísticavai entrar no seu dia
Infraestruturatem que tá na veia - DevOps
Publicaçõestem que ser rotina de leitura
...
OBRIGADO!
@renan_oliveira
www.renanoliveira.net
http://slideshare.net/renangpa
talentos.globo.com
Machine Learning na globo-com
Machine Learning na globo-com
Upcoming SlideShare
Loading in …5
×

Machine Learning na globo-com

879 views

Published on

Nessa apresentação falaremos sobre nossa stack, como construímos sistemas de recomendação usando várias técnicas, como aprendemos sobre o comportamento dos usuário usando Reinforcement Learning e como fazemos predições/análises, mantendo mais de 50 modificações de algoritmos em produção para recomendação gerando impacto em mais de 70 milhões de usuários únicos por mês. Falaremos sobre o nosso ambiente altamente focado em sistemas open-source e como estamos estamos com isso tornando a empresa cada dia mais Data Driven.

Published in: Technology
  • Renan Moreira gostaria de fazer o donwload desta sua apresentação, poderia disponibilizar por gentileza algum link?
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

Machine Learning na globo-com

  1. 1. MACHINE LEARNING na globo.com @renan_oliveira
  2. 2. CARA QUE GOSTA DE DADOS NA GLOBO.COM @renan_oliveira
  3. 3. Líderemaudiênciaeumadasprincipais empresasdetecnologiadoBrasil
  4. 4. 86 MILHÕESDE USUÁRIOS ÚNICOS POR MÊS comScore fev/2018
  5. 5. 10milhõesde usuários únicos por dia 2milhõesde conexões simultâneas 4bilhõesde eventos diários 100mil novos conteúdos por mês
  6. 6. Como aprendemosos interesses dos usuários dado a sua navegação. desde2012
  7. 7. Big Data é a nossa base
  8. 8. 2013 antes de ser legal
  9. 9. 100% grátis e melhor
  10. 10. REC first love
  11. 11. Machine Learning para conteúdo
  12. 12. SUPERVISED Prediçõessão o seu ponto forte Gabaritocom as respostas Clássicosepoderosos
  13. 13. REGRESSÃO Alvos são contínuos “Prever o "lifetime value" do usuário?"
  14. 14. CLASSIFICAÇÃO Alvos são categóricos “Qual a editoria o usuário mais gosta?”
  15. 15. UNSUPERVISED Agrupamento de usuários e itens com características em comum Descobridorpadrões Podeserummeioenãoofinal
  16. 16. CLUSTERING Alvos são agrupamentos “Quais são os grupos dos usuários do Globo Esporte?”
  17. 17. REDUÇÃO DE DIMENSÃO Fatores que mais definem “Quais informações sobre um usuário são mais importantes antes de rodar um modelo?”
  18. 18. REINFORCEMENT Otimizadorde parâmetros Retroalimentaçãodo modelo Modernoseeficientes
  19. 19. REINFORCEMENT Aprendersempre “Qual a melhor combinação de algoritmos dado o feedback dos usuários?”
  20. 20. Recomendação nosso foco
  21. 21. Milhões de usuários Milhares de conteúdos interesses padrões segmentos termos audiência história
  22. 22. FEED M I X D E A L G O R I T M O S
  23. 23. 100algoritmos SUPERVISED UNSUPERVISED REINFORCEMENT
  24. 24. COLLABORATIVE FILTERING CONTENT BASED TOP
  25. 25. COLLABORATIVE FILTERING CONTENT BASED TOP
  26. 26. COLLABORATIVE FILTERING CONTENT BASED TOP
  27. 27. surf medina peniche prancha mundial de surf john john mineirinho pipeline futebol guerrero flamengo STJD copa do brasil fluminense henrique brasileirão COLLABORATIVE FILTERING CONTENT BASED TOP
  28. 28. COLLABORATIVE FILTERING CONTENT BASED TOP
  29. 29. Coisasparecidascomessas,comasmesmaspalavras-chave Ele temuma rápida atualização Preciso conhecerdousuáriooudoitem Usado noSpotify paracriaçãode playlistsautomáticas Duasabordagenssãousadasna globo.comTF-IDFeSemântica TF-IDF: Automáticoparaextraçãodepalavras-chave Semântica:Oseditoresindicamnomomento dacriaçãosobrequem éeondeocorreuofato CONTENT BASED
  30. 30. Oque usuáriosparecidos comigoviramque eu não vi Éo de maiortaxadeconversão,omais assertivo Ele temumaatualizaçãolenta,nãoébomparanotícias bombásticasdeagoraeprecisoconhecerousuário Famosopelousona Amazon Usadoeme-commercesdetodomundo Netflixficoufamosoporfazerumganhodeperformancecomo algoritmoALS-Fatoraçãodematriz ALS tem umótimo resultadodentrodaglobo.com COLLABORATIVE FILTERING
  31. 31. Conteúdos maisvisitados Usadoquandonão sabemos nadasobreousuário Resolve oproblemadas notícias"bombásticas" Podem ser inteligentes,topporregiãodousuário TOPS
  32. 32. Ensemble
  33. 33. CTRindo além DIVERSITY COVERAGE FRESHNESS SERENDIPITY
  34. 34. hadoop datalake documentos usuários recomendação api
  35. 35. PIPELINETF
  36. 36. Experimentação orientada a dados
  37. 37. ABteste METRIFICANDO O IMPACTO CTRCOMO PRINCIPAL META CULTURADE DADOS
  38. 38. MAB ML PARA AB RLVOLTADO PARA EXPERIENCIA MINIMIZAA EXBIÇÃO DA PIOR EMPODERAMENTO DO EDITOR
  39. 39. QueméDíaz-Canel,indicadoparasucederRaúlCastroemCuba? IndicadoparasucederRaúlCastronasceuapósaRevoluçãoCubana https://g1.globo.com/mundo/noticia/quem-e-miguel-diaz-canel-o-discipulo-predileto-de-raul-castro-que-assume-o-poder-em-cuba.ghtml TÍTULO1 TÍTULO2 TÍTULO1 >15%
  40. 40. Extração de dados saindo do comum
  41. 41. WEBSEMÂNTICA ONTOLOGIAS FEITAS EM CASA COBERTURA NOS PRODUTOS MANUALMENTE INFORMADA
  42. 42. DADOS 6milhõesdeinstancias 300classes na ontologia 55milhõesdetriplas 96%dasmatériasanotadas
  43. 43. MLENTITY EXTRACTION CORPUSBASE MUITO GRANDE APRENDER QUAL SERIA A ANOTAÇÃO SIMPLIFICARA CLASSIFICAR CONTEÚDOS POCANOTADORCOMML
  44. 44. featured extraction Perfil e Segmentação para ter a sua cara
  45. 45. ENTIDADES NOMEADAS INTERESSESPOR CLASSE SPREADING ACTIVATION EXCELSIOR
  46. 46. SPREADINGACTIVATION
  47. 47. USER CENTRIC INTERESSESDE LONGO PRAZO UXLAB EM TEMPO REAL PUBLICIDADE SEGMENTADA
  48. 48. Growth focado no seu produto
  49. 49. análises preditivas
  50. 50. GROWTHMACHINE Análise exploratória Formulação de hipóteses Implementação Análise do experimento Aprendizado
  51. 51. CHURN
  52. 52. ATIVAÇÃO
  53. 53. DICAS Estatísticavai entrar no seu dia Infraestruturatem que tá na veia - DevOps Publicaçõestem que ser rotina de leitura TensorFlowolhe ele com muito carinho
  54. 54. OBRIGADO! @renan_oliveira www.renanoliveira.net http://slideshare.net/renangpa
  55. 55. talentos.globo.com

×