Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

César Aparicio presentación SEonthebeach 2017

543 views

Published on

Presentación de César Aparicio co-foundador de Safecont.com en SEonthebeach 2017. Análisis Tfidf y arquitectura interna

Published in: Marketing
  • Be the first to comment

César Aparicio presentación SEonthebeach 2017

  1. 1. SPAM Y OTRAS REDUNDANCIAS CÉSAR APARICIO
  2. 2. V
  3. 3. @eCesarAparicio ______________________________________________________________________________
  4. 4. La verdad os hará libres
  5. 5. Keyword stuffing Tf-idf
  6. 6. Tf-idf • Detectar co-ocurrencia de palabras clave: para comprender mejor el documento. • Para determinar la relevancia de una keyword en un dominio o en una URL del dominio.
  7. 7. Tf-idf • Valores altos (desviación de la normal) indican que el término es muy relevante a nivel página (es decir, un determinado término es muy relevante en una URL, no en otras). • Valores próximos a cero indican que el uso del término es muy frecuente en el dominio.
  8. 8. 0,065 = 15 x log (100/99)
  9. 9. ¿Estoy haciendo keyword stuffing?
  10. 10. Ejemplos
  11. 11.
  12. 12. 1º No aparece; Tf – idf = 0 (aparece en todos los documentos del dominio)
  13. 13.
  14. 14. 2º No aparece; Tf – idf = 0 (aparece en todos los documentos del dominio)
  15. 15.
  16. 16. No aparece; Tf – idf = 0 (aparece en todos los documentos del dominio) 3º
  17. 17. 1º solo con keyword “comprar” en el title. Tf – idf = 1,45
  18. 18. Veamos pues…
  19. 19. Atendiendo a cómo google genera su propio corpus de metadatos en función de las páginas que indexa, nos damos cuenta de que la normalidad de un término se basa en las frecuencias “observadas” del conjunto del corpus que incluye tales términos desambiguados. Corpus of one trillion words from public Web: pageshttps://research.googleblog.com/2006/08/all-our-n-gram-are-belong-to-you.html
  20. 20. • Una página puede posicionar un término aun sin tener ese término excepto en el title. • Si en el title no encontramos una palabra clave relevante o tiene un Tf - idf muy bajo, quizá estamos replicando titles a lo largo del todo el sitio, lo que provocará canibalización de URLs por uso del mismo title o muy similar. El motivo es simple:
  21. 21. Matriz de transición de markov • Columnas igual a 1 • Entradas mayores o iguales a 0 • Existe un eigenvalue igual a 1 y un eigenvector con eigenvalue 1
  22. 22. π 𝑡 =0.3333, 0.3333, 0.1667, 0.0556, 0.1111
  23. 23. Problemas… siempre hay algún problema
  24. 24. Hay un trozo de sonrisa tuya en cada cosa que miro, un pedazo de suspiro mío cuando lo toco. Ése margen es lo que creo que se llama anhelo. ¿Pero cómo se puede anhelar a alguien que no se conoce?
  25. 25. http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
  26. 26. 𝑴 = 𝟏 − 𝝆 ∙ 𝑨 + 𝝆 ∙ 𝑩 𝒅𝒐𝒏𝒅𝒆 𝑩 = 𝟏 𝒏 𝟏 ⋯ 𝟏 ⋮ ⋱ ⋮ 𝟏 ⋯ 𝟏 siendo 𝝆 = 𝟎. 𝟏𝟓
  27. 27. http://www.jamonlovers.es/ 2º
  28. 28. V
  29. 29. #SOB17 a ¡Gracias! @eCesarAparicio

×