Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Interpretación Semántica en SEO. Congreso Web Zaragoza 2018

4,861 views

Published on

Una charla que intenta acercanros a la nueva realizada de google donde las keywords han pasado a un segundo lugar y el análisis de intenciones de búsqueda y la interpretación semántica son el eje por el que se mueve el buscador

Published in: Marketing

Interpretación Semántica en SEO. Congreso Web Zaragoza 2018

  1. 1. Iñaki Huerta - @ikhuerta INTERPRETACIÓN SEMÁNTICA Qué entiende Google y cómo darle lo que busca… Iñaki Huerta ( @ikhuerta) #semántica #naturalLanguage #intenciónDeBúsqueda #keywords #entidades #TfIdf #hummingbird #googleBrain #kwVector #semánticaLatente
  2. 2. Iñaki Huerta - @ikhuerta FORMAS DE HACER SEO2 Crear un producto que Google perciba que responde a los intereses de los usuarios 1 2
  3. 3. Iñaki Huerta - @ikhuerta FORMAS DE HACER SEO2 Crear un producto que Google perciba que responde a los intereses de los usuarios 1 2 Un truco para saber cual es la buena: LA MAGIA NO EXISTE ?
  4. 4. Iñaki Huerta - @ikhuerta LO QUE PENSAMOS TODOS CUANDO EMPEZAMOS A HACER SEO….
  5. 5. Iñaki Huerta - @ikhuerta LO QUE ACABAMOS DESCUBRIENDO
  6. 6. Iñaki Huerta - @ikhuerta LO QUE ACABAMOS DESCUBRIENDO LOS ATAJOS EN EL SEO…
  7. 7. Iñaki Huerta - @ikhuerta LO QUE ACABAMOS DESCUBRIENDO LOS ATAJOS EN EL SEO… RESTO DE SEOs ESPERANDO A VER SI RECIBEN
  8. 8. Iñaki Huerta - @ikhuerta UN POCO DE HUMILDAD… • Google tiene más de 60.000 empleados • Su buscador lleva desarrollándose 20 años de forma continua • Tienen un departamento especializado en detectar SPAM • Son líderes en la carrera de la inteligencia artificial
  9. 9. Iñaki Huerta - @ikhuerta UN POCO DE HUMILDAD… • Google tiene más de 60.000 empleados • Su buscador lleva desarrollándose 20 años de forma continua • Tienen un departamento especializado en detectar SPAM • Son líderes en la carrera de la inteligencia artificial Tú simplemente eres alguien muy “espabilao” pero… NO ERES MÁS LISTO QUE GOOGLE
  10. 10. Iñaki Huerta - @ikhuerta ¡Hola! Soy,,, IÑAKI HUERTA Director de IKAUE SEO, ANALISTA DIGITAL y TÉCNICO ….con 15 años de experiencia en el sector, coorganizador del user web Analytics, director del master de analítica web del DIC y todas esas cosas que se cuentan en mi linkedin…
  11. 11. Iñaki Huerta - @ikhuerta CUÁL ES LA ÚNICA FUNCIONALIDAD DE UN BUSCADOR
  12. 12. Iñaki Huerta - @ikhuerta Documento Rastreado KW buscada Documento Rastreado Documento Rastreado Documento Rastreado 1º. Encontrar Respuestas
  13. 13. Iñaki Huerta - @ikhuerta Documento Rastreado KW buscada Documento Rastreado Documento Rastreado Documento Rastreado 1 2 3 4 1º. Encontrar Respuestas 2º. Priorizarlas
  14. 14. Iñaki Huerta - @ikhuerta Documento Rastreado KW buscada Documento Rastreado Documento Rastreado Documento Rastreado 1 2 3 4 1º. Encontrar Respuestas 2º. Priorizarlas ¿Cómo sabe lo necesario para hacer esto bien?
  15. 15. Iñaki Huerta - @ikhuerta Autoridad Rastreo e Indexación Semántica Calidad
  16. 16. Iñaki Huerta - @ikhuerta Otras hipótesis De Engagement Sociales Otras Señales Links Externos Links InternosLinks Entrantes Referencias Credibilidad (Relación) Autoritividad (Reputación y Marca) Experiencia (Demostrada) Autor (E-A-T) Responde a la Intención Referencia en Internet MC Relevante Page Quality Directa/Exacta Semántica Latente Natural Language Similitud Semántica con la KW Intención . de Búsqueda Priorización del Contenido Clasificación Análisis Documento URLs Rastreables URLs Rastreadas URLs Indexadas Embudo de Indexación Acceso a Documentos Contenido Autoridad Rastreo e Indexación Semántica Calidad Priorización del Rastreo
  17. 17. Iñaki Huerta - @ikhuerta Responde a la Intención Referencia en Internet Etc… De Engagement Sociales Otras Señales Links Externos Links InternosLinks Entrantes Referencias Credibilidad (Relación) Autoritividad (Reputación) Experiencia (Demostrada) Page Quality MC Relevante Directa/Exacta Semántica Latente Natural Language Similitud Semántica con la KW Intención . de Búsqueda Priorización del Contenido Clasificación Análisis Documento URLs Rastreables URLs Rastreadas URLs Indexadas Embudo de Indexación Acceso a Documentos Autor (E-A-T) Contenido Autoridad Rastreo e Indexación Semántica Calidad
  18. 18. Iñaki Huerta - @ikhuerta KW buscada
  19. 19. Iñaki Huerta - @ikhuerta SINO LO QUE QUIERES REALMENTE YA NO ES LO QUE BUSCAS ENCONTRAR Al menos desde la reescritura de la base de Google que supuso Hummingbird
  20. 20. Iñaki Huerta - @ikhuerta KW buscada Google Hummingbird Search Intend Analysis
  21. 21. Iñaki Huerta - @ikhuerta
  22. 22. Iñaki Huerta - @ikhuerta DE ENTENDERNOS GOOGLE TIENE LA NECESIDAD Por eso ha creado RankBrain
  23. 23. Iñaki Huerta - @ikhuerta INTENCIÓN DE BÚSQUEDA “Keyword Buscada” Otros Indicadores Experiencia Previa, Localización, Dispositivo, Tendencias, Etc. ¿ ? ¿Qué esperas encontrar? Respuesta 1 Respuesta 2 Respuesta 3 Respuesta 4 Respuesta 5
  24. 24. Iñaki Huerta - @ikhuerta “RESTAURANTE”
  25. 25. Iñaki Huerta - @ikhuerta ¿Qué esperas encontrar?“RESTAURANTE”
  26. 26. Iñaki Huerta - @ikhuerta Estas en el trabajo así que… “restaurantes más cercanos”1 “RESTAURANTE” ¿Qué esperas encontrar?
  27. 27. Iñaki Huerta - @ikhuerta Estas en el trabajo así que… “restaurantes más cercanos”1 “restaurantes más relevantes de Palma de Mallorca”2 “RESTAURANTE” ¿Qué esperas encontrar?
  28. 28. Iñaki Huerta - @ikhuerta “SEO” 1 ¿Qué esperas encontrar?
  29. 29. Iñaki Huerta - @ikhuerta “SEO” “saber qué es SEO”1 ¿Qué esperas encontrar?
  30. 30. Iñaki Huerta - @ikhuerta “SEO” “saber qué es SEO”1 “encontrar empresas que ofrezcan servicios de SEO”2 ¿Qué esperas encontrar?
  31. 31. Iñaki Huerta - @ikhuerta “SEO” “saber qué es SEO”1 “encontrar empresas que ofrezcan servicios de SEO”2 “aprender a hacer SEO”3 ¿Qué esperas encontrar?
  32. 32. Iñaki Huerta - @ikhuerta KW buscada Google Brain Google Hummingbird Google HummingbirdSearch Intend Analysis Google INTERPRETA qué es lo que realmente quiere saber el usuario • Respuesta 1 • Respuesta 2 • Respuesta n … ? ? ?
  33. 33. Iñaki Huerta - @ikhuerta Atributo 7 Atributo 6 Atributo 5 Atributo 4 Atributo 3 Término Palabra Palabra Palabra Palabra PalabrasPalabrasPalabrasPalabras Reales (directas) PalabrasPalabrasPalabrasPalabras Sinónimos y parecidos PalabrasPalabrasPalabrasPalabras Familias SIMILITUD SIMPLE DE KW SEMÁNTICA LANTENTE PalabrasPalabras Fórmulas, etc… VECTORES DE PALABRAS Palabra = Atributo 1 Atributo 2 Atributo 3 Las palabras se derivan operando con sus vectores REY - HOMBRE + MUJER = REINA vector vector vector vector Término Término INTERPRETACIÓN DEL LENGUAJE Término ? Al principio sólo se fijaba en el uso de las “Keywords” concretas y en el uso de sus palabras exactas
  34. 34. Iñaki Huerta - @ikhuerta Atributo 7 Atributo 6 Atributo 5 Atributo 4 Atributo 3 Término Palabra Palabra Palabra Palabra PalabrasPalabrasPalabrasPalabras Reales (directas) PalabrasPalabrasPalabrasPalabras Sinónimos y parecidos PalabrasPalabrasPalabrasPalabras Familias SIMILITUD SIMPLE DE KW SEMÁNTICA LANTENTE PalabrasPalabras Fórmulas, etc… VECTORES DE PALABRAS Palabra = Atributo 1 Atributo 2 Atributo 3 Las palabras se derivan operando con sus vectores REY - HOMBRE + MUJER = REINA vector vector vector vector Término Término INTERPRETACIÓN DEL LENGUAJE Término ? A través del análisis de millones de documentos los sistemas aprenden qué palabras se relacionan entre ellas y qué contenidos explicarán una búsqueda
  35. 35. Iñaki Huerta - @ikhuerta Atributo 7 Atributo 6 Atributo 5 Atributo 4 Atributo 3 Término Palabra Palabra Palabra Palabra PalabrasPalabrasPalabrasPalabras Reales (directas) PalabrasPalabrasPalabrasPalabras Sinónimos y parecidos PalabrasPalabrasPalabrasPalabras Familias SIMILITUD SIMPLE DE KW SEMÁNTICA LANTENTE PalabrasPalabras Fórmulas, etc… VECTORES DE PALABRAS Palabra = Atributo 1 Atributo 2 Atributo 3 Las palabras se derivan operando con sus vectores REY - HOMBRE + MUJER = REINA vector vector vector vector Término Término INTERPRETACIÓN DEL LENGUAJE Término ? Acercándonos a la descomposición en significados empezamos a poder operar frases y palabras
  36. 36. Iñaki Huerta - @ikhuerta Atributo 7 Atributo 6 Atributo 5 Atributo 4 Atributo 3 Término Palabra Palabra Palabra Palabra PalabrasPalabrasPalabrasPalabras Reales (directas) PalabrasPalabrasPalabrasPalabras Sinónimos y parecidos PalabrasPalabrasPalabrasPalabras Familias SIMILITUD SIMPLE DE KW SEMÁNTICA LANTENTE PalabrasPalabras Fórmulas, etc… VECTORES DE PALABRAS Palabra = Atributo 1 Atributo 2 Atributo 3 Las palabras se derivan operando con sus vectores REY - HOMBRE + MUJER = REINA vector vector vector vector Término Término INTERPRETACIÓN DEL LENGUAJE Término ?
  37. 37. Iñaki Huerta - @ikhuerta ¿GOOGLE REALMENTE PERO EN SERIO... ENTIENDE LO QUE LE ESTAMOS PREGUNTANDO?
  38. 38. Iñaki Huerta - @ikhuerta Jugando con mi hija de 3 años a pedirle cosas a Google Assistant… “quiero árboles de navidad de gatito y colores del arcoíris”
  39. 39. Iñaki Huerta - @ikhuerta Jugando con mi hija de 3 años a pedirle cosas a Google Assistant… “quiero árboles de navidad de gatito y colores del arcoíris”
  40. 40. Iñaki Huerta - @ikhuerta WTF!!!!
  41. 41. Iñaki Huerta - @ikhuerta CASO: Página que alquila un “alojamiento”, que resulta ser una furgoneta. Ni los textos ni ninguna parte del HTML habla de que sea un vehículo. Esto me lo explicó:
  42. 42. Iñaki Huerta - @ikhuerta CASO: Página que alquila un “alojamiento”, que resulta ser una furgoneta. Ni los textos ni ninguna parte del HTML habla de que sea un vehículo. Esto me lo explicó: ¡Tío! Que Google está posicionando la página por la keyword “Ford Transit” sacándola de la foto…
  43. 43. Iñaki Huerta - @ikhuerta ¡LAS KW “FORD TRANSIT” NO APARECEN EN NIGUNA PARTE DE LA PÁGINA!
  44. 44. Iñaki Huerta - @ikhuerta GOOGLE IO 2018: “GOOGLE DUPLEX”
  45. 45. Iñaki Huerta - @ikhuerta GOOGLE IO 2018: “GOOGLE DUPLEX” Es un sistema que nos va a permitir pedirle a Google Assitant que haga llamadas por nosotros para reservar servicios por teléfono…
  46. 46. Iñaki Huerta - @ikhuerta GOOGLE IO 2018: GOOGLE DUPLEX No te pierdas el vídeo: https://www.youtube.com/watch?v=D5VN56jQMWM
  47. 47. Iñaki Huerta - @ikhuerta ¡GOOGLE REALMENTE ¡PERO EN SERIO! (empieza a) ENTENDER LO QUE LE ESTAMOS PREGUNTANDO!
  48. 48. Iñaki Huerta - @ikhuerta KW buscada Google Brain Google Hummingbird Google HummingbirdSearch Intend Analysis Google INTERPRETA qué es lo que realmente quiere saber el usuario • Pregunta 1 • Pregunta 2 • Pregunta n … ? ? ? VOLVAMOS AL TERRENO CONOCIDO…
  49. 49. Iñaki Huerta - @ikhuerta KW buscada Google Brain Google Hummingbird Google HummingbirdSearch Intend Analysis ~ KW Vector Term Term Term Term Term Google INTERPRETA qué es lo que realmente quiere saber el usuario • Pregunta 1 • Pregunta 2 • Pregunta n … ? ? ? De cada intención de búsqueda Google tiene algo “parecido” a un KW vector…
  50. 50. Iñaki Huerta - @ikhuerta KW buscada Google Brain Google Hummingbird Google HummingbirdSearch Intend Analysis ~ KW Vector Term Term Term Term Term Google INTERPRETA qué es lo que realmente quiere saber el usuario • Pregunta 1 • Pregunta 2 • Pregunta n … ? ? ? ~ KW Vector Term Term Term Term Term ~ KW Vector Term Term Term Term Term
  51. 51. Iñaki Huerta - @ikhuerta GOOGLE SABE QUÉ QUIERE EL USUARIO…
  52. 52. Iñaki Huerta - @ikhuerta GOOGLE SABE QUÉ QUIERE EL USUARIO… ¿Y cómo averigua si nuestra web lo ofrece?
  53. 53. Iñaki Huerta - @ikhuerta LINK LINK LINK LINK LINK LINK LINK LINK LINK LINK LINK LINK L I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N KL I N K L I N K L I N K L I N K LI N K LI N K LI N K LI N K LI N K LI N K LI N K LI N K LI N K LI N KLI N KLI N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K L I N K GOOGLE NO PARA DE RASTREAR CONTENIDO
  54. 54. Iñaki Huerta - @ikhuerta Documento Rastreado Natural Language Análisis Semántico Matemático Análisis Semántico basado en IA Intenciones de Búsqueda Resueltas
  55. 55. Iñaki Huerta - @ikhuerta Intenciones de Búsqueda Resueltas Basado en IA Documento Rastreado Un primer paso básico: Hay búsquedas: - INFORMACIONALES - NAVEGACIONALES - TRANSACCIONALES - MULTIMEDIA
  56. 56. Iñaki Huerta - @ikhuerta Intenciones de Búsqueda Resueltas Basado en IA Documento Rastreado Un primer paso básico: Hay búsquedas: - INFORMACIONALES - NAVEGACIONALES - TRASNACCIONALES - MULTIMEDIA PERO ES QUE ESO ES SOLO LA BASE (y quizás esté un poco obsoleta)
  57. 57. Iñaki Huerta - @ikhuerta La pregunta es: ¿QUÉ ES LO QUE REALMENTE RESUELVE TU PÁGINA AL USUARIO? Ficha de Producto X ¿Lo vendes? ¿Es tuyo? ¿Das sus detalles? ¿Ofreces alguna valoración? ¿Das comparativas? ¿Tu opinión importa? ¿Eres competitivo? ¿Lo describes?
  58. 58. Iñaki Huerta - @ikhuerta La pregunta es: ¿QUÉ ES LO QUE REALMENTE RESUELVE TU PÁGINA AL USUARIO? Producto X ¿Lo vendes? ¿Es tuyo? ¿Das sus detalles? ¿Ofreces alguna valoración? ¿Das comparativas? ¿Tu opinión importa? ¿Eres competitivo? ¿Lo describes? Y LLEGAMOS A LA GRAN DUDA: ¿PUEDE UNA SOLA PÁGINA RESOLVER BIEN TODAS LAS INTENCIONES DE BÚSQUEDA SOBRE UN CONCEPTO?
  59. 59. Iñaki Huerta - @ikhuerta Nos muestra: - Ecommerce que vende ventanas - Mezcla los Generalistas con los locales - Añade ofertas y productos entre particulares. - Y algún comparador de presupuestos Con Keywords muy genéricas: Se adapta a varias intenciones de búsqueda y las reparte en el SERP
  60. 60. Iñaki Huerta - @ikhuerta Nos muestra: - Featured Snippet con una buena oferta - Ecommerce generalistas que venden ventanas con precio informado Cuando le concretamos la intención de búsqueda: Es mucho más homogéneo en su tipología de resultados
  61. 61. Iñaki Huerta - @ikhuerta Nos muestra: - Priman los comparadores y directorios de empresas capaces de hacer presupuesto - Saca empresas de profesionales locales Si le cambiamos la forma de expresarnos: Intuye de formas muy distintas las intenciones de búsqueda
  62. 62. Iñaki Huerta - @ikhuerta Imagina una página que vende cordondes de zapatos… - POTENCIA LA KEYWORD “COMPRAR CORDONDES” - Y para ampliar términos relacionados además ha ido incorporando… Cómo se fabrican La mejor forma de atarlos Comparativa con otras marcas Otros usos para los cordones Guía de Estilo y moda Etc.
  63. 63. Iñaki Huerta - @ikhuerta Imagina una página que vende cordondes de zapatos… - POTENCIA LA KEYWORD “COMPRAR CORDONDES” - Y para ampliar términos relacionados además ha ido incorporando… Cómo se fabrican La mejor forma de atarlos Comparativa con otras marcas Otros usos para los cordones Guía de Estilo y moda Etc. POR MUCHO CONTENIDO QUE AGREGUEMOS, LA PÁGINA SÓLO RESUELVE BIEN LA INTENCIÓN DE COMPRA¡¡¡ !!!
  64. 64. Iñaki Huerta - @ikhuerta Imagina una página que vende cordondes de zapatos… - POTENCIA LA KEYWORD “COMPRAR CORDONDES” - Y para ampliar términos relacionados además ha ido incorporando… Cómo se fabrican La mejor forma de atarlos Comparativa con otras marcas Otros usos para los cordones Guía de Estilo y moda Etc. CONCLUSIÓN: Antes de pensar en un análisis de KW Haz un análisis de intenciones de búsqueda
  65. 65. Iñaki Huerta - @ikhuerta CÓMO SE SI CUMPLO CON LA INTENCIÓN DE BÚSQUEDA • CTR en Google • Rebote • Conversión • Y Revisita
  66. 66. Iñaki Huerta - @ikhuerta Documento Rastreado Análisis Semántico Matemático TF*IDF Okapi BM25 Ind. Semántica Latente Booleano Extendido Modelo PaiceRedes de Inferencia (redes bayesianas) Pesos en Modelos de independencia BInaria ETC… Existen multitud de modelos matemáticos para trabajar en búsqueda y análisis de la información…
  67. 67. Iñaki Huerta - @ikhuerta Documento Rastreado Natural Language TF*IDF Okapi BM25 Ind. Semántica Latente Booleano Extendido Modelo PaiceRedes de Inferencia (redes bayesianas) Pesos en Modelos de independencia BInaria Existen multitud de modelos matemáticos para trabajar en búsqueda y análisis de la información… ¡NO TENEMOS NI IDEA DE CUALES USAN Y CUALES NO USAN LOS BUSCADORES! ? ? ? ETC… ? ?
  68. 68. Iñaki Huerta - @ikhuerta Documento Rastreado TF*IDF Okapi BM25 Ind. Semántica Latente Booleano Extendido Modelo PaiceRedes de Inferencia (redes bayesianas) Pesos en Modelos de independencia BInaria Existen multitud de modelos matemáticos para trabajar en búsqueda y análisis de la información… Y LO PEOR, SEGURAMENTE TENGAN MODELOS PROPIOS MÁS AL DETALLE Y DEDICADOS A SU REALIDAD ETC…
  69. 69. Iñaki Huerta - @ikhuerta TF*IDF es muy importante en SEO? ¿por qué decimos que el análisis
  70. 70. Iñaki Huerta - @ikhuerta TF*IDF (n) = TF(n) x IDF(n) Es decir: • Para cada término (o grupo de términos) de los textos • La frecuencia en la que aparece en un documento • Multiplicado por lo normal que es que aparezca en los textos esa palabra. (n) TF IDF
  71. 71. Iñaki Huerta - @ikhuerta Vamos a explicarlo con ejemplos sobre cómo calcular cada indicador… ¿Qué textos pueden tener mucha repetición de palabras? ¡Las letras de temazos Reagueton!
  72. 72. Iñaki Huerta - @ikhuerta TF relativo (Term Frecuency) 𝛴tf(n) = D1 (n) L (n): Cada término calculado D1: el documento analizado L: Total de términos del documento Ay , Fonsi DY Oh, Oh no, oh no, Oh yeah Diridiri, dirididi Daddy Go […] Despacito Quiero respirar tu cuello despacito Deja que te diga cosas al oído Para que te acuerdes si no estás conmigo Despacito Quiero desnudarte a besos despacito Firmo en las paredes de tu laberinto Y hacer de tu cuerpo todo un manuscrito (sube, sube, sube) (Sube, sube) […]
  73. 73. Iñaki Huerta - @ikhuerta TF relativo (Term Frecuency) 𝛴tf(n) = D1 (n) La palabra “despacito” aparece en la canción “Despacito” un total de 14 veces. La canción tiene un total de 453 palabras. El TF para el término “despacito” es de (14/453 = 3%) un 0,03 L (n): Cada término calculado D1: el documento analizado L: Total de términos del documento Ay , Fonsi DY Oh, Oh no, oh no, Oh yeah Diridiri, dirididi Daddy Go […] Despacito Quiero respirar tu cuello despacito Deja que te diga cosas al oído Para que te acuerdes si no estás conmigo Despacito Quiero desnudarte a besos despacito Firmo en las paredes de tu laberinto Y hacer de tu cuerpo todo un manuscrito (sube, sube, sube) (Sube, sube) […]
  74. 74. Iñaki Huerta - @ikhuerta IDF (Inverse Document Frecuency) IDF(n) = log10 N “amol” aparece en 20 de 100 canciones : 20% de los documentos analizados → IDF = 0,77 “jugar” aparece en 55 de 100 canciones: 55% de los documentos analizados → IDF = 0,44 “papi” aparece en 98 de 100 canciones: 98% de los documentos analizados IDF = 0,30 DF (n) +1 (n): Cada término calculado N: El total de documentos que disponemos DF(n): Nº de documentos en los que aparece el término
  75. 75. Iñaki Huerta - @ikhuerta UN CORPUS PEQUEÑO (Cientos o miles de documentos) Términos no comunes del lenguaje pero que si los son justo en la colección saldrán despriorizados UN CORPUS MEDIANO (Decenas o cientos de miles de documentos) Ayudará a quitar las expresiones más comunes pero no representará el lenguaje. UN CORPUS GRANDE (cientos de millones) Si clasificará bien las entidades del lenguaje LA RECETA SECRETA DEL IDF ES EL CORPUS
  76. 76. Iñaki Huerta - @ikhuerta Entendiendo el significado de una puntuación TF*IDF… ¿Cómo serían las puntuaciones de varias palabras de un texto sobre SEO? “la” → TF*IDF muy bajo “buscador” → TF*IDF medio “seo” → FT*IDF alto TF Muy usada en nuestro texto Muy usada en el lenguaje naturalIDF TF Algo usada en nuestro texto Algo usada en el lenguaje naturalIDF TF Muy usada en nuestro texto Poco usada en el lenguaje naturalIDF
  77. 77. Iñaki Huerta - @ikhuerta TF*IDF de los resultados de Google? ¿En qué nos ayuda hacer un
  78. 78. Iñaki Huerta - @ikhuerta 1 2 3 4 5 Google nos dice que estas páginas responden bien a la KW que se ha buscado Por lo que el “KW vector” del que dispone Google de esa búsqueda seguramente estará relacionado con las palabras contenidas en estas páginas que nos da como resultado Observamos un resultado de búsqueda…
  79. 79. Iñaki Huerta - @ikhuerta URL resultado 1 KW que queremos posicionar 1º URL resultado 22º URL resultado 33º URL resultado 44º TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos)
  80. 80. Iñaki Huerta - @ikhuerta URL resultado 1 KW que queremos posicionar 1º URL resultado 22º URL resultado 33º URL resultado 44º TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) TF*IDF de cada palabra (o grupos) Para cada Palabra o Grupo: • Media TF*IDF (Absoluta) • TF*IDF Más Alto • Media TF*IDF (solo en Usadas) • % URLs donde aparece Sacando los TF*IDF del TOP10, TOP20, TOP50,… accederemos para cada palabra o grupo de palabras a distintos indicadores sobre el uso de palabras y expresiones concretas.
  81. 81. Iñaki Huerta - @ikhuerta • Media TF*IDF (Absoluta) Qué sabremos con estos datos de cada palabra de esos textos • TF*IDF Más Alto • Media TF*IDF (solo en Usadas) • % URLs donde aparece¿Es necesario usarla para posicionar? ¿Cuánto hay que usarla? ¿Cuándo empiezo a usarla demasiado? %
  82. 82. Iñaki Huerta - @ikhuerta SEO CONTENT TEMPLATE
  83. 83. Iñaki Huerta - @ikhuerta TF*IDF analysis
  84. 84. Iñaki Huerta - @ikhuerta Documento Rastreado Natural Language Análisis Semántico basado en IA https://cloud.google.com/natural-language/?hl=es No sabemos tampoco lo que hace Google exactamente. PERO TENEMOS ACCESO A SUS APIs: Pruébalo:
  85. 85. Iñaki Huerta - @ikhuerta El análisis de Sintaxis (es prácticamente perfecto) - De detectar la función gramatical de cada palabra en un texto: Nombres, verbos, atributos, artículos, etc… - De clasificar las distintas partes de cada frase (sujeto, predicado, complementos…). - Y cuando ciertas palabras describen a otras y como se relaciona su significado en una frase.
  86. 86. Iñaki Huerta - @ikhuerta El análisis de Sintaxis (es prácticamente perfecto) - De detectar la función gramatical de cada palabra en un texto: Nombres, verbos, atributos, artículos, etc… - De clasificar las distintas partes de cada frase (sujeto, predicado, complementos…). - Y cuando ciertas palabras describen a otras y como se relaciona su significado en una frase. LA PROXIMA VEZ QUE JUEGES HERRAMIENTAS DE AUTOMATIZACIÓN DE TEXTOS PIENSA EN QUE CUALQUIER ERROR DE SINTAXIS VA A SER DETECTADO MUY FÁCILMENTE
  87. 87. Iñaki Huerta - @ikhuerta El análisis semántico: se limita a detectar entidades y su prominencia * Entidades clasificadas de los primeros párrafos de “El quijote”
  88. 88. Iñaki Huerta - @ikhuerta En castellano no es perfecto clasificando Pero sabe de que estamos hablando y describiendo.
  89. 89. Iñaki Huerta - @ikhuerta GOOGLE NO ES LA ÚNICA API SEMÁNTICA
  90. 90. Iñaki Huerta - @ikhuerta LA HERRAMIENTA NO ES TAN IMPORTANTE, LO IMPORTANTE ES DETECTAR LAS ENTIDADES DE LOS TEXTOS: SOLO QUEREMOS SABER LOS CONCEPTOS DE LOS QUE HABLA UN TEXTO
  91. 91. Iñaki Huerta - @ikhuerta CON EL ANÁLISIS DE ENTIDADES EL CONTENIDO DUPLICADO VA DE SIMILARIDAD SEMÁNTICA NO DEL % DE PALABRAS REPETIDAS
  92. 92. Iñaki Huerta - @ikhuerta DETECTANDO CONTENIDO DUPLICADO CON SIMILARIDAD SEMÁNTICA…
  93. 93. Iñaki Huerta - @ikhuerta DETECTANDO CONTENIDO DUPLICADO CON SIMILARIDAD SEMÁNTICA… UN POST MIO DE 2012 UN POST “CASUALMENTE” PARECIDO de 2017: MISMO CONTENIDO, DISTINTA REDACCIÓN
  94. 94. Iñaki Huerta - @ikhuerta POST MIO DE 2012 UN POST “CASUALMENTE” PARECIDO de 2017 NOTA PARA “Black Hateros”: Las herramientas de similaridad semántica resultan ideales para validar estrategias de… “Spinning”, “reescritura“ y “autogeneración de textos”. La mayoría gastan mucho tiempo en programar textos fácilmente detectables con estas herramientas y por lo tanto por Google
  95. 95. Iñaki Huerta - @ikhuerta Un “TF*IDF” con ENTIDADES SEMÁNTICAS En lo estamos haciendo ☺
  96. 96. Iñaki Huerta - @ikhuerta URL resultado 1 KW que queremos posicionar 1º URL resultado 22º URL resultado 33º URL resultado 44º ENTIDADES por prominencia ENTIDADES por prominencia ENTIDADES por prominencia ENTIDADES por prominencia ENTIDADES por prominencia Para cada Entidad • Media Prominencia (Absoluta) • Prominencia Más Alto • Media Prominencia (Usadas) • % URLs donde aparece Natural Language API
  97. 97. Iñaki Huerta - @ikhuerta Documento Rastreado Análisis de Sintaxis Análisis Semántico (de Entidades) Análisis de Sentimiento Natural Language Análisis Semántico basado en IA
  98. 98. Iñaki Huerta - @ikhuerta Documento Rastreado Natural Language Análisis Semántico Matemático 0.83 0.25 0.13 0.70 0.05 0.02 0.06 0.01 0.02 0.01 Entidades resueltas priorizadas por prominencia Al final todo nos lleva a lo mismo: Saber qué entidades/términos son más prominentes en los textos. Intenciones de búsqueda
  99. 99. Iñaki Huerta - @ikhuerta Documento Rastreado KW buscada
  100. 100. Iñaki Huerta - @ikhuerta Documento Rastreado 0.83 0.25 0.13 0.70 0.05 0.02 0.06 0.01 0.02 0.01 KW buscada Search Intend Analysis KW Vector Term Term Term Term Term KW Vector T e r m T e r m T e r m T e r m T e r m KW Vector T e r m T e r m T e r m T e r m T e r m ? Pregunta 2 ? Pregunta n ? Pregunta 1 … Entidades resueltas priorizadas por prominencia
  101. 101. Iñaki Huerta - @ikhuerta Documento Rastreado 0.83 0.25 0.13 0.70 0.05 0.02 0.06 0.01 0.02 0.01 KW buscada Search Intend Analysis KW Vector Term Term Term Term Term KW Vector T e r m T e r m T e r m T e r m T e r m KW Vector T e r m T e r m T e r m T e r m T e r m ? Pregunta 2 ? Pregunta n ? Pregunta 1 … Y ÉSTA ES LA VERDADERA MÁGIA DEL BUSCADOR Entidades resueltas priorizadas por prominencia
  102. 102. Iñaki Huerta - @ikhuerta Es increíble a donde está llegando todo esto… … pero lo mejor, es que solo acaba de empezar
  103. 103. Iñaki Huerta - @ikhuerta Ikaue.com @ikhuerta hola@ikaue.com Gracias Iñaki Huerta

×