Marketing de Optimización (Analítica Digital, Analítica Accionable, SEO, Estrategias Online, etc.)
Jun. 1, 2018•0 likes•12,197 views
1 of 103
Interpretación Semántica en SEO. Congreso Web Zaragoza 2018
Jun. 1, 2018•0 likes•12,197 views
Download to read offline
Report
Marketing
Una charla que intenta acercanros a la nueva realizada de google donde las keywords han pasado a un segundo lugar y el análisis de intenciones de búsqueda y la interpretación semántica son el eje por el que se mueve el buscador
Interpretación Semántica en SEO. Congreso Web Zaragoza 2018
1. Iñaki Huerta - @ikhuerta
INTERPRETACIÓN
SEMÁNTICA
Qué entiende Google
y cómo darle lo que busca…
Iñaki Huerta ( @ikhuerta)
#semántica #naturalLanguage
#intenciónDeBúsqueda #keywords
#entidades #TfIdf #hummingbird
#googleBrain #kwVector #semánticaLatente
2. Iñaki Huerta - @ikhuerta
FORMAS
DE HACER
SEO2 Crear un producto que Google
perciba que responde a los
intereses de los usuarios
1
2
3. Iñaki Huerta - @ikhuerta
FORMAS
DE HACER
SEO2 Crear un producto que Google
perciba que responde a los
intereses de los usuarios
1
2
Un truco para saber cual es la buena:
LA MAGIA NO EXISTE
?
4. Iñaki Huerta - @ikhuerta
LO QUE
PENSAMOS
TODOS
CUANDO
EMPEZAMOS
A HACER SEO….
6. Iñaki Huerta - @ikhuerta
LO QUE ACABAMOS DESCUBRIENDO
LOS ATAJOS EN EL SEO…
7. Iñaki Huerta - @ikhuerta
LO QUE ACABAMOS DESCUBRIENDO
LOS ATAJOS EN EL SEO…
RESTO DE SEOs
ESPERANDO A VER SI RECIBEN
8. Iñaki Huerta - @ikhuerta
UN POCO DE HUMILDAD…
• Google tiene más de 60.000 empleados
• Su buscador lleva desarrollándose 20 años de forma continua
• Tienen un departamento especializado en detectar SPAM
• Son líderes en la carrera de la inteligencia artificial
9. Iñaki Huerta - @ikhuerta
UN POCO DE HUMILDAD…
• Google tiene más de 60.000 empleados
• Su buscador lleva desarrollándose 20 años de forma continua
• Tienen un departamento especializado en detectar SPAM
• Son líderes en la carrera de la inteligencia artificial
Tú simplemente eres alguien muy “espabilao” pero…
NO ERES MÁS LISTO QUE GOOGLE
10. Iñaki Huerta - @ikhuerta
¡Hola! Soy,,,
IÑAKI HUERTA
Director de IKAUE
SEO, ANALISTA DIGITAL y TÉCNICO
….con 15 años de experiencia en el sector, coorganizador del user web Analytics, director del master de
analítica web del DIC y todas esas cosas que se cuentan en mi linkedin…
11. Iñaki Huerta - @ikhuerta
CUÁL ES LA
ÚNICA
FUNCIONALIDAD
DE UN BUSCADOR
14. Iñaki Huerta - @ikhuerta
Documento
Rastreado
KW buscada
Documento
Rastreado
Documento
Rastreado
Documento
Rastreado
1
2
3
4
1º. Encontrar Respuestas
2º. Priorizarlas
¿Cómo sabe
lo necesario para
hacer esto bien?
15. Iñaki Huerta - @ikhuerta
Autoridad
Rastreo
e Indexación
Semántica
Calidad
16. Iñaki Huerta - @ikhuerta
Otras hipótesis
De Engagement
Sociales
Otras
Señales
Links Externos
Links InternosLinks
Entrantes
Referencias
Credibilidad
(Relación)
Autoritividad
(Reputación y
Marca)
Experiencia
(Demostrada)
Autor
(E-A-T)
Responde a la Intención
Referencia en Internet
MC
Relevante
Page
Quality
Directa/Exacta
Semántica Latente
Natural Language
Similitud
Semántica
con la KW
Intención .
de Búsqueda
Priorización
del
Contenido
Clasificación
Análisis
Documento
URLs Rastreables
URLs Rastreadas
URLs Indexadas
Embudo de
Indexación
Acceso a
Documentos
Contenido
Autoridad
Rastreo
e Indexación
Semántica
Calidad
Priorización
del Rastreo
17. Iñaki Huerta - @ikhuerta
Responde a la Intención
Referencia en Internet
Etc…
De Engagement
Sociales
Otras
Señales
Links Externos
Links InternosLinks
Entrantes
Referencias
Credibilidad
(Relación)
Autoritividad
(Reputación)
Experiencia
(Demostrada)
Page
Quality
MC
Relevante
Directa/Exacta
Semántica Latente
Natural Language
Similitud
Semántica
con la KW
Intención .
de Búsqueda
Priorización
del
Contenido
Clasificación
Análisis
Documento
URLs Rastreables
URLs Rastreadas
URLs Indexadas
Embudo de
Indexación
Acceso a
Documentos
Autor
(E-A-T)
Contenido
Autoridad
Rastreo
e Indexación
Semántica
Calidad
19. Iñaki Huerta - @ikhuerta
SINO LO QUE QUIERES REALMENTE
YA NO ES LO QUE BUSCAS
ENCONTRAR
Al menos desde la reescritura de la base de Google que supuso Hummingbird
20. Iñaki Huerta - @ikhuerta
KW buscada
Google Hummingbird
Search Intend Analysis
25. Iñaki Huerta - @ikhuerta
¿Qué esperas encontrar?“RESTAURANTE”
26. Iñaki Huerta - @ikhuerta
Estas en el
trabajo así que…
“restaurantes más cercanos”1
“RESTAURANTE”
¿Qué esperas encontrar?
27. Iñaki Huerta - @ikhuerta
Estas en el
trabajo así que…
“restaurantes más cercanos”1
“restaurantes más relevantes
de Palma de Mallorca”2
“RESTAURANTE”
¿Qué esperas encontrar?
28. Iñaki Huerta - @ikhuerta
“SEO”
1
¿Qué esperas encontrar?
29. Iñaki Huerta - @ikhuerta
“SEO”
“saber qué es SEO”1
¿Qué esperas encontrar?
30. Iñaki Huerta - @ikhuerta
“SEO”
“saber qué es SEO”1
“encontrar empresas que
ofrezcan servicios de SEO”2
¿Qué esperas encontrar?
31. Iñaki Huerta - @ikhuerta
“SEO”
“saber qué es SEO”1
“encontrar empresas que
ofrezcan servicios de SEO”2
“aprender a hacer SEO”3
¿Qué esperas encontrar?
32. Iñaki Huerta - @ikhuerta
KW buscada
Google Brain
Google Hummingbird
Google HummingbirdSearch Intend Analysis
Google INTERPRETA qué es lo que
realmente quiere saber el usuario
• Respuesta 1
• Respuesta 2
• Respuesta n
…
?
?
?
33. Iñaki Huerta - @ikhuerta
Atributo 7
Atributo 6
Atributo 5
Atributo 4
Atributo 3
Término
Palabra
Palabra
Palabra
Palabra
PalabrasPalabrasPalabrasPalabras
Reales (directas)
PalabrasPalabrasPalabrasPalabras
Sinónimos y parecidos
PalabrasPalabrasPalabrasPalabras
Familias
SIMILITUD
SIMPLE DE KW
SEMÁNTICA
LANTENTE
PalabrasPalabras
Fórmulas, etc…
VECTORES
DE PALABRAS
Palabra =
Atributo 1
Atributo 2
Atributo 3
Las palabras se derivan
operando con sus vectores
REY - HOMBRE + MUJER = REINA
vector vector vector vector
Término Término
INTERPRETACIÓN
DEL LENGUAJE
Término
?
Al principio sólo se fijaba en el
uso de las “Keywords” concretas y
en el uso de sus palabras exactas
34. Iñaki Huerta - @ikhuerta
Atributo 7
Atributo 6
Atributo 5
Atributo 4
Atributo 3
Término
Palabra
Palabra
Palabra
Palabra
PalabrasPalabrasPalabrasPalabras
Reales (directas)
PalabrasPalabrasPalabrasPalabras
Sinónimos y parecidos
PalabrasPalabrasPalabrasPalabras
Familias
SIMILITUD
SIMPLE DE KW
SEMÁNTICA
LANTENTE
PalabrasPalabras
Fórmulas, etc…
VECTORES
DE PALABRAS
Palabra =
Atributo 1
Atributo 2
Atributo 3
Las palabras se derivan
operando con sus vectores
REY - HOMBRE + MUJER = REINA
vector vector vector vector
Término Término
INTERPRETACIÓN
DEL LENGUAJE
Término
?
A través del análisis de
millones de documentos
los sistemas aprenden
qué palabras se
relacionan entre ellas y
qué contenidos
explicarán una búsqueda
35. Iñaki Huerta - @ikhuerta
Atributo 7
Atributo 6
Atributo 5
Atributo 4
Atributo 3
Término
Palabra
Palabra
Palabra
Palabra
PalabrasPalabrasPalabrasPalabras
Reales (directas)
PalabrasPalabrasPalabrasPalabras
Sinónimos y parecidos
PalabrasPalabrasPalabrasPalabras
Familias
SIMILITUD
SIMPLE DE KW
SEMÁNTICA
LANTENTE
PalabrasPalabras
Fórmulas, etc…
VECTORES
DE PALABRAS
Palabra =
Atributo 1
Atributo 2
Atributo 3
Las palabras se derivan
operando con sus vectores
REY - HOMBRE + MUJER = REINA
vector vector vector vector
Término Término
INTERPRETACIÓN
DEL LENGUAJE
Término
?
Acercándonos
a la
descomposición
en significados
empezamos a
poder operar
frases y
palabras
36. Iñaki Huerta - @ikhuerta
Atributo 7
Atributo 6
Atributo 5
Atributo 4
Atributo 3
Término
Palabra
Palabra
Palabra
Palabra
PalabrasPalabrasPalabrasPalabras
Reales (directas)
PalabrasPalabrasPalabrasPalabras
Sinónimos y parecidos
PalabrasPalabrasPalabrasPalabras
Familias
SIMILITUD
SIMPLE DE KW
SEMÁNTICA
LANTENTE
PalabrasPalabras
Fórmulas, etc…
VECTORES
DE PALABRAS
Palabra =
Atributo 1
Atributo 2
Atributo 3
Las palabras se derivan
operando con sus vectores
REY - HOMBRE + MUJER = REINA
vector vector vector vector
Término Término
INTERPRETACIÓN
DEL LENGUAJE
Término
?
37. Iñaki Huerta - @ikhuerta
¿GOOGLE REALMENTE
PERO EN SERIO...
ENTIENDE
LO QUE LE ESTAMOS PREGUNTANDO?
38. Iñaki Huerta - @ikhuerta
Jugando con mi hija de
3 años a pedirle cosas a
Google Assistant…
“quiero árboles de
navidad de gatito y
colores del arcoíris”
39. Iñaki Huerta - @ikhuerta
Jugando con mi hija de
3 años a pedirle cosas a
Google Assistant…
“quiero árboles de
navidad de gatito y
colores del arcoíris”
41. Iñaki Huerta - @ikhuerta
CASO: Página que alquila un “alojamiento”, que resulta ser una furgoneta.
Ni los textos ni ninguna parte del HTML habla de que sea un vehículo.
Esto me lo explicó:
42. Iñaki Huerta - @ikhuerta
CASO: Página que alquila un “alojamiento”, que resulta ser una furgoneta.
Ni los textos ni ninguna parte del HTML habla de que sea un vehículo.
Esto me lo explicó:
¡Tío!
Que Google está posicionando la
página por la keyword “Ford Transit”
sacándola de la foto…
43. Iñaki Huerta - @ikhuerta
¡LAS KW “FORD TRANSIT”
NO APARECEN EN NIGUNA
PARTE DE LA PÁGINA!
44. Iñaki Huerta - @ikhuerta
GOOGLE IO 2018: “GOOGLE DUPLEX”
45. Iñaki Huerta - @ikhuerta
GOOGLE IO 2018: “GOOGLE DUPLEX”
Es un sistema que nos va a permitir pedirle a Google
Assitant que haga llamadas por nosotros para reservar
servicios por teléfono…
46. Iñaki Huerta - @ikhuerta
GOOGLE IO 2018: GOOGLE DUPLEX
No te pierdas el vídeo: https://www.youtube.com/watch?v=D5VN56jQMWM
47. Iñaki Huerta - @ikhuerta
¡GOOGLE REALMENTE
¡PERO EN SERIO!
(empieza a) ENTENDER
LO QUE LE ESTAMOS PREGUNTANDO!
48. Iñaki Huerta - @ikhuerta
KW buscada
Google Brain
Google Hummingbird
Google HummingbirdSearch Intend Analysis
Google INTERPRETA qué es lo que
realmente quiere saber el usuario
• Pregunta 1
• Pregunta 2
• Pregunta n
…
?
?
?
VOLVAMOS AL
TERRENO
CONOCIDO…
49. Iñaki Huerta - @ikhuerta
KW buscada
Google Brain
Google Hummingbird
Google HummingbirdSearch Intend Analysis ~ KW
Vector
Term
Term
Term
Term
Term
Google INTERPRETA qué es lo que
realmente quiere saber el usuario
• Pregunta 1
• Pregunta 2
• Pregunta n
…
?
?
?
De cada intención de
búsqueda Google tiene algo
“parecido” a un KW vector…
50. Iñaki Huerta - @ikhuerta
KW buscada
Google Brain
Google Hummingbird
Google HummingbirdSearch Intend Analysis ~ KW
Vector
Term
Term
Term
Term
Term
Google INTERPRETA qué es lo que
realmente quiere saber el usuario
• Pregunta 1
• Pregunta 2
• Pregunta n
…
?
?
?
~ KW
Vector
Term
Term
Term
Term
Term
~ KW
Vector
Term
Term
Term
Term
Term
51. Iñaki Huerta - @ikhuerta
GOOGLE SABE QUÉ QUIERE EL USUARIO…
52. Iñaki Huerta - @ikhuerta
GOOGLE SABE QUÉ QUIERE EL USUARIO…
¿Y cómo averigua
si nuestra web lo ofrece?
53. Iñaki Huerta - @ikhuerta
LINK LINK LINK
LINK
LINK
LINK LINK LINK
LINK
LINK
LINK
LINK
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
KL
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
K
LI
N
KLI
N
KLI
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
L
I
N
K
GOOGLE NO PARA DE
RASTREAR
CONTENIDO
54. Iñaki Huerta - @ikhuerta
Documento
Rastreado
Natural
Language
Análisis
Semántico
Matemático
Análisis Semántico basado en IA
Intenciones de
Búsqueda
Resueltas
55. Iñaki Huerta - @ikhuerta
Intenciones de
Búsqueda
Resueltas
Basado en IA
Documento Rastreado
Un primer paso básico:
Hay búsquedas:
- INFORMACIONALES
- NAVEGACIONALES
- TRANSACCIONALES
- MULTIMEDIA
56. Iñaki Huerta - @ikhuerta
Intenciones de
Búsqueda
Resueltas
Basado en IA
Documento Rastreado
Un primer paso básico:
Hay búsquedas:
- INFORMACIONALES
- NAVEGACIONALES
- TRASNACCIONALES
- MULTIMEDIA
PERO ES QUE ESO ES SOLO LA BASE
(y quizás esté un poco obsoleta)
57. Iñaki Huerta - @ikhuerta
La pregunta es:
¿QUÉ ES LO QUE REALMENTE
RESUELVE TU PÁGINA AL USUARIO?
Ficha de
Producto X
¿Lo vendes?
¿Es tuyo?
¿Das sus detalles?
¿Ofreces alguna valoración?
¿Das comparativas?
¿Tu opinión importa?
¿Eres competitivo?
¿Lo describes?
58. Iñaki Huerta - @ikhuerta
La pregunta es:
¿QUÉ ES LO QUE REALMENTE
RESUELVE TU PÁGINA AL USUARIO?
Producto X
¿Lo vendes?
¿Es tuyo?
¿Das sus detalles?
¿Ofreces alguna valoración?
¿Das comparativas?
¿Tu opinión importa?
¿Eres competitivo?
¿Lo describes?
Y LLEGAMOS A LA GRAN DUDA:
¿PUEDE UNA SOLA PÁGINA RESOLVER BIEN
TODAS LAS INTENCIONES DE BÚSQUEDA SOBRE
UN CONCEPTO?
59. Iñaki Huerta - @ikhuerta
Nos muestra:
- Ecommerce que vende ventanas
- Mezcla los Generalistas con los locales
- Añade ofertas y productos entre
particulares.
- Y algún comparador de presupuestos
Con Keywords muy genéricas:
Se adapta a varias intenciones de búsqueda y
las reparte en el SERP
60. Iñaki Huerta - @ikhuerta
Nos muestra:
- Featured Snippet con una buena oferta
- Ecommerce generalistas que venden
ventanas con precio informado
Cuando le concretamos la intención de búsqueda:
Es mucho más homogéneo en su tipología de
resultados
61. Iñaki Huerta - @ikhuerta
Nos muestra:
- Priman los comparadores y directorios
de empresas capaces de hacer
presupuesto
- Saca empresas de profesionales locales
Si le cambiamos la forma de expresarnos:
Intuye de formas muy distintas las intenciones de
búsqueda
62. Iñaki Huerta - @ikhuerta
Imagina una página que vende cordondes de zapatos…
- POTENCIA LA KEYWORD “COMPRAR CORDONDES”
- Y para ampliar términos relacionados además ha ido incorporando…
Cómo se fabrican La mejor forma de atarlos
Comparativa con otras marcas
Otros usos para los cordones
Guía de Estilo y moda
Etc.
63. Iñaki Huerta - @ikhuerta
Imagina una página que vende cordondes de zapatos…
- POTENCIA LA KEYWORD “COMPRAR CORDONDES”
- Y para ampliar términos relacionados además ha ido incorporando…
Cómo se fabrican La mejor forma de atarlos
Comparativa con otras marcas
Otros usos para los cordones
Guía de Estilo y moda
Etc.
POR MUCHO CONTENIDO QUE AGREGUEMOS,
LA PÁGINA SÓLO RESUELVE BIEN LA INTENCIÓN DE COMPRA¡¡¡ !!!
64. Iñaki Huerta - @ikhuerta
Imagina una página que vende cordondes de zapatos…
- POTENCIA LA KEYWORD “COMPRAR CORDONDES”
- Y para ampliar términos relacionados además ha ido incorporando…
Cómo se fabrican La mejor forma de atarlos
Comparativa con otras marcas
Otros usos para los cordones
Guía de Estilo y moda
Etc.
CONCLUSIÓN:
Antes de pensar en un análisis de KW
Haz un análisis de intenciones de búsqueda
65. Iñaki Huerta - @ikhuerta
CÓMO SE SI CUMPLO CON
LA INTENCIÓN DE BÚSQUEDA
• CTR en Google
• Rebote
• Conversión
• Y Revisita
66. Iñaki Huerta - @ikhuerta
Documento Rastreado
Análisis
Semántico
Matemático
TF*IDF
Okapi BM25
Ind. Semántica Latente
Booleano Extendido
Modelo PaiceRedes de Inferencia
(redes bayesianas)
Pesos en Modelos de
independencia BInaria
ETC…
Existen multitud de modelos matemáticos para trabajar en
búsqueda y análisis de la información…
67. Iñaki Huerta - @ikhuerta
Documento Rastreado
Natural Language
TF*IDF
Okapi BM25
Ind. Semántica Latente
Booleano Extendido
Modelo PaiceRedes de Inferencia
(redes bayesianas)
Pesos en Modelos de
independencia BInaria
Existen multitud de modelos matemáticos para trabajar en
búsqueda y análisis de la información…
¡NO TENEMOS NI IDEA DE
CUALES USAN Y CUALES NO
USAN LOS BUSCADORES!
?
?
?
ETC…
?
?
68. Iñaki Huerta - @ikhuerta
Documento Rastreado
TF*IDF
Okapi BM25
Ind. Semántica Latente
Booleano Extendido
Modelo PaiceRedes de Inferencia
(redes bayesianas)
Pesos en Modelos de
independencia BInaria
Existen multitud de modelos matemáticos para trabajar en
búsqueda y análisis de la información…
Y LO PEOR,
SEGURAMENTE TENGAN
MODELOS PROPIOS
MÁS AL DETALLE Y
DEDICADOS
A SU REALIDAD
ETC…
69. Iñaki Huerta - @ikhuerta
TF*IDF
es muy importante en SEO?
¿por qué decimos que el análisis
70. Iñaki Huerta - @ikhuerta
TF*IDF (n) = TF(n) x IDF(n)
Es decir:
• Para cada término (o grupo de términos) de los textos
• La frecuencia en la que aparece en un documento
• Multiplicado por lo normal que es que aparezca en los textos esa palabra.
(n)
TF
IDF
71. Iñaki Huerta - @ikhuerta
Vamos a explicarlo con ejemplos sobre cómo calcular cada indicador…
¿Qué textos pueden
tener mucha repetición
de palabras?
¡Las letras de
temazos Reagueton!
72. Iñaki Huerta - @ikhuerta
TF relativo
(Term Frecuency)
𝛴tf(n) =
D1
(n)
L
(n): Cada término calculado
D1: el documento analizado
L: Total de términos del documento
Ay , Fonsi
DY
Oh, Oh no, oh no, Oh yeah
Diridiri, dirididi Daddy Go
[…]
Despacito
Quiero respirar tu cuello despacito
Deja que te diga cosas al oído
Para que te acuerdes si no estás conmigo
Despacito
Quiero desnudarte a besos despacito
Firmo en las paredes de tu laberinto
Y hacer de tu cuerpo todo un manuscrito (sube, sube, sube)
(Sube, sube)
[…]
73. Iñaki Huerta - @ikhuerta
TF relativo
(Term Frecuency)
𝛴tf(n) =
D1
(n)
La palabra “despacito” aparece en la canción “Despacito” un total de 14 veces.
La canción tiene un total de 453 palabras.
El TF para el término “despacito” es de (14/453 = 3%) un 0,03
L
(n): Cada término calculado
D1: el documento analizado
L: Total de términos del documento
Ay , Fonsi
DY
Oh, Oh no, oh no, Oh yeah
Diridiri, dirididi Daddy Go
[…]
Despacito
Quiero respirar tu cuello despacito
Deja que te diga cosas al oído
Para que te acuerdes si no estás conmigo
Despacito
Quiero desnudarte a besos despacito
Firmo en las paredes de tu laberinto
Y hacer de tu cuerpo todo un manuscrito (sube, sube, sube)
(Sube, sube)
[…]
74. Iñaki Huerta - @ikhuerta
IDF
(Inverse Document Frecuency)
IDF(n) = log10
N
“amol” aparece en 20 de 100 canciones :
20% de los documentos analizados → IDF = 0,77
“jugar” aparece en 55 de 100 canciones:
55% de los documentos analizados → IDF = 0,44
“papi” aparece en 98 de 100 canciones:
98% de los documentos analizados IDF = 0,30
DF (n)
+1
(n): Cada término calculado
N: El total de documentos que disponemos
DF(n): Nº de documentos en los que aparece el término
75. Iñaki Huerta - @ikhuerta
UN CORPUS PEQUEÑO
(Cientos o miles de documentos)
Términos no comunes del lenguaje pero que si los son justo en la colección saldrán despriorizados
UN CORPUS MEDIANO
(Decenas o cientos de miles de documentos)
Ayudará a quitar las expresiones más comunes pero no representará el lenguaje.
UN CORPUS GRANDE
(cientos de millones)
Si clasificará bien las entidades del lenguaje
LA RECETA SECRETA DEL IDF ES EL CORPUS
76. Iñaki Huerta - @ikhuerta
Entendiendo el significado de una puntuación TF*IDF…
¿Cómo serían las puntuaciones de varias palabras de un texto sobre SEO?
“la” → TF*IDF muy bajo
“buscador” → TF*IDF medio
“seo” → FT*IDF alto
TF Muy usada en nuestro texto
Muy usada en el lenguaje naturalIDF
TF Algo usada en nuestro texto
Algo usada en el lenguaje naturalIDF
TF Muy usada en nuestro texto
Poco usada en el lenguaje naturalIDF
77. Iñaki Huerta - @ikhuerta
TF*IDF
de los resultados de Google?
¿En qué nos ayuda hacer un
78. Iñaki Huerta - @ikhuerta
1
2
3
4
5
Google nos dice que estas páginas
responden bien a la KW que se ha
buscado
Por lo que el “KW vector” del
que dispone Google de esa
búsqueda seguramente estará
relacionado con las palabras
contenidas en estas páginas que
nos da como resultado
Observamos un resultado de búsqueda…
79. Iñaki Huerta - @ikhuerta
URL resultado 1
KW
que queremos posicionar
1º
URL resultado 22º
URL resultado 33º
URL resultado 44º
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
80. Iñaki Huerta - @ikhuerta
URL resultado 1
KW
que queremos posicionar
1º
URL resultado 22º
URL resultado 33º
URL resultado 44º
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
TF*IDF de cada palabra (o grupos)
Para cada Palabra o Grupo:
• Media TF*IDF (Absoluta)
• TF*IDF Más Alto
• Media TF*IDF (solo en Usadas)
• % URLs donde aparece
Sacando los TF*IDF del TOP10, TOP20,
TOP50,… accederemos para cada palabra
o grupo de palabras a distintos
indicadores sobre el uso de palabras y
expresiones concretas.
81. Iñaki Huerta - @ikhuerta
• Media TF*IDF (Absoluta)
Qué sabremos con estos datos de cada palabra de esos textos
• TF*IDF Más Alto
• Media TF*IDF (solo en Usadas)
• % URLs donde aparece¿Es necesario usarla para posicionar?
¿Cuánto hay que usarla?
¿Cuándo empiezo a usarla demasiado?
%
84. Iñaki Huerta - @ikhuerta
Documento Rastreado
Natural
Language
Análisis Semántico
basado en IA
https://cloud.google.com/natural-language/?hl=es
No sabemos tampoco lo que hace
Google exactamente.
PERO TENEMOS ACCESO A SUS APIs:
Pruébalo:
85. Iñaki Huerta - @ikhuerta
El análisis de Sintaxis (es prácticamente perfecto)
- De detectar la función gramatical de cada palabra en un texto: Nombres, verbos, atributos, artículos, etc…
- De clasificar las distintas partes de cada frase (sujeto, predicado, complementos…).
- Y cuando ciertas palabras describen a otras y como se relaciona su significado en una frase.
86. Iñaki Huerta - @ikhuerta
El análisis de Sintaxis (es prácticamente perfecto)
- De detectar la función gramatical de cada palabra en un texto: Nombres, verbos, atributos, artículos, etc…
- De clasificar las distintas partes de cada frase (sujeto, predicado, complementos…).
- Y cuando ciertas palabras describen a otras y como se relaciona su significado en una frase.
LA PROXIMA VEZ QUE JUEGES HERRAMIENTAS DE
AUTOMATIZACIÓN DE TEXTOS PIENSA EN QUE
CUALQUIER ERROR DE SINTAXIS VA A SER
DETECTADO MUY FÁCILMENTE
87. Iñaki Huerta - @ikhuerta
El análisis semántico: se limita a detectar entidades y su prominencia
* Entidades clasificadas de los primeros párrafos de “El quijote”
88. Iñaki Huerta - @ikhuerta
En castellano no es perfecto clasificando
Pero sabe de que estamos hablando y describiendo.
89. Iñaki Huerta - @ikhuerta
GOOGLE NO
ES LA ÚNICA
API
SEMÁNTICA
90. Iñaki Huerta - @ikhuerta
LA HERRAMIENTA NO ES TAN
IMPORTANTE, LO IMPORTANTE ES
DETECTAR LAS ENTIDADES DE LOS
TEXTOS:
SOLO QUEREMOS
SABER LOS
CONCEPTOS
DE LOS QUE HABLA
UN TEXTO
91. Iñaki Huerta - @ikhuerta
CON EL ANÁLISIS DE ENTIDADES EL
CONTENIDO DUPLICADO
VA DE SIMILARIDAD SEMÁNTICA
NO DEL % DE PALABRAS REPETIDAS
92. Iñaki Huerta - @ikhuerta
DETECTANDO
CONTENIDO
DUPLICADO
CON
SIMILARIDAD
SEMÁNTICA…
93. Iñaki Huerta - @ikhuerta
DETECTANDO
CONTENIDO
DUPLICADO
CON
SIMILARIDAD
SEMÁNTICA…
UN POST MIO DE 2012
UN POST “CASUALMENTE”
PARECIDO de 2017:
MISMO CONTENIDO, DISTINTA
REDACCIÓN
94. Iñaki Huerta - @ikhuerta
POST MIO DE 2012
UN POST “CASUALMENTE”
PARECIDO de 2017
NOTA PARA “Black Hateros”:
Las herramientas de similaridad semántica resultan ideales
para validar estrategias de…
“Spinning”, “reescritura“ y “autogeneración de textos”.
La mayoría gastan mucho tiempo en programar textos fácilmente
detectables con estas herramientas y por lo tanto por Google
95. Iñaki Huerta - @ikhuerta
Un “TF*IDF”
con
ENTIDADES
SEMÁNTICAS
En lo estamos haciendo ☺
96. Iñaki Huerta - @ikhuerta
URL resultado 1
KW
que queremos posicionar
1º
URL resultado 22º
URL resultado 33º
URL resultado 44º
ENTIDADES por prominencia
ENTIDADES por prominencia
ENTIDADES por prominencia
ENTIDADES por prominencia
ENTIDADES por prominencia
Para cada Entidad
• Media Prominencia (Absoluta)
• Prominencia Más Alto
• Media Prominencia (Usadas)
• % URLs donde aparece
Natural
Language API
97. Iñaki Huerta - @ikhuerta
Documento Rastreado
Análisis de Sintaxis
Análisis Semántico (de Entidades)
Análisis de Sentimiento
Natural Language
Análisis Semántico
basado en IA
98. Iñaki Huerta - @ikhuerta
Documento Rastreado
Natural
Language
Análisis Semántico
Matemático
0.83
0.25
0.13
0.70
0.05
0.02
0.06
0.01
0.02
0.01
Entidades resueltas
priorizadas por prominencia
Al final todo nos lleva a lo mismo:
Saber qué entidades/términos son más prominentes en los textos.
Intenciones
de búsqueda
100. Iñaki Huerta - @ikhuerta
Documento Rastreado
0.83
0.25
0.13
0.70
0.05
0.02
0.06
0.01
0.02
0.01
KW buscada
Search Intend Analysis
KW
Vector
Term
Term
Term
Term
Term
KW
Vector
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
KW
Vector
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
? Pregunta 2
? Pregunta n
? Pregunta 1
…
Entidades resueltas priorizadas por prominencia
101. Iñaki Huerta - @ikhuerta
Documento Rastreado
0.83
0.25
0.13
0.70
0.05
0.02
0.06
0.01
0.02
0.01
KW buscada
Search Intend Analysis
KW
Vector
Term
Term
Term
Term
Term
KW
Vector
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
KW
Vector
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
T
e
r
m
? Pregunta 2
? Pregunta n
? Pregunta 1
…
Y ÉSTA ES LA VERDADERA MÁGIA
DEL BUSCADOR
Entidades resueltas priorizadas por prominencia
102. Iñaki Huerta - @ikhuerta
Es increíble a donde está llegando todo esto…
… pero lo mejor, es que
solo acaba de empezar
103. Iñaki Huerta - @ikhuerta
Ikaue.com
@ikhuerta
hola@ikaue.com
Gracias Iñaki Huerta