Presentación sobre la sesión "Análisis de Redes Sociales (Social Network Analysis) y Text Mining", dentro del Programa Ejecutivo de Big Data y Business Intelligence celebrado en Madrid en Febrero de 2016, en nuestra sede de la Universidad de Deusto.
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
1. PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.
4. 4
Text mining
Introducción
●Estudios recientes indican que, de media, el 80%
de la información de una empresa está
almacenada en forma de documentos
o Sin duda, este campo de estudio es muy amplio, por lo
que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y
recuperación de la información o el aprendizaje
automática, entre otras, apoyan el text mining (o
minería de texto)
5. 5
● En ocasiones se confunde el text mining con la
recuperación de la información (Information
Retrieval, IR) [Hearst, 1999]
o Esta última, no obstante, consiste en la reacuperación
automática de documentos relevantes mediante
indexaciones de textos, clasificación, categorización, etc.
o Generalmente se utilizan palabras clave para encontrar
una página relevante
o En cambio, el text mining se refiere a una examinar uan
colección de documentos y descubrir información no
contenida en ningún documento individual [Nasukawa,
2001]
Text mining
Introducción (II)
6. 6
● Hay una enorme cantidad de información en
texto
o Aparte de los libros, periódicos y enciclopedias en
Internet, se generan enormes cantidades de información
textual
Text mining
¿Por qué?
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
7. 7
Text mining
Pasos
1) Obtención y
agrupación Texto
2) Pre
procesamiento
3) Generación de
atributos
4) Selección de
atributos
5) Minería de
datos
6) Interpretación
y evaluación
8. 8
Text mining
Pasos: 1) Obtención y agrupación del texto
●Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de status, etc.
●El primer paso, así, consiste en la obtención de
estos datos y su agrupamiento para comenzar a
trabajar
9. 9
Text mining
Pasos: 2) Pre-procesamiento
●Eliminar el ruido
o Texto deliberadamente equivocado (SPAM)
o Textos ambiguos
o Texto erróneo
o Palabras que no tienen poder discriminatorio (STOP
WORDS)
o Ruido en el formato (tags, links)
o Multiplicidad de idiomas
o Sinónimos, palabras con varios significados
o Frases típicas
11. 11
Text mining
Pasos: 2) Pre-procesamiento (III)
●Convertir el documento en un vector de
palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
12. 12
Text mining
Pasos: 2) Pre-procesamiento (IV)
● Con WEKA:
o Se puede importar los datos en CSV
o Hay que eliminar los caracteres: , ; : “ ‘ % ()
o Aplicar primero el filtro NominalToString
o Aplicar el filtro StringToWordDetector
13. 13
Text mining
Pasos: 3) Generación de atributos
●Representación del texto
o Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
14. 14
Text mining
Pasos: 3) Generación de atributos (II)
●Representación del texto
o Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
15. 15
Text mining
Pasos: 4) Selección de atributos
●¿Qué palabras tienen la mejor capacidad
discriminatoria?
●Se puede usar un clasificador
o Latent Semantic Analysis
§ Es una teoría y un método para extraer y representar
el significado de las palabras dentro de un contexto
utilizando técnicas estadísticas sobre un cuerpo de
texto grande
16. 16
Text mining
Pasos: 4) Selección de atributos (II)
● En WEKA
o Ir a “Select attributes”
o Seleccionar “Latent Semantic Analysis”
o Start
o Guardar el nuevo dataset
17. 17
Text mining
Pasos: 5) Minería de datos
●Se puede usar cualquiera de las técnicas vistas
en el apartado de descubrimiento de
conocimiento
o Clasificación
o Descubrimiento estructuras
o Reglas de asociación
18. 18
Text mining
Pasos: 6)Interpretación y evaluación
● Interpretar
o Descubrimiento estructuras
●Evaluar los resultados
o Clasificación
o Reglas de asociación
●Sacar conclusiones o iterar sobre los pasos
anteriores
23. 23
Análisis Redes Sociales
¿Qué es?
●NO es solo Análisis de Social Media
o Puede ser parte
●Sociología + Matemáticas
o Actores que interactúan
o Teoría de Grafos
●Estudio numérico y representación gráfica
25. 25
Análisis Redes Sociales
¿Qué se estudia?
●Redes egocéntricas
o Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)
●Redes completas
o Número de nodos determinado por una característica
concreta: son los que son (UE)
●Grandes redes
o Redes con muchos nodos en las que en general el
investigador corta el límite
26. 26
Análisis Redes Sociales
Elementos
● Actores
o Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso
actividades
o Depende de lo que se esté investigando
●Vínculos
o Los vínculos que unen a los actores se definen por sus
propiedades o características de la relación
28. 28
Análisis Redes Sociales
Características
●Basado en relaciones y vínculos entre actores
●Recogida sistemática de datos empíricos del tipo
de relación estudiada entre cada par de actores
o Representado por gráficos
●Se apoya en el uso de las matemáticas,
principalmente la teoría matemática de grafos
y/o en modelos informáticos
29. 29
Análisis Redes Sociales
Teoría de Grafos
●Surge en el siglo XVIII con Euler (1707-1803)
o El problema de los puentes de Konigsberg
●Resolución de problemas que pueden ser
modelados mediante un grafo y resueltos
mediante algoritmos específicamente
desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
30. 30
Análisis Redes Sociales
Teoría de Grafos (II)
● La historia del metro de Londres tiene mucha relación
con la Teoría de Grafos
o Más concretamente, con la Inmersión de Grafos
(Graph Drawing)
o Permite explicar de forma sencilla la representación
(inmersión) de un grafo
● Para un mismo conjunto de vértices y una misma lista
de conexiones entre ellos, puede haber trazados con o
sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la
inmersión que se elija, se pueden destacar, y por lo
tanto aprovechar, una característica u otra del grafo
31. 31
Análisis Redes Sociales
Teoría de Grafos (III)
● Los primeros mapas del metro de Londres
eran geográficos
o Dibujar sobre un plano de la ciudad los
recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico
empleado en el metro de Londres, se
percató en 1931 de que al usuario no le
interesaba conocer el recorrido del metro
bajo tierra
o Simplemente le interesaba conocer la
posición relativa de las líneas y
estaciones para realizar los trasbordos
que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-
beck.html
31
32. 32
Análisis Redes Sociales
Teoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un
diseño topológico
o Menos curvas y direcciones en las líneas
o De broma, hizo su primer diseño basado en los
utilizados en circuitos eléctricos
● En 1936, entre otros cambios, eliminó curvas y sólo
permitió ángulos de 45º y 90º
● En 1940, se incorporaron ángulos de 60º también, idea
que se desechó por enturbiar la claridad del plano
33. 33
Análisis Redes Sociales
Teoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
34. 34
Análisis Redes Sociales
Teoría de Grafos (VI)
●¿Por qué?
o Proporciona vocabulario preciso
o Herramientas cuantitativas
●Grafo
o “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”
o Nodos: actores
§ Pueden poseer atributos (sexo, grupo étnico, etc.)
o Líneas: vínculos
§ Puede haber diferentes tipos/características
(amistad, influencia)
35. 35
Análisis Redes Sociales
Teoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
36. 36
Análisis Redes Sociales
Teoría de Grafos (VIII)
●Mediciones: Nodos
o Adyacencia / Incidencia
§ Dos nodos son adyacentes si están relacionados
§ Una línea y un nodo son incidentes entre sí si el nodo
es uno de los que definen la línea
o Grado
§ El grado de un nodo, designado d(n) es el número de
líneas que son incidentes con él (nodos adyacentes)
37. 37
Análisis Redes Sociales
Teoría de Grafos (IX)
●Mediciones: Nodos (cont.)
o Centralidad
§ La centralidad de un nodo ayuda a dilucidar su
“importancia” en la red, aunque no la representa por
completo
§ El grado es una medida de centralidad
§ Distancia media geodésica al resto de nodos:
cercanía
§ Intermediación: medida de las veces que un nodo se
interpone entre la distancia geodésica de otros
38. 38
Análisis Redes Sociales
Teoría de Grafos (X)
●Mediciones: Nodos (cont.)
o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
43. 43
Análisis Redes Sociales
Teoría de Grafos (XV)
●Mediciones: Nodos (cont.)
o Caminos
§ Un camino es una ruta que une dos nodos pasando
por otros.
§ Hay diferentes tipos de caminos
● walk
● trail: walk en el que todas las líneas son distintas
● path: trail que no repite nodos
● semipath: en un grafo dirigido, path que ignora el sentido de las
uniones
44. 44
Análisis Redes Sociales
Teoría de Grafos (XVI)
●Mediciones: Nodos (cont.)
o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
45. 45
Análisis Redes Sociales
Teoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals
the Cause of Traffic Jams
o Investigadores de la Microsoft Research
Asia han dividido la ciudad en regiones
(figura contigua), analizando cómo los
taxis se mueven a través de ellas
o Si se puede tomar un camino directo
entrea A y B, y un taxista toma un
camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con
mucha densidad de taxis (Mexico City,
Bangkok, Tokyo, New York, Buenos Aires
y Moscow)
46. 46
Análisis Redes Sociales
Teoría de Grafos (XVIII)
●Mediciones: Nodos (cont.)
o Conexión
§ Débilmente conectados: semicamino
§ Unilateralmente conectados
● Path de a a b pero no a la inversa
§ Fuertemente conectados: unilateralmente
conectados en ambos sentidos
§ Recursivamente conectados: orden de nodos idéntico
pero inverso
47. 47
Análisis Redes Sociales
Teoría de Grafos (XIX)
●Mediciones: Nodos (cont.)
o Distancia geodésica
§ Longitud del path más corto entre dos nodos
§ Si no son alcanzables entre sí, infinita o indefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
48. 48
Análisis Redes Sociales
Teoría de Grafos (XX)
●Mediciones: Grafo
o Densidad
§ Proporción entre líneas existentes y líneas posibles
§ Líneas posibles
● Grafo no orientado: g (g-1) / 2
● Grafo orientado: g (g-1)
o Subgrafo
§ Un grafo G2 es subgrafo de G1 si G1 contiene G2
50. 50
Análisis Redes Sociales
Teoría de Grafos (XXII)
●Mediciones: Grafo
o Diámetro
§ Distancia geodésica más alta entre dos nodos
o Punto de corte
§ Nodo que, al eliminarlo rompe el grafo
51. 51
Análisis Redes Sociales
Teoría de Grafos (XXIII)
●Representación de los datos
o Matriz de adyacencia
o Lista de aristas
o Lista de adyacencia
54. 54
Análisis Redes Sociales
Teoría de Grafos (XXVI)
● Lista de adyacencia
o Más útiles para redes poco densas
o grandes
o Lista:
§ 1:
§ 2: 3 4
§ 3: 2 4
§ 4: 5
§ 5: 1 2
58. Copyright (c) 2016 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative
Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
Febrero 2016
59. PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.