“Hacia un método de análisis del
lenguaje y contenido emocional en la
gestación y explosión del 15M en
Twitter”
#15mP2P
da...
Punto de Partida (I)
• https://github.com/datanalysis15m/datasets/
blob/master/oscarmarin/AbrilJulio2011.txt
• 1.123.225 t...
Punto de Partida (II)
• ¿Cómo podemos caracterizar el lenguaje
usado?
• ¿Cómo cambian estas características en el
tiempo?
...
Análisis
• Cuantitativo:
• Frecuencias de conceptos:Temperatura
• Red de conceptos: Cohesión
• Cualitativo: emociones pres...
Análisis Cuantitativo
Extracción
de
Conceptos
Coocurrencias Consolidación
Ranking
Temperatura
Cohesión
“Acampada en Sol”
[...
Cuantitativo: Extracción
Entradas de
artículos
Wikipedia+
inlinks
Entradas
DBPedia
BBDD
Librería
“Acampada en Sol”
+ inlin...
http://assets.outliers.es/15mvocabulario
7
Cualitativo:
Aproximaciones
• Manual: Calidad alta, velocidad baja
• Automática: Calidad media, velocidad alta
• Calidad m...
Cualitativo: NLP
• Procesado del lenguaje natural
• Análisis morfosintáctico
• http://nlp.lsi.upc.edu/freeling/demo/
demo....
Cualitativo: Entornos
ruidosos
• Análisis literal [diccionarios]
• Expansión de raíces en diccionarios
• Eliminación de so...
http://assets.outliers.es/15memociones/
11
Cualitativo: Nuestro
corpus
• 2000 tweets
• 50% tweets emocionales escogidos a
mano, corpus de entrenamiento
• 50% al azar...
Cualitativo: El problema
de la subjetividad
• Medir objetivamente algo subjetivo
• Sumar subjetividades (crowdsourcing)
• ...
Conclusiones técnicas
• El análisis cuantitativo es trasladable a
otros contextos y escenarios
• Para afinar el análisis cu...
Trabajos futuros
• Red completa y navegable de conceptos y
entidades del #15m
• Red de emociones - conceptos/entidades
• V...
Referencias
• http://www.amazon.com/Foundations-
Statistical-Natural-Language-Processing/
dp/0262133601
• http://www.amazo...
Upcoming SlideShare
Loading in...5
×

Análisis del lenguaje y contenido emocional en #15m en Twitter

698

Published on

"Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter" - Contenido de la presentación para #15MP2P celebrado en IN3-UOC del 3-5 Julio 2013

Published in: News & Politics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
698
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
10
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Análisis del lenguaje y contenido emocional en #15m en Twitter"

  1. 1. “Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter” #15mP2P datanalysis15M @oscarmarinmiro oscar@outliers.es 1
  2. 2. Punto de Partida (I) • https://github.com/datanalysis15m/datasets/ blob/master/oscarmarin/AbrilJulio2011.txt • 1.123.225 tweets • Del 31/03/2011 al 08/07/2011 • #nolesvotes,#democraciarealya,#spanishrev olution,#acampadasol,#15m,#yeswecamp,# tomalacalle • https://github.com/datanalysis15m/software/ tree/master/twitterDataGet 2
  3. 3. Punto de Partida (II) • ¿Cómo podemos caracterizar el lenguaje usado? • ¿Cómo cambian estas características en el tiempo? • ¿Podemos medir las emociones implicadas en los contenidos? • ¿Cómo cambian con el tiempo? ¿Hay alguna correlación con la viralidad? 3
  4. 4. Análisis • Cuantitativo: • Frecuencias de conceptos:Temperatura • Red de conceptos: Cohesión • Cualitativo: emociones presentes en los contenidos 4
  5. 5. Análisis Cuantitativo Extracción de Conceptos Coocurrencias Consolidación Ranking Temperatura Cohesión “Acampada en Sol” [‘Acampada’:1,‘Sol’:1] [‘Acampada’,‘Sol’,10] Ventana temporal 1:‘Acampada’:1000, 2:‘Sol’:800, .... hasta 400 posiciones Diferencias con la ventana anterior ¿Cuántas coocurrencias de todas las posibles? 5
  6. 6. Cuantitativo: Extracción Entradas de artículos Wikipedia+ inlinks Entradas DBPedia BBDD Librería “Acampada en Sol” + inlinks_minimos “Acampada”,”Sol” https://github.com/datanalysis15m/software/tree/master/languageTools 6
  7. 7. http://assets.outliers.es/15mvocabulario 7
  8. 8. Cualitativo: Aproximaciones • Manual: Calidad alta, velocidad baja • Automática: Calidad media, velocidad alta • Calidad mediante corpus: • ¿Están todos los que son? [Recall] • ¿Son todos los que están? [Precision] 8
  9. 9. Cualitativo: NLP • Procesado del lenguaje natural • Análisis morfosintáctico • http://nlp.lsi.upc.edu/freeling/demo/ demo.php 9
  10. 10. Cualitativo: Entornos ruidosos • Análisis literal [diccionarios] • Expansión de raíces en diccionarios • Eliminación de solapamientos [Aho- Corasick] • Cancelaciones • Gramáticas literales 10
  11. 11. http://assets.outliers.es/15memociones/ 11
  12. 12. Cualitativo: Nuestro corpus • 2000 tweets • 50% tweets emocionales escogidos a mano, corpus de entrenamiento • 50% al azar, corpus de test • Hay 1183 tweets en el corpus con contenido emocional • F1: 82.4 % 12
  13. 13. Cualitativo: El problema de la subjetividad • Medir objetivamente algo subjetivo • Sumar subjetividades (crowdsourcing) • Problema: Corpus NO de twitter 13
  14. 14. Conclusiones técnicas • El análisis cuantitativo es trasladable a otros contextos y escenarios • Para afinar el análisis cualitativo y justificar su corrección necesitamos más trabajo de corpus (colaboración) 14
  15. 15. Trabajos futuros • Red completa y navegable de conceptos y entidades del #15m • Red de emociones - conceptos/entidades • Visualizar la propagación de las emociones • Acabar de liberar los diccionarios, código y corpus. Necesitamos colaboración! :P 15
  16. 16. Referencias • http://www.amazon.com/Foundations- Statistical-Natural-Language-Processing/ dp/0262133601 • http://www.amazon.com/Speech- Language-Processing-2nd-Edition/dp/ 0131873210 • http://nlp.lsi.upc.edu/freeling/ • https://github.com/clips/pattern 16
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×