Análisis del lenguaje y contenido emocional en #15m en Twitter

  • 557 views
Uploaded on

"Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter" - Contenido de la presentación para #15MP2P celebrado en IN3-UOC del 3-5 Julio 2013

"Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter" - Contenido de la presentación para #15MP2P celebrado en IN3-UOC del 3-5 Julio 2013

More in: News & Politics
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
557
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
9
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. “Hacia un método de análisis del lenguaje y contenido emocional en la gestación y explosión del 15M en Twitter” #15mP2P datanalysis15M @oscarmarinmiro oscar@outliers.es 1
  • 2. Punto de Partida (I) • https://github.com/datanalysis15m/datasets/ blob/master/oscarmarin/AbrilJulio2011.txt • 1.123.225 tweets • Del 31/03/2011 al 08/07/2011 • #nolesvotes,#democraciarealya,#spanishrev olution,#acampadasol,#15m,#yeswecamp,# tomalacalle • https://github.com/datanalysis15m/software/ tree/master/twitterDataGet 2
  • 3. Punto de Partida (II) • ¿Cómo podemos caracterizar el lenguaje usado? • ¿Cómo cambian estas características en el tiempo? • ¿Podemos medir las emociones implicadas en los contenidos? • ¿Cómo cambian con el tiempo? ¿Hay alguna correlación con la viralidad? 3
  • 4. Análisis • Cuantitativo: • Frecuencias de conceptos:Temperatura • Red de conceptos: Cohesión • Cualitativo: emociones presentes en los contenidos 4
  • 5. Análisis Cuantitativo Extracción de Conceptos Coocurrencias Consolidación Ranking Temperatura Cohesión “Acampada en Sol” [‘Acampada’:1,‘Sol’:1] [‘Acampada’,‘Sol’,10] Ventana temporal 1:‘Acampada’:1000, 2:‘Sol’:800, .... hasta 400 posiciones Diferencias con la ventana anterior ¿Cuántas coocurrencias de todas las posibles? 5
  • 6. Cuantitativo: Extracción Entradas de artículos Wikipedia+ inlinks Entradas DBPedia BBDD Librería “Acampada en Sol” + inlinks_minimos “Acampada”,”Sol” https://github.com/datanalysis15m/software/tree/master/languageTools 6
  • 7. http://assets.outliers.es/15mvocabulario 7
  • 8. Cualitativo: Aproximaciones • Manual: Calidad alta, velocidad baja • Automática: Calidad media, velocidad alta • Calidad mediante corpus: • ¿Están todos los que son? [Recall] • ¿Son todos los que están? [Precision] 8
  • 9. Cualitativo: NLP • Procesado del lenguaje natural • Análisis morfosintáctico • http://nlp.lsi.upc.edu/freeling/demo/ demo.php 9
  • 10. Cualitativo: Entornos ruidosos • Análisis literal [diccionarios] • Expansión de raíces en diccionarios • Eliminación de solapamientos [Aho- Corasick] • Cancelaciones • Gramáticas literales 10
  • 11. http://assets.outliers.es/15memociones/ 11
  • 12. Cualitativo: Nuestro corpus • 2000 tweets • 50% tweets emocionales escogidos a mano, corpus de entrenamiento • 50% al azar, corpus de test • Hay 1183 tweets en el corpus con contenido emocional • F1: 82.4 % 12
  • 13. Cualitativo: El problema de la subjetividad • Medir objetivamente algo subjetivo • Sumar subjetividades (crowdsourcing) • Problema: Corpus NO de twitter 13
  • 14. Conclusiones técnicas • El análisis cuantitativo es trasladable a otros contextos y escenarios • Para afinar el análisis cualitativo y justificar su corrección necesitamos más trabajo de corpus (colaboración) 14
  • 15. Trabajos futuros • Red completa y navegable de conceptos y entidades del #15m • Red de emociones - conceptos/entidades • Visualizar la propagación de las emociones • Acabar de liberar los diccionarios, código y corpus. Necesitamos colaboración! :P 15
  • 16. Referencias • http://www.amazon.com/Foundations- Statistical-Natural-Language-Processing/ dp/0262133601 • http://www.amazon.com/Speech- Language-Processing-2nd-Edition/dp/ 0131873210 • http://nlp.lsi.upc.edu/freeling/ • https://github.com/clips/pattern 16