Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data science aplicado a periodismo

528 views

Published on

Algunas técnicas y algoritmos como apoyo al periodismo

Published in: Data & Analytics
  • Be the first to comment

Data science aplicado a periodismo

  1. 1. ¿Ciencia de Datos en Periodismo? A 33k pies! Liliana Millán liliana.millan@gmail.com @silil3 Marzo 2017
  2. 2. Agenda + Minería de texto - IR + Grafos como herramienta de organización de información + NER - Name Entity Recognition + Wrap it all
  3. 3. Minería de Texto - IR Un sistema de recuperación de información IR está compuesto por 3 elementos: + Una colección de documentos + Una consulta (con uno más términos) + Ordenar la colección de acuerdo a una medida de relevancia con respecto a la consulta realizada
  4. 4. Ejemplo de un IR Query de consulta Colección de documentos ordenadas por relevancia (PageRank) al query de consulta
  5. 5. IR - ¿qué necesito? + Requieres de un conjunto de documentos sobre los que quieres realizar una búsqueda de relevancia + Seleccionar el algoritmo/método para calcular la relevancia: + TF/IDF: Frecuencia de una palabra en el documento y en toda la colección + BM25: Frecuencia y tamaños + LSI: Contexto, polisemia y sinonimia + LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los mails de Sarah Palin, los de Hillary Clinton!!! + Para clasificar texto: Requieres de tener una taxonomía —generalmente proporcionada por el periodista/editor—
  6. 6. Taxonomía
  7. 7. ¿Para qué? + Para que puedas clasificar automáticamente un contenido a un tema(s) + Organización de contenido + ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de política + Recomendación de contenidos —otras investigaciones que se parecen a la tuya—
  8. 8. Grafos + Representación de información + Nodos: Personas, empresas, notas, ... + Relaciones: Hijo de, proveedor, .. + Atributos: Fechas, montos, ... + Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’ + 6 grados de separación + Diámetro de la red + Comunidades + Número de triángulos + ...
  9. 9. Ejemplo + Game of Thrones + 107 personajes + 3er libro ‘A Storm of Swords’ + https://anthonybonato.co m/2016/04/13/the-mathe matics-of-game-of-throne s/
  10. 10. Casos de uso + Identificación de relaciones anómalas: fraudes, corrupción + Falta de relación entre nodos que deberían tener relación: recomendaciones + Identificación de comunidades (y propiedades): Nodos que son hubs —prestanombres—, nodos de separación entre empresas/personas + Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a quién tengo que contactar. + Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre son ganadas por la misma empresa— → Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/
  11. 11. CompraNet + Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html (2010-2017, 2002-2011) + Generar archivo csv con los datos de vendedor, comprador, precio (origen, destino, atributo) + Cargar datos a bases de datos de grafos: Neo4j, Gephi + Analizar los datos ‘consultando’ la base de datos de grafos: identificación de relaciones ‘raras’ (Neo4j) + Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se comportan como mundo pequeño?, diámetro del grafo,
  12. 12. CompraNet + Año: 2004 + Nodos: 1,427 + Enlaces: 53,323 + Tamaño: Monto + Color: Comunidad + Grafo: bipartita - proveedores, licitadores Herramienta: Gephi
  13. 13. ¿Cómo automatizar la creación del grafo? + Named Entity Recognition (NER) + Personas + Empresas + Lugares + Fechas + Relaciones + ¿Cómo? + Gramática específica: + Estadística + Machine learning :) (no supervisado, supervisado) Siempre de la mano de un editor|periodista|lingüista|experto en el problema Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml
  14. 14. Wrap it all - Panama papers + Obtener los documentos (¿en Español?) + Identificación automática de temas con LDA + Generar un NER —¿ocupar uno ya hecho?— identificar: + Personas + Empresas + Relaciones + Fechas + Montos + Generar un archivo con los nodos y las aristas + Cargar el archivo a Neo4j + Cargar el archivo a Gephi - cuántas comunidades? Grados de separación entre empresas/personas
  15. 15. PERO! + Todos estos análisis son específicos al idioma!!! + No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno en español —hay varios :)— + Nunca dejes de lado al experto en cada punto, la sinergia de un equipo multidisciplinario te traerá muchos beneficios: + Periodista|Editor + Experto en el tema + Científico de datos
  16. 16. Gracias :) Preguntas ???? liliana.millan@gmail.com

×