Este documento presenta la memoria para optar al título de Ingeniero Civil Informático de Franco Castro Navea. Describe el contexto y proceso de gatekeeping en medios de comunicación, y propone el desarrollo de un prototipo para generar reportes a partir de Twitter que minimice la selección editorial. Explica la arquitectura de captura, procesamiento y presentación de datos, incluyendo clasificación y filtros. Finalmente, presenta resultados de un caso de prueba sobre el aborto en Chile y un modelo de evaluación.
1. PROFESOR GUÍA: LAUTARO GUERRA GENSKOWSKY
PROFESOR CORREFERENTE: RICARDO ACEVEDO ALMONACID
CREACIÓN DE PROTOTIPO PARA LA GENERACIÓN
DE REPORTES A PARTIR DE TWITTER
MEMORIA PARA OPTAR AL TÍTULO DE INGERIERO CIVIL INFORMÁTICO
1
FRANCO CASTRO NAVEA
8. CONTEXTO / PROCESO DE GATEKEEPING
MEDIO DE PRENSA
FUERZAS:
SELECCIONES
NO OPERATIVAS
EJEMPLO: ¿VA
ACORDE
A LA LINEA EDITORIAL
DEL MEDIO DE
PRENSA?
8
PUERTAS:
SELECCIONES
OPERATIVAS.
EJEMPLO: ¿ES
POSIBLE VERIFICAR
LA FUENTE?
15. ”UNA NOTICIA ES LA COMUNICACIÓN DE
INFORMACIÓN SELECCIONADA SOBRE UN
EVENTO ACTUAL QUE POSTERIORMENTE ES
PRESENTADO A TRAVÉS DE CUALQUIER MEDIO
DE COMUNICACIÓN EXISTENTE”.[66]
Clay Shirky [1]
CONTEXTO / PROCESO DE GATEKEEPING 15
17. CONTEXTO / VISIONES REFERENTES AL GATEKEEPING 17
VISIONES REFERENTES AL GATEKEEPING
White [2] identifica el proceso como
demasiado subjetivo, pues las
distintas etapas dependen de
aspectos personales del gatekeeper.
Breed [3] identifica que los
gatekeepers principales
son los editores.
Gans [4] considera que el proceso de
construcción de una noticia no está
principalmente en el periodista o editor,
sino en el proceso, las rutinas y las a
disposiciones de la organización se
dedican a la creación de noticias.
Lewin [5] señala que la redacción de una
noticia incluyen el nivel individual de cada
periodista, el nivel de las rutinas o prácticas
de periodismo, el nivel de organización, el
nivel de los medios de comunicación y el
nivel del sistema social en cada uno de los
cuales actúan fuerzas.
18. CONTEXTO / VISIONES REFERENTES AL GATEKEEPING 18
ȍƁ
ɀ
nj
IRRUPCIÓN CON
LAS REDES SOCIALES
Y EL PERIODISMO
CIUDADANO
20. NUESTRO ESTUDIO INDICA QUE LA SELECCIÓN
O FILTRO, ES EL PROCESO DE GATEKEEPING
MÁS CERRADO PARA LOS USUARIOS Y
CREEMOS QUE LO SEGUIRÁ SIENDO
HERMINDA [6]
CONTEXTO / VISIONES REFERENTES AL GATEKEEPING 20
21. PROBLEMA A
ABORDAR
A PESAR DE LA IRRUPCIÓN
DE LAS REDES SOCIALES Y EL
SURGIMIENTO DEL
PERIODISMO CIUDADANO, NO
EXISTE PARTICIPACIÓN
EFECTIVA NI TRASPARENCIA
PARA LOS CIUDADANOS
REFERENTE A LOS PROCESOS
DE GATEKEEPING O
SELECCIÓN DE UNA NOTICIA.
21
22. PROPUESTA
PROPUESTA
▸ Twitter como red social presenta interesantes
componentes que llevan a que mucha gente lo utilice hoy
en día como fuente de información inmediata.
▸ Se busca diseñar e implementar una herramienta que
permita generar reportes de hechos noticiosos basado en
las potencialidades de Twitter de un determinando evento,
privilegiando aquellos reportes con menor cantidad de
intermediarios, siendo estos, las y los observadores más
cercanos físicamente al lugar donde ocurrió el hecho.
22
23. PROPUESTA / OBJETIVO PRINCIPAL
OBJETIVO PRINCIPAL
▸ Desarrollar un algoritmo computacional que permita
recoger tweets que reporten un evento, priorizando los
tweets geoposicionados cercano al lugar de ocurrencia
del evento, para generar un relato temporal referente a
dicho evento que será presentado mediante una interfaz
web.
23
24. PROPUESTA / OBJETIVOS SECUNDARIOS
OBJETIVOS SECUNDARIOS
▸ Analizar trabajos previos y herramientas creadas con
anterioridad para encontrar la forma adecuada y mas
conveniente de proceder a la construcción de esta
herramienta.
▸ Dotar al público interesado en informarse sobre eventos
noticiosos de una herramienta de reporte de eventos que
minimiza el filtrado y tratamiento editorial de contenidos.
▸ Desarrollar una interfaz web que sea clara y fácil de usar
por el usuario.
24
26. DESARROLLO DEL PROTOTIPO / ARQUITECTURA DE LA SOLUCIÓN
ARQUITECTURA DE LA SOLUCIÓN
26
PRESENTACIÓN DE LOS DATOS
PROCESAMIENTO DE DATOS
CAPTURA DE DATOS
27. ARQUITECTURA DE LA SOLUCIÓN / CAPTURA DE DATOS
ARQUITECTURA DE LA SOLUCIÓN
27
PRESENTACIÓN DE LOS DATOS
PROCESAMIENTO DE DATOS
CAPTURA DE DATOS
28. CAPTURA DE DATOS / PROCESOS DE CAPTURA
PROCESOS DE CAPTURA
28
CAPTURA DE
USUARIOS
GEOPOSICIONAMIENTO
DE LOS USUARIOS
CAPTURA DE DATOS
CAPTURA DE
TWEETS
29. CAPTURA DE USUARIOS
PROCESOS DE LA CAPTURA DE USUARIOS
29
CAPTURA DE USUARIOS
CAPTURA DE MEDIOS
DE PRENSA
CAPTURA DE
SEGUIDORES DE LOS
MEDIOS DE PRENSA
30. CAPTURA DE USUARIOS 30
LISTA DE MEDIOS
LISTA DE
SEGUIDORES DE
LOS MEDIOS
CAPTURA DE MEDIOS DE PRENSA
CAPTURA DE SEGUIDORES
DE LOS MEDIOS DE PRENSA
CAPTURA DE USUARIOS
31. ARQUITECTURA DE LA SOLUCIÓN / PROCESAMIENTO DE DATOS
ARQUITECTURA DE LA SOLUCIÓN
31
PRESENTACIÓN DE LOS DATOS
PROCESAMIENTO DE DATOS
CAPTURA DE DATOS
32. PROCESAMIENTO DE LOS DATOS
PROCESAMIENTO DE DATOS
32
PROCESAMIENTO DE DATOS
DEFINICIÓN DEL
TÓPICO
OBTENCIÓN DEL
CONJUNTO DE
TWEETS
CLASIFICACIÓN Y
APLICACIÓN DE
FILTROS
33. PROCESAMIENTO DE DATOS / DEFINICIÓN TÓPICO
¿QUÉ ES UN TÓPICO?
▸ TÍTULO
▸ FECHA INICIO CAPTURA
▸ COMUNA ORIGEN
33
UN TÓPICO ES UN HECHO
NOTICIOSO O UN
CONJUNTO DE ELLOS
SOBRE UNA MISMA
TEMÁTICA.
34. PROCESAMIENTO DE DATOS / OBTENCIÓN CONJUNTO TWEETS
OBTENCIÓN DEL CONJUNTO DE TWEETS
34
OBTENCIÓN DEL CONJUNTO DE TWEETS
RECOGER
CONJUNTO DE
TWEETS
ELIMINAR TWEETS
REPETIDOS
APLICACIÓN
CLASIFICADOR
BAYER-NAIVE
35. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
CLASIFICACIÓN Y APLICACIÓN DE FILTROS
35
CLASIFICACIÓN Y APLICACIÓN DE FILTROS
CONJUNTO DE
TWEETS
ORDEN
CRONOLÓGICO
OBTENCIÓN DE
ENLACES
ORDEN
GEOGRÁFICO
ORDEN
RELEVANCIA
36. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN DE RELEVANCIA
▸ Busca ordenar los tweets en base a su relevancia,
entendida como la utilidad del tweet para informar al
usuario.
▸ Se basa en la cantidad de re-tweet. La acción de re-tweet
incluye leer el tweet, decidir si vale la pena compartir y
luego actuar sobre ella. Es posible considerar el re-tweet
como una señal explícita de que el usuario considera el
tweet como información relevante [77].
▸ Este orden implementa un sistema de penalización
temporal.
36
37. {
{
PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN DE RELEVANCIA
▸ Sistema de penalización temporal
37
{
FUERA DE FECHA TOTALMENTE
FUERA DE FECHA
VIGENTE
38. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN DE RELEVANCIA
▸ Sistema de penalización temporal
38
{PRIMERA
CLASE
{SEGUNDA
CLASE
TERCERA
CLASE
Nº RT
{
39. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN DE RELEVANCIA
▸ Sistema de penalización temporal
39
{
{Nº RT
{
Fuera de
fecha
PRIMERA
CLASE
SEGUNDA
CLASE
TERCERA
CLASE
40. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN DE RELEVANCIA
▸ Sistema de penalización temporal
40
Nº RT
TOTALMENTE
FUERA DE FECHA
{
{
{
PRIMERA
CLASE
SEGUNDA
CLASE
TERCERA
CLASE
41. PROCESAMIENTO DE DATOS / CLASIFICACIÓN Y APLICACIÓN DE FILTROS
ORDEN GEOGRÁFICO
▸ Busca ordenar los tweets en base a la cercanía geográfica
de su autor con respecto al lugar del tópico.
▸ Los tweets no vinculados a una zona geográfica son
sancionados bajo los que sí están vinculados.
41
58. MODELO EVALUACIÓN / ASPECTOS VALOR NOTICIOSO
¿CÓMO MEDIR EL VALOR NOTICIOSO QUE
TIENEN LOS RESULTADOS RECOGIDOS?
58
NOTICIA DELIMITACIÓN
VIGENCIA
IMPACTO
QUE SURJA
RESPECTO A UN
HECHO CONCRETO
OCURRIDO
QUE SE ENCUENTRE EN
EL MARGEN
TEMPORAL CERCANO AL
SUCESO QUE O ORIGINÓ
QUE SEA PRESENTADA POR
ALGÚN MEDIO DE PRENSA
59. RESULTADOS / MODELO EVALUACIÓN
¿QUE CONTIENEN LOS TWEETS RECOGIDOS PARA UN TÓPICO?
59
¿El tweet se refiere al tópico en cuestión?
¿El tweet se refiere en general o a un hecho en particular?
¿El hecho aludido es nacional o internacional?
¿Posee gran envergadura?
Tweet
descartado
Opinión
general
Insumo
Internacional
Aporte a la
discusión
Se refiere a un
hecho noticioso
60. MODELO EVALUACIÓN / CRITERIOS DE SELECCIÓN MEDIOS DE REFERENCIA
¿CÓMO MEDIR LA REGENCIAS A LAS NOTICIAS?
60
NOTICIA
POPULARIDAD
EN TWITTER
PUBLICACIÓN CONSTANTE
MÉTODO DE DIFUSIÓN
CANTIDAD DE
SEGUIDORES EN
TWITTER.
QUE SEA PRESENTADA POR
ALGÚN MEDIO DE PRENSA
PRIMERAS POSICIONES
RANKING ALEXA
RANKING DE
TRÁFICO
NOTICIAS GENERALISTAS
61. MODELO EVALUACIÓN / CRITERIOS DE SELECCIÓN MEDIOS DE REFERENCIA
MEDIOS CHILENOS DE REFERENCIA
61
24 Horas
1.6M seguidores
246K tweets
15/11/2009
Bío-Bío Chile
1.3M seguidores
432K tweets
3/05/2008
La Tercera
0,9M seguidores
265K tweets
2/04/2007
63. CASO DE PRUEBA: EL ABORTO
CONJUNTO DE TWEETS
▸ Tweets recogidos: 1357
▸ Ubicación tópico: Santiago.
▸ Enlaces recogidos: 613 enlaces.
63
64. CASO DE PRUEBA: EL ABORTO / ANÁLISIS DE CONTENIDO
ANÁLISIS DE CONTENIDO
64
35%
65%
No hacen referencia
Hacen referencia
65. CASO DE PRUEBA: EL ABORTO / ANÁLISIS DE CONTENIDO
CONTENIDOS QUE NO
SE REFIEREN A UN
HECHO NOTICIOSO
65
35%
65%
8%
18%
73%
Opinión General
Aporte a la discusión
Insumo Internacional
Tweet descartado
66. CASO DE PRUEBA: EL ABORTO / ANÁLISIS DE CONTENIDO
REFERENCIA A HECHOS
NOTICIOSO CUBIERTOS POR
LOS MEDIOS DE REFERENCIA
66
35%
65%
54% 46%55% 45%
58%
42%
Con referencia a hecho noticioso
Sin referencia a hecho noticioso
67. CASO DE PRUEBA: EL ABORTO / ANÁLISIS TEMPORAL
ANÁLISIS TEMPORAL
67
68. CASO DE PRUEBA: EL ABORTO / ANÁLISIS TEMPORAL
HECHOS NOTICIOSOS DURANTE EL PERIODO
68
69. CASO DE PRUEBA: EL ABORTO / ANÁLISIS DE CONTENIDO
ANÁLISIS GEOGRÁFICO DE LOS AUTORES
69
72. MEJORAS Y TRABAJOS FUTUROS
MEJORAS Y TRABAJOS FUTUROS
▸ Geoposicionamiento de los usuarios
▸ Incorporación de AWS.
▸ Consideraciones sobre las conclusiones.
72
74. BIBLIOGRAFÍA
BIBLIOGRAFÍA
▸ [1] Clay Shirky. Here Comes Everybody. Penguin Books, London, 2008.
▸ [2] D. M. White. The gate keeper: A case study in the selection of news. Journalism
Quarterly. Bobbs-Merrill, 1950.
▸ [3] W. Breed. Social Control in the Newsroom: A Functional Analysis. Bobbs-Merrill
Reprint Series in the Social Sciences, S34. Bobbs-Merrill, 1955.
▸ [4] H.J. Gans. Deciding What’s News: A Study of CBS Evening News, NBC Nightly
News, Newsweek, and Time. Medill School of Journalism Visions of the American
Press Series. Northwestern University Press, 1979.
▸ [5] K. Lewin. Field theory in social science: selected theoretical papers. Social
science paperbacks. Harper, 1951.
▸ [6] Alfred Hermida. Twittering the news. Journalism Practice, 4(3):297–308, 2010.
74
75. PROFESOR GUÍA: LAUTARO GUERRA GENSKOWSKY
PROFESOR CORREFERENTE: RICARDO ACEVEDO ALMONACID
CREACIÓN DE PROTOTIPO PARA LA GENERACIÓN
DE REPORTES A PARTIR DE TWITTER
MEMORIA PARA OPTAR AL TÍTULO DE INGERIERO CIVIL INFORMÁTICO
FRANCO CASTRO NAVEA
77. ANEXOS/ EL PROCESO DE GATEKEEPING
MEDIO DE PRENSA 1 MEDIO DE PRENSA 2 MEDIO DE PRENSA 3
77
DISTINTOS MEDIOS DE PRENSA,
DISTINTOS GATEKEEPING
78. 78
VISIONES REFERENTES AL GATEKEEPING
White [1] identifica el proceso como
demasiado subjetivo, pues las
distintas etapas dependen de
aspectos personales del gatekeeper.
Breed [2] identifica que los
gatekeepers principales
son los editores.
Gans [3] considera que el proceso de
construcción de una noticia no está
principalmente en el periodista o editor,
sino en el proceso, las rutinas y las a
disposiciones de la organización se
dedican a la creación de noticias.
Lewin [4] señala que la redacción de una
noticia incluyen el nivel individual de cada
periodista, el nivel de las rutinas o prácticas
de periodismo, el nivel de organización, el
nivel de los medios de comunicación y el
nivel del sistema social en cada uno de los
cuales actúan fuerzas.
79. 79
VISIONES REFERENTES AL GATEKEEPING
Lorenzo Gomis en [8] desarrolla la
siguiente idea: los medios de
comunicación y los periodistas no
sienten interés por los problemas
derivados de las posibles
repercusiones de sus mensajes, pues
no son ellos quienes los generan
intencionalmente, sólo los comunican
y los efectos de ambas acciones son
incomparables 3.
Jean-François en [7] crítica
la tendencia a priori que
inducen los distintos
medios de prensa en las
distintas noticias
Real, Agudiez, Príncipe en [9] afirman que
actualmente existe un descontento y
desilusión ciudadana con los medios de
prensa pues éstos últimos no cumplieron
con su parte del contrato social (la de velar
por la transparencia y la difusión de ésta
información).
80. 80
FORMAS CIUDADANAS ACTUALES DE
PARTICIPAR EN LOS MEDIOS DE PRENSA
Blogs.
Envío de fotografías y vídeos.
Entrevistas colectivas.
Comentarios.
Ranking de contenidos según
votos de Usuarios.
Foros.
Encuestas.
Comentarios en redes sociales.
ɔ
82. ANEXOS
GEOPOSICIONAMIENTO DE LOS USUARIOS
▸ Cheng [10] identifica utilizando sólo el campo de
ubicación a 12% de los usuarios mediante el campo
ubicación. 10,12% utilizando el contenido de los tweets y
mediante el uso de palabras más utilizadas de acuerdo a
un contexto geográfico sin mucho éxito. (inferior al 10%)
▸ Al analizar técnicas mixtas (análisis de palabras típicas y
relaciones sociales en la Twitter) logra posicionar el
54.26% de los usuarios.
82
83. GEOPOSICIONAMIENTO DE USUARIOS
GEOPOSICIONAMIENTO DE USUARIOS
▸ Se considera el campo ubicación del perfil del usuario de
Twitter y se realiza una similitud con el nombre de las
comunas de Chile [9] utilizando la distancia de
Levenshtein.
▸ Se identifica que el valor más óptimo de la distancia de
Levenshtein es 3, con el cual se consigue geoposicionar
114.016 del total de 650.000 usuarios (correspondiente al
17,54 % de usuarios).
83
85. GEOPOSICIONAMIENTO DE USUARIOS 85
Región
Usuarios de Twitter Población real
Usuarios(M) Porcentaje Habitantes(M) Porcentaje
Región de Arica y Parinacota 1,914 1,68 185,0 1,1
Región de Tarapacá 4,477 3,93
5,27
314,5 1,8
Región de Antofagasta 6,005 5,27 575,3 3,4
Región de Atacama 0,974 0,85 280,5 1,6
Región de Coquimbo 4,411 3,87 718,7 4,2
Región de Valparaíso 7,111 6,24 1759,2 10,3
Región de O’higgins 4,756 4,17 883,4 5,2
Región del Maule 6,183 5,42 1007,8 5,9
Región del Bío-Bío 16,862 14,79 2036,4 11,9
Región de La Araucanía 0,825 0,72 970,4 5,7
Región de Los Ríos 2,245 1,97 379,7 2,2
Región de Los Lagos 4,891 4,29 836,3 4,9
Región de Aisén 0,565 0,5 104,8 0,6
Región de Magallanes y la Antártica 1,298 1,14 158,7 0,9
Región Metropolitana 51,499 45,17 6883,6 40,3
Total 114,016 100 17094,3 100
Usuarios de Twitter por región de Chile.
86. CAPTURA DE LOS DATOS 86
Dato Nº registros
USUARIOS 650.000
TWEETS 17.300.000
Cantidad de datos capturados por el prototipo. Elaboración propia.
87. TIEMPOS DE LOS ALGORITMOS 87
Dato Tiempo (s)
USUARIO 2,6945
TWEET 0,9658
Tiempo promedio para descargar un dato respetando las restricciones de
solicitudes por hora impuestos por la API TWITTER
88. ANÁLISIS DE RESULTADOS
MUESTRA REPRESENTATIVA
▸ Tamaño Conjunto = 1357
▸ Error Estándar = 15%
▸ Porcentaje estimado de la muestra P = 0,9
▸ Tamaño de la muestra 309
88
89. ANÁLISIS DE RESULTADOS
CONJUNTOS DE CLASIFICACIÓN BAYES-NAIVE
89
Clasificación Aceptados Rechazados Total
Entrenamiento 181 19 200
Validación 93 6 99
90. CASO DE PRUEBA: EL ABORTO 90
Comisiones de salud de las cámaras
de diputados y senadores inician
debate sobre proyectos de
despenalización del aborto.
Anuncio del proyecto de
despenalización del aborto.
ONU pide a Chile incluir violación como
causa para hacerlo de forma legal.
Caso de joven de 13 años violada y
embarazada.
2 JUNIO 2014
26 JUNIO 2014
24 JUNIO 2014
3 NOVIEMBRE 2014
Declaraciones de ministra de salud Henia
Molina en La Segunda sobre los abortos
en clínicas chicas.
30 DICIEMBRE 2014
91. CASO DE PRUEBA: EL ABORTO 91
Renuncia de la ministra de
salud Henia Molina.
DC afirma que sus votos no están
asegurados para apoyar el proyecto de
despenalización del aborto.
Declaraciones Rector PUC respecto a
trabajadores que quieran realizar abortos en
la RED PUC
10 DICIEMBRE 2014
17 ENERO 2015
1 FEBRERO 2015
Red Clínicas privadas declara que no
realizará abortos en sus recintos.5 FEBRERO 2015
6 FEBRERO 2015
Críticas a dichos de Lorenzini sobre los
motivos, que a su juicio, causarían una
decisión.
Cade: 71% aprueba proyecto de ley de
despenalización del aborto.
9 FEBRERO 2015
92. ANEXOS
COTIZACIÓN EN AWS
92
Instancia Descripción
Costo Mensual
(US$)
EC2
Linux c4.2xlarge, On demand con 1 adelanto parcial de reser-
va, 20 % utilizacion por mes. Transferencia de datos de
entrada ́
10GB/Mes, Transferencia de datos de salida 3GB/Mes
102,930
EC2
Linux t2.small, On demand con 1 adelanto parcial de reserva,
100 % utilizacion por mes. Transferencia de datos de entrada ́
10GB/Mes, Transferencia de datos de salida 3GB/Mes
4,380
RDS
db.r3.large, 100 GB, 200 IOPS, Mysql, 100 % utilización por
mes
19,900
Costo total mensual
344.2
($244.928,4)