Metodologia para el analisis de redes sociales

864 views
703 views

Published on

Divergencias entre las metodologías que diversos autores han utilizado para respectivos análisis de predicción basados en los datos obtenidos en las redes sociales. Carencia de una metodología úncia, lo que conlleva falta de unanimidad en los resultados obtenidos

Published in: Social Media
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
864
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
10
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • Bandari, Asur y Huberman (2012) quisieron comprobar si existe alguna característica en las noticias capaz de determinar su popularidad, entendida ésta en relación al grado de difusión en Twitter. En otras palabras, tratan de encontrar los factores que determinan la popularidad futura de una noticia, incluso antes de su publicación. Para averiguarlo, examinaron el contenido de las noticias que acontecieron en una semana de agosto de 2011, obtenidas mediante el servicio agregador de noticias Feedzilla, y vigilando su repercusión en Twitter durante los 50 días posteriores a su aparición.
    Cada artículo fue etiquetado sobre la base de cuatro categorías:
    - la fuente de noticias que genera y publica el artículo (t-density o popularidad del dataset de Twitter comparada con la popularidad de Google News y NewsKnife)
    - la categoría de noticias (aportada por Feddzilla),
    - la subjetividad del lenguaje empleado en su redacción (Ling-Pipe y entrenamiento utilizando las transcripciones de la conocida televisión y radio de Rush Limbaugh y Keith Oberman como el corpus de lenguaje subjetivo, y las transcripciones de CSPAN 6, así como una serie de artículos de la web FirstMonday para el entrenamiento del lenguaje objetivo).
    - las personas y entidades mencionadas en el mismo.

    Utilizaron la formula “tweets-rate” igual al número de tweets publicados por hora referidos a una película.
    LingPipe. http://alias-i.com/lingpipe/index.html/
  • Con el uso de dos algoritmos de registro del estado de ánimo, el Google-Profile of Mood States (GPOMS) y OpinionFinder, los investigadores analizaron 9,7 millones de tweets publicados entre marzo y diciembre de 2008, encontrando que las correlaciones para el índice de tranquilidad (calmness), uno de los seis estados de ánimo medido por GPOMS, podría ser utilizado para predecir si el DJIA aumentó o disminuyó entre dos y seis días más tarde. Sus resultados indican que la exactitud de las predicciones del DJIA (Dow Jones Industrial Average) puede mejorarse significativamente por la inclusión de las dimensiones específicas de un estado público de ánimo (calmness) pero no en otros, encontrando una precisión del 87,6% en la predicción diaria en los valores de cierre del Dow Jones y una reducción del MAE (Mean Average Percentage Error) en más de un 6%.
    Lo interesante de este seguimiento de los estados de ánimo de Twitter es que de los seis estados GPOMS medidos - felicidad, bondad, estado de alerta, seguridad, vitalidad y tranquilidad – la tranquilidad es el estado de ánimo más útil en la predicción de los cambios del mercado de valores. Ninguno de los otros índices, incluyendo los indicadores de sentimiento positivo / negativo que facilita la herramienta OpinionFinder, refleja todos los cambios del mercado de valores.

    Entre los diferentes índices bursátiles del Dow Jones, elaborados por la empresa Dow Jones Indexes, se encuentran cuatro principales:
    El Promedio Industrial Dow Jones también conocido como Dow Jones Industrial Average (DJIA) es el más importante de todos y refleja el comportamiento del precio de la acción de las 30 compañías industriales más importantes y representativas de Estados Unidos.

    http://www.technologyreview.com/view/421251/twitter-mood-predicts-the-stock-market/
    Twitter Mood Predicts The Stock Market
    http://www.technologyreview.com/view/426818/how-to-predict-the-spread-of-news-on-twitter/
    How to Predict the Spread of News on Twitter

  • Las epidemias de influencia o gripe estacional son una de las grandes preocupaciones en salud pública. Ginsberg et al. (2009) pensaron que una forma de mejorar la detección temprana sería monitorear la salud en base a la conducta de búsqueda que millones de personas en todo el mundo realizan en Internet sobre este tema cada día. Los autores basan su hipótesis en que debido a que la frecuencia relativa de determinadas consultas en la Red está altamente correlacionado con el porcentaje de visitas al médico en el que un paciente se presenta con síntomas gripales, se podría estimar con precisión el nivel actual de la actividad semanal de la gripe, con un desfase de información de aproximadamente un día, un rango inferior al que presenta el CDC (U.S Center for Desease Control and Prevention) que alcanza una posterioridad de dos semanas.
    En su método agregaron las búsquedas realizadas durante los años 2003-2007 contabilizando series temporales semanales de más de 50 millones de las búsquedas más comunes en los EEUU. Cada búsqueda fue normalizada dividiendo el número de búsquedas por una query particular entre el total de búsquedas realizadas esa semana en una región concreta. Los topics o términos de búsqueda utilizados en su investigación fueron aquellos encontrados automáticamente en Google que mantenían una relación directa con los datos publicados en ILI (Regional and state-level estimates of influenza-like illness).

  • Lui, Metaxas and Mustafaraj en su análisis en Google Trends en las elecciones de 2008 y 2010 en EEUU, “On the predictability of the u.s. elections through search volume activity. In e-Society Conference”, concluyen que Google Trends no es un buen predictor en ninguno de los dos procesos electorales analizados.
    Las líneas básicas de su metodología fueron las siguientes:
    - Recolectar los datos de Google Trends para ambos procesos, centrándose en la semana previa a la celebración de las elecciones y utilizando como términos de búsqueda los nombres de los candidatos tal y cómo los difunde el diario New York Times.
    - Establecer una comparación de estos con las encuestas publicadas por el New York Times y con el ratio de “incumbency re-eleection” de ambas elecciones
    - Marcar una segunda línea de análisis comparado en la que sólo incluyen las disputas (races) o pares de candidatos con una alta presencia en los medios de comunicación a lo largo del mes previo a las elecciones (highly contested).
    - Separar las “races” en las que alguno de los candidatos Google Trends no había registrado dato alguno de búsqueda, de aquellas en las que ambos candidatos si obtuvieron registros.

    Los autores argumentan que las causas de estas desviaciones pueden deberse por un lado al hecho de cuando un usuario busca por un candidato y no por su oponente, el resultado es que este último no alcanza los niveles mínimos de curiosidad y/visibilidad (permaneciendo en el vacío) lo que repercute más positivamente en el candidato buscado; por otro, que los electores pueden buscar por un candidato pero con el objetivo de encontrar información negativa lo que provoca ese margen de error con los resultados electorales; y finalmente, que aquellos candidatos que ya ocupan un cargo político sobresaliente pueden ser buscados a causa de esta actividad y no tratando de encontrar información sobre su campaña.

  • The Hungarian researchers claims that, with algorithm in hand, they need only five publicly accessible points of data to make a pretty good financial hit-or-miss prediction for any film. From BoxOfficeMojo.com they need the number of theaters the movie will be released in, an obvious factor in calculating a movie’s overall box office revenue. From the film’s Wikipedia page, they need four pieces of data provided by the Wikimedia foundation:
    1) The number of users who edited the page pre-release. 2) The number of edits made to the page.
    3) The number of page views recorded on the page. 4) The “collaborative rigor” of the page, i.e. the number of edits made to the page when multiple subsequent edits by the same contributor are counted as a single edit.

    Asur and Huberman use a sample of 24 movies to train and test their model. In the same approach we
    train and test our model focusing on the same set of movies.

    Sus conclusiones: “Asur and Huberman use a sample of 24 movies to train and test their model. In the same approach we train and test our model focusing on the same set of movies. The R2(t) of our Wikipedia model reaches 0.94 few days before release, while 0.98 for the Twitter model. However, presented results of the Twitter model is limited to the night of the release, while the model presented here can make predictions with reasonable determinations (R2>0.925) as early as one month before release.” (Mestyán, Yasseri y Kertész, 2012, p. 4)


    http://arxiv.org/pdf/1211.0970v1.pdf
  • La página de Wikipedia de Mitt Romney, con motivo de las pasadas elecciones americanas de 2012, ha sido editada cientos de veces desde el inicio de las primarias republicanas.
    - Bain", el nombre de la empresa donde Romney fue una vez presidente,
    - "Misa", donde Romney fue gobernador, y
    - "negocio", con referencia a espacios en los que la carrera de Romney se había desarrollado fuera de la política.

    La frecuencia máxima de ediciones a la página de Romney se produjo cuando las primarias de Florida estaban en marcha. Esta podría ser una señal de que se está editando la página Wikipedia del candidato para influir en la opinión pública en algunas direcciones, dado que Wikipedia es un destino común para los ciudadanos que buscan información sobre los candidatos, ganándose un papel en la formación de opinión de los votantes.

    http://columnfivemedia.com/work-items/yahoo-interactive-republican-candidates-wikipedia-effect/

    http://news.yahoo.com/wikipedia-edits-republican-primary.html
  • Amazon también intentó su método de predicción ideológica basado en los datos de venta de libros, intentando, a su manera una cierta predicción electoral basándose en la corriente ideológica mayoritaria, por estados, de los ciudadanos americanos, y dando a entender o sobrentender, que la ideología dominante que se desprendiera, sería la posible tendencia ganadora en las Elecciones Presidenciales EEUU 2012. No obstante, Amazon advirtió que: “…books aren’t votes, so a map of book purchases may reflect curiosity as much as commitment.”
    Recopilando toda la información de las ventas de libros (papel y ebook) Amazon elaboró un mapa que se actualizaba diariamente, en el que se mostraba qué línea ideológica domina en cada estado, según las características ideológicas de los títulos que se hayan vendido en él. Es probable que Amazon no pretendiera indicar una “predicción electoral”, pero el hecho de que su investigación se publicara en agosto de 2012, pocos meses antes de la elección puede arrojar una duda al respecto. Dicha duda se acentúa al comprobar que toda referencia este trabajo ha sido eliminado de su página Web, siendo únicamente posible su rastreo a través de páginas web de terceros que repercutieron la noticia.

    http://www.businessweek.com/articles/2012-08-23/amazons-election-heat-map-polling-by-the-book
  • No podemos terminar esta ponencia sin hacer referencia a las grandes capacidades de análisis que hoy nos brindan las herramientas Web de etiquetado social (social tagging) o, en un conjunto de usuarios, la denominada folksonomía, tales como Digg, StumbleUpon, Reddit o Pinterest. En esta ocasión vamos a referirnos a un reciente estudio basado en la captura de datos de Delicious y centrados en el tema “la globalización de la agricultura”.
    www.delicious.com. Es un marcador social de libre uso para guardar, compartir y descubrir marcadores Web. Delicious utiliza un sistema de clasificación no jerárquica en la que los usuarios pueden etiquetar cada uno de sus favoritos con los términos de un índice libremente generado. Su carácter colectivo hace posible ver los marcadores añadidos por otros usuarios. Todos los marcadores enviados a Delicious son públicos y visibles por defecto.
    Según Stiglitz, el comercio bilateral están impidiendo el desarrollo en los países más pobres del mundo. La globalización del sistema de agricultura está en el centro de este debate, porque muchas personas pobres dependen de la agricultura como fuente de ingresos ya que emplean una gran parte de sus recursos monetarios en la adquisición de alimentos.


    Los autores de "Crawling Big Data in a New Frontier for Socioeconomic Research: Testing with Social Tagging" basaron su recogida de datos en tres varibles co-ocurrentes que pueden extraerse de la herramienta de etiquetado social Delicious: usuarios (U), recursos Web (R) y tags (T). El método de captura de datos fue el siguiente: (Barrero y Gualda)
    - Elegir, un conjunto de 26 páginas Web, de acuerdo con la definición de Wikipedia de " critics of globalization”. (A)
    - Los atributos de búsqueda se extrajeron manualmente de las páginas web y de las nubes de etiquetas o los temas que aparecen en sus páginas principales. (B)
    - En una tercera etapa, recogida de datos en crudo en Delicisou de todos los usuarios, registros de las direcciones URL y las etiquetas para los cuatro pares de etiquetas alrededor de la etiqueta principal de la globalización - la globalización + agricultura, la globalización + comida; globalización + orgánico; globalización + GMO - . (C)

    En su posterior análisis, atendiendo a los características de los usuarios de una red, conocidos como “In-degree” y “Out-degree”, clasificaron las páginas Web analizadas, obteniendo una lista de las mismas por orden de relevancia atendiendo a la actividad de etiquetado que los usuarios habían dejado marcada en la herramienta Delicious

    Posteriormente, usando la herramienta Wordle para creación de nubes de etiquetas (tag cloud), generaron una visualización de los tags en orden de relevancia, con el fin de obtener los tags o etiquetas de marcado centrales.
  • En ciencias se llama así al método en el que se mantienen constantes todas las variables de una situación, menos aquella cuya influencia se desea estudiar. Esto permite simplificar el análisis, ya que en caso contrario sería muy difícil o imposible dilucidar el efecto de cada variable individual.

    Además de la heterogeneidad que viene dada por las propias herramientas a estudio (Twitter, Facebook, Wikipedia, etc.), podemos comprobar cómo en algunos casos, aún tratándose del mismo objeto de estudio (éxito de taquilla de una película) y empleando similares herramientas sociales para la obtención de los datos, los resultados resultan antagónicos. Hay que apuntar tb. en este caso, la diferencia de fechas en la captura de la información.
  • Metodologia para el analisis de redes sociales

    1. 1. Metodología para el Análisis de Redes Sociales Montse Fernández Crespo II Jornadas de Ciberpolítica en España Mayo de 2013
    2. 2. Metodología para el Análisis de Redes Sociales Canales monitorización
    3. 3. Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    4. 4. Encuesta tradicional Predicting de future within social media “Moreover our predictions are consistently better than those produced by an information market such as the Hollywood Stock Exchange, the gold standard in the industry.” Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    5. 5. Encuesta tradicional Twitter Not So Good At Predicting Box Office Revenues After All “A new study of tweets about movies suggests they are not necessarily a good predictor of box office revenues, say computer scientists .” Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    6. 6. ¿Por qué sus resultados difieren tanto? Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    7. 7. ?¿Por qué sus resultados difieren tanto ceteris paribus Método en el que se mantienen constantes todas las variables de una situación, menos aquella cuya influencia se desea estudiar. Elementos comparados Sujetos de comparación Herramientas de análisis Periodo captura 24 ordinary films HSX 3 meses (2.89 millones de tweets) Otros métodos propios Sentiment analysis 34 nominated Oscar film MDB y RottenTomatoes 2 meses (12 millones de tweets) Otros métodos propios Numerical ratings Wong et al.Asur y Huberman DIFERENCIAS Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    8. 8. Encuesta tradicional The Pulse of News in Social Media: Forecasting Popularity “Our experiments show that it is possible to estimate ranges of popularity with an overall accuracy of 84% considering only content features… Interestingly we have found that in terms of number of retweets, the top news sources on twitter are not necessarily the conventionally popular news agencies and various technology blogs such as Mashable and the Google Blog are very widely shared in social media. Overall, we discovered that one of the most important predictors of popularity was the source of the article. “ Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    9. 9. Encuesta tradicional Twitter Mood Predicts The Stock Market “The calmness of the public (measured by GPOMS) is thus predictive of the DJIA rather than general levels of positive sentiment as measured by OpinionFinder.” 87,6% Precisión en la predicción diaria en los valores de cierre del Dow Jones 6% Reducción del MAE Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    10. 10. Encuesta tradicional Predicting elections with Twitter: What 140 characters reveal about political sentiment “The mere number of tweets mentioning a political party can be considered a plausible reflection of the vote share and its predictive power even comes close to traditional election polls.” Cuantitativo ---- recuento menciones Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    11. 11. Encuesta tradicional Form tweets to polls: linking text sentiment to public opinion time series “While our results vary across datasets, in several cases the correlations are as high as 80%, and capture important large-scale trends. The results highlight the potential of text streams as a substitute and supplement for traditional polling.” Presidential job approval in 2009 Pesidential elections polls in 2008 100% correlación Correlación no significativa Cualitativo- ---- Sentiment Analysis: OpinionFinder While the results do not come without caution, it is encouraging that expensive and time- intensive polling can be supplemented or supplanted with the simple-to-gather text data that is generated from on line social networking. Metodología para el análisis de Redes Sociales Canales de monitorización: Twitter
    12. 12. Limits of electoral predictions using Twitter -Dataset 1: 2010 US Senate special election in Massachusetts - Dataset2: US Congressional elections 2010 “Unfortunately, we find no correlation between the analysis results and the electoral outcomes, contradicting previous reports.” Cualitativo- ---- Sentiment Analysis: OpinionFinder Cuantitativo ---- recuento menciones Metodología para el análisis de Redes Sociales Canales de monitorización: Twitter
    13. 13. ¿Por qué sus resultados difieren tanto? Metodología para el análisis de Redes Sociales Canales de monitorización: Twitter
    14. 14. ?¿Por qué sus resultados difieren tanto ceteris paribus Método en el que se mantienen constantes todas las variables de una situación, menos aquella cuya influencia se desea estudiar. Tumasjan et al. O’Connor et al. DIFERENCIAS Gallo-Avello et al. Cada tweet que menciona a un partido (candidato) es tomado como un “voto”. No se han contabilizado los tweets en los que se mencionan a candidatos opuestos. Aunque se ha empleado el mismo tesauro, cada tweet podía únicamente pertenecer a una de las tres categorías definidas (positiva, negativa o neutra.), y no a varias de ellas. Cada tweet podía pertenecer a varias de las tres categorías definidas (positiva, negativa o neutra). Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    15. 15. “Exploring the Characteristics of Opinion Expressions for Political Opinion Classification” Once we have properly identified a person’s ideology, we may be able to predict his or her opinions on various political issues. It is our goal for future work to explore viable approaches for ideology based on political opinion classification. “Predicting de future within social media” Sentiment analysis is a well-studied problem in linguistics and machine learning, with different classifiers and language models employed in earlier work [13], [14]. It is common to express this as a classification problem where a given text needs to be labeled as Positive, Negative or Neutral. Metodología para el Análisis de Redes Sociales Canales de monitorización: Twitter
    16. 16. Metodología para el Análisis de Redes Sociales Canales de monitorización: FacebookCanales de monitorización: Facebook
    17. 17. U.S. Politics on Facebook (2010) http://www.facebook.com/note.php?note_id=449141550881 EEUU 2010 77 ganadores con + likes 43 ganadores con +likes y – dinero 118 elecciones Metodología para el Análisis de Redes Sociales Canales de monitorización: Facebook
    18. 18. Encuesta tradicional “What is a Social Network Worth? Facebook and Vote Share in the 2008 Presidential Primaries” Explainig Facebook Support in the 2008 Congressional Election Cycle” Thus while Facebook supporter numbers would not be a useful predictor that foreshadows electoral victory or defeat, the most electable candidates do have more Facebook supporters 14213 seguidores60339 seguidores Metodología para el análisis de Redes Sociales Canales de monitorización: Facebook
    19. 19. Metodología para el Análisis de Redes Sociales Canales de monitorización: Google
    20. 20. “Detecting influenza epidemics using search engine query data” About 90 million American adults are believed to search online for information about specific diseases or medical problems each year7, making web search queries a uniquely valuable source of information about health trends. This system is not designed to be a replacement for traditional surveillance networks or supplant the need for laboratory-based diagnoses and surveillance.(...) Demographic data, often provided by traditional surveillance, cannot be obtained using search queries. http://www.google.org/flutrends/about/how.html Metodología para el Análisis de Redes Sociales Canales de monitorización: Google
    21. 21. “On the predictability of the U.S. Elections through search volume activity” In this paper we report that Google Trends was, actually, not a good predictor of both the 2008 and 2010 elections http://cs.wellesley.edu/~webtrust/insights/?cand_id=4 A variable that may have affected G-trends effectiveness as a tool for predicting political elections is the sentiment of a user’s query. It is difficult, though not impossible, to determine the circumstances behind a user’s search of the profile of a certain candidate to make a guess about that candidate’s public image and why a user might be interested in the candidate. This is part of future research that we plan for the next stage of our work. Metodología para el Análisis de Redes Sociales Canales de monitorización: Google
    22. 22. Metodología para el Análisis de Redes Sociales Canales de monitorización: Otros
    23. 23. Early Prediction of Movie Box Office Success based on Wikipedia Activity Big Data “However, bridging between real time monitoring" and early predicting" remains as a big challenge. Here, we report on an endeavor to build a minimalistic predictive model for the financial success of movies based on collective activity data of online users. We show that the popularity of a movie could be predicted well in advance by measuring and analyzing the activity level of editors and viewers of the corresponding entry to the movie in Wikipedia, the well-known online encyclopedia.” boxofficemojo.com + wikipedia Metodología para el Análisis de Redes Sociales Canales de monitorización: Wikipedia
    24. 24. Replublican candidates: The Wikipedia effect “Millions of Americans use Wikipedia as their primary source of information about politicians. The user-edited encyclopedia comes up as the first or second search result for every candidate for the Republican nomination, and in most respects provides a very thorough and accurate profile of their lives and careers.” “Wikipedia preserves every version of an article ever published, so it's possible to watch the evolution of a page over time. While all four major candidates were well known before the primary began, editors have continued to finesse their biographies and quarrel over their records. “ Metodología para el Análisis de Redes Sociales Canales de monitorización: Wikipedia
    25. 25. Amazon Election Heat Map 2012 “…los 'best-sellers' de corte republicano representan un 56% del total despachado, mientras que los de afiliación demócrata constituyen un 44%.” “What about categorizing O’Reilly’s book about President Lincoln as a “red” book? “Well, Lincoln was a Republican, but that doesn’t add much.” Schluep says. “We did take into consideration Mr. O’Reilly’s background, as well as the buying habits of people who bought this book.” Metodología para el Análisis de Redes Sociales Canales de monitorización: Amazon
    26. 26. Crawling Big Data in a New Frontier for Socioeconomic Research: Testing with Social Tagging “On the other hand, the relation between users and resources, which is largely employed by traditional Recommender Systems, changes into a ternary relation between users, resources, and tags, which is more complex to manage.” Metodología para el Análisis de Redes Sociales Canales de monitorización: Delicious
    27. 27. ¿Existe un Método único? El análisis de redes sociales se caracteriza por la alta heterogeneidad de sus fuentes de información y las grandes cantidades de datos disponibles para el estudio. Así, mientras que el volumen de datos es un aspecto tremendamente atractivo para la investigación, la diversidad de fuentes y sus modos de captura y entrega de información, suponen una barrera metodológica que consigue que, en muchos casos, los resultados de los estudios se afirmen con salvedades nada desdeñables, a la vez que imposibilitan la comparación entre “pares”. Metodología para el Análisis de Redes Sociales Conclusiones
    28. 28. With regards to the process of retrieval of information, the method presented here was somewhat complex but easy to apply if there is some computer knowledge. Nevertheless, working in interdisciplinary teams could greatly help to develop this kind of knowledge, as it was in our case. Though the technical process described was successful, improvements are necessary in the future… Metodología para el Análisis de Redes Sociales Conclusiones
    29. 29. Una ponencia de… Montserrat Fernández Crespo @montsefc montsefcfr40@hotmail.com

    ×