Your SlideShare is downloading. ×
Leveraging social relevance: Using social networks to enhance literature access and microblog searchr thesis
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Leveraging social relevance: Using social networks to enhance literature access and microblog searchr thesis

607

Published on

Leveraging social relevance: Using social networks to enhance literature access and microblog search …

Leveraging social relevance: Using social networks to enhance literature access and microblog search
(Exploitation des réseaux sociaux pour l'accès à la littérature et la recherche des microblogs)
Thesis submitted for the degree of Doctor of Philosophy
Thesis defended on October 8th, 2013
Ph.D: Lamjed Ben Jabeur
Supervisor: Prof. Lynda Tamine, University of Toulouse 3 Paul Sabatier
Advisor: Prof. Mohand Boughanem, University of Toulouse 3 Paul Sabatier

Abstract(EN)
We propose in this work to integrate the social information network in the retrieval process and exploit the social relations between social actors as a source of evidence to measure the relevance of a document in response to a query. Two social information retrieval models have been proposed in different application frameworks: literature access and microblog retrieval. The main contributions of each model are detailed in the following.
* A social information model for flexible literature access
We proposed a generic social information retrieval model for literature access. This model represents scientific papers within a social network and evaluates their importance according to the position of respective authors in the network. Compared to previous approaches, this model incorporates new social entities represented by annotators and social annotations (tags). In addition to co-authorships, this model includes two other types of social relationships: citation and social annotation. Finally, we propose to weight these relationships according to the position of authors in the social network and their mutual collaborations.
* A social model for information retrieval for microblog search
We proposed a microblog retrieval model that evaluates the quality of tweets in two contexts: the social context and temporal context. The quality of a tweet is estimated by the social importance of the corresponding blogger. In particular, blogger's importance is calculated by the applying PageRank algorithm on the network of social influence. With the same aim, the quality of a tweet is evaluated according to its date of publication. Tweets submitted in periods of activity of query terms are then characterized by a greater importance. Finally, we propose to integrate the social importance of blogger and the temporal magnitude tweets as well as other relevance factors using a Bayesian network model.

Résumé (FR)
Nous proposons dans cette thèse d'intégrer le réseau social d'information dans le processus de recherche d'information afin d'utiliser les relations sociales entre les acteurs sociaux comme une source d'évidence pour mesurer la pertinence d'un document en réponse à une requête. Deux modèles de recherche d'information sociale ont été proposés à des cadres applicatifs différents : la recherche d'information bibliographique et la recherche d'information dans les microblogs.

Published in: Social Media
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
607
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Leveraging social relevance: Using social networks to enhance literature access and microblog search Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs Lamjed BEN JABEUR Directeurs de thèse Lynda Tamine & Mohand Boughanem
  • 2. Plan de la présentation Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs 1 Recherche d'information sociale : Contexte et problématiques Contributions de la thèse 2 Identification des acteurs sociaux prominents 3 Modèle de réseaux bayésiens pour la recherche de tweets 4 Modèle de recherche d'information sociale pour l'accès à la littérature 5 Conclusion et perspectives 2
  • 3. Partie 1. RI SOCIALE : CONTEXTE ET PROBLÉMATIQUES
  • 4. 1.1 Émergence du Web social Vers un « Réseau des personnes » 1972 1990 1994 ARPANET WWW E-commerce 1995 1998 1999 2001 2003 Annuaire Recherche Blogs Wiki Réseaux sociaux Recherche d'information sociale 4
  • 5. 1.2 Émergence du Web social Utilisateurs des réseaux sociaux Nombre d’utilisateurs (109) Consommateurs de contenu social Pourcentage d’utilisateurs par catégorie Vidéo 2014 2013 Contenu social (États-Unis) 2012 États-Unis 2011 Monde 42,6% Réseau social 1.85 1.66 1.43 1.2 68% Blog Wiki 67,0% 50,5% 47,2% Source: eMarketer, Janvier 2009 Réseaux sociaux les plus populaires 50 millions d’utilisateurs Facebook Twitter LinkedIn Source: Wikipedia, Juillet 2013 Recherche d'information sociale 5
  • 6. 1,3 Recherche d’information sociale Scénarii de recherche Réseau social Interactions & contenu social blog, photo, vidéo, note, opinion, wiki, commentaires, tags, microblog, ODP, clics marque-page, Information & ressources HTML HTML HTML HTML requête HTML HTML Système de Recherche d’Information HTML HTML HTML HTML HTML 1 Exploitation de contenu social et des réseau sociaux 2 Recherche dans le contenu social 3 Recherche de personnes Contributions 1 Recherche dans les Microblogs Recherche dans le contenu social 2 Accès à la littérature Exploitation de contenu social et des réseau sociaux Recherche d'information sociale 6
  • 7. 1,5 Services de microblogage Définition et caractéristiques “ Un service de microblogage est à la fois un moyen de communication et un système de collaboration qui permet le partage et la diffusion des messages textuels. Il permet aux utilisateurs de communiquer des informations sur leurs statuts, activités, pensées et opinions (Java et al.2009). ” Article de microblog     Court (140 caractères) Soumis en temps réel Motivation sociale Appareil mobile 300 milliards Publications 500 millions Publications par jour 218 millions Utilisateurs actifs mensuels 100 millions Utilisateurs actifs journaliers 3 Octobre 2013 Recherche d'information sociale 7
  • 8. 1,6 Services de microblogage Exemple : élections présidentielles américaines 2012 Retweet Barack Obama @BarackObama Four more years. pic.twitter.com/bAJE6Vom Mention Retweeted by Jack Dorsey David Cameron @David_Cameron 7 Nov 2012 809,104 RETWEETS 301,873 FAVORITES 7 Nov 2012 Warm congratulations to my friend @BarackObama. Look forward to continuing to work together. 2,239 RETWEETS 480 FAVORITES Réponse Alicia Keys @alciciakeys @BarackObama WE did it!!! Hashtag View conversation Twitter Government @gov 7 Nov 2012 467 RETWEETS 242 FAVORITES 7 Nov 2012 With 20 million tweets, Election Day just became the most tweeted about event URL (photo, video, blog, etc) in US political history. #election2012 6,082 RETWEETS 695 FAVORITES Barack Obama @BarackObama Four more years. pic.twitter.com/bAJE6Vom View photo 7 Nov 2012 809,104 RETWEETS 301,873 FAVORITES Recherche d'information sociale 8
  • 9. 1,6 Services de microblogage Réseau social d’information Recherche d'information sociale 9
  • 10. 1,7 Recherche d’information dans les microblogs Tâches de recherche d’information With 20 million tweets, Election Day just became the most tweeted about event in US political history. #election2012 CNN election night coverage @justinbieber 25-06-2011 @cnn Barack Obama Wins Re-Election @BarackObama Warm congratulations to my friend @BarackObama Four more years @bob @BarackObama WE did it!!! 07-11-2012 election Recherche d'information sociale 10
  • 11. Partie 2. ACTEURS SOCIAUX PROMINENTS
  • 12. 2,2 Réseau social Réseau d’abonnement Président Premier ministre Barack Obama David Cameron 32 215 616 ABONNÉS Star Alicia Keys 13 869 943 ABONNÉS 328 840 ABONNÉS CEO Twitter Jack Dorsey 2 331 304 ABONNÉS Relation sociales:  Abonnements (Weng et al., 2010)  Retweets (Conover et al., 2011 Service Twitter Twitter Government 402 317 ABONNÉS  Réponses (Sousa et al., 2010)  Mentions (Conover et al., 2011) Acteurs sociaux prominents 12
  • 13. 2,3 Influence sociale Définition & propriétés Popularité Autorité Barack Obama 32 215 616 ABONNÉS Alicia Keys 13 869 943 ABONNÉS David Cameron 328 840 ABONNÉS (Nagmoti et al. 2010) Conversation (Kwak et al. 2010; Duan et al., 2010; Weng et al. 2010) Diffusion de l’information URL @ @ @ @ URL @ @ (Cha et al., 2010; Pal and Counts, 2011) URL URL URL (Bakshy et al. 2011) Acteurs sociaux prominents 13
  • 14. 2,4 Réseau social des microbloggeurs Topologie et pondération des relations sociales  Multi-graph 𝐺 ≔ (𝑈, 𝐸, Σ 𝐸 , 𝑙 𝑒 , 𝑤)  𝑈 : microbloggeurs u2  𝐸: relation sociales  Σ 𝐸 : abonnement, retweet, mention f 1 u2  𝑤 : poids des relations 𝑤 𝑓 𝑢 𝑖, 𝑢𝑗 𝑂 𝑢 𝑖 , 𝑓 ∩ 𝑂 𝑢 𝑗 , 𝑓 ∪ {𝑢 𝑖 } = 𝑂(𝑢 𝑖 , 𝑓) m 0,5 f 0,5  𝑙 𝐸 : étiquette sur les arcs Abonnement u2 f 1 f 1 Retweet 𝑤 𝑟 𝑢 𝑖, 𝑢𝑗 f 1 u2 m 1 f 1 r 0,5 f 1 u2 Mention 𝑇 𝑢 𝑗 ∩ 𝑅− 𝑢 𝑖 = 𝑇 𝑢𝑖 𝑤 𝑚 𝑢 𝑖, 𝑢𝑗 = 𝑀+ 𝑢 𝑖 ∩ 𝑅− 𝑢 𝑗 𝑀+ 𝑢 𝑖 Acteurs sociaux prominents 14
  • 15. 2,5 Indentification d’acteurs prominents Influenceurs du réseau social Acteurs prominents Algorithme PageRank 1 Influenceurs Inspirer le réseau social 2 Leaders Engager une communauté 3 Débatteurs Initier un débat Algorithmes 1 InfRank 2 LeadRank 3 DisucssRank Acteurs sociaux prominents 15
  • 16. 2,5 Indentification d’acteurs prominents Influenceurs du réseau social Algorithmes m f r 1 InfRank Popularity f P m 2 LeadRank P f r r P P f 3 DiscussRank P m P f Comparaison Poids initial Diffusion des poids Abonnement Retweet Mention Abonnement Retweet Mention Popularité       InfRank       Attraction       LeadRank       Interlocuteurs       DiscussRank       Acteurs sociaux prominents 16
  • 17. 2,6 Evaluation expérimentale Collection de tweets Collection des tweets : Tweets2011 Tweets 16 141 812 Bloggueurs 5 356 432 Retweets 1 128 179 Hashtags 2 466 654 Mentions 7 193 656 URLs 2 769 955 Collection des requêtes # Topic Tweets Bloggeurs Abonn. 1 NFL Super Bowl 55 225 52 082 41 695 951 23 674 2 Egypt’s Tahrir Square protests 23 674 36 571 154 628 27 712 12 976 3 State of the Union address 21 986 20 068 15 673 541 221 Moyenne 43 419 36 240 70 665 9 735 12 290 Modèles de références followers Popularité f-pagerank r-pagerank autorité influence Retweets Mentions (Kwak et al, 2010) (Duan et al., 2010) Acteurs sociaux prominents 17
  • 18. 2,7 Evaluation expérimentale Protocol d’évaluation Evaluation anonyme (AI) Evaluation non-anonyme (¬ AI) (Pal et Counts., 2011) Acteurs sociaux prominents 18
  • 19. 2,8 Recherche des acteurs prominents Comparaison des différents algorithmes Précision de recherche AI ¬AI P@5 P@10 P@20 P@5 P@10 P@20. InfRank 0.47 0.53 0.47 0.47 0.53 0.45 LeadRank 0.73 0.60 0.57 0.80 0.63 0.57 DiscussRank 0.33 0.43 0.40 0.33 0.47 0.38 « Egypt’s Tahrir Square protests » # 1 2 3 4 5 6 7 8 9 10 InfRank @AJEnglish @Reuters @BreakingNews @monaeltahawy @nytimes @SultanAlQassemi @bencnn @NickKristof @AJELive @BBCWorld LeadRank @AJEnglish @Reuters @BreakingNews @monaeltahawy @SultanAlQassemi @nytimes @bencnn @NickKristof @AymanM @AJELive DiscussRank @monaeltahawy @AJEnglish @AymanM @speak2tweet @SultanAlQassemi @bencnn @alaa @sharifkouddous @CNN @Dima_Khatib Acteurs sociaux prominents 19
  • 20. 2,9 Ordonner les acteurs prominents Comparaison des différents algorithmes AI ¬AI NDCG@5 NDCG@10 NDCG@20 NDCG@10 NDCG@20 NDCG@20. followers 0.10 0.14 0.19 0.10 0.14 0.19 f-pagerank 0.05 0.06 0.08 0.06 0.07 0.10 r-pagerank 0.03 0.04 0.08 0.04 0.05 0.08 InfRank 0.05 0.10 0.15 0.06 0.13 0.18 LeadRank 0.11 0.15 0.24 0.14 0.18 0.27 DiscussRank 0.06 0.11 0.16 0.00 0.04 0.11 Acteurs sociaux prominents 20
  • 21. Partie 3. RECHERCHE DE TWEETS
  • 22. 3,1 Recherche d’information sociale Recherche dans le contenu social Réseau Social Interactions & contenu social blog, photo, vidéo, note, opinion, wiki, commentaires, tags, microblog, ODP, clics marque-page, Information & ressources HTML HTML HTML requête HTML HTML HTML Système de Recherche d’Information HTML 2 RI dans le contenu social Recherche de tweets 22
  • 23. 3,2 Recherche de tweets Facteurs de pertinence Contenu Combinaison des facteurs     Approche de combinaison linéaire Approche unifiée Apprentissage automatique Réinjection de pertinence Temps Social Recherche de tweets 23
  • 24. 3,3 Modèle de recherche de tweets Intégration des facteurs temps et influence sociale Thématique Temporelle Sociale Modèle de réseau Bayésien pour la recherche de tweets  Réseau Bayésien d’influence  Réseau Bayésien de croyance Recherche de tweets 24
  • 25. 3,4 Réseau d’inférence Bayésien Topologie q Requête   P(q  t i )   P(q | k )P(k | t i ) P( t i | u k ) P(u k )  Termes k1 k2 k3 k  P(q  t j )   P(q | k )P( t j | u k ) P(u k )  k Tweets t1 Microbloggeurs t2 u1 t3     P(k i | t j )   P(k i | t j )    k |on(i,k ) 1  k i |on(i,k )  0  i  u2 Recherche de tweets 25
  • 26. 3,5 Réseau de croyance bayésien Topologie du réseau q k1    P(t j | q)   P(q | k ) P(t j | k )P(k )  k2      P(t j | q)   P(q | k ) P(tkj | k )P(t sj | k ) P(toj | k ) P(k )  k k3 k o1 tk1 tk2 tk3 to3 o2 to2 t1 u1 to3 t2 ts1 u1 ts2 ts3 t3 Recherche de tweets 28
  • 27. 3,6 Evaluation de la requête Pertinence thématique  P(t j | k )  tf ki ,t j   1 P(t j | k )  t ) tf | q | ki ( q  j k i ,t j 1 0,8 0,6 tf ki ,t j 0,4 1 3 β=1/2 5 β=1/3 7 β=1/4 9 β=1/5 Recherche de tweets 11 β=1/6 27
  • 28. 3,6 Evaluation de la requête Pertinence temporelle   P(t oj|k )  P(t oj|oe )P(oe|k ) 30 25 20  log ( o   o ) df k ,o e s e P(oe | k )   log ( q   os ) df k 15 10 5 0 1 2 3 Obama & Elec 4 Elec 5 Obama Recherche de tweets 28
  • 29. 3,6 Evaluation de la requête Pertinence sociale 𝑃 𝑡 𝑠𝑗 𝑘 = 𝑃 𝑡 𝑠𝑗 𝑢 𝑓 𝑃 𝑢 𝑓 𝑘 + 𝑃 𝑡 𝑠𝑗 𝑢 𝑓 𝑃 𝑢 𝑓 𝑘 𝑃 𝑡 𝑠𝑗 𝑘 = 𝑃 𝑡 𝑠𝑗 𝑢 𝑓 𝑃(𝑢 𝑓 ) P(uk )  InfRank (uk ) P(uk )  LeadRank (uk ) P(uk )  DiscussRank (uk ) Recherche de tweets 29
  • 30. 3,7 Évaluation expérimentale TREC Microblog 2011 - 2012 16 tweets 16 5,3 1 49 59 184 jours millions Blogueurs Retweets Requêtes groupes systèmes millions millions (Ounis et al., 2011) Conditions de pertinence Mesure d’évaluation  Tweets postérieurs à la date de la requête.  Nouveau tweets seulement (retweets)  Tweets en anglais  Ordre chronologique inverse.  P@30 (Officielle)  MAP, ROC Fréquence des termes 0 5 10 Longueur (termes) 0 10 20 Hashtags 0 5 Recherche de tweets 10 30
  • 31. 3,7 Évaluation expérimentale Collection « Arab Spring » Jugements de pertinence  Les 20 premiers tweets de chaque système (trié par score)  Prise en compte des retweet  Multilingue (Anglais, Français et Arabe) Thématique Temporel Social  « Number of protesters in Tahrir »  « Tunisian revolution »  …etc,  « ElBaradei arrives in Egypt »  « Clashes in Tahrir »  « SMS Down Egypt »  « Wael Ghonim »  « Mubarak…»  …etc, (Teevan et al., 2011) 25 Requêtes Mesure d’évaluation  P@10  P@20 Recherche de tweets 31
  • 32. 3,8 Évaluation expérimentale Configuration des paramètres Paramètre β 0,4 Importance sociale 0,4 P@30 0,3 InfRank 0,3 0,2 P@30 0,2 0,1 0,1 β 0 LeadRank 0 0 0,25 0,5 0,75 1 BNTSi BNTSb Paramètre Δt 0,32 P@30 0,315 0,31 0,305 0,3 0,295 Δt 0,29 0 5 10 15 Recherche de tweets 32
  • 33. 3,9 Évaluation expérimentale TREC Microblog 2011 -2012 Seuil 2011 TREC Microblog P@30 MAP isiFDL DFReeKLIM BNTSb BNTSi gust Median * 30 0.4551 (−25%) 0.2439 (−27%) * 30 0.4401 (−22%) 0.2811 (−37%) 30 0.3422 0.1774 30 0.3447 (+12%) 0,1542 (+16%) 30 0.3218 (+6%) 0.1812 (−2%) 0.2575 (+33%) 0.1426 (+24%) KAUSTRerank KAUSTBase BNTS * 50 0.3456 (−9%) 0.2390 (−17%) * 50 0.3347 (−7%) 0.1902 (+5%) 50 0.3129 0.1990 1000 0.1844 0.1929 * 1000 0.1136 (+62%) 0.1651 (+17%) * 1000 0.0986 (+87%) 0.1411 (+37%) BNTS DFReeKLIM Disjunctive * * Recherche de tweets 33
  • 34. 3,9 Évaluation expérimentale TREC Microblog 2011 -2012 Seuil 2011 TREC Microblog 2012 TREC Microblog BNTSb hitURLrun3 uwatgclrman hitLRrun1 BNTSi ICTWDSERUN1 Median P@30 MAP 30 0.3332 0.2466 * 30 0.2701 (+23%) 0.2642 (−7%) * * 30 0.2559 (+30%) 0.2277 (+8%) 30 0.2446 (+36%) 0,2411 (+2%) 30 0.2410 (+38%) 0.1472 (+68%) 30 0.2384 (+40%) 0,2093 (+18%) 0.1807 (+48%) 0.1486 (+66%) * * Recherche de tweets 34
  • 35. 3,10 Évaluation expérimentale Profils de la requêtes BNTSi BNTSi-L BNTSi-T Toutes les requêtes p@10 BNTSi-S Profil thématique p@20 Profil temporel p@10 BNTSi-H p@10 p@20 Profil social p@20 p@10 p@20 Recherche de tweets 35
  • 36. 3,10 Évaluation expérimentale Profils de la requêtes BNTSi BNTSi-L BNTSi-T BNTSi-H Toutes les requêtes BNTSi-S Profil thématique Profil de la requête Tous Thématique   Hashtag  Importance sociale  Temps  Longueur p@10 Profil temporel p@10 Temporel    p@10        p@20 p@20 Social Profil social p@10 p@20  p@20 Recherche de tweets 36
  • 37. 3,11 Évaluation expérimentale Distribution temporelle 30% Mexico drug war 25% 20% 15% 10% 5% 0% 0 Tweets 1 2 Mexico 3 4 Drug & Mexico 5 6 7 Drug & war 8 9 Relevant Recherche de tweets 37
  • 38. Partie 4. ACCÈS À LITTÉRATURE
  • 39. 4,1 Recherche d’information sociale Exploitation des réseaux sociaux Réseau Social Interactions & contenu social blog, photo, vidéo, note, opinion, wiki, commentaires, tags, microblog, ODP, clics marque-page, Information & ressources HTML HTML HTML HTML requête HTML HTML Système de Recherche d’Information HTML HTML HTML HTML HTML 1 Exploitation de contenu social et des réseau sociaux Accès à littérature 39
  • 40. 4,2 Modèle social de RI bibliographique Combinaison de la pertinence thématique et de la pertinence sociale Articles scientifiques Auteurs Annotateurs CombMax BM25 SRI classique Pertinence thématique SoRank SoRank Expertise - Autorité Combinaison linéaire Expertise - Autorité Pertinence Sociale Pertinence Globale 𝑅𝑒𝑙 𝑑, 𝑄, 𝐺 =∝ 𝑅𝑒𝑙 𝑑, 𝑄 + 1 −∝ 𝑆 𝑑 (𝑑, 𝑄, 𝐺) Accès à littérature 40
  • 41. 4,3 Efficacité de la recherche Ordonnancement des articles scientifiques Collection CiteData (Harpale et al., 2010) P@20 MAP BM25 HiemLM 0.394 (+18%) ** 0.211 (+18%) ** 0.388 (+19%) ** 0.206 (+20%) ** Cit Expt-it PR 0,262 (+77%) *** 0.124 (+100%) *** 0.246 (+88%) *** 0.107 (+132%) *** 0.230 (+101%) *** 0.107 (+132%) *** 0,262 (+77%) *** 0.124 (+100%) *** 0.230 (+101%) *** 0.108 (+130%) *** 0.274 (+69%) *** 0.112 (+131%) *** 0.244 (+90%) *** 0.107 (+131%) *** 0.463 0.248 h-index PR-CO PR-Cit Kirsh SoRank Accès à littérature 41
  • 42. Partie 5. CONCLUSION
  • 43. 5,1 Contributions Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs  Modélisation des réseaux sociaux  Évaluation de la pertinence sociale  Intégration des facteurs de pertinence  Identification des acteurs sociaux prominents  Pertinence des leaders  Impact du profil social sur l’évaluation pertinence  Intégration des facteurs temps et importance sociale  Approche de combinaison linéaire, approche unifié  Pertinence thématique est primordiale Conclusion 43
  • 44. 5,2 Perspectives Exploitation des réseaux sociaux pour l’accès à la littérature et la recherche des microblogs  Problème de disponibilité de graph social  Protocole d’évaluation des acteurs sociaux prominents  Optimisation des temps de calcul  Détection de profil de la requête  Longueur optimale d’une période  Poids d’expertise  Approche unifiée pour l’accès à la littérature A long terme  Ordonnancement de plusieurs entités  Leaders des compagnes électorales Conclusion 44
  • 45. MERCI POUR VOTRE ATTENTION! Suivez-moi sur Twitter @amjedbj Téléchargez cette présentation sur : slideshare.net/amjedbj irit.fr/~Lamjed.Ben-Jabeur/thesis.pdf

×