La recommandation d'articles scientifiques dans une bibliothèque numérique   Recommending Journal Articles  in a Scientifi...
Apercu de l’ exposé  <ul><li>Motivation </li></ul><ul><li>Qu'est-ce qu'un système de recommandation? </li></ul><ul><li>Pro...
Motivation <ul><li>Motivations du projet de recherche </li></ul><ul><ul><li>Contribuer au outils de découverte de la conna...
L'apport d'un système de recommandation pour une bibliothèque scientifique <ul><li>Pour le chercheur scientifique : </li><...
Qu'est-ce qu'un &quot;système de recommandation”? <ul><li>Un logiciel qui prévoit les éléments d'information susceptibles ...
Taxonomie des systèmes de recommandation   <ul><li>Filtrage du contenu des éléments </li></ul><ul><li>Recherche par l’anal...
Moteur de recherche vu comme un système de recommandation
“ Pages similaires”: recommandations en fonction du texte intégral
Le  système  d‘Amazon
Item Based User Ratings Explanations
Sociétés commerciales qui exploitent la technologie de recommandation automatique
<ul><li>L’utilisateur indique ses préférences (ou commande un article) </li></ul><ul><li>Le système de recommandation calc...
How Collaborative Filtering Works <ul><li>User-Based CF </li></ul><ul><ul><li>Given user  A  find all the other users { U ...
User-Based Collaborative Filtering <ul><li>Goal: predict the rating Ted will give the movie “Ran” </li></ul><ul><li>Step 1...
Item-Based Collaborative Filtering <ul><li>Goal: predict the rating Ted will give the movie “Ran” </li></ul><ul><li>Step 1...
Find “Nearest Neighbour” and Predict Rating <ul><li>Find Nearest Neighbours (e.g. cosine similarity) </li></ul><ul><li>Pre...
Typical Issues with CF Recommenders <ul><li>Data Sparsity </li></ul><ul><ul><li>Ratio of Users / Items is low (~ 1:10) </l...
Specific Issues for Collaborative Filtering in Science Digital Libraries <ul><li>Data Sparsity </li></ul><ul><ul><li>More ...
<ul><li>Suivre les traces de TechLens+, c.à.d. </li></ul><ul><ul><li>Développement d’une implantation “ Fusion Mixed Hybri...
Recommender Citation Seeding <ul><li>Articles either cite or don’t cite other articles </li></ul><ul><li>Some  articles  t...
Apply PageRank to Citation Matrix <ul><li>PageRank algorithm applied to citations </li></ul><ul><li>d  – damping factor = ...
PageRank-weighted Citation matrix <ul><li>Apply Page Rank on Citations </li></ul><ul><ul><li>Use citation data (as in Tech...
User Project Profiles & IR Modes <ul><li>Project Profiles </li></ul><ul><li>Explicit User-defined Projects </li></ul><ul><...
Génération implicite de profils contextuels Termes Texte Intégral Auteur Mots clés Revue Résumé Projet Mode Clics du navig...
Matrice de préférences multidimensionnels Tom Alice Bob Carol p 1 p 2 p 3 p 4 p 5 p 6 Innovation Information Autorité 0.3 ...
Scaling Strategy: Distributed Recommenders <ul><li>Multiple ratings matrices decomposed by subject area </li></ul><ul><li>...
L'interface utilisateur pour naviguer dans l’espace des recommandations <ul><li>Inspiration pour l’interface de navigation...
Carrot 2  Cluster maps 2D projection of Recommended Item-User Similarity Explanation Clusters Dimensionality weighting sli...
Travaux à venir <ul><li>Étudier l’effet de PageRank sur la qualité des recommandations </li></ul><ul><li>Analyser : </li><...
Merci! Questions? http://lab.cisti-icist.nrc-cnrc.gc.ca /synthese/
Upcoming SlideShare
Loading in...5
×

La recommandation d'articles scientifiques dans une bibliothèque numérique

1,801

Published on

"Recommending Journal Articles in a Scientific Digital Library"

Published in: Technology, Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,801
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
35
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • L’objectif de cette présentation est de vous faire par de notre projet de recherche a l’ICIST Institut canadien de l&apos;information scientifique et technique Ce projet est en voie de development presentement et il est en collaboration avec David Zeber – un etudiant en Statistiques a l’universite de Cornell.
  • La recommandation d'articles scientifiques dans une bibliothèque numérique

    1. 1. La recommandation d'articles scientifiques dans une bibliothèque numérique Recommending Journal Articles in a Scientific Digital Library Andre Vellino [email_address] Institute canadien de l'information scientifique et technique David Zeber [email_address] Département de statistiques université de Cornell
    2. 2. Apercu de l’ exposé <ul><li>Motivation </li></ul><ul><li>Qu'est-ce qu'un système de recommandation? </li></ul><ul><li>Problèmes pour les systèmes de recommandations d’articles </li></ul><ul><li>Solutions proposées: </li></ul><ul><ul><li>Un système hybride comprenant: </li></ul></ul><ul><ul><ul><li>(a) du filtrage collaboratif (CF) et </li></ul></ul></ul><ul><ul><ul><li>(b) du filtrage basé sur l’analyse de texte (CBF) </li></ul></ul></ul><ul><ul><li>Utilisation de PageRank sur le réseau de citations </li></ul></ul><ul><ul><li>Recommandation basé sur des préférences multidimensionnels </li></ul></ul><ul><ul><li>Une interface utilisateur centrée sur les explications </li></ul></ul><ul><li>Travaux à venir </li></ul>
    3. 3. Motivation <ul><li>Motivations du projet de recherche </li></ul><ul><ul><li>Contribuer au outils de découverte de la connaissance. </li></ul></ul><ul><ul><li>Faire évoluer la technologie de la recommandation automatique dans le domaine des bibliothèques numériques. </li></ul></ul><ul><li>Critère de succès </li></ul><ul><ul><li>Aider l'innovation scientifique canadienne en créant un outil pratique de recommandation automatique pour une bibliothèque nationale. </li></ul></ul>
    4. 4. L'apport d'un système de recommandation pour une bibliothèque scientifique <ul><li>Pour le chercheur scientifique : </li></ul><ul><li>Ajouter une fonction supplémentaire à un portail de recherche </li></ul><ul><ul><li>Rencontre fortuite de documents pertinents </li></ul></ul><ul><li>Pour la bibliothèque en ligne : </li></ul><ul><li>Fidéliser davantage les utilisateurs en créant des services dynamiques et personnalisés </li></ul><ul><ul><li>Par exemple : alertes par courriel basées sur le profil de l'utilisateur, et l'usage collectif </li></ul></ul><ul><li>Pour les auteurs : </li></ul><ul><ul><li>Pour un article donné (avec des citations) trouver des articles supplémentaires qui devraient être cités par celui-ci. </li></ul></ul><ul><li>Pour les maisons d ' édition : </li></ul><ul><ul><li>Pour un article à évaluer, recommander des évaluateurs </li></ul></ul>
    5. 5. Qu'est-ce qu'un &quot;système de recommandation”? <ul><li>Un logiciel qui prévoit les éléments d'information susceptibles d'intéresser l'utilisateur, en fonction : </li></ul><ul><ul><li>du contenu des éléments à recommander </li></ul></ul><ul><ul><li>du profil de l'utilisateur </li></ul></ul><ul><ul><li>du comportement collectif des utilisateurs </li></ul></ul><ul><li>Les éléments d'information peuvent comprendre… </li></ul><ul><ul><li>des marchandises : films, musique, livres </li></ul></ul><ul><ul><li>du texte : actualités, blogs, pages web, et </li></ul></ul><ul><ul><ul><li>des articles dans des revues scientifiques </li></ul></ul></ul>
    6. 6. Taxonomie des systèmes de recommandation <ul><li>Filtrage du contenu des éléments </li></ul><ul><li>Recherche par l’analyse du texte intégrale </li></ul><ul><li>Recherche par similitude de profils explicites (par exemple en utilisant les taxonomie sémantiques) </li></ul><ul><li>Filtrage collaboratif </li></ul><ul><li>Usage des utilisateurs (avec profil de préférences) </li></ul><ul><ul><li>« User-based » (utilisateurs semblable) </li></ul></ul><ul><ul><li>« Item-based » (éléments semblable) </li></ul></ul><ul><li>Algorithmes </li></ul><ul><ul><li>« Memory-based » (compare chaque usager chaque fois) </li></ul></ul><ul><ul><li>« Model-based » (construit un model probabiliste) </li></ul></ul>
    7. 7. Moteur de recherche vu comme un système de recommandation
    8. 8. “ Pages similaires”: recommandations en fonction du texte intégral
    9. 9. Le système d‘Amazon
    10. 10. Item Based User Ratings Explanations
    11. 11. Sociétés commerciales qui exploitent la technologie de recommandation automatique
    12. 12. <ul><li>L’utilisateur indique ses préférences (ou commande un article) </li></ul><ul><li>Le système de recommandation calcule les corrélations parmi : </li></ul><ul><ul><li>les utilisateurs (selon leurs profil de préférences) </li></ul></ul><ul><ul><li>les articles (selon les préférences attribuées par les utilisateurs) </li></ul></ul><ul><li>Le système prévoit les préférences que l’utilisateur aurait attribué aux articles pour lesquels il n’y a pas encore d’attribution et lui présente les premier « N » éléments </li></ul>Les étapes-types de la recommandation par filtrage collaboratif
    13. 13. How Collaborative Filtering Works <ul><li>User-Based CF </li></ul><ul><ul><li>Given user A find all the other users { U } that have the most “similar” item-rating patterns </li></ul></ul><ul><ul><li>For each item I not yet rated by A , predict the likely rating A will assign to I given the ratings for I given by { U } </li></ul></ul><ul><ul><li>Present the Top-N ordered list of items { I } to the user </li></ul></ul><ul><li>Item-Based CF </li></ul><ul><ul><li>Given user A and the set of items { I } to which A has given ratings, find all the other items { O } that are “similar” to { I } </li></ul></ul><ul><ul><li>Present the Top-N ordered list of items { O } to the user </li></ul></ul>
    14. 14. User-Based Collaborative Filtering <ul><li>Goal: predict the rating Ted will give the movie “Ran” </li></ul><ul><li>Step 1 – eliminate the user-profiles of users who didn’t rate “Ran” </li></ul><ul><li>Step 2 – find Ted’s “K-nearest neighbours” who rated “Ran” and at least 2 other movies (Alice)‏ </li></ul><ul><li>R(Ted,Ran) ~= 5. </li></ul>5 5 2 Alien ? 4 4 Ted 5 3 4 5 Alice 4 3 4 Carol 5 1 Bob Ran X-Men Babe Fargo
    15. 15. Item-Based Collaborative Filtering <ul><li>Goal: predict the rating Ted will give the movie “Ran” </li></ul><ul><li>Step 1 – find the other items rated by Ted that are “nearest neighbours” to “Ran” </li></ul><ul><li>Step 2 – predict the likely rating “Ran” based on Ted’s ratings for Ran’s nearest neighbours </li></ul><ul><li>R(Ted,Ran) ~= 4. </li></ul>4 5 2 Alien ? 4 4 Ted 5 3 4 5 Alice 4 3 4 Carol 5 1 Bob Ran X-Men Babe Fargo
    16. 16. Find “Nearest Neighbour” and Predict Rating <ul><li>Find Nearest Neighbours (e.g. cosine similarity) </li></ul><ul><li>Predict Rating (item i for user u ) </li></ul><ul><ul><li>Weighted average of user’s ratings on N similar users </li></ul></ul>
    17. 17. Typical Issues with CF Recommenders <ul><li>Data Sparsity </li></ul><ul><ul><li>Ratio of Users / Items is low (~ 1:10) </li></ul></ul><ul><ul><li>Number of Ratings per User is low </li></ul></ul><ul><ul><li>Ratings matrix sparsity ~ 95% </li></ul></ul><ul><li>Cold Start Problem </li></ul><ul><ul><li>First-time users get poor or no recommendations because CF matrix has no entries </li></ul></ul><ul><li>Rating Items </li></ul><ul><ul><li>CF recommender must be trained (explicitly or implicitly) by providing ratings to items </li></ul></ul><ul><li>Principle of Induction </li></ul><ul><ul><li>People who exhibited similar behaviour in the past will tend to exhibit similar behaviour in the future. </li></ul></ul>
    18. 18. Specific Issues for Collaborative Filtering in Science Digital Libraries <ul><li>Data Sparsity </li></ul><ul><ul><li>More Articles & Fewer Users (10x) </li></ul></ul><ul><ul><li>Fewer Item / Ratings (~ 99% sparsity) </li></ul></ul><ul><li>Rating Articles </li></ul><ul><ul><li>Explicit ratings are more difficult to obtain </li></ul></ul><ul><ul><ul><li>DL users have less need to “express themselves” by explicitly rating items than movie watchers </li></ul></ul></ul><ul><ul><li>Implicit ratings depend on UI features of DL </li></ul></ul><ul><ul><ul><li>No reliable method for inferring ratings from browsing and query behaviour </li></ul></ul></ul><ul><li>Principle of Induction not necessarily true in DL context </li></ul><ul><ul><li>Interest drift </li></ul></ul><ul><ul><li>Context shifts </li></ul></ul>
    19. 19. <ul><li>Suivre les traces de TechLens+, c.à.d. </li></ul><ul><ul><li>Développement d’une implantation “ Fusion Mixed Hybrid ” : CF(filtrage collaboratif) + CBF (filtrage par analyse de texte) </li></ul></ul><ul><ul><li>Initialiser un système collaboratif avec des préférences déduites d’une matrice de citations </li></ul></ul><ul><ul><li>Intégrer une fonction pour expliquer des recommandations </li></ul></ul><ul><li>Avec des extensions </li></ul><ul><ul><li>Ajouter une valeur “PageRank” aux citations </li></ul></ul><ul><ul><li>Déterminer les modes de recherches pour l’utilisateur </li></ul></ul><ul><ul><li>Identifier les préférences implicites provenant des clics du navigateur </li></ul></ul><ul><ul><li>Ajouter de multiples dimensions de préférences </li></ul></ul>Stratégie de recherche a l’ICIST
    20. 20. Recommender Citation Seeding <ul><li>Articles either cite or don’t cite other articles </li></ul><ul><li>Some articles that are cited are not in collection </li></ul><ul><li>Users’ “article collection profile”  citations </li></ul>TechLens approach to Cold Start / Data Sparsity problem
    21. 21. Apply PageRank to Citation Matrix <ul><li>PageRank algorithm applied to citations </li></ul><ul><li>d – damping factor = 0.85 </li></ul><ul><li>PR (  ) – PageRank score of article  </li></ul><ul><li>B (  ) – articles that that cite  </li></ul><ul><li>N  – number of citations for article  </li></ul>Aurel Constantinescu “Ranking Full-Text Articles using Citation Based Methods” Master’s Thesis, University of Ottawa 47.5 135 87.5 47.5 47.5 87.5 87.5
    22. 22. PageRank-weighted Citation matrix <ul><li>Apply Page Rank on Citations </li></ul><ul><ul><li>Use citation data (as in TechLens+) </li></ul></ul><ul><ul><li>Apply PageRank to weight the citation-based “ratings” </li></ul></ul><ul><li>Done before but only at the Journal level ( http://www.eigenfactor.org/ )‏ </li></ul>p 6 p 1 p 5 p 2 p 4 p 3 u 2 p 1 u 1 p 2 p 4 p 3 articles citations p 7 p 8  = constant users     0.3 0.2 0.6 0.3 0.5 0.5 0.7 0.6 0.2 0.4 0.5 0.4
    23. 23. User Project Profiles & IR Modes <ul><li>Project Profiles </li></ul><ul><li>Explicit User-defined Projects </li></ul><ul><ul><li>Subject-matter expertise (Novice / Knowledgeable / Expert) </li></ul></ul><ul><li>Defined by a document collection that characterizes the project: </li></ul><ul><ul><li>By content - the feature vectors (bag of words) from that collection </li></ul></ul><ul><ul><li>By CF similarity from “citations” list for the user </li></ul></ul><ul><li>IR Modes </li></ul><ul><li>Users of DLs have a broad range of IR goals, such as </li></ul><ul><ul><li>seeking answers to highly specific scientific questions </li></ul></ul><ul><ul><li>developing literature surveys </li></ul></ul><ul><ul><li>establishing prior art for patent claims </li></ul></ul><ul><li>“ innovation” / “information” / “authority” </li></ul>
    24. 24. Génération implicite de profils contextuels Termes Texte Intégral Auteur Mots clés Revue Résumé Projet Mode Clics du navigateur État de l’utilisateur
    25. 25. Matrice de préférences multidimensionnels Tom Alice Bob Carol p 1 p 2 p 3 p 4 p 5 p 6 Innovation Information Autorité 0.3 0.6 0.3 0.7 0.4 0.7 0.2 G. Adomavicious, R. Sankaranarayanan, S. Sen, A. Tuzhilin, ACM Transactions on Information Systems 2005 Incorporating Contextual Information in Recommender Systems Using a Multidimensional Approach 0.7 0.2 0.5
    26. 26. Scaling Strategy: Distributed Recommenders <ul><li>Multiple ratings matrices decomposed by subject area </li></ul><ul><li>Merge separate recommendations by subject </li></ul><ul><li>Reduces matrix sparsity </li></ul><ul><li>Improves accuracy of recommendations </li></ul>Distributed Collaborative Filtering with Domain Specialization S. Berkovsky, T.Kuflik, and F. Ricci Proceedings of RecSys2007
    27. 27. L'interface utilisateur pour naviguer dans l’espace des recommandations <ul><li>Inspiration pour l’interface de navigation incrémentale </li></ul><ul><ul><li>Carte topographique des grappes de documents “Carrot 2 ” </li></ul></ul><ul><li>Explications des recommandations </li></ul><ul><ul><li>Assurer la transparence   accroître la confiance des utilisateurs en la machine </li></ul></ul><ul><ul><li>Profitez des explications pour permettre aux utilisateurs de </li></ul></ul><ul><ul><ul><li>visualiser les recommandation par type de cause </li></ul></ul></ul><ul><ul><ul><li>filtrer les recommandations indésirables </li></ul></ul></ul>
    28. 28. Carrot 2 Cluster maps 2D projection of Recommended Item-User Similarity Explanation Clusters Dimensionality weighting slider
    29. 29. Travaux à venir <ul><li>Étudier l’effet de PageRank sur la qualité des recommandations </li></ul><ul><li>Analyser : </li></ul><ul><ul><li>des profils contextuels </li></ul></ul><ul><ul><li>des recommandations distribuées et multidimensionnelles </li></ul></ul><ul><li>Étudier de l’impact produit par des informations supplémentaires </li></ul><ul><ul><li>Indice Hirsch pour évaluer les auteurs </li></ul></ul><ul><ul><li>Évaluation d’articles sur des sites spécialisés tel que “Faculty of 1000” </li></ul></ul><ul><li>Affiner le filtrage basé sur le texte intégrale à partir d’une analyse sémantique </li></ul>
    30. 30. Merci! Questions? http://lab.cisti-icist.nrc-cnrc.gc.ca /synthese/
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×