Dans l'esprit du Pagerank: regards croisés sur les algorithmes,
1. "Dans l'esprit du Pagerank :
regards croisés sur les algorithmes"
#CafeLecture - Atelier de lecture transdisciplinaire - Learning Centre SophiaTech
Fabien Gandon (Directeur de recherche, Wimmics (Inria-I3S))
2. « Dans l'esprit du Pagerank
Une enquête sur l'algorithme de Google »
Dominique Cardon, Réseaux 2013/1 (n° 177), p. 63-95. DOI 10.3917/res.177.0063
« A quoi rêvent les algorithmes
Nos vies à l'heure des big data »
Dominique Cardon, 01/10/2015, Coédition Seuil-La République des idées
+
3. L’article dans ses grandes lignes
(I) Principes & Origines du PageRank en Sociométrie et Scientométrie
• Citation = Vote → Lien = Vote
• Métriques sur les formes relationnelles du social
(centralité propre, proba stationnaire) Ax=x
• « Google Juice » ou « jus de liens » pour un vote pondéré
• Hypothèse d’extériorité, de neutralité et d’honnêteté
4. L’article dans ses grandes lignes
(II) Paradoxe: évidement omniprésent mais nécessairement ignoré
• Agrégation organique d’une « sagesse des foules »
• Séparation (fantasmée) des algorithmes: PageRank & Adwords
• « Faites comme si on n’était pas là » / « Nous sommes incontournables »
• SEO, bombing, fermes de liens, génération de textes, etc.
• Aucune action éditoriale directe/ Ajustements des algorithmes (!!!)
5. L’article dans ses grandes lignes
(III) Limites: autorité/popularité, autres graphes (sociaux), ininterprétable
8. Google est créateur de Web
Tisse des liens, de la toile et ajoute des pages (résultats de recherche)
Plus on est visible, plus on est lié
Sur le Web l’analyse modifie l’objet
9. Pas uniquement structurel
• « Anchor texts » utilisés dans l’indexation
• Knowledge graphs : retour du contenu structuré, contrôlé (édité)
• Liens, nœuds et réseaux de plus en plus typés
14. « Vote » : Lien = Vote
• Différences de pratiques entre communautés
• Incomparabilité des pratiques entres domaines, cultures, communautés
• Question de l’uniformisation des traitements de « Lien-Vote »
• Changements dans l’intentionnalité du lien
• Très explicite au début (1990) lorsqu’il est manuel et spontané
• Très différent avec son automatisation (suggestion, génération, liage, triche, etc.)
• Différence d’intention explicite :
Vote-Lien // Signal != trace ex. I like != Click // Data-Sublata [Latour]
• Vote d’un échantillon biaisé, non représentatif
• Web = "seulement" 3 milliards de d’utilisateurs et pas n’import lesquels
• Les « traces et signaux » ne capturent que les connectés
les autres ne laissent pas de traces et donc ne sont pas comptés
• Limite de représentativité
15. Sources :Internet World Stats et Google Transparency Report - 2013
Boris Beaude et Ogier Maitre - Chôros - EPFL
Boris Beaude et Ogier Maitre - L'ubiquité fracturée - 2014
16. « La donnée brute n’existe pas » [Livre]
elle a un contexte, modèle, format, précision, etc.
• La donnée est le nouveau pétrole
• Relativité de la valeur
(pas de cours de la donnée)
• Pas extraite en pleine mer
(elle appartient souvent à quelqu’un)
• Pas une ressource naturelle
(obtenue artificiellement)
• Infiniment renouvelable
(copie = instruction de base)
• L’absence de modèle n’améliore pas forcément les biais
(implicites, incontrôlés, etc.)
19. Pagerank / h-Index: importer principes et critiques
• La « recherche d’information » / « recherche scientifique »
• Interprétations difficiles / erronées des métriques
(c.f. « Les dérives de l’évaluation de la recherche » Y. Gingras)
• Domination arbitraire d’une métrique, d’un classement, etc.
Il faut, varier les métriques & documenter leur interprétation,
leur principe et leurs limites.
intermédiarité proximité propre degré harmonique Katz
(source: Wikipedia)
(PageRank)
20. Tension entre adhésion et manipulation
Besoin de comprendre pour interpréter, légitimer, faire confiance, … utiliser
vs. Possibilité offerte de manipuler, biaiser, détourner,… rendre inutilisable
• Asymétrie de l’information:
• Manque de compréhension, conscience, etc. [Livre]
ex. agriculteurs, « tracteurs numériques »
& constructeur propriétaire données
// « les données » vs. « les obtenues »
ou « data » vs. « sublata » [B. Latour]
• Suprématie de ceux qui peuvent créer, attirer,
provoquer du lien (href, like, #tag)
// campagnes de com., jeux concours, etc.
// les riches deviennent plus riches
• Absence d’alternatives
• Limite de l’approche CNIL
« un fichier= un usage fixé » // Gilles Babinet
21. “people who use Mac
computers spend as much
as 30% more on hotels”
22. surveiller la surveillance
• « Diffusion d’une culture statistique »…
une culture du numérique
• Documenter les algorithmes:
• entrées, sources, capteurs, etc.
• modèles, formats, représentations, etc.
• algo & paramétrage, méthodes, traitements, etc.
• pilotes, collecteurs, commanditaires, programmeurs, etc.
• sorties, forme, destinataires, réutilisations, etc.
• objectifs visés ( principe)
• Audit des algorithmes, expertises de contrôle, responsabilité.
• CCNum & Conseil d’Etat
obligation de loyauté des plateformes envers les utilisateurs. [Livre]
• Vers une conception individualisée de la vie privée et non une définition
uniforme [Livre]
23. Potentiel imprévisible de la donnée
une autre raison de connaitre l’objectif
• Do You Smile with Your Nose? Stylistic Variation in Twitter Emoticons
Tyler Schnoebelen, WWW2015
• Feutres sous les meubles = conducteur prudent
// objectif d’optimisation (assurances) objectif de solidarité (mutualités)
:-) :)
24. lire ou ne pas lire…
les termes et conditions des applications
32 241 words18 301 words15 352 words 36 275 words19 972 words11 195 words
http://conversation.which.co.uk/technology/length-of-website-terms-and-conditions/
< < < < <
… documenter l’objectif mais de façon accessible
26. Dérives parfois invisibles
• Encourager des comportements individuels non voulus
• Perceptibles: addiction vs. publicité ciblée, endoctrinement vs. bulle de filtrage, etc.
• « faut-il proposer des cigarettes à un fumeur qui veut arrêter de fumer? » [Livre]
• Imperceptibles: recommandation de livres vs. Bibliothérapie
• Renforcer des structures sociales non souhaitées
• Discrimination (ex. société raciste et offres d’emploi [Livre][Latanya Sweeney])
• Inégalités, Hiérarchies, etc. le tout invisible
• Un sous-système et non un système isolé
• L’hypothèse de l’isolé ne tient pas
• Autres boucles de rétroaction (ex. médias classiques)
A court terme nous risquons moins la suprématie d’une IA qu’une amplification
aveugle des biais sociaux ou un renforcement irréfléchi des comportements
individuels par une gouvernementalité algorithmique aveugle.
27. Gouvernementalité algorithmique
Antoinette Rouvroy
• l’abandon d’« échelle », d’« étalon », de hiérarchie, au profit
d’une normativité immanente et évolutive en temps réel
• double statistique du monde qui semble faire table rase
des anciennes hiérarchies
• l’évitement des confrontations avec les individus ;
occasions de subjectivation raréfiées.
« Une pensée du devenir et des processus d’individuation par la relation réclame
nécessairement du « disparate » - une hétérogénéité des ordres de grandeur, une
multiplicité des régimes d’existence - que la gouvernementalité algorithmique ne
cesse précisément d’étouffer en clôturant le réel (numérisé) sur lui-même »
28. « Le probable préempte le possible » [Livre]
• En nous réduisant à nos traces on nous réduit à un passé visible et surtout…
on nous coupe d’un futur possible.
• Suprématie de l’observable vs.
besoin de réintégrer la projection, le modèle.
« La carte et le paysage »
• Impact sociétal du déploiement d’un algorithme sur le Web
• Dimension éthique, morale, etc.
• Se doter d’un projet social, politique, moral, etc.
29. au-delà du PageRank
• Google et tant d’autres…
PageRank, EdgeRank,…
• Multiplication des graphes sur le Web
(liens de pages, réseaux sociaux,
données liées, workflows, logs, etc.)
• Besoin d’autres formes d’intelligences
au-delà du raisonnement logique, de l’apprentissage statistique, etc.
• In fine, un appel à la transdisciplinarité.
#uca