Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Index independant du web ertzscheid
1. One Index To Rule Them All
De Paul Otlet à l’internet des objets.
Ertzscheid Olivier. www.Affordance.info. Université de Nantes. Novembre 2017.
1
2. Préambule.
Le web a à peine plus de 25 ans.
• Aucun média n’a jamais permis de toucher autant de monde en
même temps, aussi régulièrement. Aucun média n’a jamais connu
autant de changements structurels en si peu de temps
• En moins de 25 ans le web a changé 3 fois de nature et d’objet.
• Il a changé (au moins) 3 fois d’index. 2
3. Le web est AVANT TOUT une histoire d’index.
A nous de faire en sorte qu’il ne devienne pas, APRÈS TOUT, une forme de mise à l’index.
• LES INDEX INCONNUS.
– Index des objets => ? … ?
– Index du génome => ? … ?
– Index des … émotions ? (web / informatique affective)
• LES INDEX CONNUS.
– Index des produits => Amazon (1994)
– Index des adresses (URL) => Yahoo! (1995)
– Index des documents => Google (1998)
– Index des profils => Facebook (2004)
3
4. One ring Index To Rule Them All
• Des index sur les informations et les connaissances que NOUS avons
produites. Des index bâtis sur des algorithmes que NOUS avons entraînés.
A l’aide de données que NOUS leur avons confiées. #DigitalLabor
• Ce sont les commerçants qui ont construit l’index d’Amazon :
– Index des produits => Amazon (1994)
• Ce sont les internautes qui ont construit l’index de Google et « formé »
son algorithme
– Index des documents => Google (1998)
• Ce sont les internautes qui ont fait Facebook (données servitude
volontaire)
– Index des profils => Facebook (2004)
4
5. On a donc plusieurs « problèmes paradoxaux ».
« Si c’est gratuit c’est vous le produit »
Si vous ne trouvez pas la solution c’est parce que c’est souvent vous le problème.
• Problème 1 : Des GAFAM / NATU / BATX que tout le monde commence à raison à trouver
effrayants et qui ne cachent pas leur ambition de réguler l’ensemble de la sphère commerciale
mais aussi publique, régalienne, politique.
• Problème 2 : Des données / pages / profils / contenus publics (ou qui pourraient rapidement le
redevenir) mais qui sont captés et - paradoxalement - rendus publics uniquement par des services
/ acteurs privés
• Problème 3 : Ces acteurs, autour de leurs index, ont fini par « propriétariser » des ressources et
des individus qui avaient vocation à rester en dehors de toute appropriation, de toute
« enclosure ». Et ils ont organisé leur mise en concurrence et des formes inédites de spéculation
(sur la langue et le vocabulaire => cf F. Kaplan et le capitalisme linguistique)
• Effet paradoxal : ces acteurs privés n’essaient même plus de garder leurs algos secrets et les
mettent en Open Source (la chaîne de valeur s’étant déplacée des algorithmes aux données*) mais
les acteurs publics ou associatifs n’arrivent pas à « passer à l’échelle ».
Résultat =>
5
* http://affordance.typepad.com//mon_weblog/2016/05/nationaliser-code-republique-algorithmique.html)
6. Ceux qui veulent / peuvent changer la donne ont un très gros problème de
Scalabilité / Montée en charge / Passage à l’échelle.
6
8. ALGORITHMIQUES
Prévisibilité
Transparence
Robustesse
Bostrom et Yudowsky, 2011, « The Ethics of Artificial Intelligence » : « Les algorithmes de plus en plus complexes de prise de décision sont à la
fois souhaitables et inévitables, tant qu'ils restent transparents à l'inspection, prévisibles pour ceux qu'ils gouvernent, et robustes contre toute
manipulation. »
No-Go Zones Algorithmiques
8
11. Réinventer le rêve d’Otlet
• Il était : « l’homme qui voulait classer le monde ».
– Nous avons des sociétés commerciales qui y sont parvenues ; mais sur les bases d’un capitalisme linguistique
dont la version triviale consiste à dire que la langue, que les mots ont une valeur marchande qui l’emporte sur
leur sens et a pour seule vocation de permettre la mise en concurrence de ressources et d’individus et à s’enrichir
de la spéculation qu’ils organisent et contrôlent.
• Il pensait que le document, que la documentation avait un rôle déterminant à jouer dans la
pacification du monde.
– Nous avons des sociétés qui dessinent le projet politique fasciste de nouveaux « sous-hommes » sans documents
(http://affordance.typepad.com/mon_weblog/2017/02/undocumented-men.html) face à de nouveaux « sur-
hommes » sur-documentés.
11
Source de l’image : http://globalnation.inquirer.net/119385/undocumented-california-youth-can-get-health-care-but-many-dont-know-it
13. On crée un index
in-dé-pen-dant.
• C’est quoi l’idée ? Recréer les conditions d’une concurrence algorithmique saine.
• Pas de concurrence car impossible (trop coûteux) pour « petits acteurs industriels » de maintenir un index complet et à
jour du web (sauf pour Google et Microsoft) => Monopole => TINA (There Is No Alternative) => En attendant Godot un
Google Killer qui ne viendra pas.
• Pour recréer les conditions d’une concurrence il faut, pour le web, un index indépendant, qui réponde à 3 conditions :
– être ouvert et accessible à tout le monde.
– à des conditions équitables (= Accès à l’index gratuit + accès payant à l’API sauf pour projets « non-profit »).
– l’accès doit être « complet » (on doit accéder au texte intégral, pas simplement à une « vue » du document). Il ne
doit pas y avoir de « limites » à l’extraction de documents.
• Lewandowski : « an ideology free-ranking algorithm is not possible and would also not be desirable. (…) We should
trive for diversity achieved through multiple ranking algorithms competing against one another. »
13
« Why we need an independant index of the web »
https://arxiv.org/abs/1405.2212 Mai 2014.
14. Pourquoi ce n’est pas si compliqué que ça ?
(et pourquoi c’est urgent aussi …)
• TECHNIQUEMENT
• Parce que toutes technos du web sont dans le domaine public depuis le 30 Avril 1993.
• Parce qu’en plus la plupart des algos et des technos d’IA portées par les GAFAM sont aussi en Open
Source.
• CÔTÉ CONTENUS
• Parce que plusieurs pièces du puzzle n’attendent que d’être rassemblées : Hathi Trust (copie
suffisamment significative de la base de donnée Google Books), fondation Internet Archive, Common
Crawl, Dépôt légal du Web, Gallica / BnF, INA, Archives Ouvertes, WorldCat … + ressources propres (des
archives et des bases de données de chaque titre de presse nationale, de PQR, de chaque bibliothèque,
de chaque université, de chaque entreprise, etc).
• SOCIOLOGIQUEMENT ET POLITIQUEMENT
• Parce que les gens sont (presque) prêts. Ils ont en tout cas conscience du problème.
• COMMERCIALEMENT
• Parce qu’une offre alternative existe (Qwant, CHATONS, Framasoft, Degooglisons, DuckDuckGo) et a
besoin de passer à l’échelle
• OUI MAIS ÇA VA COÛTER CHER …
• Oui. Mais on a l’argent. Et ça vaut le coup non ?
• Et puis …
14
16. Paul Otlet n’est pas vraiment arrivé à réaliser son rêve
mais il nous a laissé ça :
• « Les buts de la documentation consistent à
pouvoir offrir sur tout ordre de fait et de
connaissance, des informations documentées :
1. universelles quant à leur objet
2. sûres et vraies
3. complètes,
4. rapides,
5. à jour
6. faciles à obtenir
7. réunies d’avance et prêtes à être communiquées,
8. mises à la disposition du plus grand nombre ».
16
17. Si nous n’arrivons pas à réaliser le rêve d’Otlet
• Nous aurons des informations uniquement
1. universelles quant à leur objet
2. sûres et vraies
3. complètes,
4. rapides,
5. à jour
6. faciles à obtenir
7. réunies d’avance et prêtes à être communiquées,
8. mises à la disposition du plus grand nombre
• Nous aurons donc raté l’essentiel.
17
18. Et c’est déjà très problématique.
18• https://www.theguardian.com/commentisfree/2016/dec/11/google-frames-shapes-and-distorts-how-we-see-world
On est passé du problème du jaguar (comment choisir un sens plutôt qu’un
autre) au problème de l’holocauste (comment savoir ce qui a du sens).
Les algorithmes n’y arriveront pas seuls. Et il ne faut pas laisser ces enjeux aux
seules mains des GAFA.
Il nous faut un index indépendant du web. Envisagé comme un commun de la
connaissance à part entière.
19. Index des documents Index des profils Index indépendant ;-)
19Merci de votre attention
Moralité ?