Support de presentation utilisé lors du WebCampDay 2016 à Angers, un événement Webmarketing dans l'Ouest
http://www.webcampday.com
Merci à tous de votre participation
4. L’ALTERNATIVE ?
DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersen
chief scientist des deux
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
5. L’ALTERNATIVE ?
DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersen
chief scientist des deux
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
Même type d’algorithmes, même vision du search,
même vision éthique, même gestion des données
utilisateurs, et même : même personnel (le jeu des
chaises de la silicon valley)
6. L’ALTERNATIVE ?
UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2007, opérationnel à
partir de 2010
Le mécanisme à son
paroxysme (algo+humain)
Maintenant fermé, devenu la
brique de crawl de IBM
Watson
7. L’ALTERNATIVE ?
UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2009, technos
d’inférence de Mathematica
Moteur de réponses
En frontal face au knowledge
graph désormais
8. L’ALTERNATIVE ?
UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Vison éthique différente :
respect de la vie privée et des
données users
Pas de filter bubble
Mais pub viaYahoo!-Bing ^^
et metamoteur principalement
10. L’ALTERNATIVE ?
UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Cela implique une
algorithmique différente…
Neutralité des résultats
11. L’ALTERNATIVE ?
UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Protection de la jeunesse
Qwant junior ce n’est pas un safe search, c’est un safe
index
14. RECHERCHE ET ALGOS
UNE VISION QUI A UN IMPACT TECHNIQUE
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Neutralité des résultats
Protection inconditionnelle de
la jeunesse
15. RECHERCHE ET ALGOS
PROTÉGER LA JEUNESSE
93% des garçons et
62% des filles voient du
des contenus
inappropriés pendant
l’adolescence, depuis
du porn « standard »
jusqu’à des contenus
extrêmes (violence,
animaux, etc.)
La première exposition est majoritairement
accidentelle (pour tous les types de contenus)
16. RECHERCHE ET ALGOS
PROTÉGER LA JEUNESSE
NDD in the
blacklist?
is there an adult
disclaimer?
TLD is .xxx?
Decision forest
C0 C1 C2 C3 C4 C5 C6 C7 C8 C9
Score computation
Score > thresold?
URL
ADULT
SAFE
YES
YES
YES
YES
Blacklist update
NO
99,7% de réussite
(meilleur score mondial)
!
Faux négatif 2,1%
Faux positif 4,5%
!
Et ça suffit car l’index
étant « safe » on tue le
« PR » des sites adultes
survivants, et ils n’ont pas
de texte borderline
donc…
17. RECHERCHE ET ALGOS
FAIRE AUSSI BIEN, PLUS VITE ET MOINS CHER
Priorité des moteurs : trouver les pages de qualité
• Il faut travailler le dyptique popularité-pertinence.
• PourTOUS les moteurs, la popularité vient d’un modèle de
surfeur aléatoire. Qwant ne fait pas exception à la règle
!
• Nous avons développé notre propre algorithme, nommé
Iceberg, qui classe les pages par importance, en utilisant les
propriétés structurelles du graphe du web.
• Cet algorithme est extrêmement rapide : un gain de
performance de 20% est atteint par notre prototype.
18. RECHERCHE ET ALGOS
PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages
de qualité
• Il faut attraper les tricheurs ;)
• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas,
spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Proportiondubucket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2
Densité du terme le plus fréquent
Proportiondudataset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are
thousands of them
Rule 0/1: (10, lift 6.9)
V5 <= 0.04518272
V7 = fr
V10 > 30
V11 > 3.217044
V21 > 0.6142424
V27 > 0.3736264
-> class A [0.917]
Rule 0/2: (8, lift 6.8)
V7 in {asso.fr, com.fr, gouv.fr}
-> class A [0.900]
Rule 0/3: (8, lift 6.8)
V4 > 161
V4 <= 293
V5 > 0.03825137
V7 = com
V10 > 27
V11 > 3.36462
V11 <= 4.018884
V27 > 0.3108108
-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)
V4 > 161
V5 <= 0.03825137
V7 = com
V10 <= 35
-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)
V7 in {co.uk, co.za, gov, net, tv}
V27 <= 0.09433962
-> class D [0.800]
Rule 0/40: (3, lift 8.0)
V4 > 42
V4 <= 157
V5 > 0.04518272
V7 = fr
V10 > 27
V10 <= 30
V11 <= 3.547176
-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)
V4 <= 232
V7 = com
V10 <= 30
V11 > 5.681883
V21 > 0.6461539
V27 > 0.09433962
-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)
V4 <= 293
V5 > 0.07861369
V7 = com
V10 > 30
V10 <= 34
V11 > 4.261965
-> class E [0.842]
Rule 6/62: (4, lift 3.3)
V5 > 0.0659824
V7 = com
V10 <= 34
V11 <= 4.261965
V27 > 0.2943089
-> class E [0.833]
19. RECHERCHE ET ALGOS
PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages
de qualité
• Il faut attraper les tricheurs ;)
• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas,
spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Proportiondubucket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2
Densité du terme le plus fréquent
Proportiondudataset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are
thousands of them
Rule 0/1: (10, lift 6.9)
V5 <= 0.04518272
V7 = fr
V10 > 30
V11 > 3.217044
V21 > 0.6142424
V27 > 0.3736264
-> class A [0.917]
Rule 0/2: (8, lift 6.8)
V7 in {asso.fr, com.fr, gouv.fr}
-> class A [0.900]
Rule 0/3: (8, lift 6.8)
V4 > 161
V4 <= 293
V5 > 0.03825137
V7 = com
V10 > 27
V11 > 3.36462
V11 <= 4.018884
V27 > 0.3108108
-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)
V4 > 161
V5 <= 0.03825137
V7 = com
V10 <= 35
-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)
V7 in {co.uk, co.za, gov, net, tv}
V27 <= 0.09433962
-> class D [0.800]
Rule 0/40: (3, lift 8.0)
V4 > 42
V4 <= 157
V5 > 0.04518272
V7 = fr
V10 > 27
V10 <= 30
V11 <= 3.547176
-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)
V4 <= 232
V7 = com
V10 <= 30
V11 > 5.681883
V21 > 0.6461539
V27 > 0.09433962
-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)
V4 <= 293
V5 > 0.07861369
V7 = com
V10 > 30
V10 <= 34
V11 > 4.261965
-> class E [0.842]
Rule 6/62: (4, lift 3.3)
V5 > 0.0659824
V7 = com
V10 <= 34
V11 <= 4.261965
V27 > 0.2943089
-> class E [0.833]
20. RECHERCHE ET ALGOS
LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité
• Il faut faire vite
• mais une fois que vous choisissez un sujet qui vous intéresse,
Qwant vous propose toutes les sources là où d’autres moteurs
ne propose que la source principale selon l’algorithme.
• Il faut attraper les tricheurs ;)
• Pour cela on a crée un
classifieur qui prédit la qualité
des pages (haut, bas, spam)
21. RECHERCHE ET ALGOS
LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité
!
• Une brique de crawl et récupération des données
• Un système de création de l’index des news qui s’appellent
Mozart.
• Une chaîne de traitement algorithmique du nom de Tweezer,
concentre les principaux algos :
• extraction du contenu des pages,
• analyse du texte et catégorisation
• extraction des médias
• clustering
• repérage des entités (« ils font l’actu »)