SlideShare a Scribd company logo
1 of 22
Download to read offline
QWANT VS GOOGLE :
!
QUELLES DIFFÉRENCES
ENTRE LES DEUX
MOTEURS ?
Sylvain Peyronnet
SYLVAIN PEYRONNET
chief scientist @Qwant	
head @the machine in the middle	
head @ix-labs
@speyronnet
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
L’ALTERNATIVE ?

DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersen	
chief scientist des deux 	
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
L’ALTERNATIVE ?

DES ALTERNATIVES QUI N’EN SONT PAS…
Jan Pedersen	
chief scientist des deux 	
(et de altavista)
powered by depuis oct 2015
powered by de 2009 à oct 2015
Marissa Mayer
Même type d’algorithmes, même vision du search,
même vision éthique, même gestion des données
utilisateurs, et même : même personnel (le jeu des
chaises de la silicon valley)
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2007, opérationnel à
partir de 2010
Le mécanisme à son
paroxysme (algo+humain)
Maintenant fermé, devenu la
brique de crawl de IBM
Watson
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Crée en 2009, technos
d’inférence de Mathematica
Moteur de réponses
En frontal face au knowledge
graph désormais
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Vison éthique différente :
respect de la vie privée et des
données users
Pas de filter bubble
Mais pub viaYahoo!-Bing ^^	
et metamoteur principalement
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
• Y a-t-il une réalité au delà du marketing ?
Parlons en…
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Cela implique une
algorithmique différente…
Neutralité des résultats
L’ALTERNATIVE ?

UNE ALTERNATIVE C’EST QUELQUE CHOSE DE
DIFFÉRENT !
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Protection de la jeunesse
Qwant junior ce n’est pas un safe search, c’est un safe
index
QWANT

L’INSTANT CORPORATE
9
Le moteur de recherche qui
respecte la vie privée
© Copyright Qwant 2015, tous droits réservés
Les réalisations
de Qwant à ce jour
développement centrée sur l’optimisation de ses produits et de sa technologie.
2011/12 2013 2014 2015
Les promesses de Qwant
Sécurité, confidentialité et
respect de la vie privée
Année de création de
Qwant
Développement & Lancement
Première version
Nouveau lancement
Le nouveau Qwant
Optimisation
Produits & Technologies
Etapes
desproduits
Etapes
delasociété
Phases
dedéveloppement
Mai 2013
Lancement de la 1ère
version de Qwant en France
Avril 2015
Le nouveau Qwant est lancé en France
et en Allemagne
Janvier 2016
Lancement de Qwant Junior
dans les écoles
Mars 2014
Lancement de la 1ère
version de Qwant en
Allemagne
Juin 2014
Axel Springer Digital
Ventures investit
Résultats généraux et
réseaux sociaux intégrés
ensemble dans la
recherche
Ajout de nouveaux
produits
Création des carnets
permettant aux utilisateurs
de collecter et partager des
informations sur Qwant
Préparation pour
l’internationalisation
Priorité à l’infrastructure, la
sécurité et le crawling
Qualité des résultats optimisés et nouvelle
interface utilisateur
Structure responsive
optimisée pour les mobiles
Amélioration de la
partinence des algorithmes
et de la sémantique
QWANT

L’INSTANT CORPORATE
France : presque 16 M, DDG en France : moins de 10 M
RECHERCHE ET ALGOS

UNE VISION QUI A UN IMPACT TECHNIQUE
Vison éthique différente :
respectTOTALE de la vie
privée et des données users
Neutralité des résultats
Protection inconditionnelle de
la jeunesse
RECHERCHE ET ALGOS

PROTÉGER LA JEUNESSE
93% des garçons et
62% des filles voient du
des contenus
inappropriés pendant
l’adolescence, depuis
du porn « standard »
jusqu’à des contenus
extrêmes (violence,
animaux, etc.)
La première exposition est majoritairement
accidentelle (pour tous les types de contenus)
RECHERCHE ET ALGOS

PROTÉGER LA JEUNESSE
NDD in the
blacklist?
is there an adult
disclaimer?
TLD is .xxx?
Decision forest
C0 C1 C2 C3 C4 C5 C6 C7 C8 C9
Score computation
Score > thresold?
URL
ADULT
SAFE
YES
YES
YES
YES
Blacklist update
NO
99,7% de réussite
(meilleur score mondial)	
!
Faux négatif 2,1%	
Faux positif 4,5%	
!
Et ça suffit car l’index
étant « safe » on tue le
« PR » des sites adultes
survivants, et ils n’ont pas
de texte borderline
donc…
RECHERCHE ET ALGOS

FAIRE AUSSI BIEN, PLUS VITE ET MOINS CHER
Priorité des moteurs : trouver les pages de qualité

• Il faut travailler le dyptique popularité-pertinence. 	
• PourTOUS les moteurs, la popularité vient d’un modèle de
surfeur aléatoire. Qwant ne fait pas exception à la règle	
!
• Nous avons développé notre propre algorithme, nommé
Iceberg, qui classe les pages par importance, en utilisant les
propriétés structurelles du graphe du web. 	
• Cet algorithme est extrêmement rapide : un gain de
performance de 20% est atteint par notre prototype.
RECHERCHE ET ALGOS

PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages
de qualité

• Il faut attraper les tricheurs ;)	
• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas,
spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Proportiondubucket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2
Densité du terme le plus fréquent
Proportiondudataset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are
thousands of them
Rule 0/1: (10, lift 6.9)
V5 <= 0.04518272
V7 = fr
V10 > 30
V11 > 3.217044
V21 > 0.6142424
V27 > 0.3736264
-> class A [0.917]
Rule 0/2: (8, lift 6.8)
V7 in {asso.fr, com.fr, gouv.fr}
-> class A [0.900]
Rule 0/3: (8, lift 6.8)
V4 > 161
V4 <= 293
V5 > 0.03825137
V7 = com
V10 > 27
V11 > 3.36462
V11 <= 4.018884
V27 > 0.3108108
-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)
V4 > 161
V5 <= 0.03825137
V7 = com
V10 <= 35
-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)
V7 in {co.uk, co.za, gov, net, tv}
V27 <= 0.09433962
-> class D [0.800]
Rule 0/40: (3, lift 8.0)
V4 > 42
V4 <= 157
V5 > 0.04518272
V7 = fr
V10 > 27
V10 <= 30
V11 <= 3.547176
-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)
V4 <= 232
V7 = com
V10 <= 30
V11 > 5.681883
V21 > 0.6461539
V27 > 0.09433962
-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)
V4 <= 293
V5 > 0.07861369
V7 = com
V10 > 30
V10 <= 34
V11 > 4.261965
-> class E [0.842]
Rule 6/62: (4, lift 3.3)
V5 > 0.0659824
V7 = com
V10 <= 34
V11 <= 4.261965
V27 > 0.2943089
-> class E [0.833]
RECHERCHE ET ALGOS

PETIT OURSON DE CHINE
Priorité des moteurs : trouver les pages
de qualité

• Il faut attraper les tricheurs ;)	
• Pour cela on a crée un classifieur qui
prédit la qualité des pages (haut, bas,
spam) V5 : DENSITY OF MOST FREQUENT TERM
0.00
0.25
0.50
0.75
1.00
0.0 0.1 0.2
Proportiondubucket
Qualité Spam Basse Haute
0.00
0.05
0.10
0.15
0.0 0.1 0.2
Densité du terme le plus fréquent
Proportiondudataset
C5.0 WITH BOOSTING : RULES EXAMPLES
Warning there are
thousands of them
Rule 0/1: (10, lift 6.9)
V5 <= 0.04518272
V7 = fr
V10 > 30
V11 > 3.217044
V21 > 0.6142424
V27 > 0.3736264
-> class A [0.917]
Rule 0/2: (8, lift 6.8)
V7 in {asso.fr, com.fr, gouv.fr}
-> class A [0.900]
Rule 0/3: (8, lift 6.8)
V4 > 161
V4 <= 293
V5 > 0.03825137
V7 = com
V10 > 27
V11 > 3.36462
V11 <= 4.018884
V27 > 0.3108108
-> class A [0.900]
Rule 0/38: (8/1, lift 8.0)
V4 > 161
V5 <= 0.03825137
V7 = com
V10 <= 35
-> class D [0.800]
Rule 0/39: (8/1, lift 8.0)
V7 in {co.uk, co.za, gov, net, tv}
V27 <= 0.09433962
-> class D [0.800]
Rule 0/40: (3, lift 8.0)
V4 > 42
V4 <= 157
V5 > 0.04518272
V7 = fr
V10 > 27
V10 <= 30
V11 <= 3.547176
-> class D [0.800]
Rule 6/60: (4.4, lift 3.4)
V4 <= 232
V7 = com
V10 <= 30
V11 > 5.681883
V21 > 0.6461539
V27 > 0.09433962
-> class E [0.843]
Rule 6/61: (4.3, lift 3.4)
V4 <= 293
V5 > 0.07861369
V7 = com
V10 > 30
V10 <= 34
V11 > 4.261965
-> class E [0.842]
Rule 6/62: (4, lift 3.3)
V5 > 0.0659824
V7 = com
V10 <= 34
V11 <= 4.261965
V27 > 0.2943089
-> class E [0.833]
RECHERCHE ET ALGOS

LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité
• Il faut faire vite	
• mais une fois que vous choisissez un sujet qui vous intéresse,
Qwant vous propose toutes les sources là où d’autres moteurs
ne propose que la source principale selon l’algorithme.
• Il faut attraper les tricheurs ;)	
• Pour cela on a crée un
classifieur qui prédit la qualité
des pages (haut, bas, spam)
RECHERCHE ET ALGOS

LA NEUTRALITÉ ET LES NEWS
Les news : besoin de réactivité et de neutralité
!
• Une brique de crawl et récupération des données 	
• Un système de création de l’index des news qui s’appellent
Mozart.	
• Une chaîne de traitement algorithmique du nom de Tweezer,
concentre les principaux algos : 	
• extraction du contenu des pages,	
• analyse du texte et catégorisation	
• extraction des médias	
• clustering	
• repérage des entités (« ils font l’actu »)
Questions ?
Loutre priant les dieux du Search - circa 2016

More Related Content

Similar to Qwant sylvain peyronnet Webcampday 2016 Angers

Les 500 champions de la croissance (vidéo)
Les 500 champions de la croissance (vidéo)Les 500 champions de la croissance (vidéo)
Les 500 champions de la croissance (vidéo)IKO System
 
Une stratégie de contenu basée sur la data - Sylvain Peyronnet
Une stratégie de contenu basée sur la data - Sylvain PeyronnetUne stratégie de contenu basée sur la data - Sylvain Peyronnet
Une stratégie de contenu basée sur la data - Sylvain PeyronnetWeLoveSEO
 
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?Publicis Sapient Engineering
 
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016Peak Ace
 
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...AT Internet
 
Lean office chez Steelcase : saison 1 et saison 2
Lean office chez Steelcase : saison 1 et saison 2Lean office chez Steelcase : saison 1 et saison 2
Lean office chez Steelcase : saison 1 et saison 2Institut Lean France
 
Passez à l'Agile Analytics
Passez à l'Agile AnalyticsPassez à l'Agile Analytics
Passez à l'Agile AnalyticsAT Internet
 
Réussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileRéussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileOCTO Technology Suisse
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussicyrilpicat
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiOCTO Technology Suisse
 
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...Peak Ace
 
Webinar Jira Misc Workflow Extensions
Webinar Jira Misc Workflow ExtensionsWebinar Jira Misc Workflow Extensions
Webinar Jira Misc Workflow ExtensionsELEVEN H WORKERS
 
TunisUserGroup - Ecosysteme salesforce.pptx
TunisUserGroup -  Ecosysteme salesforce.pptxTunisUserGroup -  Ecosysteme salesforce.pptx
TunisUserGroup - Ecosysteme salesforce.pptxThierry TROUIN ☁
 
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Microsoft Décideurs IT
 
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Microsoft Technet France
 
Mercredi des Web Analytics - Lille - 14 octobre 2009
Mercredi des Web Analytics - Lille - 14 octobre 2009Mercredi des Web Analytics - Lille - 14 octobre 2009
Mercredi des Web Analytics - Lille - 14 octobre 2009Nicolas Malo
 
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis RylkoiProspect France
 
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020SEO CAMP
 
Meetup ividata comment rendre une organisation agile avec sa fe v1.0
Meetup ividata comment rendre une organisation agile avec sa fe v1.0 Meetup ividata comment rendre une organisation agile avec sa fe v1.0
Meetup ividata comment rendre une organisation agile avec sa fe v1.0 Pierre Medina
 

Similar to Qwant sylvain peyronnet Webcampday 2016 Angers (20)

Les 500 champions de la croissance (vidéo)
Les 500 champions de la croissance (vidéo)Les 500 champions de la croissance (vidéo)
Les 500 champions de la croissance (vidéo)
 
Une stratégie de contenu basée sur la data - Sylvain Peyronnet
Une stratégie de contenu basée sur la data - Sylvain PeyronnetUne stratégie de contenu basée sur la data - Sylvain Peyronnet
Une stratégie de contenu basée sur la data - Sylvain Peyronnet
 
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
Scrum Day 2014 - Êtes-vous prêts pour le modèle Spotify ?
 
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016
Webconf SF - 5-07-2016 - SEO/SEA - Update sur les news S1 2016
 
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...
[E-commerce Paris 2014] La donnée en action : exploiter efficacement ses donn...
 
Lean office chez Steelcase : saison 1 et saison 2
Lean office chez Steelcase : saison 1 et saison 2Lean office chez Steelcase : saison 1 et saison 2
Lean office chez Steelcase : saison 1 et saison 2
 
Passez à l'Agile Analytics
Passez à l'Agile AnalyticsPassez à l'Agile Analytics
Passez à l'Agile Analytics
 
Réussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobileRéussissez le développement de votre prochaine application web ou mobile
Réussissez le développement de votre prochaine application web ou mobile
 
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussiAfterwork OCTO Delivery - L'ADN d'un développement produit réussi
Afterwork OCTO Delivery - L'ADN d'un développement produit réussi
 
L'ADN d'un développement produit réussi
L'ADN d'un développement produit réussiL'ADN d'un développement produit réussi
L'ADN d'un développement produit réussi
 
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...
SMX Paris 2018 - Comment optimiser votre visibilité en développant des synerg...
 
Webinar Jira Misc Workflow Extensions
Webinar Jira Misc Workflow ExtensionsWebinar Jira Misc Workflow Extensions
Webinar Jira Misc Workflow Extensions
 
TunisUserGroup - Ecosysteme salesforce.pptx
TunisUserGroup -  Ecosysteme salesforce.pptxTunisUserGroup -  Ecosysteme salesforce.pptx
TunisUserGroup - Ecosysteme salesforce.pptx
 
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
 
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
Automatisez rapidement vos opérations IT, on-premise ou dans le Cloud avec Az...
 
Mercredi des Web Analytics - Lille - 14 octobre 2009
Mercredi des Web Analytics - Lille - 14 octobre 2009Mercredi des Web Analytics - Lille - 14 octobre 2009
Mercredi des Web Analytics - Lille - 14 octobre 2009
 
La parallélisation au service de l'optimisation
La parallélisation au service de l'optimisationLa parallélisation au service de l'optimisation
La parallélisation au service de l'optimisation
 
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko
#SEOCamp - People Also Ask : Comment les exploiter au mieux ? par Alexis Rylko
 
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
Core web vitals pour unifier UX et SEO - Stephane Rios - SEO Camp'us paris 2020
 
Meetup ividata comment rendre une organisation agile avec sa fe v1.0
Meetup ividata comment rendre une organisation agile avec sa fe v1.0 Meetup ividata comment rendre une organisation agile avec sa fe v1.0
Meetup ividata comment rendre une organisation agile avec sa fe v1.0
 

More from WebCampDay

Google Actualités : Le grand déballage - Virginie Clève
Google Actualités : Le grand déballage - Virginie ClèveGoogle Actualités : Le grand déballage - Virginie Clève
Google Actualités : Le grand déballage - Virginie ClèveWebCampDay
 
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...WebCampDay
 
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...WebCampDay
 
Intervention Fabien Poulard - Dictanova
Intervention Fabien Poulard - Dictanova Intervention Fabien Poulard - Dictanova
Intervention Fabien Poulard - Dictanova WebCampDay
 
Nabil Thalmann - UX design et expérience utilisateur
Nabil Thalmann - UX design et expérience utilisateurNabil Thalmann - UX design et expérience utilisateur
Nabil Thalmann - UX design et expérience utilisateurWebCampDay
 
Thierry Bedoucha - les moteurs de recommandation
Thierry Bedoucha - les moteurs de recommandationThierry Bedoucha - les moteurs de recommandation
Thierry Bedoucha - les moteurs de recommandationWebCampDay
 
G. Le Floch - avis en ligne
G. Le Floch - avis en ligne G. Le Floch - avis en ligne
G. Le Floch - avis en ligne WebCampDay
 
Camille Afchain - la relation numérique client à l'heure du smartphone
Camille Afchain - la relation numérique client à l'heure du smartphoneCamille Afchain - la relation numérique client à l'heure du smartphone
Camille Afchain - la relation numérique client à l'heure du smartphoneWebCampDay
 
Karine Lazimi - Exploiter les opportunités de twitter
Karine Lazimi - Exploiter les opportunités de twitterKarine Lazimi - Exploiter les opportunités de twitter
Karine Lazimi - Exploiter les opportunités de twitterWebCampDay
 
Faire enfin des ventes grâce à la e-réputation - Matthieu Dixte
Faire enfin des ventes grâce à la e-réputation - Matthieu DixteFaire enfin des ventes grâce à la e-réputation - Matthieu Dixte
Faire enfin des ventes grâce à la e-réputation - Matthieu DixteWebCampDay
 
Faire enfin des ventes grâce aux réseaux sociaux - Patrice Hillaire
Faire enfin des ventes grâce aux réseaux sociaux - Patrice HillaireFaire enfin des ventes grâce aux réseaux sociaux - Patrice Hillaire
Faire enfin des ventes grâce aux réseaux sociaux - Patrice HillaireWebCampDay
 
Commerce connecté, web-in-store : comment digitaliser le point de vente ?
Commerce connecté, web-in-store : comment digitaliser le point de vente ?Commerce connecté, web-in-store : comment digitaliser le point de vente ?
Commerce connecté, web-in-store : comment digitaliser le point de vente ?WebCampDay
 

More from WebCampDay (12)

Google Actualités : Le grand déballage - Virginie Clève
Google Actualités : Le grand déballage - Virginie ClèveGoogle Actualités : Le grand déballage - Virginie Clève
Google Actualités : Le grand déballage - Virginie Clève
 
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...
45 minutes pour comprendre Google Tag Manager… et aller plus loin ! - Ronan C...
 
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...
L’expérience client, ce sont les consommateurs qui en parlent le mieux - Fabi...
 
Intervention Fabien Poulard - Dictanova
Intervention Fabien Poulard - Dictanova Intervention Fabien Poulard - Dictanova
Intervention Fabien Poulard - Dictanova
 
Nabil Thalmann - UX design et expérience utilisateur
Nabil Thalmann - UX design et expérience utilisateurNabil Thalmann - UX design et expérience utilisateur
Nabil Thalmann - UX design et expérience utilisateur
 
Thierry Bedoucha - les moteurs de recommandation
Thierry Bedoucha - les moteurs de recommandationThierry Bedoucha - les moteurs de recommandation
Thierry Bedoucha - les moteurs de recommandation
 
G. Le Floch - avis en ligne
G. Le Floch - avis en ligne G. Le Floch - avis en ligne
G. Le Floch - avis en ligne
 
Camille Afchain - la relation numérique client à l'heure du smartphone
Camille Afchain - la relation numérique client à l'heure du smartphoneCamille Afchain - la relation numérique client à l'heure du smartphone
Camille Afchain - la relation numérique client à l'heure du smartphone
 
Karine Lazimi - Exploiter les opportunités de twitter
Karine Lazimi - Exploiter les opportunités de twitterKarine Lazimi - Exploiter les opportunités de twitter
Karine Lazimi - Exploiter les opportunités de twitter
 
Faire enfin des ventes grâce à la e-réputation - Matthieu Dixte
Faire enfin des ventes grâce à la e-réputation - Matthieu DixteFaire enfin des ventes grâce à la e-réputation - Matthieu Dixte
Faire enfin des ventes grâce à la e-réputation - Matthieu Dixte
 
Faire enfin des ventes grâce aux réseaux sociaux - Patrice Hillaire
Faire enfin des ventes grâce aux réseaux sociaux - Patrice HillaireFaire enfin des ventes grâce aux réseaux sociaux - Patrice Hillaire
Faire enfin des ventes grâce aux réseaux sociaux - Patrice Hillaire
 
Commerce connecté, web-in-store : comment digitaliser le point de vente ?
Commerce connecté, web-in-store : comment digitaliser le point de vente ?Commerce connecté, web-in-store : comment digitaliser le point de vente ?
Commerce connecté, web-in-store : comment digitaliser le point de vente ?
 

Qwant sylvain peyronnet Webcampday 2016 Angers

  • 1. QWANT VS GOOGLE : ! QUELLES DIFFÉRENCES ENTRE LES DEUX MOTEURS ? Sylvain Peyronnet
  • 2. SYLVAIN PEYRONNET chief scientist @Qwant head @the machine in the middle head @ix-labs @speyronnet
  • 3. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! • Y a-t-il une réalité au delà du marketing ?
  • 4. L’ALTERNATIVE ?
 DES ALTERNATIVES QUI N’EN SONT PAS… Jan Pedersen chief scientist des deux (et de altavista) powered by depuis oct 2015 powered by de 2009 à oct 2015 Marissa Mayer
  • 5. L’ALTERNATIVE ?
 DES ALTERNATIVES QUI N’EN SONT PAS… Jan Pedersen chief scientist des deux (et de altavista) powered by depuis oct 2015 powered by de 2009 à oct 2015 Marissa Mayer Même type d’algorithmes, même vision du search, même vision éthique, même gestion des données utilisateurs, et même : même personnel (le jeu des chaises de la silicon valley)
  • 6. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! • Y a-t-il une réalité au delà du marketing ? Crée en 2007, opérationnel à partir de 2010 Le mécanisme à son paroxysme (algo+humain) Maintenant fermé, devenu la brique de crawl de IBM Watson
  • 7. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! • Y a-t-il une réalité au delà du marketing ? Crée en 2009, technos d’inférence de Mathematica Moteur de réponses En frontal face au knowledge graph désormais
  • 8. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! • Y a-t-il une réalité au delà du marketing ? Vison éthique différente : respect de la vie privée et des données users Pas de filter bubble Mais pub viaYahoo!-Bing ^^ et metamoteur principalement
  • 9. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! • Y a-t-il une réalité au delà du marketing ? Parlons en…
  • 10. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! Vison éthique différente : respectTOTALE de la vie privée et des données users Cela implique une algorithmique différente… Neutralité des résultats
  • 11. L’ALTERNATIVE ?
 UNE ALTERNATIVE C’EST QUELQUE CHOSE DE DIFFÉRENT ! Vison éthique différente : respectTOTALE de la vie privée et des données users Protection de la jeunesse Qwant junior ce n’est pas un safe search, c’est un safe index
  • 12. QWANT
 L’INSTANT CORPORATE 9 Le moteur de recherche qui respecte la vie privée © Copyright Qwant 2015, tous droits réservés Les réalisations de Qwant à ce jour développement centrée sur l’optimisation de ses produits et de sa technologie. 2011/12 2013 2014 2015 Les promesses de Qwant Sécurité, confidentialité et respect de la vie privée Année de création de Qwant Développement & Lancement Première version Nouveau lancement Le nouveau Qwant Optimisation Produits & Technologies Etapes desproduits Etapes delasociété Phases dedéveloppement Mai 2013 Lancement de la 1ère version de Qwant en France Avril 2015 Le nouveau Qwant est lancé en France et en Allemagne Janvier 2016 Lancement de Qwant Junior dans les écoles Mars 2014 Lancement de la 1ère version de Qwant en Allemagne Juin 2014 Axel Springer Digital Ventures investit Résultats généraux et réseaux sociaux intégrés ensemble dans la recherche Ajout de nouveaux produits Création des carnets permettant aux utilisateurs de collecter et partager des informations sur Qwant Préparation pour l’internationalisation Priorité à l’infrastructure, la sécurité et le crawling Qualité des résultats optimisés et nouvelle interface utilisateur Structure responsive optimisée pour les mobiles Amélioration de la partinence des algorithmes et de la sémantique
  • 13. QWANT
 L’INSTANT CORPORATE France : presque 16 M, DDG en France : moins de 10 M
  • 14. RECHERCHE ET ALGOS
 UNE VISION QUI A UN IMPACT TECHNIQUE Vison éthique différente : respectTOTALE de la vie privée et des données users Neutralité des résultats Protection inconditionnelle de la jeunesse
  • 15. RECHERCHE ET ALGOS
 PROTÉGER LA JEUNESSE 93% des garçons et 62% des filles voient du des contenus inappropriés pendant l’adolescence, depuis du porn « standard » jusqu’à des contenus extrêmes (violence, animaux, etc.) La première exposition est majoritairement accidentelle (pour tous les types de contenus)
  • 16. RECHERCHE ET ALGOS
 PROTÉGER LA JEUNESSE NDD in the blacklist? is there an adult disclaimer? TLD is .xxx? Decision forest C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 Score computation Score > thresold? URL ADULT SAFE YES YES YES YES Blacklist update NO 99,7% de réussite (meilleur score mondial) ! Faux négatif 2,1% Faux positif 4,5% ! Et ça suffit car l’index étant « safe » on tue le « PR » des sites adultes survivants, et ils n’ont pas de texte borderline donc…
  • 17. RECHERCHE ET ALGOS
 FAIRE AUSSI BIEN, PLUS VITE ET MOINS CHER Priorité des moteurs : trouver les pages de qualité
 • Il faut travailler le dyptique popularité-pertinence. • PourTOUS les moteurs, la popularité vient d’un modèle de surfeur aléatoire. Qwant ne fait pas exception à la règle ! • Nous avons développé notre propre algorithme, nommé Iceberg, qui classe les pages par importance, en utilisant les propriétés structurelles du graphe du web. • Cet algorithme est extrêmement rapide : un gain de performance de 20% est atteint par notre prototype.
  • 18. RECHERCHE ET ALGOS
 PETIT OURSON DE CHINE Priorité des moteurs : trouver les pages de qualité
 • Il faut attraper les tricheurs ;) • Pour cela on a crée un classifieur qui prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM 0.00 0.25 0.50 0.75 1.00 0.0 0.1 0.2 Proportiondubucket Qualité Spam Basse Haute 0.00 0.05 0.10 0.15 0.0 0.1 0.2 Densité du terme le plus fréquent Proportiondudataset C5.0 WITH BOOSTING : RULES EXAMPLES Warning there are thousands of them Rule 0/1: (10, lift 6.9) V5 <= 0.04518272 V7 = fr V10 > 30 V11 > 3.217044 V21 > 0.6142424 V27 > 0.3736264 -> class A [0.917] Rule 0/2: (8, lift 6.8) V7 in {asso.fr, com.fr, gouv.fr} -> class A [0.900] Rule 0/3: (8, lift 6.8) V4 > 161 V4 <= 293 V5 > 0.03825137 V7 = com V10 > 27 V11 > 3.36462 V11 <= 4.018884 V27 > 0.3108108 -> class A [0.900] Rule 0/38: (8/1, lift 8.0) V4 > 161 V5 <= 0.03825137 V7 = com V10 <= 35 -> class D [0.800] Rule 0/39: (8/1, lift 8.0) V7 in {co.uk, co.za, gov, net, tv} V27 <= 0.09433962 -> class D [0.800] Rule 0/40: (3, lift 8.0) V4 > 42 V4 <= 157 V5 > 0.04518272 V7 = fr V10 > 27 V10 <= 30 V11 <= 3.547176 -> class D [0.800] Rule 6/60: (4.4, lift 3.4) V4 <= 232 V7 = com V10 <= 30 V11 > 5.681883 V21 > 0.6461539 V27 > 0.09433962 -> class E [0.843] Rule 6/61: (4.3, lift 3.4) V4 <= 293 V5 > 0.07861369 V7 = com V10 > 30 V10 <= 34 V11 > 4.261965 -> class E [0.842] Rule 6/62: (4, lift 3.3) V5 > 0.0659824 V7 = com V10 <= 34 V11 <= 4.261965 V27 > 0.2943089 -> class E [0.833]
  • 19. RECHERCHE ET ALGOS
 PETIT OURSON DE CHINE Priorité des moteurs : trouver les pages de qualité
 • Il faut attraper les tricheurs ;) • Pour cela on a crée un classifieur qui prédit la qualité des pages (haut, bas, spam) V5 : DENSITY OF MOST FREQUENT TERM 0.00 0.25 0.50 0.75 1.00 0.0 0.1 0.2 Proportiondubucket Qualité Spam Basse Haute 0.00 0.05 0.10 0.15 0.0 0.1 0.2 Densité du terme le plus fréquent Proportiondudataset C5.0 WITH BOOSTING : RULES EXAMPLES Warning there are thousands of them Rule 0/1: (10, lift 6.9) V5 <= 0.04518272 V7 = fr V10 > 30 V11 > 3.217044 V21 > 0.6142424 V27 > 0.3736264 -> class A [0.917] Rule 0/2: (8, lift 6.8) V7 in {asso.fr, com.fr, gouv.fr} -> class A [0.900] Rule 0/3: (8, lift 6.8) V4 > 161 V4 <= 293 V5 > 0.03825137 V7 = com V10 > 27 V11 > 3.36462 V11 <= 4.018884 V27 > 0.3108108 -> class A [0.900] Rule 0/38: (8/1, lift 8.0) V4 > 161 V5 <= 0.03825137 V7 = com V10 <= 35 -> class D [0.800] Rule 0/39: (8/1, lift 8.0) V7 in {co.uk, co.za, gov, net, tv} V27 <= 0.09433962 -> class D [0.800] Rule 0/40: (3, lift 8.0) V4 > 42 V4 <= 157 V5 > 0.04518272 V7 = fr V10 > 27 V10 <= 30 V11 <= 3.547176 -> class D [0.800] Rule 6/60: (4.4, lift 3.4) V4 <= 232 V7 = com V10 <= 30 V11 > 5.681883 V21 > 0.6461539 V27 > 0.09433962 -> class E [0.843] Rule 6/61: (4.3, lift 3.4) V4 <= 293 V5 > 0.07861369 V7 = com V10 > 30 V10 <= 34 V11 > 4.261965 -> class E [0.842] Rule 6/62: (4, lift 3.3) V5 > 0.0659824 V7 = com V10 <= 34 V11 <= 4.261965 V27 > 0.2943089 -> class E [0.833]
  • 20. RECHERCHE ET ALGOS
 LA NEUTRALITÉ ET LES NEWS Les news : besoin de réactivité et de neutralité • Il faut faire vite • mais une fois que vous choisissez un sujet qui vous intéresse, Qwant vous propose toutes les sources là où d’autres moteurs ne propose que la source principale selon l’algorithme. • Il faut attraper les tricheurs ;) • Pour cela on a crée un classifieur qui prédit la qualité des pages (haut, bas, spam)
  • 21. RECHERCHE ET ALGOS
 LA NEUTRALITÉ ET LES NEWS Les news : besoin de réactivité et de neutralité ! • Une brique de crawl et récupération des données • Un système de création de l’index des news qui s’appellent Mozart. • Une chaîne de traitement algorithmique du nom de Tweezer, concentre les principaux algos : • extraction du contenu des pages, • analyse du texte et catégorisation • extraction des médias • clustering • repérage des entités (« ils font l’actu »)
  • 22. Questions ? Loutre priant les dieux du Search - circa 2016