Slideshare.net (beta)

 

All comments

Add a comment on Slide 1

If you have a SlideShare account, login to comment; else you can comment as a guest


Showing 1-50 of 0 (more)

Structures hybrides : l'apport des infrastructures libres aux moteurs de recherche sémantiques

From jdeyaref, 2 months ago

34 views  |  0 comments  |  0 favorites  |  0 downloads
 

Groups / Events

 

 
Embed
options

More Info

This slideshow is Public
Total Views: 34
on Slideshare: 34
from embeds: 0

Slideshow transcript

Slide 1: Structures hybrides : l'apport des infrastructures libres aux moteurs de recherche sémantiques www.lingway.com mai 08

Slide 2: 2

Slide 3: Contexte 2001 Création par une équipe de 12 spécialistes du Traitement automatique des langues (venant de Erli–Lexiquest) Choix de se baser sur des composants open-source dès le départ Afin de se concentrer sur notre cœur de compétence • NLP, analyse sémantique, extraction et catégorisation Tendance aujourd’hui se généralise • 80% des logiciels commerciaux contiendront des composants open source d’ici 2012 (Gartner) 3

Slide 4: Une centaine de clients 2 000 000 1 800 000 1 600 000 1 400 000 1 200 000 1 000 000 800 000 600 000 400 000 200 000 0 2005 2006 2007 4

Slide 5: > Quels moteurs pour quels usages Moteurs généralistes Indexent tout : Web, Intranet, Desktop De manière indifférenciée • Tous les documents et tous les utilisateurs sont traités de la même manière • Exemples : Google, Exalead. … Vista Moteurs spécialisés (vertical search) Ont une connaissance de la nature des documents • Outils de structuration / indexation dédiés Ont une connaissance des besoins de l’utilisateur • Adaptation du comportement rappel / précision Ont une connaissance du domaine d’application • Dictionnaires adaptés 5

Slide 6: > Le cœur de métier de Lingway NLP natural language processing Equipe mixte informaticiens / linguistes Tenir compte de la nature des documents Objectif : « Rendre le texte calculable » Transformer en une structure XML enrichie de nombreuses méta-données Tenir compte des besoins de l’utilisateur Les parties importantes dans un texte Les critères de recherche et de navigation adaptés Tenir compte du domaine d’application Des dictionnaires pour chaque langue et pour chaque métier 6

Slide 7: L’offre LINGWAY 1. Spécialisations métiers LINGWAY LINGWAY LINGWAY LINGWAY LINGWAY HR Suite Patent Suite e-commerce Suite Medical Suite Custom Search 2. Moteurs sémantiques Lingway Lingway KM Dictionnaires métiers: (Plateforme linguistique et sémantique) Médical, TIC… 3. Infrastructure Open Source Propriétaire 7

Slide 8: Open source dans notre domaine Logiciels généraux Logiciels documentaires ou moteurs de recherche Logiciels NLP Dictionnaires et réseaux sémantiques Corpus d’apprentissage 8

Slide 9: Logiciels généraux Linux Diverses distributions Tomcat (serveur d’applications) Apache Maven, ANT (outils de developpement) Apache CXF (génération WS Java) Apache Groovy (langage de scripts) Code Haus My-Sql My-SQL AB Open Office Sun FLEX Adobe Spring (framework de developpement) Interface 21 LINGWAY utilise largement ces outils Interactions régulières avec ces fondations et communautés Réactions variables ( CodeHaus beaucoup plus réactif que Apache) 9

Slide 10: Logiciels moteurs de recherche Lucene • Très largement répandu, diffusé par Apache • API et non produit complet • Utilisation à un niveau « rudimentaire » facile • Utilisation « évoluée » plus délicate • Initiatives complémentaires: SOLR, Nutch Il y en a d’autres • MG4J (Université de Milan) • Swish (C++,PHP) Lingway utilise Lucene • Avec nombreuses modifications (par surcharges) • Prépare des versions basées sur d’autres moteurs 10

Slide 11: Logiciels NLP Open source Nombreuses initiatives • Voir par exemple le site OpenNLP Outils divers • Analyseurs, taggers, gestion de corpus, etc. • Assez parcellaire et hétérogène • Pour spécialistes, monde plutôt universitaire Lingway n’utilise pas ces outils • C’est notre cœur de métier Cas particulier • Framework UIMA (issu d’IBM, distribué par Apache) 11

Slide 12: Interêt pour un (petit) éditeur On est trop petit pour tout faire • Se concentrer sur nos spécificités Permet l’indépendance • Offre autonome et complète • Mais reste compatible avec des solutions propriétaires Réduit les coûts et délais de développement 12

Slide 13: Interêt pour un (petit) éditeur Petite équipe dans une grande communauté • Permet le développement de l’expertise • Dialogue et partage avec des développeurs partout dans le monde Vitrine pour les experts et pour les sociétés • Exemple Doug Cutting chez Yahoo • Exemple article « Moving Lucene a step forward » de Cédric Champeau --> afflux de visiteurs sur le site Lingway 13

Slide 14: Interêt pour nos clients Réduction des risques • Infrastructure largement partagée Qualité de l’open source largement confirmée • Cf enquête Coverity de mai 2008 Non intrusif • Permet d’étendre facilement des infrastructures existantes sans tout refaire Complétude de la solution • Open Source + Lingway équivalents aux meilleures solutions propriétaires 14

Slide 15: Conclusion Une évolution majeure • Permet le développement rapide de très nombreux éditeurs logiciels spécialisés • Avec la garantie apportée par les grands éditeurs Il faut « jouer le jeu » • Accepter de contribuer aux communautés • Encourager la participation, afficher ses choix 15