Retour d'expérience sur Juricaf

1,182 views
1,104 views

Published on

Intervention à Lyon le 27/11/2012 lors de la journée ADBS "Le moteur de recherche interne, élément clé de l'accès à l'information dans l'entreprise".

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,182
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Retour d'expérience sur Juricaf

  1. 1. « Le moteur de recherche interne, élément clé de l’accès à l’information dans l’entreprise » Retour d’expérience sur JURICAFADBS - Lyon, 27 novembre 2012
  2. 2. Plan#1 Contexte d’utilisation #2 Pourquoi choisir un outil Open source ?#3 Le moteur de recherche : Apache Solr #4 La base de données : CouchDb#5 Résultats obtenus
  3. 3. #1 Le contexteTous droits réservés/Renaud 21/ http://www.flickr.com/photos/renaud21/4154622680/
  4. 4. Contexte d’utilisation Juricaf : une base de données de décisions de justice 800 000 décisions publiées Des contraintes importantes :  Financières : faible budget  Temporelles : délai de réalisation court  En volumétrie : 650 000 décisions initialement à intégrer  Techniques : des formats d’importation de décision hétérogènes (du XML … jusqu’au fichier texte à numériser)  Juridiques : respect des données personnelles
  5. 5. http://www.juricaf.org/
  6. 6. Un projet reconnuDeux prix :  prix I-Expo 2012, catégorie « Open Data »  Site Internet de l’année de l’International association of Law Librairies (IALL)Fréquentation : 7 000 visiteurs uniques/jour
  7. 7. #2 Le choix d’un outil Open SourceTous droits réservés/Herberger Site http://www.flickr.com/photos/hebergersite/3552916541/
  8. 8. Le choix d’un outil Open SourceUn premier échec en 2004 avec une solution Windows 2000 Server/Oracle/AspDes solutions commerciales trop chères ou inadaptéesDe nombreux exemples de projets réussis en Open source
  9. 9. Réalisation du projetDeux documentalistes juridiques … bien connus de l’ADBSDeux informaticiens spécialistes dans la manipulation de données publiquesUn laboratoire de recherche partenaire (Université Paris I)Délai : 7 mois
  10. 10. #3 Le moteur de recherche Apache Solr Tous droits réservés/che1899 http://www.flickr.com/photos/10403914@N05/4705075675//
  11. 11. Le moteur de recherche Fonctionnalités :  Recherche en texte intégral  Système dédié à un fort trafic  Système de facettes  Indexation performante  Utilisation de standards ouverts  Gestion du cache performante
  12. 12. La recherche en texte intégralRecherche sur toutes les formes d’un terme : pluriel/singulier, formes conjuguées, préfixes, suffixes  Ex: terme « réutilisé » : recherche sur réutilisation(s), réutilisant, réutilisé(e)(s), réutilisati on(s), réutilisable(s) -> Lemmatisation puis flexion des termes
  13. 13. La recherche en texte intégral Gestion des opérateurs booléens (ET/OU pondéré/SAUF) Gestion de la pertinence en fonction de la proximité (standard de recherche en sciences juridiques) Gestion des mots vides (le, la, les, du …) Gestion de mots interdits Gestion des synonymes Surlignage des termes de la recherche
  14. 14. RobustesseSolr est dédié aux bases de données à fort traficUtilisation notamment dans le commerce en ligne et sites institutionnelsEx : Apple, Disney, Nuxeo, Amazon
  15. 15. Système des facettes Chaque métadonnée est : • Exposée • Triée selon un ordre défini (pertinence, chronologique ou alphabétique) Il est possible ainsi de : • Peut restreindre la recherche • Combiner des tris entre métadonnées
  16. 16. Standards ouvertsLogiciel libre et importante communauté de développeursUtilisation Linux ou WindowsDocuments supportés : XML, JSON, CSV et extraction des données de Word, de PDF…Base de données supportées : Mysql, Oracle, CouchDb
  17. 17. IndexationIndexation personnalisable :  Champ indexé  Champ pour le tri ou la recherche  Champ pouvant être surligné dans les résultats  Champ utilisé comme clé  Pondération du champ  Utilisé pour une facetteIndexation en temps réel en cas d’ajout, de modification ou de suppression de documents
  18. 18. Gestion du cacheDeux caches associés pour conserver une copie des pages interrogées :  Pour les facettes  Pour les résultats de la recherche
  19. 19. #4 La base de données CouchDB Tous droits réservés/Renaud 21/ http://www.flickr.com/photos/renaud21/4154622680/
  20. 20. La base de données Couchdb : un systèmede base de données NoSQL
  21. 21. Pourquoi NoSql ? Le besoin d’avoir un base de données axée sur la performance  Conception de façon à évoluer en fonction du nombre de documents : scalabilité horizontale  Orientation sur le document : une clé d’accès au document = une valeur au format XML ou JSON  Utilisation par Facebook, Twitter, LinkedIn
  22. 22. Le principe du NoSql« Le monde réel des données est gérécomme le monde réel des documents » Source : http://guide.couchdb.org/draft/why.html
  23. 23. Exemple de document dans CouchDbUne décision de justice = Une donnée Version Champs/Valeurs
  24. 24. Exemple de document dans CouchDb Version JSON
  25. 25. Comparaison SQL/NoSQL Un grand nombre Une base de de tables données unique Aucune Un grand nombrede champs, chacun configuration desdoit être configuré champs Pas de requêtes et Des requêtes et des d’index à créer index à créer (gestion par Solr)
  26. 26. Pourquoi CouchDB?Compatible avec Apache SolrSimplicité d’utilisation “Apache CouchDB has started. Time to relax.”
  27. 27. Fonctionnalités CouchDB Système de versions Réplication automatique de la base de données Interrogation de la base de données par l’URL Développements informatiques facilités
  28. 28. #5 Résultats obtenusTous droits réservés/frans16611 http://www.flickr.com/photos/frans16611/6139595092/
  29. 29. Résultats obtenus Fiabilité : test de montée en charge Avec l’outil httperf : montée en charge associé à 30 000 URL différentes Double test :  trafic soutenu (10 requêtes par secondes)  trafic intense (100 requêtes par seconde) + désactivation du cache et serveur de moyenne gamme. Temps de réponse Trafic soutenu Trafic intense Trafic normal 40 secondes 20 secondes 200 millisecondes Taux d’échec Trafic intense ou soutenu Trafic normal 30 % d’échec à cause d’Apache 100% 1% d’échec à cause de Solr
  30. 30. Test de rapiditéRequête sur 800 000 documents :• Recherche en texte intégral : 0.013 secondes• Recherche sur données indexées : 0.006 secondesEx : sur application IPhone : chargement en temps réel des résultats
  31. 31. SWOT Solr/CouchDb FORCES FAIBLESSES Utilisation en cas de budget restreint Modèle de base de données peu répanduFacilité de mise à jour du code informatique Peu d’intégrateurs/informaticiens Coût faibles de maintenance Rapidité d’exécution Nécessité de de données structurées OPPORTUNITES MENACES Solution évolutive, Open source Solutions Drupal+ Solr Configuration facile et personnalisable Solutions SGD + Solr Solr peut indexer des documents et/ou des bases de données Logiciels dédiés à une activité
  32. 32. Merci de votre attention Contact : Guillaume Adreaniguillaume.adreani@ahjucaf.org http://www.juricaf.org/ … des questions ?

×