• Save
Retour d'expérience sur Juricaf
Upcoming SlideShare
Loading in...5
×
 

Retour d'expérience sur Juricaf

on

  • 1,040 views

Intervention à Lyon le 27/11/2012 lors de la journée ADBS "Le moteur de recherche interne, élément clé de l'accès à l'information dans l'entreprise".

Intervention à Lyon le 27/11/2012 lors de la journée ADBS "Le moteur de recherche interne, élément clé de l'accès à l'information dans l'entreprise".

Statistics

Views

Total Views
1,040
Slideshare-icon Views on SlideShare
1,034
Embed Views
6

Actions

Likes
1
Downloads
6
Comments
0

2 Embeds 6

https://twitter.com 4
http://www.linkedin.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Retour d'expérience sur Juricaf Retour d'expérience sur Juricaf Presentation Transcript

    • « Le moteur de recherche interne, élément clé de l’accès à l’information dans l’entreprise » Retour d’expérience sur JURICAFADBS - Lyon, 27 novembre 2012
    • Plan#1 Contexte d’utilisation #2 Pourquoi choisir un outil Open source ?#3 Le moteur de recherche : Apache Solr #4 La base de données : CouchDb#5 Résultats obtenus
    • #1 Le contexteTous droits réservés/Renaud 21/ http://www.flickr.com/photos/renaud21/4154622680/
    • Contexte d’utilisation Juricaf : une base de données de décisions de justice 800 000 décisions publiées Des contraintes importantes :  Financières : faible budget  Temporelles : délai de réalisation court  En volumétrie : 650 000 décisions initialement à intégrer  Techniques : des formats d’importation de décision hétérogènes (du XML … jusqu’au fichier texte à numériser)  Juridiques : respect des données personnelles
    • http://www.juricaf.org/
    • Un projet reconnuDeux prix :  prix I-Expo 2012, catégorie « Open Data »  Site Internet de l’année de l’International association of Law Librairies (IALL)Fréquentation : 7 000 visiteurs uniques/jour
    • #2 Le choix d’un outil Open SourceTous droits réservés/Herberger Site http://www.flickr.com/photos/hebergersite/3552916541/
    • Le choix d’un outil Open SourceUn premier échec en 2004 avec une solution Windows 2000 Server/Oracle/AspDes solutions commerciales trop chères ou inadaptéesDe nombreux exemples de projets réussis en Open source
    • Réalisation du projetDeux documentalistes juridiques … bien connus de l’ADBSDeux informaticiens spécialistes dans la manipulation de données publiquesUn laboratoire de recherche partenaire (Université Paris I)Délai : 7 mois
    • #3 Le moteur de recherche Apache Solr Tous droits réservés/che1899 http://www.flickr.com/photos/10403914@N05/4705075675//
    • Le moteur de recherche Fonctionnalités :  Recherche en texte intégral  Système dédié à un fort trafic  Système de facettes  Indexation performante  Utilisation de standards ouverts  Gestion du cache performante
    • La recherche en texte intégralRecherche sur toutes les formes d’un terme : pluriel/singulier, formes conjuguées, préfixes, suffixes  Ex: terme « réutilisé » : recherche sur réutilisation(s), réutilisant, réutilisé(e)(s), réutilisati on(s), réutilisable(s) -> Lemmatisation puis flexion des termes
    • La recherche en texte intégral Gestion des opérateurs booléens (ET/OU pondéré/SAUF) Gestion de la pertinence en fonction de la proximité (standard de recherche en sciences juridiques) Gestion des mots vides (le, la, les, du …) Gestion de mots interdits Gestion des synonymes Surlignage des termes de la recherche
    • RobustesseSolr est dédié aux bases de données à fort traficUtilisation notamment dans le commerce en ligne et sites institutionnelsEx : Apple, Disney, Nuxeo, Amazon
    • Système des facettes Chaque métadonnée est : • Exposée • Triée selon un ordre défini (pertinence, chronologique ou alphabétique) Il est possible ainsi de : • Peut restreindre la recherche • Combiner des tris entre métadonnées
    • Standards ouvertsLogiciel libre et importante communauté de développeursUtilisation Linux ou WindowsDocuments supportés : XML, JSON, CSV et extraction des données de Word, de PDF…Base de données supportées : Mysql, Oracle, CouchDb
    • IndexationIndexation personnalisable :  Champ indexé  Champ pour le tri ou la recherche  Champ pouvant être surligné dans les résultats  Champ utilisé comme clé  Pondération du champ  Utilisé pour une facetteIndexation en temps réel en cas d’ajout, de modification ou de suppression de documents
    • Gestion du cacheDeux caches associés pour conserver une copie des pages interrogées :  Pour les facettes  Pour les résultats de la recherche
    • #4 La base de données CouchDB Tous droits réservés/Renaud 21/ http://www.flickr.com/photos/renaud21/4154622680/
    • La base de données Couchdb : un systèmede base de données NoSQL
    • Pourquoi NoSql ? Le besoin d’avoir un base de données axée sur la performance  Conception de façon à évoluer en fonction du nombre de documents : scalabilité horizontale  Orientation sur le document : une clé d’accès au document = une valeur au format XML ou JSON  Utilisation par Facebook, Twitter, LinkedIn
    • Le principe du NoSql« Le monde réel des données est gérécomme le monde réel des documents » Source : http://guide.couchdb.org/draft/why.html
    • Exemple de document dans CouchDbUne décision de justice = Une donnée Version Champs/Valeurs
    • Exemple de document dans CouchDb Version JSON
    • Comparaison SQL/NoSQL Un grand nombre Une base de de tables données unique Aucune Un grand nombrede champs, chacun configuration desdoit être configuré champs Pas de requêtes et Des requêtes et des d’index à créer index à créer (gestion par Solr)
    • Pourquoi CouchDB?Compatible avec Apache SolrSimplicité d’utilisation “Apache CouchDB has started. Time to relax.”
    • Fonctionnalités CouchDB Système de versions Réplication automatique de la base de données Interrogation de la base de données par l’URL Développements informatiques facilités
    • #5 Résultats obtenusTous droits réservés/frans16611 http://www.flickr.com/photos/frans16611/6139595092/
    • Résultats obtenus Fiabilité : test de montée en charge Avec l’outil httperf : montée en charge associé à 30 000 URL différentes Double test :  trafic soutenu (10 requêtes par secondes)  trafic intense (100 requêtes par seconde) + désactivation du cache et serveur de moyenne gamme. Temps de réponse Trafic soutenu Trafic intense Trafic normal 40 secondes 20 secondes 200 millisecondes Taux d’échec Trafic intense ou soutenu Trafic normal 30 % d’échec à cause d’Apache 100% 1% d’échec à cause de Solr
    • Test de rapiditéRequête sur 800 000 documents :• Recherche en texte intégral : 0.013 secondes• Recherche sur données indexées : 0.006 secondesEx : sur application IPhone : chargement en temps réel des résultats
    • SWOT Solr/CouchDb FORCES FAIBLESSES Utilisation en cas de budget restreint Modèle de base de données peu répanduFacilité de mise à jour du code informatique Peu d’intégrateurs/informaticiens Coût faibles de maintenance Rapidité d’exécution Nécessité de de données structurées OPPORTUNITES MENACES Solution évolutive, Open source Solutions Drupal+ Solr Configuration facile et personnalisable Solutions SGD + Solr Solr peut indexer des documents et/ou des bases de données Logiciels dédiés à une activité
    • Merci de votre attention Contact : Guillaume Adreaniguillaume.adreani@ahjucaf.org http://www.juricaf.org/ … des questions ?