Moteurs de-recherche-dentreprise-aurelie gilabert-infodocenligne

2,525 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,525
On SlideShare
0
From Embeds
0
Number of Embeds
525
Actions
Shares
0
Downloads
86
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Moteurs de-recherche-dentreprise-aurelie gilabert-infodocenligne

  1. 1. www.infodocenligne.wordpress.com01/03/2013Dossier thématiqueLes moteurs derecherched’entrepriseAurélie Gilabert
  2. 2. Dossier réalisé par Aurélie GilabertMars 2013www.infodocenligne.wordpress.comCe document est mis à disposition selon les termes de la Licence Creative CommonsAttribution - Pas d’Utilisation Commerciale - Pas de Modification 3.0 non transposé.
  3. 3. INTRODUCTION 1PREMIERE PARTIE – UN MOTEUR DE RECHERCHE D’ENTREPRISE, QU’EST-CE QUEC’EST ? 2Moteur de recherche : de quoi parle-t-on ? 2Moteur de recherche web ou entreprise : quelles différences ? 8DEUXIEME PARTIE – UN MOTEUR DE RECHERCHE D’ENTREPRISE POUR QUOIFAIRE ? 10Quel est l’intérêt d’utiliser un moteur de recherche dans l’entreprise ? 10Quels sont les usages possibles d’un moteur de recherche d’entreprise ? 13MOTEUR DE RECHERCHE D’ENTREPRISE, COMMENT CHOISIR ? 16Les questions à se poser avant de choisir un moteur de recherche 16Panorama de l’offre 20POUR CONCLURE 25SOURCES 26
  4. 4. 1IntroductionVoici un dossier consacré à la recherche d’information en entreprise, une notion aussi appeléeenterprise search ou business search, avec ses outils dédiés : les moteurs de recherche d’entreprise.Pourquoi un tel sujet ? Car ce sont des outils de plus en plus adoptés par les entreprises et quiprésentent de réels intérêts pour la gestion de l’information.J’ai d’ailleurs rencontré plusieurs cas d’entreprises qui souhaitaient mettre en place un moteur derecherche interne.En octobre 2012, l’ADBS a organisé une formation intitulée « Mettre en place un moteur derecherche d’entreprise », qui est reconduite pour l’année 2013. L’ADBS, toujours, a aussi organisé àLyon une journée d’étude, en partenariat avec Collaboratif Info, sur le thème : « Le moteur derecherche interne, élément clé de l’accès à l’information dans l’entreprise ». Cet intitulé reflète bienla principale fonction des moteurs de recherche d’entreprise.Ce sont des outils qui ont toute leur place dans la stratégie de gestion et d’accès à l’informationd’une entreprise ou d’une organisation. Dans un univers informationnel en croissance exponentielle,il est nécessaire de mettre en place des outils pour s’y retrouver. Les moteurs de recherched’entreprise permettent de répondre à ce besoin et de faire plus encore.Ce dossier est construit autour de trois axes, répondant aux questions : quoi, pourquoi et comment. Qu’est-ce qu’un moteur de recherche d’entreprise ? Comment le définir ? Commentfonctionne-t-il ? Qu’est-ce que l’utilisation d’un moteur de recherche peut apporter à l’entreprise ? Comment choisir un moteur de recherche ? Quelles sont les questions à se poser ? Quelssont les critères de choix ?Les objectifs de ce dossier sont : De fournir une première approche des moteurs de recherche d’entreprise à ceux qui veulenten savoir plus sur le sujet, De montrer l’intérêt qu’il peut y avoir à utiliser ces outils, De fournir des pistes pour les personnes qui souhaiteraient mettre en place un moteur derecherche d’entreprise.
  5. 5. 2Première partie – Un moteur de recherche d’entreprise, qu’est-ce quec’est ?Pour bien comprendre les enjeux des moteurs de recherche d’entreprise commençons par définir dequoi il s’agit et comment ils fonctionnent. Attardons-nous ensuite sur ses particularités.Moteur de recherche : de quoi parle-t-on ?Avant de définir un moteur de recherche d’entreprise,commençons par définir ce qu’est un moteur de recherche engénéral, ainsi que son principe de fonctionnement.La principale fonction d’un moteur de recherche est de signalerl’existence et la localisation de ressources répondant à lademande de l’utilisateur – demande formulée via des mots-cléschoisis librement.Sur le site de l’ADBS, on trouve la définition suivante1:« Robot de recherche : logiciel permettant la construction automatique d’index de mots contenusdans les pages d’informations sur des sites web ou autres ressources sur l’internet et leurinterrogation à travers des interfaces dédiées ; la construction automatique d’un index suppose unmodule de collecte automatique des données qui opère sur les sites serveurs (spider ou crawler) etun module d’indexation qui construit automatiquement l’index à partir des résultats de l’étapeprécédente ; l’interrogation suppose un module de recherche spécifique sur les index ainsi créés(moteur de recherche). »Pour sa part, l’Encyclopédie Wikipédia2définit un moteur de recherche comme :« Une application web permettant de retrouver des ressources (pages web, articles de forumsUsenet, images, vidéos, fichiers, etc.) associées à des mots quelconques. Certains sites offrent unmoteur de recherche comme principale fonctionnalité ; on appelle alors moteur de recherche le sitelui-même. »Comme le montre la définition de l’ADBS, un moteur de recherche est composé de trois élémentsessentiels. Ces trois éléments correspondent aux trois étapes du fonctionnement d’un moteur derecherche. Un module de collecte automatique des informations (appelé aussi crawler ou spider) Un module d’indexation Un module de classement automatisé des informations1http://www.adbs.fr/robot-de-recherche-18537.htm?RH=OUTILS_VOC2http://fr.wikipedia.org/wiki/Moteur_de_recherche
  6. 6. 3Les trois étapes de fonctionnement d’un moteur de rechercheLe robot crawler parcourt tous les contenus qui doivent être indexés par le moteur de recherche. Il« lit » les informations contenues dans les ressources, en extrait les plus importantes et les stocke surdes serveurs afin de s’en servir pour constituer un index.Le module d’indexation permet l’indexation automatique du contenu récolté à l’étape précédente.Selon le Dictionnaire de l’information publié aux éditions Armand Colin, la forme basique del’indexation automatique « est le traitement du texte intégral (full text) et la constitution de fichiersinversés par élimination des mots vides et sélection de toutes les chaînes de caractères situées entredeux séparateurs. »Le moteur de recherche construit deux index : Un index contenant le corpus d’informations capturées par le robot crawler ; Un index inversé contenant la liste de tous les mots-clés relevés lors de l’indexation etassocié aux ressources qui les contiennent avec leur adresse.C’est cet index inversé que le moteur de recherche interroge lors d’une requête. Grâce à lui, il n’a pasà parcourir tous les documents indexés pour déterminer lesquels sont intéressants. C’est ce qui luipermet de faire remonter des résultats en quelques millièmes de secondes3.On constate d’ailleurs qu’il est plus rapide de faire une recherche dans un corpus aussi étendu que leweb que de faire une recherche dans un document PDF assez long, qui lui ne dispose pas d’index.3http://www.christian-faure.net/2006/09/23/quelques-vidences-sur-le-moteur-de-recherche/
  7. 7. 4Le classement des résultats identifiés lors d’une requête se fait grâce au module de classement.Pour les moteurs de recherche sur le web, c’estlors de cette étape que se joue la concurrence.L’algorithme de classement est ce qui fait ladifférence entre les différents moteurs derecherche. En effet, un moteur de recherche quine fait pas remonter des résultats pertinents pourl’utilisateur en haut de liste ne va pas être utilisébien longtemps.Pour classer ses contenus, le moteur derecherche se base sur la fréquence des mots-cléset sur leur répartition dans le document. Cela permet de faire des calculs de pondération et demesurer l’importance d’un mot par rapport à son poids dans l’ensemble de la ressource. Plus un mot-clé est présent, plus il est important. Et la place du mot joue aussi : un mot présent dans le titre estplus important que s’il se trouve dans le corps du texte. C’est ce que l’on appelle le tri par pertinenceet c’est la base du classement automatisé de documents.Mais cette méthode montre des limites et il est facile de la détourner. Les moteurs de recherche ontdonc cherché d’autres moyens pour classer leurs résultats.Le tri par popularité prend en compte la valeur des liens hypertextes pointant vers la pageconsidérée. C’est sur cette méthode qu’est basé le PageRank de Google.Le tri par mesure d’audience se base sur le nombre d’internautes qui ont visité la page et sur letemps qu’ils y ont passé. Plus le nombre d’internaute ayant visité une page est élevé et plus ils y ontpassé de temps, plus cette page sera placée haut par rapport à une autre avec les mêmes mots-clés.Il existe plusieurs catégories de moteurs de recherche. Leurs principales différences tiennent surtoutau périmètre dans lequel la recherche est effectuée. Mais le fonctionnement en trois étapes4(crawl,indexation, classement) est le même pour tous.On trouve plusieurs grands types de moteurs de recherche : Les moteurs de recherche sur internet qui permettent d’interroger le web avec pour le plusconnu d’entre eux Google. Citons aussi Bing, Duckduckgo ou Ixquick Search.4http://www.google.com/insidesearch/howsearchworks/thestory/
  8. 8. 5 Les moteurs de recherche internes à un site web, comme par exemple ceux permettant detrouver un produit sur un site marchand. C’est une catégorie de moteur de recherched’entreprise mais tourné vers l’extérieur.Capture d’écran du site Fnac.com et utilisation de son moteur de recherche Les moteurs de recherche installés sur un ordinateur personnel (desktop search5) quipermettent de rechercher en local sur l’ordinateur comme Copernic Desktop Search ouSpolight sous MacOS.5http://jean-ferre.blogspot.fr/2009/02/desktop-search-et-moteur-de-recherche.html
  9. 9. 6 Les moteurs de recherche intégrés dans des logiciels comme les CRM, les GED ou autresapplications métiers.Interface de recherche avancée du système de gestion de contenu Alfresco Les moteurs de recherche d’entreprise proprement dit. Ce sont ces derniers qui nousintéressent ici.Les moteurs de recherche d’entreprise sont des outils qui indexent les contenus situés dans plusieursentrepôts d’informations de l’entreprise (c’est-à-dire les serveurs et applications où sont stockées lesdonnées).Leur fonctionnement est le même que celui décrit précédemment pour les moteurs web, mais ilrajoute un élément en plus : les connecteurs6. Il s’agit d’un adaptateur qui va permettre au moteurde recherche de se connecter aux différentes sources d’information à indexer pour aller les crawler.Ces informations sont ensuite mises en communs et des traitements peuvent leur être appliqués(enrichissement sémantique, mise en relation de données, repérage des doublons…). La recherches’effectue via une interface qui ressemble de plus en plus à celles des moteurs web.6http://www.christian-faure.net/2006/09/10/choisir-un-moteur-de-recherche-pour-lentreprise/
  10. 10. 7Schéma représentant le fonctionnement d’un moteur de recherche d’entrepriseUn moteur de recherche d’entreprise ne fonctionne donc pas tout à fait pareil qu’un moteur derecherche sur le web. Il s’adapte aux spécificités du contexte dans lequel il s’inscrit. En effet, lesproblématiques de recherche en entreprise ne sont pas les mêmes que sur le web.CONNECTEURSIndexation et traitement des donnéesPrésentation des résultatsInterface utilisateur
  11. 11. 8Moteur de recherche web ou entreprise : quelles différences ?Les paragraphes suivant s’inspirent notamment de l’article d’Eric Debonne, Moteur de rechercheInternet versus Entreprise7.Volumétrie et sélection de l’informationMême si les volumes d’information produits par les entreprises ont une croissance exponentielle, ilssont encore loin d’atteindre ceux du web.Sur la toile, les moteurs de recherche procèdent à une sélection des pages qu’ils indexent, alors quedans l’entreprise tous les documents doivent être indexés. A part quelques documents exclus pourdes raisons de confidentialité ou des documents privés par exemple, les utilisateurs doivent pouvoirretrouver tout document intégré dans le système d’information via le moteur de recherche.Sécurité et droit d’accèsSur le web, les documents sont publics et tout document indexé peut être consulté par n’importequel internaute. Dans l’entreprise, l’accès aux documents est soumis à des droits. Le moteur derecherche doit intégrer ces règles de sécurité afin de ne pas permettre à un utilisateur d’accéder à undocument qu’il n’a pas le droit de consulter.Hétérogénéité de l’informationLes documents indexés sur le web sontgénéralement au format HTML ou à la rigueurdans des formats bureautiques classiques(format traitement de texte, PDF…). Dansl’entreprise, le moteur de recherche doit êtrecapable d’indexer de nombreux formatsdifférents, dont certains provenantd’applications métier spécifiques.MétadonnéesSur le web, les moteurs de rechercheaccordent peu d’importance aux métadonnées et privilégient plutôt le contenu des pages. Or, dansl’entreprise ces métadonnées sont porteuses d’informations essentielles (auteur, date de création,type de document, langue…). Il est important que le moteur les indexe et les traite pour faciliter larecherche de l’utilisateur. De plus, dans le cas de certains formats de documents pour lesquels l’outilne peut pas indexer le contenu (fichiers son ou vidéo, formats propriétaires fermés), lesmétadonnées sont les seuls éléments sur lesquels l’outil peut s’appuyer lors d’une recherche.7http://www.solaci.com/blog/2007/11/moteur-de-recherche-internet-versus.html
  12. 12. 9Pertinence de la rechercheSur le web, la pertinence des documents est en grande partie fondée sur les liens qui pointent versune page. Ce système ne peut pas être reproduit en entreprise pour la bonne et simple raison que lesdocuments de l’entreprise ne sont pas reliés entre eux par des liens hypertexte. Le calcul de lapertinence d’un document sera plutôt basé sur les occurrences de mots, leur place et leur poids dansle document. Par ailleurs, dans l’entreprise, l’administrateur de l’outil de recherche peut influermanuellement sur la pertinence en donnant plus d’importance à certains critères afin d’offrir auxutilisateurs des résultats plus pertinents selon le contexte.Avec cette comparaison, on voit bien que la recherche sur le web et la recherche en entreprise, bienqu’ayant des points communs, ont des problématiques différentes.Si, pour le web, tout le monde voit clairement quels peuvent être les avantages d’un moteur derecherche pour trouver des informations, cette utilité apparaît moins clairement pour les moteursd’entreprise.Pourquoi utiliser un moteur de recherche dans le système d’information de l’entreprise ? C’est àcette question que la deuxième partie de ce dossier va s’efforcer de répondre.
  13. 13. 10Deuxième partie – Un moteur de recherche d’entreprise pour quoifaire ?A quoi peut bien servir un moteur de recherche dans une entreprise ? Pour répondre à cettequestion, nous allons d’abord voir les avantages que peut apporter un moteur de recherched’entreprise, puis nous regarderons les différents usages qu’il peut en être fait un peu plus en détailavec des scénarii d’utilisation.Quel est l’intérêt d’utiliser un moteur de recherche dans l’entreprise ?La fonction de recherche sur un ordinateur personnel est rarement utilisée. D’une part, parce que levolume d’information qui y est stocké est relativement peu important et, d’autre part, parce quel’utilisateur de l’ordinateur sait généralement où il a rangé tel document et sait s’y retrouver dansson organisation, aussi obscure soit-elle pour un tiers.En entreprise la situation est différente.Les salariés savent généralement où sont rangés les documents qu’ils ont produits, les informationsavec lesquelles ils travaillent tous les jours. Mais pour le reste c’est un peu plus compliqué.Imaginons. Votre collègue a créé un document pour la réunion de vendredi prochain que vous voulezlire. Vous savez qu’il est stocké sur le serveur de fichiers partagé de l’entreprise mais vous ne savezpas où précisément et votre collègue n’utilise pas le même système de classement que vous. Suivantle nombre de fichiers, de dossiers et sous-dossiers sur ce serveur, vous pouvez perdre pas mal detemps à retrouver ce document.Il y a quelques années, pour tenter d’organiser ce fouillis de document que peut devenir un serveurpartagé, on mettait en place le plus souvent une GED (Gestion Electronique de Documents), quidisposait de son propre moteur de recherche interne. Certes, cette méthode présente des avantagescomme celui de mettre en place des règles de gestion des documents, de leur adjoindre desmétadonnées (si tout le monde prend le temps de les renseigner). Mais c’est une solution lourde àmettre en place et à utiliser. Se doter d’une GED juste pour bénéficier de ses fonctions de recherchede document est un peu disproportionné. De plus, la recherche ne porte que sur les documentsrentrés dans la GED et ne prend pas en compte d’autres entrepôts d’information.
  14. 14. 11Par exemple, les boîtes mails contiennent souvent des informations importantes (dans les courrielset les pièces jointes) mais dont le volume est important et qui sont donc parfois difficile à trouver.Certains ont essayé de quantifier le temps passé par un salarié à rechercher une information ou undocument dans le système d’information de son entreprise. Même si ces chiffres sont assez imprécis,cela permet de se faire une idée du temps que cette tâche peut prendre et de l’intérêt de bénéficierd’outils adaptés. Selon les sources, nous passons entre 20 et 30% de notre temps de travail àchercher des documents ou des informations.Cela peut être d’autant plus inacceptable pour les salariés que, sur le web, ils disposent d’outilspuissants, rapides et relativement efficaces pour trouver des informations. L’utilisation des moteursde recherche pour trouver ou consulter quelque chose sur le web est devenue un automatisme. Lesinternautes ne retiennent plus les adresses URL, n’utilisent plus énormément les favoris, ils secontentent de taper le nom du site dans la barre de recherche de leur moteur préféré. Il est doncnormal qu’ils souhaitent retrouver le même système et la même simplicité quand ils cherchent uneinformation interne à l’entreprise.Il est donc légitime qu’ils se posent la question : « Pourquoi ne peut-on pas avoir la même chose queGoogle pour rechercher des informations et documents dans l’entreprise ? »Même si rechercher sur le web et rechercher dans l’entreprise ne sont pas tout à fait les mêmeschoses, un moteur de recherche d’entreprise peut effectivement résoudre ce problème d’accès àl’information. (Voir dans la première partie Moteur de recherche web ou entreprise : quellesdifférentes ?)Les moteurs de recherche permettent d’accéder plus facilement aux documents et informations maisils permettent aussi de les trier plus facilement. Même si les salariés sont censés les éviter, denombreux doublons existent. Il n’est pas rare de trouver plusieurs versions de travail rangées aumême endroit ou plusieurs documents identiques disséminés dans plusieurs entrepôts de stockage.Le moteur de recherche permet de visualiser ces doublons. Il permet aussi de les trier. En effet, lemoteur de recherche, en plus du contenu du document, indexe aussi ses métadonnées (date decréation, auteur…). Cela permet de faire le tri plus facilement et d’éviter d’ouvrir chaque documentpour vérifier lequel est le bon.Le moteur de recherche permet donc de retrouver desinformations si on ne sait pas où elles sont rangées. Maisil permet aussi d’accéder plus facilement aux documentsdont on connaît l’emplacement. Plutôt que de devoirouvrir cinq ou six sous-dossiers avant de pouvoir accéderau document que l’on désire, il est plus rapide d’ouvrir lemoteur de recherche, de taper sa demande et d’accéderau document directement depuis l’interface de résultats.
  15. 15. 12Aujourd’hui, le système d’information de l’entreprise comprend plusieurs entrepôts de stockage : leou les serveurs de fichiers partagés, le serveur de messagerie, des applications métiers spécifiques,des bases de données…Un moteur de recherche permet un accès unique à tous ces éléments du système d’information del’entreprise. C’est un des principaux enjeux de ces outils à l’heure actuelle.D’ailleurs, plutôt que de parler de recherche d’information, certains préfèrent parler d’Accès Unifié àl’Information (en anglais UIA pour Unified Information Access). L’accès unifié à l’information vise àaméliorer l’efficacité, la pertinence et la catégorisation de l’information lors des requêtes émises ausein d’une organisation.En plus d’un accès unique, les moteurs de recherche permettent aussi de mutualiser toutes cesinformations. « Sortir l’information des silos » est une expression que l’on entend souvent à proposdes moteurs de recherche. Il s’agit de retrouver automatiquement des liens entre les différentesinformations stockées dans différents conteneurs.Voici un exemple de mise en relation d’information : je faisune recherche sur un client de mon entreprise en tapantson nom. Bien sûr le moteur de recherche me remonte tousles documents qui portent son nom. Mais ce client est aussiidentifié sous un numéro client dans d’autres documents. Lemoteur de recherche, qui a repéré la correspondance entrele nom et ce numéro client dans une base de données meremonte aussi les documents où apparaît le numéro de ceclient.Les moteurs de recherche mettent donc en relation des données structurées et des données nonstructurées et peuvent leur donner du sens et même de les analyser pour en tirer ensuite destableaux de bord ou des graphiques.Les données structurées sont des données organisées selon une structure qui facilite leur traitementautomatique. Elles sont contenues entre autre dans les bases de données relationnelles. Les donnéesstructurées ne sont pas forcément accessibles aux humains.Les données non structurées sont les données provenant de documents texte, d’images, de sons…Elles peuvent être facilement analysées par des humains mais les machines ont du mal à les traiter.On constate donc qu’un moteur de recherche permet bien plus de choses que simplement indiqueroù se trouvent informations et documents.
  16. 16. 13Quels sont les usages possibles d’un moteur de recherche d’entreprise ?La principale fonctionnalité d’un moteur de recherche est de permettre de retrouver del’information. Mais ils peuvent faire plus que cela. Suivant la stratégie dans laquelle ils s’intègrent etsuivant les fonctionnalités déployées, ils peuvent permettre de mettre en place différents scénariid’utilisation.Rechercher de l’informationL’utilisation la plus simple d’un moteur de recherche est de permettre de retrouver facilement etrapidement des informations dans un espace de stockage unique. Il s’agit de mettre en place un outilpour rechercher sur le serveur partagé de l’entreprise. C’est assezrapide et facile à mettre en œuvre.Dans le cas où plusieurs sources de données différentes doivent êtreindexées par le moteur, il faut s’assurer que l’on dispose bien desconnecteurs nécessaires.Mettre en relation et enrichir les donnéesLe projet est un cran au-dessus s’il s’agit de mettre en relation des données contenues dansdifférents entrepôts de stockage et de leur donner du sens les unes par rapports aux autres.Pour enrichir les données indexées, les moteurs de recherche se basent sur des vocabulaires métiers,des listes d’autorités, des thésaurus et autres référentiels terminologiques préexistants.Ces vocabulaires sont une aide à la recherche. L’utilisateur effectue sa recherche en langage naturelcomme il en a l’habitude et l’outil réalise une correspondance avec les termes du vocabulaire pourressortir les résultats correspondants.Ils permettent aussi d’établir des correspondances entres les données. J’ai cité un peu plus hautl’exemple de la mise en relation du nom du client et de son numéro d’identification. Les moteurs derecherche peuvent aussi établir des liens entre les concepts contenus dans les documents dumoment que ces liens sont représentés dans les thésaurus et autres vocabulaires.Ils peuvent simplement servir à relier des acronymes avec leur forme développée. Par exemple, sij’indique au moteur de recherche que MSI veut dire management des systèmes d’information, que jetape comme requête une forme ou l’autre, il me remontera indifféremment les documents où figurel’un ou l’autre des termes.Plus élaboré : mon référentiel terminologique indique au moteur de recherche que le concept debassin de vie est lié au concept bassin d’emploi. Si je fais une recherche pour remonter lesdocuments traitant du concept de bassin de vie, l’outil est alors en mesure de me suggérer desdocuments parlant de bassin d’emploi.Pour ces deux exemples, si l’outil n’avais pas été en mesure d’établir des liens, il aurait fallu que jefasse deux recherches, pour autant qu’au préalable j’ai moi-même fait ces liens.
  17. 17. 14L’analyse sémantique, qui est de plus en plus intégrée à la recherche d’information, permet aussid’enrichir les données et de faire remonter des résultats plus précis. Elle se base sur des cartouchesde connaissances qui répertorient les principaux concepts d’un domaine de connaissance et lesrelations qu’il y a entre eux. Cela permet de donner au moteur de recherche les clés pourcomprendre les documents, leur donner du sens et ainsi améliorer la recherche.Surveiller son environnementLes moteurs de recherche d’entreprise peuvent également être utilisés pour faire de la veille.Pour la veille, on pense surtout que les informations recherchées se trouvent en dehors del’entreprise. Mais pas seulement. Eric Debonne estime que 50% de l’information utile à la veille estdéjà disponible dans l’entreprise8. On voit donc que faire de la veille c’est aussi explorer les sourcesde données de l’entreprise, tâche pour laquelle le moteur de recherche interne est tout à faitindiqué.Par ailleurs, certains moteurs de recherche offrent des services pour accéder à l’information en modepush, où l’information est transmise à l’utilisateur sous forme d’alerte automatique, sans qu’il aitbesoin d’effectuer la requête. C’est par exemple le cas du moteur Polyspot qui propose de se créerdes alertes mails pour une ou plusieurs requêtes. Cela permet vous permet d’être alertéautomatiquement si un de vos collègue fait rentrer de nouvelles informations sur votre sujet de veilledans le système d’information de l’entreprise.Prendre des décisionsUn autre domaine où un moteur de recherche a une carte à jouer est la Business Intelligence ouinformatique décisionnelle.La Business Intelligence permet l’aide à la décision9. Il s’agit d’analyser, à l’aide de solutionsinformatiques, de gros volumes de données afin d’en dégager des informations nouvelles surlesquelles les décideurs peuvent s’appuyer pour prendre des décisions.8Eric Debonne, « Solutions dans la course à l’innovation » in Veille et recherche d’information sur le web –Guide pratique Archimag n°37, 2009.9http://www.christian-faure.net/2007/06/07/quand-le-search-bouscule-la-bi/
  18. 18. 15Les outils décisionnels regroupent les différentes sources de données de l’entreprise dans un« datawarehouse » afin de pouvoir y appliquer des traitements automatiques qui permettent ensuitede ressortir ces informations sous forme de rapports ou de graphiques ou autres outils de reporting.Les outils de Business Intelligence présentent plusieurs inconvénients : Ils ont tendance à ne prendre en compte que les données structurées, alors que les donnéesnon structurées peuvent être plus nombreuses en volume et contenir également desinformations intéressantes ; Ils sont lourds à mettre en place ; Ils nécessitent une phase d’apprentissage importante du fait des nombreux paramètres àprendre en compte dans la génération des rapports.Les moteurs de recherches sont prévus pour traiter des volumes de données de plus en plusimportants. Mais ils ne sont pas seulement capables de ressortir des listes de résultats à partir d’unerequête. Ils peuvent aussi analyser ces données et en ressortir des représentations.Par rapports aux outils de Business Intelligence traditionnels, ils présentent les avantages de prendreen compte les données non structurées et d’être facilement pris en main par les utilisateurs, grâce àleur interface simplifiée et intuitive.Même s’ils s’avèrent moins puissants que les outils dédiés10Business Intelligence, ils sont de bonscompléments à ces types d’outils et permettent de valoriser les informations de l’entreprise.Les moteurs de recherche d’Exalead et Sinequa proposent entre autres des fonctionnalités d’analysede données de type décisionnel.10http://www.cio-online.com/contributions/lire-le-moteur-de-recherche-d-entreprise-quelles-cibles-320.html
  19. 19. 16Moteur de recherche d’entreprise, comment choisir ?Il existe des dizaines de moteurs de recherche d’entreprise. A première vue ce n’est pas toujoursfacile de déterminer l’outil qui nous conviendra le mieux. C’est pourtant un choix important à faire sion veut que l’outil soit utilisé. Et ce d’autant plus que l’on acquiert généralement un moteur derecherche pour plusieurs années.Les questions à se poser avant de choisir un moteur de rechercheVoici un éventail des questions à se poser avant de choisir un moteur de recherche d’entreprise etdes points à examiner. Bien sûr ces éléments sont génériques. Ils peuvent être complétés ou adaptéssuivant le contexte.L’identification des besoinsLa première chose à faire est de se poser les questions : Qu’est-ce que je veux faire avec un moteurde recherche d’entreprise ? Pourquoi en ai-je besoin ? (Il faut d’ailleurs se poser ces questions pourtoute mise en place d’un nouvel outil informatique.)Les scénarii d’utilisations dans la partie précédente peuvent aider à clarifier certains besoins.Impliquer les futurs utilisateurs en leur demandant de formaliser leurs besoins, comment ilsvoudraient pouvoir avoir accès à l’information peut être très intéressant. Cela peut permettre demettre à jour des besoins auxquels personne n’avait pensé. Et les impliquer les rendra plus intéresséslorsque l’outil sera disponible.Une fois que l’on a cerné ses besoins, cela aide à choisir le type d’outil que l’on souhaite et lesfonctionnalités nécessaires. Ce n’est pas la peine d’acheter un outil qui permet de créer desapplications de recherche si on a seulement besoin de retrouver des documents dans un serveur defichiers.
  20. 20. 17Faire l’inventaire des informations à indexerIl s’agit principalement de : Savoir où les informations sont stockées : sur des serveurs de fichiers, dans des bases dedonnées, dans des applications métiers, sur le web… Déterminer leur volumétrie. Combien de giga ou de terra octets ces informationsreprésentent-elles ? Dans certains cas, cela peut avoir un impact sur le prix de la solution.C’est également utile pour déterminer les caractéristiques techniques de l’infrastructure derecherche à mettre en place. Connaître les caractéristiques de ces informations. Quels sont les formats (.doc, .htm, .ppt,.pptx, .docx, .xls, .xlsx, .odt, .psd, .indd, .ai…) ? Suivant les formats, les moteurs de recherchepeuvent en indexer le contenu. Pour les documents bureautiques ou html, les moteurs derecherche peuvent généralement en indexer le contenu plein texte. Pour d’autres formatspropriétaires, comme ceux de la suite Adobe Créative par exemple, c’est plus compliqué etles moteurs de recherche ne peuvent généralement pas indexer le contenu du document.Dans ce cas, il faut se tourner vers les métadonnées. Quelles sont les métadonnéesdisponibles ? Est-il pertinent de toutes les indexer ? Se poser la question de la structuration des données et informations. Cela joue-t-il un rôledans la recherche ? Les données sont-elles à mettre en relations les unes avec les autres ?Sont-elles à enrichir ? Si oui, existe-t-il déjà un ou plusieurs vocabulaires d’autorité ?Comment est-il possible de les intégrer dans l’outil ?Le multilinguismeSi les informations à indexer sont en différentes langues, il est intéressant de voir comment lemoteur traite la question du multilinguisme.Le moteur de recherche est-il capable de différencier les langues des documents (dans le contenu oules métadonnées) ? La plupart des moteurs de recherche d’entreprise en sont capables.La langue du document peut-elle être un critère de recherche ?Pour une requête en français le moteur de recherche est-il capable de faire remonter desinformations correspondantes en anglais par exemple ?Les connecteurs disponiblesPour rappel, les connecteurs permettent au moteur de recherche de se brancher sur les différentessources d’information à indexer. Les éditeurs disposent généralement d’un catalogue standard deconnecteurs pour les sources les plus courantes (serveurs de fichiers, SharePoint, Lotus Note…). Plusle catalogue de connecteurs est étendu, plus il y a de chances pour que ceux correspondants à vosapplications soient disponibles. Il faut néanmoins s’assurer que ces connecteurs peuvent gérer les
  21. 21. 18spécificités de votre système d’information. Sinon, l’éditeur pourra probablement développer desconnecteurs sur mesure mais cela risque d’être du temps et du budget supplémentaires.Les différentes possibilités de rechercheLes moteurs de recherche d’entreprise présentent tous les mêmes fonctionnalités principales auniveau de la recherche. Certaines sont néanmoins plus mises en avant que d’autres selon les outils.En ce qui concerne la recherche et l’affinage des résultats, un certain nombre de points peuvent êtrepris en compte.Les possibilités de recherche avancées. Quelles sont-elles ? Y-a-t-il un formulaire pour guider larecherche avancée ? Le moteur de recherche prend-il en compte les opérateurs de rechercheavancée classique comme les opérateurs booléens (ET, OU, SAUF) ou de proximité (NEAR), latroncature, les parenthèses pour construire des équations de recherche ? Lesquelles de cespossibilités sont à privilégier, selon les utilisateurs (voir paragraphe suivant).Il y a aussi ce que j’appelle les facilitateurs de requêtes. Ce sont des fonctionnalités qui facilitentl’écriture de la requête par l’utilisateur : insensibilité à la casse, aux accents, aux pluriels, éliminationdes mots vides, correction orthographique, lemmatisation (action de regrouper les différentesformes que peut prendre un mot : nom, pluriel, verbe conjugué, infinitif…), auto-complétion...Capture d’écran du moteur de recherche Google avec la fonctionnalité d’auto-complétionLa navigation par facettes. Une facette permet à l’utilisateur d’affiner successivement sa rechercheen lui permettant de sélectionner directement sur la page de résultats du moteur des sous-catégories plus précises. Ces facettes peuvent être construites grâce à l’analyse des métadonnées oubien par analyse sémantique ou extraction d’entités nommées. L’analyse sémantique permetd’extraire des concepts évoqués dans les documents. L’extraction d’entités nommées permetd’extraire des résultats les noms propres y figurant. Cette extraction peut être personnalisée selonles contextes.
  22. 22. 19Le moteur de recherche Exalead a été l’un des premiers moteurs web à proposer une navigation parfacette à ses utilisateurs.Les utilisateurs de l’outilQui seront les utilisateurs finaux de l’outil ? Sont-ils des professionnelsde la recherche d’information ou des novices ? Les fonctionnalités àprivilégier ne sont pas les même dans les deux cas. Si les utilisateurssont des professionnels de la recherche d’information, ils peuventutiliser des fonctions de recherche avancée directement dans la barrede recherche. S’il s’agit d’utilisateurs novices, on privilégiera plutôt desmodes de recherche guidée avec formulaires, des fonctions visuellescomme les facettes et surtout la plus grande simplicité d’utilisation etla similarité avec les moteurs de recherche web.La gestion de la sécuritéTous les utilisateurs n’ont pas les mêmes droits d’accès selon les sources de données ou les typesd’informations. Les moteurs de recherche d’entreprise intègrent une reconnaissance des utilisateurspar identifiant et mot de passe ce qui permet ensuite de déterminer à quelles informations ils aurontle droit d’accéder ou non.Le moteur de recherche doit être capable de prendre en compte les différents droits des utilisateurspour chaque source indexée et de les unifier pour un même utilisateur.Il y a deux méthodes pour assurer la sécurité des accès : Soit le moteur récupère les droits de l’annuaire de l’entreprise Soit il gère le schéma de contrôle en interne.L’une ou l’autre est à privilégier suivant le contexte d’utilisation.
  23. 23. 20En ce qui concerne la visibilité des documents selon les droits des utilisateurs, deux possibilitésexistent. Soit, quand il fait une recherche, l’utilisateur ne voit que les documents auxquels il a accès.Soit, il voit également les documents auxquels il n’a pas accès dans la liste des résultats mais cela n’apas les possibilités d’y accéder. Cette deuxième solution peut présenter l’avantage d’élargir lacirculation de l’information dans l’entreprise. Des droits d’accès ont été définis à l’arrivé du salariédans l’entreprise, celui-ci a évolué dans son poste mais personne n’a pensé à modifier ses droitsd’accès aux informations. Le fait que le salarié puisse voir ces informations et savoir qu’elles existentpeut lui permettre de demander à ce qu’on lui élargisse ses droits d’accès.Quelles que soit les solutions choisies pour la gestion de la sécurité, il ne faudra pas oublier de fairedes tests avec les profils de différents utilisateurs pour s’assurer que tout fonctionne correctementavant le déploiement complet de l’outil. Vérifier régulièrement que les droits d’accès sont toujoursbien paramétrer peut aussi être nécessaire. Il peut arriver que cela bouge.Les possibilités de personnalisationLes éditeurs de solutions de recherche proposent des outils standardisés, avec plus ou moins depossibilités de personnalisation. Il convient d’abord de s’assurer que l’outil choisi pourra s’intégrerdans le système d’information de l’entreprise.Quels sont les possibilités de personnalisation de l’outil ? Elles sont à examiner aussi bien au niveaude l’apparence de l’outil, de l’ergonomie, de l’apparence graphique, que des possibilitésd’administration et d’ajout d’applications.Panorama de l’offreQuelle est l’offre des éditeurs en matière de moteur de recherche ?Le marché des logiciels de recherche d’entreprise est assez mouvant. Si vous vous basez sur unpanorama de l’offre de plus de deux ans, vérifiez bien que les éditeurs existent encore et qu’ilsproposent bien toujours les mêmes types d’outils. Ils peuvent avoir évolués ou s’être fait racheter.Voici une liste d’éditeurs d’outils de recherche et une brève présentation de leurs solutions.Cette liste n’est pas exhaustive et les présentations sont principalement issues des sites web deséditeurs. Il ne s’agit pas de faire de la pub à tel ou tel éditeur mais de donner des pistes.
  24. 24. 21PolyspotEditeur françaisL’éditeur Polyspot propose des solutions propriétaires basées sur les solutions de recherche opensource Lucene et Solr, deux projets de la fondation Apache.Via son produit Polyspot Enterprise Search, Polyspot offre un accès unifié aux données del’entreprise via des vues informationnelles, interfaces correspondants à différentes applications derecherche. Cela permet de proposer aux utilisateurs des accès aux informations suivant différentsaspects de leur activité.Polyspot Enterprise Search intègre les fonctionnalités classiques de recherche d’information(suggestion orthographique, auto-complétion, recherche par facette…), ainsi que des fonctionnalitésd’alertes et de collaboration.Pour en savoir plus11ExaleadEditeur françaisLes produits d’Exalead reposent sur une technologie propriétaire.Exalead CloudView est une infrastructure de recherche qui permet qui permet de créer desapplications orientées recherche (SBA – Search Based Applications). Le développement d’applicationsse fait par glisser-déposer et est accessible sans avoir besoin de notions de programmation.Exalead CloudView dispose de fonctionnalités de recherche plein texte, d’affichage dynamique desrésultats, de recherche par facettes et de Business Intelligence.Pour en savoir plus 1211http://www.polyspot.com/produits/polyspot-enterprise-search.html12http://www.3ds.com/fr/products/exalead/products/exalead-cloudview/overview/
  25. 25. 22DoculibreEditeur canadienDoculibre propose un moteur de recherche entièrement open source, basé sur Lucene et Solr.L’outil Constellio propose les fonctionnalités de recherche classiques et permet de fédérer toutes lessources d’informations de l’entreprise via une seule interface de recherche.Constellio présente les avantages des produits open sources, à savoir pas de frais de licence, pas delimites d’utilisateurs, ni de documents indexés et une personnalisation illimitée par le biais dedéveloppement supplémentaires.Il existe un intégrateur français de Constellio : France Labs.Pour en savoir plus13SinequaEditeur françaisSinequa propose des solutions de recherche qui permettent l’accès unifié à l’information et la priseen compte du Big Data avec des possibilités d’analyse de données.Sinequa récupère les informations de différentes sources et y applique des traitements statistiques,sémantiques et linguistiques pour permettre d’enrichir les données et de les analyser.La plateforme Sinequa permet également de créer ses propres applications orientées recherche(SBA).Pour en savoir plus14Google EnterpriseEditeur américainGoogle propose une solution de recherche d’entreprise clé en main : Google Enterprise search.Il s’agit d’une appliance reposant sur la technologie de Google en matière de recherched’information.13http://constellio.com/14http://www.sinequa.com/fr/page/produit/produit.aspx
  26. 26. 23Cet outil permet de rechercher dans plusieurs sources d’informations et dispose de plusieursfonctionnalités de recherche comme l’exploitation des métadonnées, la gestion du multilinguisme,des alertes, des suggestions de recherche, prise en compte des problématiques du cloud et de lamobilité…Il permet en outre de bénéficier de la simplicité d’utilisation des produits Google.Par contre, il ne dispose pas de fonctionnalités d’enrichissement et d’analyse des données, ni depossibilités de personnalisation.Pour en savoir plus15AntidotEditeur françaisAntidot propose plusieurs outils de recherche, pour sites web et e-commerce ou pour l’entreprise.ASF@Enterprise est une plateforme qui permet un accès unifié à l’information de l’entreprise etpropose aussi des fonctions collaboratives.Les solutions Antidot disposent également de briques technologiques permettant l’enrichissementdes données.Pour en savoir plus16AutonomyFilliale de Hewlett-PackardAutonomy propose des produits permettant la recherche dans les contenus structurés et nonstructurés, ainsi que la prise en compte du Big Data. Leurs outils disposent de fonctions de rechercheavancées, de fonctionnalités d’analyse des données grâces à des taxonomies ou de l’analyse et de laclassification des données et des possibilités depersonnalisation et de collaboration.Pour en savoir plus1715http://www.google.fr/enterprise/search/campaigns/gsa7.html16http://www.antidot.net/fr/Solutions17http://www.autonomy.com/content/Functionality/administration/index.en.html
  27. 27. 24ArisemEditeur françaisArisem propose des solutions de veille et de moteur de recherche.En matière de moteur de recherche, Arisem ne fournit pas de solution de recherche à proprementparler mais propose des composants logiciels d’analyse et enrichissement de données à associer àd’autres outils pour leur faire bénéficier de fonctionnalités de text-minnig et d’analyse sémantique.Arisem est, entre autre, partenaire de Polyspot.Pour en savoir plus1818http://www.arisem.com/?q=fr/solutions/suite-eidon
  28. 28. 25Pour conclureLes systèmes d’information des entreprises regorgent d’informations et de données peu exploitées,faute de pouvoir y accéder facilement. Les moteurs de recherche d’entreprise se présentent commeLA solution pour mettre en valeur ces données et gagner en efficacité.C’est vrai, ils peuvent rendre de bons services, surtout quand ils disposent de fonctionnalitésadaptées aux besoins des utilisateurs.Mais il ne faut pas perdre de vue que les moteurs de recherche sont avant tout des outils et que leurefficacité dépend en grande partie de l’utilisation qui en est faite.Aussi simple d’utilisation soient-ils, il ne faut pas négliger la formation des utilisateurs, ne serait-ceque pour leur présenter l’outil.Les moteurs de recherche permettent d’accéder à des informations, mais ils ne s’occupent pas de lagestion de ces informations. Nettoyer les entrepôts d’informations pour en retirer les documentsarrivés en fin de vie, éliminer les doublons, renseigner les métadonnées pour qualifier lesinformations… Un moteur de recherche ne dispense pas de toutes ces tâches, même s’il peut, danscertains cas, les faciliter.Pour conclure, je dirais que les moteurs de recherche peuvent s’avérer très utiles mais qu’ils ne sontpas la panacée à tous les problèmes informationnels de l’entreprise. Comme tous les outilsinformatiques, ils ont des limites19.19http://pro.01net.com/editorial/541266/le-moteur-de-recherche-dentreprise/
  29. 29. 26SourcesVoici les sources que j’ai utilisées pour ce dossier. N’hésitez pas à les consulter pour approfondircertains points.BREBION Patrick. La recherche en entreprise se professionnalise.2006. [en ligne] Disponible sur <http://pro.01net.com/editorial/331269/la-recherche-en-entreprise-se-professionnalise/> (Dernièreconsultation le 10/03/2013).DARDANT Frédéric. Le moteur de recherche d’entreprise, quelles cibles ? 2009. [en ligne] Disponiblesur < http://www.cio-online.com/contributions/lire-le-moteur-de-recherche-d-entreprise-quelles-cibles-320.html> (Dernière consultation le 10/03/2013).DEBONNE Eric. Moteur de recherche versus entreprise : Quelles sont les différences des moteurs derecherche Internet et en entreprise ? 2007. [en ligne] Disponible sur <http://www.solaci.com/blog/2007/11/moteur-de-recherche-internet-versus.html> (Dernièreconsultation le 10/03/2013).DEBONNE Eric, « Solutions dans la course à l’innovation » in Veille et recherche d’information sur leweb – Guide pratique Archimag n°37, 2009.FAURE Christian. Choisir un moteur de recherche pour l’entreprise. 2006. [en ligne] Disponible sur <http://www.christian-faure.net/2006/09/10/choisir-un-moteur-de-recherche-pour-lentreprise/>(Dernière consultation le 10/03/2013).FAURE Christian. Quand le « Search » bouscule la « Business Intelligence ». 2007. [en ligne] Disponiblesur < http://www.christian-faure.net/2007/06/07/quand-le-search-bouscule-la-bi/> (Dernièreconsultation le 10/03/2013).FAURE Christian. Quelques évidences sur le moteur de recherche. 2006. [en ligne] Disponible sur <http://www.christian-faure.net/2006/09/23/quelques-vidences-sur-le-moteur-de-recherche/>(Dernière consultation le 10/03/2013).FERRE Jean. Desktop search et Moteur de Recherche d’Entreprise : à ne pas mélanger. 2009. [en ligne]Disponible sur < http://jean-ferre.blogspot.fr/2009/02/desktop-search-et-moteur-de-recherche.html> (Dernière consultation le 10/03/2013).FREYERMUTH Jérôme, GUIZIOU Erwan. Le moteur de recherche : Clé de voûte du systèmed’information. VOIRIN Consultants & Conseils ATELYA, 2012. [en ligne] Disponible sur <http://www.voirin-consultants.com/fr/management/actualites/publications/livres-blancs/le-moteur-de-recherche> (Dernière consultation le 10/03/2013).JUNQ Marie. Bien choisir un moteur de recherche d’entreprise. 2009. [en ligne] Disponible sur <http://pro.01net.com/editorial/402884/bien-choisir-un-moteur-de-recherche-dentreprise/>(Dernière consultation le 10/03/2013).
  30. 30. 27JUNQ Marie. Le moteur de recherche d’entreprise. 2011. [en ligne] Disponible sur <http://pro.01net.com/editorial/541266/le-moteur-de-recherche-dentreprise/> (Dernièreconsultation le 10/03/2013).LEFASSY Olivier. Moteur de recherche transverse d’entreprise : pour plus de pertinence, croisez lesréférentiels ! 2011. [en ligne] Disponible sur < http://lecercle.lesechos.fr/entreprises-marches/high-tech-medias/internet/221136539/moteur-recherche-transverse-entreprise-plus-> (Dernièreconsultation le 10/03/2013).PREVERAUD Jean-François. Sémantique : choisir le bon moteur de recherche pour sonentreprise.2013. [en ligne] Disponible sur < http://www.industrie-techno.com/semantique-choisir-le-bon-moteur-de-recherche-pour-son-entreprise.22866> (Dernière consultation le 10/03/2013).STEPHAN Thibaut. Les 7 critères de choix d’un moteur de recherche. 2013. [en ligne] Disponible sur <http://www.serdalab.com/article/2013/2/25/les-7-criteres-de-choix-dun-moteur-de-recherche-de/>(Dernière consultation le 10/03/2013).VANNESTE Xavier. Le moteur de recherche dans l’entreprise. 2011. [en ligne] Disponible sur <http://blog.xvanneste.com/Lists/Billets/Post.aspx?ID=81> (Dernière consultation le 10/03/2013).La web TV du salon Documation a mis en ligne des conférences thématiques enregistrées lors desdifférents salons. Certaines étaient consacrées à la recherche en entreprise. Elles présentent des casd’utilisations concrets d’outils de recherche en entreprise.L’Accès unifié à l’Information : le nouveau marché du Search en entreprise avec Sinequa etLocarchives. 21/03/2012Disponible sur < http://www.documation.tv/ct-2012-sinequa-et-locarchives-29.html >Organiser l’accessibilité de l’information dans l’entreprise avec Polyspot et Magillem. 21/03/2012Disponible sur < http://www.documation.tv/ct-2012-polyspot-et-magillem-30.html>Un moteur de recherche au centre du poste de travail. Créer une vue à 360° d’un sujet. 24/03/2011Disponible sur < http://www.documation.tv/ct-2011-3-moteur-de-recherche-20.html>

×