Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
454
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Antidot Information FactoryEtes-vous sûr d’exploiter pleinement le potentiel informationnelde votre organisation ? Vos utilisateurs disposent de nombreuses données et L’évolution de votre écosystème nécessite de partager applications. Pourtant ils se plaignent de leur difficulté à avec vos partenaires via Internet des données choisies trouver la bonne information. (catalogues, fiches produit, etc). Pour satisfaire rapidement les demandes fonctionnelles, vous Le schéma directeur du système d’information inclut une devez créer des applications métier agrégeant des données phase d’urbanisation des données afin de repousser les éparses dans et hors de votre entreprise. limites du SOA qui n’autorise que les échanges applicatifs.Aujourd’hui les données de votre organisation sont enfermées dans des applications. Email, serveurs de fichiers, sites web, intranet, GED-CMS, bases relationnelles, CRM, ERP... constituent autant de silos par essence hétérogènes qui imposent des structures et des méthodesd’accès spécifiques.Pour mettre en synergie de façon agile vos différentes sources, il convient de rendre vos données interopérables. Sans modifier l’existant,un outil dédié doit agréger, normaliser, articuler et exposer les données de ces sources. Dès lors, pour chaque nouveau besoin, les don-nées seront déjà disponibles, prêtes à être assemblées selon votre objectif.Antidot Information Factory (AIF) est une solution Antidot Information Factory permet de :logicielle conçue spécialement pour répondre à • capter les données contenues dans les différents silos internes ou externesces enjeux de valorisation et d’exploitation des à votre entreprise ;données non structurées ou semi-structurées. • transformer ces données : nettoyage, normalisation, mise en format cible ;Antidot Information Factory est une «  machine à • les enrichir en les catégorisant selon des plans de classement, en les anno-produire de l’information » qui industrialise le trai- tant automatiquement et en les alignant avec des référentiels métier ;tement des données existantes et la mise à disposi- • relier vos données afin de les mettre en synergie et de faire émergertion automatisée d’informations riches. AIF permet l’information pertinente pour votre métier ;de créer un véritable « espace informationnel en- • publier cette information enrichie selon des protocoles standardisés afinrichi » au service de vos utilisateurs et de vos appli- de les exposer aux applications de votre système d’information, à voscations. utilisateurs ou à vos partenaires.Une solution souple et modulaireAIF s’utilise comme un jeu de construction : pour créer des chaines de traitement,il suffit d’assembler et de paramétrer des modules prêts à l’emploi : • modules de captation qui se connectent aux sources et récupèrent les données ciblées ; • modules de normalisation et de nettoyage des données ; • modules d’enrichissement pour la classification, l’annotation et la mise en relation.Information Factory permet de créer rapidement des chaines de traitement faciles à maintenir : AIF propose un catalogue de plus de 50modules standard. C’est également une plateforme ouverte : grâce à des interfaces accessibles vous pouvez rapidement développervos propres modules pour réaliser des traitements spécifiques.
  • 2. chnologie Technologie Technologie Technologie Antidot Information Factory est une solution logicielle industrielle et puissante qui repose intégralement sur des standards récents et plébiscités Technologies XML (schémas, XSL, XPath, XQuery) ; Web Services de type REST pour les échanges ; technologies du Web Sémantique (RDF, OWL, SPARQL) pour la modélisation et le traitement. En bout de chaine, les données enrichies ou créées peuvent être exposées / publiées de plusieurs façons selon les besoins projet : • génération de fichiers ad hoc ; • injection dans une base relationnelle ; • njection dans un entrepôt RDF offrant une interface d’accès de i type Web Service normalisé (SPARQL) ; •  xposition à travers le composant Antidot Content Repository qui e fournit un service d’accès aux contenus. Bien évidemment en bout de chaine vous pouvez également connecter le moteur de recherche AFS afin d’offrir à vos utilisateurs un service de recherche performant et riche sur l’ensemble des informations. Architecture Antidot Information Factory est architecturé autour de 3 composants : • Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement et qui fournit les fonctions essentielles : récupération et transmission des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de l’implémentation du stockage. • Le scheduler est le chef d’orchestre : il construit dynamiquement les chaines de traitements déclarées, lance les instances des modules, pilote l’avancement des documents dans la chaine. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs sur les traitements en cours. • Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les chaines de traitement. Modélisation des unités documentaires Une ressource documentaire est dans la plupart des cas composée Et la richesse du corpus et des documents ne s’arrête pas là : de plusieurs éléments : •  es modules de traitement d’AIF génèrent des données L •  n « fichier bureautique » est une unité documentaire U supplémentaires qui enrichissent le document initial : sujets constituée du fichier lui-même, mais également de extraits, entités nommées, annotations sémantiques vers des ses métadonnées (serveur et répertoire de stockage, référentiels, liens vers des documents similaires … propriétaire, auteur, date de création, …), de ses droits •  haque document source peut exister en plusieurs versions C d’accès, etc. et il est nécessaire de regrouper ces versions dans la même •  e document représentant une page Web peut comporter L unité documentaire. le code source HTML, les commentaires et les informations •  e nouvelles unités documentaires peuvent être créées à D des réseaux sociaux (le « I like » de Facebook par exemple), partir de données source. les métadonnées extraites des balises RDFa, ou encore une vignette de la page. Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et le stockage des unités documentaires.
  • 3. Innovation Innovation Innovation Innovation In En effet, Antidot Information Factory ne se contente pas de travailler sur des fichiers. Chaque document est un objet composite, constitué de plusieurs couches (layers) qui représentent les différents aspects de ce document : contenu, méta données, vignette, signature sémantique… De nouvelles couches peuvent être créées dynamiquement par des modules réalisant des traitements spécifiques (ex : extraction des entités nommées du document). Chaque couche intègre un système de gestion des révisions si bien qu’une même vue du document peut exister en plusieurs versions, sans avoir à dupliquer le document. Le document stocke pour chaque couche les différentes versions ainsi que des indicateurs techniques (nombre de fois qu’une version a été obtenue, etc). La création, la lecture, la suppression des unités documentaires et de couches ou de versions sont des opérations rendues très simples grâce à des méthodes de haut niveau fournies par le framework AIF qui permettent de masquer la complexité technique et de se concentrer sur les besoins fonctionnels. Pour cela, le framework interagit avec le Document Manager qui est en charge du stockage des unités documentaires. La complexité du stockage physique est prise en charge de façon centralisée, garantissant des performances et une scalabilité optimales avec une administration simplifiée. Intégration à votre environnement Conçue pour être exploitée dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de protection des données, de sécurité applicative et de montée en charge. Antidot Information Factory propose en standard une bibliothèque de plus de 50 modules prêts à l’emploi, pour créer les chaînes de captation et de traitement : •  onnecteurs en charge de la captation des données dans les sources en mode pull - AIF va chercher les données en « crawling » C - comme en mode push - les données sont envoyées à AIF - pour des traitements synchrones ou asynchrones. Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), accès aux bases de données (Oracle, SQLServer, Sybase, MySQL, PostgreSL …), annuaires (LDAP, AD), serveurs de fichiers, GED (par CMIS), solutions de publication Web (CMS), entrepôts documentaires (OAI)... • Filtres de traitement pour les manipulations de données : »» gestion des archives (zip, tar, …) pour la réception des données groupées. »»  anipulation des données au format XML et des données structurées : validation, transformation, fusion, découpage, m dédoublonnage… »» normalisation de champs : dates, noms, codes… »» alignement sur des référentiels métier »» classification automatique »» connexion à des produits de text mining tiers : Arisem, Gate, Temis »» traitements linguistiques d’extraction de concepts ou de mise en relation des documents.
  • 4. Exemple d’application : Linked Data - Open DataLe Linked Data (Web de données) décrit une méthode de publication les données structuréesde telle façon que ces données puissent être liées entre elles et ainsi devenir plus utiles.A l’instar du Web qui relie les pages Web, le Linked Data permet de lier des données au niveaule plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelledu Web qui devient alors une immense base de données distribuée.Le Web de données utilise les normes du Web Sémantique qui ont été développées par leW3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF,interrogation en SPARQL, échanges de règles en RIF.Antidot Information Factory intègre l’ensemble de ces technologies de façon native ce qui en fait l’outil idéal pour tous vos projetsd’exposition et de partage des données, que ce soit de façon publique sur le Web, comme de façon privée au sein de l’entreprise etavec vos partenaires. AIF permet en effet de sélectionner les données à publier au sein de vos différentes sources, de les normaliseret de les unifier, puis de les publier dans un format adapté. Ainsi, plus besoin de définir des flux et des API spécifiques, ni de concevoirdes mécanismes complexes à base de Web Services ad hoc ou d’échange de fichiers difficiles à suivre et à maintenir, car AIF intègrel’ensemble des composants nécessaires à l’exposition des données.De la même façon, AIF vous permet de récupérer des données externes et de les intégrer dans votre système d’information pourl’enrichir et créer une valeur supplémentaire pour vos utilisateurs. Avez-vous déjà songé à la puissance qu’apportera l’ajout des donnéesde Wikipédia ou des statistiques de l’Insee à vos données ? Tel client vend x produits sur Angoulême. Mais combien y a-t-il d’habitants àAngoulême ? Combien de jours de pluie par an ? Et si vous pouviez intégrer toutes les données nécessaires à la prise de décision dansvos applications ?L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise à rendre accessibles les données sans mécanisme de sécuriténi de droit afin de promouvoir leur réutilisation et d’encourager le développement d’applications nouvelles. De par ses objectifs, il anaturellement rencontré et adopté les principes de Linked Data. A cet égard, AIF s’impose comme une solution mature pour les projetsde Données Ouvertes.Cas client : Isidore - TGE Adonis / CNRSLe Très Grand Equipement Adonis du CNRS est destiné à offrir aux Sciences Humaines etSociales (SHS) les moyens dont elles ont besoin pour assurer leur rayonnement : conservationpérenne des données, diffusion des savoirs, partage. Isidore en est le composant clé : ils’agit de la plateforme d’agrégation et d’enrichissement, le moteur de recherche et dediffusion de toutes les données SHS.Isidore a été réalisé à partir des solutions Information Factory (AIF) et Finder Suite (AFS) d’Antidot.Isidore agrège plus de 750 sources de données différentes de formats variés : entrepôts de données semi-structurées (thèses, fonds multimédia, livres), sites Web, blogs et carnets de recherche, flux RSS. Toutes cesdonnées sont par nature structurellement et qualitativement très hétérogènes.Information Factory permet de collecter les contenus des 750 silos représentant plus d’un milliond’éléments, puis de nettoyer et normaliser toutes les données, de les enrichir et de les aligner sur desréférentiels partagés par la communauté scientifique. Ce sont en tout plus de 30 traitements distincts quisont réalisés par autant de modules AIF sur chaque document collecté.Les données enrichies sont rendues accessibles à travers un moteur de recherche sémantique offrant des fonctionnalités riches (AFS),ainsi qu’un point accès SPARQL afin d’exposer les données selon les principes de l’Open Data.Le cas client Isidore est décrit plus en détail dans un document dédié, avec un focus particulier sur quelques traitements clés réaliséspar Information Factory tels que la classification de l’ensemble des données selon plusieurs plans de classements (taxonomies) métier. www.antidot.net Paris | Lyon | Aix-en-Provence +33 (0)4 72 76 03 80 info@antidot.net