Advertisement

Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007

Chief Technology Officer at Arkangel, Paris-Saclay
May. 17, 2017
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Advertisement
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007
Upcoming SlideShare
Rapport de projet shellRapport de projet shell
Loading in ... 3
1 of 94
Advertisement

More Related Content

Advertisement

Nabil bouzerna - Mémoire d'ingénieur / Master Thesis ENSIIE - ADVESTIGO - 2007

  1. 1/94 MÉMOIRE présenté en vue d’obtenir le DIPLÔME D'INGÉNIEUR ENSIIE, SPÉCIALITÉ INFORMATIQUE en partenariat avec l’ITII Ile-de-France Rapport Final Nabil BOUZERNA ALGORITHME GÉNÉTIQUE ET TRAITEMENT LINGUISTIQUE POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS EN ENVIRONNEMENT WEB / GENETIC ALGORITHM AND NATURAL LANGUAGE PROCESSING TO RETRIEVE PROTECTED VIDEO CONTENT ON THE WEB Tuteur du projet : M. Jean-Pierre FRANZINETTI, Chef de projet ADVESTIGO S.A. Soutenu le 19 décembre 2007 devant le jury, M. Gérard BERTHELOT, Professeur des Universités ENSIIE, Président M. Xavier URBAIN, Maître de conférences ENSIIE, Examinateur M. Jean-Pierre FRANZINETTI, Chef de projet ADVESTIGO S.A., Examinateur
  2. 2/94 ENSIIE FICHE SIGNALETIQUE Projet d’Ingénieur ENSIIE, spécialité « Informatique » ALGORITHME GÉNÉTIQUE ET TRAITEMENT LINGUISTIQUE POUR LA RECHERCHE DE CONTENUS VIDEOS PROTÉGÉS EN ENVIRONNEMENT WEB / GENETIC ALGORITHM AND NATURAL LANGUAGE PROCESSING TO RETRIEVE PROTECTED VIDEO CONTENT ON THE WEB Auteur / Author: Nabil BOUZERNA Tuteur / Tutor: M. Jean-Pierre FRANZINETTI, Chef de projet, ADVESTIGO S.A. Centre d’intérêts : Intelligence artificielle, système de recherche d’information, reformulation de requête, algorithme génétique, traitement automatique des langues. Index terms: Artificial intelligence, information retrieval system, query reformulation, genetic algorithm, natural language processing. Résumé : Ce mémoire présente un système de recherche de contenus vidéos protégés mis en ligne sur le Web fondé sur l’analyse des échanges textuels présent sur les blogs et forums. Cette analyse textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3 profils : statistique, linguistique et descriptif des documents. Puis ce système associe une approche de reformulation de requête (boucle de rétroaction de pertinence) à partir de documents trouvés et les techniques de l’algorithmique génétique pour mimer le comportement du cerveau humain dans le choix des termes de requêtes les plus pertinents. Abstract: This master thesis presents a search system to retrieved protected video content published illegally on the Web thanks to analysis of textual exchanges present on blogs and forums. This textual analysis is materialized by a lexical fingerprint which is composed according to 3 profiles: statistical, linguistic and descriptive of the documents. Then this system combines a query reformulation approach (relevance feedback loop) from found documents and techniques of genetic algorithmic to mimic the behavior of the human brain in the choice of the most relevant query terms.
  3. 3/94 SOMMAIRE I. PREAMBULE ET ENVIRONNEMENT .................................................................................................................. 11 1. OBJET DU DOCUMENT ................................................................................................................................................ 11 2. PRESENTATION ENTREPRISE ....................................................................................................................................... 12 Historique et activité...................................................................................................................................................... 12 AdvestiSEARCH™ ........................................................................................................................................................ 12 Le pôle PSO (Professional Services Organization)........................................................................................................ 12 3. CONTEXTE SOCIAL ET PROBLEMATIQUE INDUSTRIELLE ............................................................................................... 13 UGC : User Generated Content ..................................................................................................................................... 13 Problématique pour l’industrie des médias.................................................................................................................... 13 Objet du projet d’Ingénieur............................................................................................................................................ 13 4. CONTEXTE SCIENTIFIQUE DU PROJET .......................................................................................................................... 14 Présentation synthétique du projet PIITHIE .................................................................................................................. 14 Partenaires développeurs................................................................................................................................................................ 15 Partenaire valideur ......................................................................................................................................................................... 15 Périmètre du projet d’Ingénieur au sein du projet PIITHIE........................................................................................... 15 II. ÉTAT DE L’ART ........................................................................................................................................................ 16 1. RECHERCHE D’INFORMATION (RI) ............................................................................................................................. 16 Présentation du domaine................................................................................................................................................ 16 Modèles conceptuels de la Recherche d’Information .................................................................................................... 16 Modèle vectoriel............................................................................................................................................................ 17 Algorithme génétique .................................................................................................................................................... 19 Qu’est ce qu’un algorithme génétique ? ......................................................................................................................................... 19 Propriétés et concepts de base des algorithmes génétiques............................................................................................................. 19 2. TRAITEMENT AUTOMATIQUE DES LANGUES (TAL) ................................................................................................... 20 Intelligence Artificielle et Linguistique ......................................................................................................................... 20 Reconnaissance d’entités nommées............................................................................................................................... 21 Analyse syntaxique de surface (ou morpho-syntaxique) ............................................................................................... 21 3. ÉVALUATION DES SYSTEMES DE RECHERCHE D’INFORMATION ................................................................................... 22 III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES.......................................................................... 23 1. ANALYSE DES COMPORTEMENTS, HYPOTHESES ET DEMARCHE GENERALE. .................................................................. 23 2. ANALYSE ET CONCEPTION DU SYSTEME DE RECHERCHE D’INFORMATION : SPY-DER.................................................. 24 Définition des besoins et contraintes du SRI ................................................................................................................. 24 Modélisation UML et conception architecturale orientée objet ..................................................................................... 26 Exigences du système : Diagramme des cas d’utilisation............................................................................................................... 26 Processus de haut niveau du système : diagramme d’activité de l’expansion de requêtes. ............................................................. 27 Architecture physique des composants : Web Services ................................................................................................. 28 Prolongement des travaux d’analyses et conception du SRI.......................................................................................... 29 IV. REALISATIONS TECHNIQUES : L’EMPREINTE LEXICALE.................................................................... 30 1. POINTS DE METHODE.................................................................................................................................................. 30 Représentation numérique des textes : modèle vectoriel. .............................................................................................. 30 Vecteur de fréquence locale........................................................................................................................................... 30 Fréquences des occurrences de mots dans le bloc texte.................................................................................................................. 30 Méthode des segments répétés ....................................................................................................................................................... 31 Traitement linguistique : analyse morphosyntaxique..................................................................................................... 32 Extraction d’entités nommées ........................................................................................................................................................ 32 Retrait des mots vides et extraction des mots pleins....................................................................................................................... 33 Extraction des termes ..................................................................................................................................................................... 34 Extraction de construction véhiculant une information quantitative............................................................................................... 34 Extraction de construction véhiculant une information temporelle................................................................................................. 35 Implantation future : moteur de règle XML .................................................................................................................................. 35 Approche descriptive : structure HTML........................................................................................................................ 35 Heuristiques d’affaiblissement du bruit.......................................................................................................................................... 36 Mesures de similarités et distances entre vecteurs ......................................................................................................... 37 Métrique ou distance inter-objet..................................................................................................................................................... 38 Indice ou coefficient de similarité .................................................................................................................................................. 38 Schéma de pondération.................................................................................................................................................. 38 Ressources et outils linguistiques .................................................................................................................................. 39
  4. 4/94 2. ÉVALUATION ET PROLONGEMENT DES TRAVAUX ........................................................................................................ 39 Protocole d’évaluation................................................................................................................................................... 39 Évaluation de l’empreinte lexicale................................................................................................................................. 40 Prolongement des travaux de l’empreinte lexicale ........................................................................................................ 41 V. REALISATIONS TECHNIQUES : EXPANSION DE REQUETES ...................................................................... 42 1. PROCESSUS GENETIQUE SPECIFIQUE A LA REFORMULATION DE REQUETE. .................................................................... 42 Définition du problème d’optimisation.......................................................................................................................... 42 Fonction d’injection de pertinence................................................................................................................................. 42 Modélisation du problème en algorithme génétique ...................................................................................................... 42 Codage des solutions...................................................................................................................................................................... 42 Choix de la population initiale ....................................................................................................................................................... 43 Choix des opérateurs...................................................................................................................................................................... 43 Mode d’application des opérateurs................................................................................................................................................. 44 Renouvellement des générations .................................................................................................................................................... 45 Arrêt de l’évolution........................................................................................................................................................................ 46 Implantation applicative de l’algorithme génétique........................................................................................................................ 46 2. REALISATION DES METAMOTEURS .............................................................................................................................. 47 Nombre de termes des requêtes ..................................................................................................................................... 47 Implantation du module de gestion des moteurs de recherche....................................................................................... 48 3. IMPLANTATION DU MODULE DE SEGMENTATION FORUM ET BLOGS EN BLOC DE TEXTE ................................................. 50 4. RAPATRIEMENT LOCAL DES FICHIERS VIDEOS SUSPECTS (FORMAT FLV) ..................................................................... 53 5. ÉVALUATION DES RESULTATS DE L’ENRICHISSEMENT DE REQUETE.............................................................................. 53 Évaluation préliminaire sur un corpus d’actualité en français. ...................................................................................... 54 Évaluation préliminaire ciblée sur les blogs et la plateforme UGC YouTube en anglais............................................... 57 6. RETROSPECTIVE DES REALISATIONS TECHNIQUES DU SRI SPY-DER............................................................................. 60 Boucle de rétroaction de pertinence............................................................................................................................... 60 Empreinte lexicale et extraction de terminologie ........................................................................................................................... 60 Enrichissement à partir des documents trouvés.............................................................................................................................. 60 Limites du SRI ............................................................................................................................................................................... 60 Conclusion ..................................................................................................................................................................................... 60 VI. APTITUDES ET COMPETENCES NON TECHNIQUES ................................................................................ 61 1. MODE PROJET ET RELATIONS HUMAINES..................................................................................................................... 61 Communication ............................................................................................................................................................. 61 Communication en interne ............................................................................................................................................................. 61 Communication externe ................................................................................................................................................................. 61 Développement des aptitudes personnelles.................................................................................................................... 62 Connaissance de soi ....................................................................................................................................................................... 62 Adaptabilité ................................................................................................................................................................... 63 Singularité des partenaires.............................................................................................................................................................. 63 Recherche du compromis minimal................................................................................................................................................. 64 2. RESOLUTION DES PROBLEMES ET PRISES DE DECISIONS ............................................................................................... 64 Recherche d’information ............................................................................................................................................... 65 Abstraction et modélisation ........................................................................................................................................... 65 Choix d’implantation..................................................................................................................................................... 66 Choix du modèle conceptuel en RI : prise de risque et innovation ................................................................................ 67 Planification et gestion du quotidien.............................................................................................................................. 68 Engagement et responsabilité ........................................................................................................................................ 68 3. ENJEUX STRATEGIQUES SOUS CONTRAINTES ECONOMIQUES ET JURIDIQUES ................................................................. 69 Suivi budgétaire et gestion des ressources..................................................................................................................... 69 Obligations et contraintes légales .................................................................................................................................. 70 Contraintes légales spécifiques au projet et à l’entreprise : propriété intellectuelle........................................................................ 70 Les droits d’auteur en France ......................................................................................................................................................... 71 Droit des exploitants de base de données ....................................................................................................................................... 72 Mondialisation croissante de la propriété intellectuelle et divergence............................................................................................ 72 Intégration des orientations stratégiques et internationales............................................................................................ 73 VII. CONCLUSION ET PERSPECTIVE.................................................................................................................... 75 1. BILAN........................................................................................................................................................................ 75 Savoir-faire.................................................................................................................................................................... 75 Savoir-être ..................................................................................................................................................................... 75 2. PERSPECTIVES ........................................................................................................................................................... 76 VIII. ANNEXES............................................................................................................................................................... 78 1. REFERENCES BIBLIOGRAPHIQUES ............................................................................................................................... 78 2. PRESENTATION DES LOTS DU PROJET PIITHIE............................................................................................................ 79 Vue globale des lots....................................................................................................................................................... 79 Lot 3.1 : Empreinte lexicale d’un document.................................................................................................................. 80 Lot 3.2 : Extraction de requêtes optimisées pour les moteurs du Web........................................................................... 80 3. ARCHITECTURE GENERALE DETAILLEE ....................................................................................................................... 81
  5. 5/94 Synopsis de l’architecture générale du Spy-der ............................................................................................................. 81 4. MESURES ET DISTANCES IMPLANTEES POUR L’EVALUATION........................................................................................ 89 5. « XML BLOCK FACTORY »........................................................................................................................................ 91 6. ÉVALUATION DE L’EXPANSION DE REQUETES.............................................................................................................. 92 7. GESTION DE BUDGET.................................................................................................................................................. 93 8. PLANNING PREVISIONNEL DETAILLE ........................................................................................................................... 94 FIGURES Figure 1 - Exemple de vecteur dans un espace à 2 dimensions. .............................................. 18 Figure 2 - Structure générale d'un algorithme génétique ......................................................... 19 Figure 3 - Exemple d'analyse syntaxique de surface................................................................ 21 Figure 4 - Diagramme de cas d'utilisation du SRI ................................................................... 26 Figure 5 - Diagramme d'activité de l'expansion de requêtes.................................................... 27 Figure 6 - Architecture conceptuelle des Web Services .......................................................... 29 Figure 7 - Résultat de l'heuristique de réduction du bruit ........................................................ 37 Figure 8 - Normalisation des vecteurs de fréquence................................................................ 39 Figure 9 - Exemples des prétraitements appliqués aux articles de presse................................ 40 Figure 10 - Implantation de l’empreinte lexicale et de l’aspirateur « Google News » ............ 41 Figure 11 - Implantation de l'algorithme génétique ................................................................. 46 Figure 12 - Boucle de rétroaction de pertinence ...................................................................... 47 Figure 13 - Pourcentage de visites engendrées en fonction du nombre de mots par requête... 48 Figure 14 - Pourcentage de pages visitées en fonction du nombre de mots par requête.......... 48 Figure 15 - Diagramme de classe du « package » métamoteur................................................ 49 Figure 16 - Fichier XML du contexte du SRI Spy-der ............................................................ 50 Figure 17 - Fichier XML de description des balises html pour la segmentation de forum...... 51 Figure 18 - Fichier XML de description des balises html pour la segmentation de blog ........ 52 Figure 19 - Descriptions des patrons de lien (URL) vers les sites UGC.................................. 52 Figure 20 - Aspiration des fichiers vidéos sur les sites UGC................................................... 53 Figure 21 - Document de référence de la recherche................................................................. 54 Figure 22 - Base de données d'actualités.................................................................................. 55 Figure 23 - Stockage des résultats des recherches ................................................................... 56 Figure 24 - Comparaison des stratégies d'évolutions : (S1) vs (S2) ........................................ 57 Figure 25 - Segmentation de blog ............................................................................................ 58 Figure 26 - Base de données pour l’évaluation blog/UGC ...................................................... 58 Figure 27 - Limitation par le moteur de recherche de Google Blog en phase d’évaluation .... 59 Figure 28 - Contournement des limitations de Google Blog par voie logicielle...................... 59 Figure 29 - Vue globale des lots du projet PIITHIE ................................................................ 79 Figure 30 - Symbolique du Web Services................................................................................ 81 Figure 31 - Amorce du système ............................................................................................... 81 Figure 32 - Calcul des empreintes numériques ........................................................................ 82 Figure 33 - Génération de la requête initiale............................................................................ 83 Figure 34 - Traitements post et pré interrogation des moteurs de recherche ........................... 83 Figure 35 - Aspiration et analyse des pages web de blog et forum.......................................... 84 Figure 36 - Comparaison d’empreintes numériques lexicales ................................................. 84 Figure 37 - Aspiration d'une vidéo suspecte depuis les sites UGC.......................................... 85 Figure 38 - Comparaison empreintes numériques vidéos ........................................................ 86 Figure 39 - Incident et rappel d'empreinte lexicale.................................................................. 86 Figure 40 - Injecteur de pertinence et boucle de rétroaction.................................................... 87 Figure 41 - Architecture générale détaillée.............................................................................. 88 Figure 42 - Outil "XML Block Factory".................................................................................. 91 Figure 43 - Planning prévisionnel détaillé ............................................................................... 94
  6. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 6/94 TABLES Tableau 1 - Vue système et environnement .......................................................................................... 25 Tableau 2 - Coefficient des constructions et termes extraits................................................................. 38 Tableau 3 - Nombre de mots par requête en Europe (à gauche) et au Canada (à droite)...................... 47 Tableau 4 - Budget prévisionnel ........................................................................................................... 69 Tableau 5 - Tableau de suivi : statut du budget au 30/11/2007............................................................. 70 Tableau 6 - Mesure de similarité entre vecteurs de documents textuels. .............................................. 89 Tableau 7 - Distance entre des vecteurs de documents textuels............................................................ 90 Tableau 8 - Liste détaillée des équipements.......................................................................................... 93 Tableau 9 - Liste détaillée des documentations..................................................................................... 93 EQUATIONS Équation 1 - Mesure du cosinus ............................................................................................................ 89 Équation 2 - Coefficient de Dice........................................................................................................... 89 Équation 3 - Indice de Jaccard .............................................................................................................. 89 Équation 4 - Distance entropique .......................................................................................................... 90 Équation 5 - Distance de Kullback-Leibler........................................................................................... 90 Équation 6 - Distance du Chi2 .............................................................................................................. 90 Équation 7 - Distance de Minowski ...................................................................................................... 90 Équation 8 - Distance Euclidienne ........................................................................................................ 90 Résumé Ce mémoire présente les travaux effectués dans le cadre du projet PIITHIE : Plagiat et Impact de l'Information Textuelle recHerchée dans un contexte Interlingue. Ce projet s´inscrit dans un mouvement de plus en plus important de maîtrise de l’information numérique diffusée sur le Web. L’objet de mes travaux s’attache plus particulièrement à un phénomène de société que constitue les plateformes de partage vidéos, identifiées sous l’acronyme de l’anglicisme User Generated Content : UGC. Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de plus en plus d'ampleur. Or, une des nouvelles composantes du web consiste à faire de l'internaute le rédacteur, le concepteur et l'acteur du concept. C’est de cet engouement mondial qu’est né l’inquiétude de l’industrie des médias. En effet, les UGC gèrent plusieurs dizaines de milliers de nouveau contenu vidéo mis à disposition tous les jours. Ils risquent en permanence d’héberger et de distribuer de façon involontaire des contenus protégés par le droit d’auteur. Ce projet d’ingénieur vise essentiellement la réalisation d’un Système de Recherche d’Information (SRI). Il est dédié à la détection de contenu vidéo protégé sur ces plateformes de partage vidéo dans le cadre d’une application de surveillance et de mesure.
  7. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 7/94 Pour cela, nous émettons l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou non, est accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement décrit. Les espaces de discussions entre internautes autour d’une thématique, à l’instar des forums et blogs, constituent des lieux propices à cette publicité. La fouille de ces lieux par des traitements automatisés constituera un des fondements de notre SRI. L’un des enjeux de la linguistique appliquée à l’informatique est d’améliorer la précision et le rappel dans les outils de recherche [a][b]. Cette connaissance supplémentaire intégrée dans l’empreinte lexicale, permet d’améliorer l’évaluation de la proximité entre deux contenus textuels tout en tenant compte de la description des documents Web et des aspects statistiques classiques. Ces 3 profils de l’empreinte lexicale constituent le second fondement de notre SRI. La pléthore de littérature, autour des SRI, fait émerger l’apprentissage comme une dimension incontournable du processus de recherche. Pour appréhender cette dimension, les Algorithmes Génétiques (AG) constituent un cadre formel ad hoc pour la modélisation de l’apprentissage dans un SRI. Les deux propriétés fondamentales d’un AG, que sont le « parallélisme implicite » et l’ « équilibre entre exploitation et exploration », justifient ce choix. L’application d’un AG cible deux objectifs d’optimisations dans ces travaux :  Problème du passage à l’échelle : optimiser l’exploration et le traitement d’un grand volume d’informations que constitue le Web. L’une des premières étapes, nécessaire aussi à l’amélioration des recherches, passe par l’analyse de la composition de ces textes et sa prise en compte dans le traitement linguistique. Comme le relève Jean Véronis « jusqu’ici , les systèmes de TAL ont presque tous “ fait comme si ” les documents étaient du texte brut ». Naturellement, la structure des documents est très importante dans des documents complexes comme les blogs et forums.  Représentation optimale des requêtes posées aux moteurs de recherche. Dans ce domaine, l’une des stratégies les plus largement adoptées est la reformulation de requête [3]. En s’inspirant des travaux de Mohand Bouganhem et Linda Tamine [2] sur la « Reformulation automatique de requête basée sur l'algorithmique génétique » et de Filippo Menczer [1]. L’originalité et la finalité étant d’effectuer une reformulation directe (sans intervention de l’utilisateur) dans un contexte local, c'est-à-dire, basé sur les résultats de la recherche en cours. Ce processus génétique qui guide l’exploration de l’espace de recherche constitue le troisième et dernier fondement de notre SRI. L’ensemble de ces techniques combinées permet d'améliorer les performances et d'accroître le potentiel de recherche des outils de la société Advestigo en quantifiant le piratage sur les plateformes UGC. La finalité étant de fournir un service de recherche de contenus aux sociétés d'auteurs et aux majors de l'industrie audiovisuelle inquiètent du piratage des œuvres dont elles détiennent les droits. Enfin, le contexte relationnel du projet PIITHIE fut pour moi inédit du fait de ses parties prenantes : la coopération entre entité publique et privée avec une exigence d’innovation. Ce contexte suppose une adaptation aux spécificités de chaque acteur pour que chacun travaille dans un esprit d'intérêt général de tous les acteurs. Cela suppose un certain degré de confiance et de compréhension. Empreinte lexicale : [a] Claude de Loupy, Eric Crestan ; SRI et traitement du langage naturel ; dans l’ouvrage Systèmes de recherche d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004. [b] Fidelia Ibkwe-Sanjuan ; Chapitre 8 – Catégorisation des textes et extraction d’information ; dans l’ouvrage Fouille de textes : méthodes, outils et applications ; Éditions Hermès ; 2007. Expansion de requête et algorithme génétique : [1] Filippo Menczer; Complementing search engines with online web mining agents ; dans l’article de presse Decision Support Systems, Elsevier Science B.V. ; Department of Management Sciences, The University of Iowa, USA ; 2002 [2] Mohand Boughanem, Linda Tamine ; Connexionnisme et génétique pour la recherche d’information ; dans l’ouvrage Systèmes de recherche d’information, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004.
  8. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 8/94 [3] Patrice Bellot ; Classification de documents et enrichissement de requêtes ; dans l’ouvrage Méthodes avancées pour les systèmes de recherche d’informations, sous la direction de Majid Ihadjadene ; Éditions Hermès ; 2004. Remerciements Je tiens à exprimer tous mes remerciements à Marc-Michel Pic pour m'avoir permis de réaliser ma formation en partenariat avec son entreprise Advestigo et pour le crédit qu’il m’a accordé en me confiant la coordination du projet PIITHIE. Je remercie vivement Jean-Pierre Franzinetti pour sa disponibilité et sa bienveillance pendant ces deux années. J’exprime aussi ma gratitude à Xavier Urbain pour ses conseils utiles (en particulier pour ce mémoire) et son exigence qui a su me dynamiser. Naturellement je remercie ma famille, et en particulier mon père et Salima pour avoir relu mon travail avec attention. Je tiens à remercier également Mehdi Ali Larbi et Houari Lakelkal pour les conseils et les relectures qui m'ont été utiles.
  9. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 9/94 Tuteur pédagogique Xavier URBAIN Maître de conférences Tuteur en entreprise Jean-Pierre FRANZINETTI Chef de projet - Ingénieur Page 9 Date 30/09/07 Auteur Nabil BOUZERNA ENSIIE FIP XI 2006/2007 Validation entreprise Jean-Pierre FRANZINETTI Période 2nd semestre 2007 Algorithme génétique et traitement linguistique pour la recherche de contenus vidéos protégés en environnement Web Type de document : Mémoire d’Ingénieur Titre du document : Algorithme génétique et traitement linguistique pour la recherche de contenus vidéos protégés en environnement Web. Date du stage : du 09/01/2006 au 20/12/2007 Lieu du stage : ADVESTIGO S.A. 1 Rue Royale, Bureaux de la Colline, Bât. D, 9ième étage. 92213 Saint-Cloud, France Période d’activité : du 01/07/2007 au 20/12/2007 Descriptif : Ce mémoire présente un système de recherche de contenu vidéo protégé mis en ligne sur le Web fondé sur l’analyse des échanges textuels présents sur les blogs et forums. Cette analyse textuelle est matérialisée par une empreinte lexicale qui se raffine selon 3 profils : statistique, linguistique et descriptif des documents. Puis ce système associe une approche de reformulation de requête à partir de documents trouvés et les techniques de l’algorithmique génétique. Diffusion : Organisation ou Entreprise Destinataires Nombre de copies Pour Action Info ENSIIE Xavier URBAIN 1 X ADVESTIGO Jean-Pierre FRANZINETTI 1 X
  10. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 10/94 ENSIIE Administration ENSIIE 2 X ADVESTIGO Administration ADVESTIGO 1 X
  11. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 11/94 2006/2007 11/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement I. PREAMBULE ET ENVIRONNEMENT 1. Objet du document Dans le cadre de mon projet d’ingénieur à l’ENSIIE, je présente dans ce mémoire la teneur de mes travaux en entreprise. Ces travaux consistent à réaliser un Système de Recherche d’Information pour la détection de contenu audiovisuel protégé dans un environnement Web. Il débute au sein de cette section, par une briève description de mon environnement de travail. Ce dernier est constitué par la société Advestigo, du service de surveillance AdvestiSEARCH™ et du pôle dans lequel j’évolue qui est en charge d’exploiter ce service. Cette description sera suivie par une présentation du contexte social et de la problématique industrielle induite. Enfin, il décrit le projet de recherche plus vaste auquel s’intègre mon projet d’ingénieur : le projet PIITHIE. Dans une deuxième section, il présente les résultats des travaux préliminaires de documentation dans une synthèse. Cet état de l’Art reprend succinctement les principaux concepts utiles à la compréhension des travaux de réalisation du SRI. Puis, dans la troisième section, il expose le phénomène auquel s’adresse le SRI. Il s’ensuit une analyse des comportements et usages des internautes utiles à la fouille. Enfin il présente les résultats de travaux d’Analyse et de Conception du SRI couvrant les techniques et méthodes usuelles en maîtrise d’ouvrages des Systèmes d’Informations : définition des besoins, contraintes du système, modélisation et spécification d’une architecture. Dans une quatrième section plus technique, il aborde la mise en œuvre d’une empreinte lexicale en développant les points de méthodes clés dans sa réalisation. Il termine en présentant les principaux apports de cette nouvelle implantation au travers d’une évaluation. Dans une cinquième section, également d’un point de vue maîtrise d’œuvre, il développe un élément central de mes travaux : la reformulation et l’expansion de requêtes guidées par un processus génétique. À l’instar de la section précédente, une présentation et une évaluation des apports clôturent cette section. La sixième et dernière section est un regard introspectif sur des difficultés rencontrées dans mes missions d’interface au sein du projet PIITHIE. Elles sont développées dans un premier temps selon une dimension relationnelle fondamentale dans le fonctionnement en projet. Dans un second temps, les méthodologies et organisations mises en œuvre pour appréhender la complexité de ces travaux justifient mes décisions. Enfin, il remet en perspective mes travaux sous des contraintes budgétaires et légales, ainsi que mon mode d’appropriation des orientations stratégiques d’Advestigo dans mes choix d’actions. Note d’avancement du projet PIITHIE au 01/12/2007: À ce jour, le projet PIITHIE connaît un retard de six mois par rapport à la planification prévisionnelle. Concrètement, les lots « Empreinte lexicale d’un document (Lot 3.1) » et « Extraction de requêtes optimisées pour les moteurs du Web (Lot 3.2) » n’ont pas encore été abordés à ce jour. Les réalisations décrites demeurent le fruit exclusif de mes travaux afin de répondre à un besoin urgent et clairement identifié pour mon entreprise. Et, en parallèle, ces deux lots constituent une problématique passionnante et complexe pour mon projet d’ingénieur.
  12. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 12/94 2006/2007 12/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 2. Présentation entreprise Historique et activité Advestigo a été créée en octobre 2002 par le Dr Hassane Essafi et le Dr Marc-Michel Pic, tous deux issus de la recherche publique au CEA-LETI. Aujourd’hui, Advestigo est un acteur français majeur de la "Protection d'Actifs Numériques". Sa technologie unique et brevetée de calcul d'empreintes numériques (la "Théraographie™ ") permet de reconnaître des copies exactes ou approchées, totales ou partielles d'un contenu original. AdvestiSEARCH™ Advestigo est l’un des trois lauréats 2006, pour son système AdvestiSEARCH™ , du grand prix européen IST (Technologies de la société de l'information) qui récompense chaque année les entreprises les plus innovantes dans l'univers de la société de l'information. Pour répondre à la problématique de piratage de leurs catalogues dont souffrent les industries de média (musique, cinéma, jeu et presse en ligne), Advestigo a développé une gamme de services qui permet de mesurer le piratage d’une œuvre ou d’un catalogue de titres, mais aussi de surveiller et de défendre ce patrimoine commercial. Cette gamme de solutions s’étend de l’étude statistique générale (morceaux de musique ou films, séries télévisuelles ou jeux vidéo) ou à façon (surveillance d’un catalogue de titres particulier) jusqu’à la détection des machines mettant en partage des contenus protégés ou illégaux. AdvestiSEARCH™ est un service destiné à repérer automatiquement les contenus plagiés ou piratés, pour forcer à la régularisation, au respect des droits et pour aider, grâce à l'accumulation de preuves, d'éventuelles actions en justice. Il s'agit d'un système de reconnaissance de contenus numériques multimédias (audio, vidéo, image et texte). Les services d’Advestigo reposent sur sa technologie de Théraographie™. Le pôle PSO (Professional Services Organization) Dans le but de s’adapter aux différents besoins des entreprises, le pôle PSO dirigé par M. Marc-Michel Pic, assure la personnalisation des services AdvestiSEARCH™. Son équipe de consultants adapte les services en ligne (fouille à façon de sites ou de contenus fixes, expertise sur des contenus spécifiques, service de conservation certifié,…) selon des spécifications propres. Par ailleurs, les experts peuvent réaliser à la demande des études de mesures et de statistiques sur le piratage et le plagiat. Le pôle PSO propose, en outre, des activités de conseil orientées autour du piratage et du plagiat.
  13. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 13/94 2006/2007 13/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 3. Contexte social et problématique industrielle UGC : User Generated Content Dans notre société en générale, et numérique en particulier, les loisirs créatifs prennent de plus en plus d'ampleur. Dans cet esprit, on assiste à des changements d'usage dans l’Internet. D’ailleurs, l’une des nouvelles composantes du web consiste à faire de l'internaute le rédacteur, le concepteur et l'acteur du concept. Les internautes veulent participer, donner leur avis, publier et partager. On assiste donc à une explosion du contenu généré par les utilisateurs1 (User Generated Content) et bien évidemment des sites ou services qui proposent aux internautes de publier leur propre contenu. De plus, les internautes ont été la personnalité de l’année 2006 du prestigieux Time Magazine. Ils ont en effet contribué largement à de nombreux succès sur Internet à savoir YouTube, MySpace, Digg, Facebook,… Ces sites vont être des plates-formes de blogs mais aussi ce qui est en train de remplacer les blogs : des Réseaux Sociaux2 . Mais des réseaux sociaux au sens où le bénéfice utilisateur est la socialisation qu'il en retire. À partir du moment où l'enjeu est de partager des contenus pour développer de la notoriété, sa liste d'amis et globalement socialiser, il est logique que les UGC étendent la palette des contenus à partager à la vidéo. Cette évolution multi support pose une question de fond sur la propriété numérique de ce que l'utilisateur met en ligne. Problématique pour l’industrie des médias Films, série télévisuelle, clips musicaux, retransmission sportive,… sont autant de contenus vidéos, qui une fois copiés se répandent rapidement sur Internet dès leur diffusion. Un manque à gagner pour les ayants droit qui s’inquiètent de la montée de ce phénomène. Un événement sportif peut être enregistré lors de sa diffusion, copié et redistribué sur un site de partage tel YouTube. Dès lors, la chaîne de télévision n'a d'autres recours que de scruter Internet pour y repérer les vidéos frauduleuses. Un travail systématique impossible à mettre en oeuvre. Sur le seul site YouTube, « 65 000 nouvelles vidéos sont postées chaque jour ». Deux solutions sont envisageables :  Filtrer le contenu vidéo au moment de la mise en ligne par les utilisateurs. Cette solution est implantée dans le produit Advestigo : AdvestiGATE™ . Elle implique la coopération des plateformes UGC pour une installation en interne.  En l’absence d’accord de coopération, la protection des ayants droits passe par l’automatisation des recherches de l’extérieur des plateformes (cadre de mes travaux). Objet du projet d’Ingénieur Les sites de partages vidéo, devant gérer plusieurs dizaines de milliers de nouveaux contenus vidéo mis à disposition tous les jours, risquent en permanence d’héberger et de distribuer, de façon involontaire, des contenus protégés par le droit d’auteur. Les évolutions apportées par ces travaux dans l’outil AdvestiSEARCH, visent à fouiller automatiquement Internet en vue de localiser un contenu vidéo protégé mis en ligne illégalement sur les plateformes UGC, empêchant ainsi les violations accidentelles du droit d’auteur. 1 Dans le reste du document, on s’autorisera d’identifier les sites de contenu générés par les utilisateurs et les plateformes de partage vidéo par l’acronyme de la traduction anglaise User Generated Content: UGC. 2 On appelle réseau social, une communauté d'individus reliés entre eux, selon les cas, par : des origines, des centres d'intérêts, des besoins, des points de vue… proches ou similaires. Aujourd'hui, le terme réseau social s'applique en particulier au domaine de l'Internet. Il désigne alors un site web qui, dans un domaine quelconque, fédère des individus et facilite leurs échanges d'informations, d'images, de vidéos,…
  14. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 14/94 2006/2007 14/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement 4. Contexte scientifique du projet Par ailleurs, ces travaux s’intègrent dans un projet de recherche RNTL3 plus vaste et identifié sous l’acronyme de PIITHIE: Plagiat et Impact de l'Information Textuelle recHerchée dans un contexte InterlinguE. Programme Technologies Logicielles 2006 Présentation synthétique du projet PIITHIE Le projet PIITHIE s´inscrit dans un mouvement de plus en plus important de maîtrise de l´information diffusée. Il vise premièrement la détection de plagiats de textes. Les techniques de traitement automatique des langues (TAL), devraient permettre d'améliorer les performances et d'accroître le potentiel de recherche des outils d'Advestigo et de Sinequa. Le deuxième objectif concerne le suivi d´impact : les diffuseurs d'informations sont très intéressés par la possibilité d´évaluer l´impact de leur production (perception et notoriété). Aujourd´hui cette évaluation est faite par une étude manuelle alors que des méthodes automatiques sont possibles. Les traitements nécessaires à ces deux applications sont de même nature ; ils demandent seulement un paramétrage différent, selon que l´on cherche une copie illégale de l´information ou une utilisation parfaitement légale dont le contenu peut être très divergent. Les principaux verrous de ce projet concernent :  la capacité à évaluer la proximité de deux contenus textuels en tenant compte des différents phénomènes de réécriture ;  l'extraction de termes suffisamment représentatifs d'un document, pour pouvoir retrouver des documents similaires sur Internet, en posant des requêtes à un moteur classique ;  la détection de citations dont il faut tenir compte pour l'évaluation d'impact et qui perturbent la détection de plagiat. Afin de gérer l'ensemble des phénomènes impliqués (réécriture, paraphrase, imitation, etc.) plusieurs types d'analyses linguistiques seront appliqués et testés afin de déterminer quel est leur apport. Les objectifs de ce projet sont donc l’utilisation de techniques de Traitement Automatique des Langues (TAL) à la détection de plagiat et au suivi d’impact d’une information. L’évaluation de l’apport de ces techniques est fondamentale. Globalement, l’évaluation est un élément essentiel du projet et une grande part de l’effort y est consacrée. Les méthodologies d’évaluation ainsi que les corpus associés seront diffusés à la communauté à la fin du projet. 3 Le Réseau National de recherche et d’innovation en Technologies Logicielles (RNTL) a été mis en place, fin 1999, par le Ministère délégué à la Recherche et le Ministère délégué à l’Industrie. Le RNTL a été renouvelé en 2005, dans le cadre de l'Agence Nationale de la Recherche (ANR). Il a reçu comme mission, de favoriser la constitution de projets innovants de recherche et de développement coopératif entre entreprises du secteur privé et les équipes de la recherche publique.
  15. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 15/94 2006/2007 15/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Preambule et Environnement Partenaires développeurs Les partenaires de ce projet sont :  La société Advestigo a mis au point un outil de détection de plagiat qui peut analyser à la fois des flux de données et chercher directement sur Internet, dans des sites non ciblés au départ.  Le Laboratoire Informatique d’Avignon (LIA) dont la principale thématique de recherche concerne le traitement automatique du langage naturel, écrit et oral, a développé de nombreux systèmes dont les finalités peuvent s’inscrire dans ce projet : recherche d’informations, classification et catégorisation automatiques, segmentation thématique, désambiguïsation sémantique, résumé automatique.  Le Laboratoire d’Informatique de Nantes Atlantique (LINA), son équipe de recherche TALN, s'intéresse aux traitements informatiques portant sur des données textuelles écrites, et plus particulièrement sur l’exploration des données textuelles pour en extraire des informations linguistiques relevant de tous les niveaux du traitement de la langue : morphologique, lexical, syntaxique, sémantique et pragmatique.  La société Sinequa, porteuse du projet, commercialise des outils de gestion de l’information, en particulier un moteur de recherche, Intuition. Celui-ci utilise une représentation thématique des documents en se basant sur des analyses linguistiques. Les travaux se feront sur des articles de journaux, des dépêches d’agences et des discours. Le tout se fera dans un contexte inter-lingue impliquant trois langues : français, anglais, arabe. Partenaire valideur Le groupe TNS Sofres Media Intelligence (études marketing et d'opinion) participe au projet en tant que « client » qui exprimera les besoins et validera les solutions proposées par les partenaires développeurs. Périmètre du projet d’Ingénieur au sein du projet PIITHIE Ma participation au projet PIITHIE a débuté au mois de février 2007 au travers de différentes réunions de travail à Paris et au Laboratoire d’Informatique de Nantes Atlantique. Pour ma part, je suis en charge de représenter et coordonner le projet pour le compte d’Advestigo. Je suis aussi en responsabilité des études et développements de certains lots à la charge d’Advestigo, tels qu’ils ont été définis dans l’organisation du projet PIITHIE. Mais bien plus en lien avec la problématique de mon projet d’ingénieur (UGC), ce mémoire développe mes réalisations techniques qui recouvrent les deux lots suivants du projet PIITHIE :  Empreinte lexicale d’un document (Lot 3.1)  Extraction de requêtes optimisées pour les moteurs du Web (Lot 3.2) Nota bene : Une vue d’ensemble des lots du projet PIITHIE ainsi qu’une description complète de chacun des deux lots est disponible en annexe 2 - Présentation des lots page 79.
  16. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 16/94 2006/2007 16/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art II. ÉTAT DE L’ART Cette section présente succinctement les principaux concepts utiles à la compréhension des travaux qui seront détaillés dans la section suivante. Naturellement, elle ne se prétend pas exhaustive sur les disciplines évoquées. Néanmoins, il est proposé au lecteur un ensemble de références bibliographiques destinées à approfondir chaque thématique. L’objectif second visé par cet État de l’Art sur les deux disciplines est d’effectuer une synthèse des techniques avancées. Ceci afin de sélectionner les approches ad hoc en vue d’une application opérationnelle dans les outils de surveillance et de mesure à l’issue de la période du projet d’Ingénieur. La présentation du sujet effectuée dans la section Objet du projet d’Ingénieur page 13, nous amène à considérer des aspects théoriques de la Recherche d’Informations (RI) et certaines techniques de Traitement Automatique des Langues (TAL). 1. Recherche d’Information (RI) Présentation du domaine Les Systèmes de Recherche d’Information (SRI) s’inscrivent dans une longue pratique documentaire. Ils visent à retrouver dans une base documentaire un sous-ensemble de documents pertinents au regard du besoin de l’utilisateur qui l’exprime sous la forme d’une requête. Dans les moteurs de recherche accessibles sur Internet, les systèmes de recherche d’information sont associés à des robots (crawler, spider, butineurs) qui construisent et mettent à jour une base documentaire à partir des pages accessibles sur la toile [5]. Le principe de la Recherche d’Information consiste à confronter une requête aux documents d’une base documentaire pour identifier les documents les plus proches sémantiquement de la requête. Cela suppose de représenter de manière homogène les documents et la requête : une méthode très classique consiste à les représenter sous forme d’un vecteur de mots, les mots ayant des poids calculés sur la base de critères statistiques [7][13]. On évalue généralement les systèmes de RI en mesurant leur capacité à retrouver tous les documents pertinents (rappel) et uniquement ceux-là (précision). Modèles conceptuels de la Recherche d’Information Traditionnellement, la recherche d’information propose cinq grandes familles4 de modèle :  Le modèle booléen ou ensembliste [13], qui repose sur la manipulation de mots-clés et un mode d’appariement. Sa mise en œuvre demeure assez triviale, grâce à la technique des fichiers inverses ce qui explique son succès.  Le modèle vectoriel [4], créé au début des années 1970 par Gérard Salton et son équipe, utilise une représentation géométrique pour classer les documents par ordre de pertinence par rapport à la requête. Il repose sur les informations de fréquence des termes de la requête. L’idée principale est de considérer les termes d’indexations comme les dimensions d’un espace d’information multidimensionnel. Il demeure incontournable en RI ce dont témoigne son intégration dans une majorité de moteurs de recherche usuels. Aussi, il sera employé dans le cadre de mes travaux. 4 ce découpage n’est pas admis par tous.
  17. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 17/94 2006/2007 17/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art  Le modèle probabiliste [11][12], où l’on estime de manière aussi précise que possible la probabilité de pertinence des documents en fonction d’une part, des informations et données disponibles, et d’autre part de la requête. Il existe de nombreuses extensions de ce modèle : estimation à priori, modèle unifié, les réseaux bayésiens… et les prometteurs « modèles de langue » [3], issus du domaine de la reconnaissance vocale. Dans ce dernier, on tente de créer un modèle statistique pour modéliser une langue et ainsi déterminer la probabilité d’apparition, d’un mot ou d’une suite de mots, en fonction du modèle.  Le modèle logique, qui consiste à considérer qu’un document répond à une requête si l’on peut trouver une chaîne de causalité qui part du document et arrive à la requête.  Le modèle évolutionniste ou adaptatif qui est une métaphore biologique inspirée des mécanismes de l’évolution darwinienne et de la génétique moderne. Ce dernier modèle est développé davantage ci-après. De nombreux travaux mêlant modèle évolutionniste et recherche d’information ont été développés dans le cadre de projet de recherche, notamment par Linda Tamine et Mohand Boughanem [1] et Filippo Menzcker[8]. Il se raffine en deux sous-familles : les réseaux de neurones et les algorithmes génétiques. Les travaux techniques entrepris dans mon projet s’inspirent de cette seconde sous famille. Les éléments de justification qui ont guidé mon choix sont présentés dans la section « Choix du modèle conceptuel en RI : prise de risque et innovation » en page 67. Modèle vectoriel Le modèle vectoriel s’inscrit dans une optique pragmatique et quasi immédiate. Il permet de pousser le plus loin possible l’automatisation sur des données numériques mesurables pour classifier ou comparer des documents. Un document est une suite de mots, appelée communément un terme5 , et son vecteur associé est une suite de chiffres qui indique le poids associé à chaque mot en fonction de fréquences locales au document (dans le cas d’un corpus, la pondération peut être globale). Concrètement, les composantes du vecteur du document 𝐷𝑖 correspondent à la fréquence de chacun des mots dans le texte d’origine : 𝑓1 𝐷 𝑖 , 𝑓2 𝐷 𝑖 , 𝑓3 𝐷 𝑖 , … , 𝑓𝐿 𝐷 𝑖 Par exemple, soit 𝐷1 et 𝐷2 deux documents. Le lexique de ces documents est constitué de quatre mots : a, b, c et d. L = {a, b, c, d} Dans le premier document, 𝐷1 , le mot a apparaît 5 fois, le mot b apparaît 3 fois, le mot c apparaît 4 fois et le mot d apparaît 1 fois . Dans le deuxième document, 𝐷2, le mot a apparaît 2 fois, le mot b apparaît 2 fois, le mot c apparaît 5 fois et le mot d n’apparaît pas. Dans cet exemple, les documents 𝐷1 et 𝐷2 auront la représentation vectorielle suivante dans un espace à quatre dimensions : 𝑽 𝟏 = {5, 3, 4, 1} ; 𝑽 𝟐 = {2, 2, 5, 0} 5 Abusivement, un mot isolé est parfois considéré comme un terme.
  18. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 18/94 2006/2007 18/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Le poids du texte correspond au nombre d’occurrences de chaque mot. On entrevoie ainsi l’intérêt d’utiliser le modèle vectoriel pour la représentation des documents. Des textes qui se ressemblent contiennent les mêmes mots ou des mots qui apparaissent dans des contextes similaires (cf. hypothèse distributionnelle de Harris : les mots qui ont des contextes identiques sont similaires, Harris, Z. (1968). Mathematical Structures of Language, Wiley, New York.). Si on se place dans l'espace vectoriel, deux documents similaires correspondent à des vecteurs proches. Regrouper des vecteurs proches c'est trouver les vecteurs qui ont des directions semblables ou dont les extrémités sont proches. Ceci permet de calculer des similarités ou des distances entre les blocs de textes (valeurs souvent liées) en comparant leurs vecteurs respectifs (direction ou distance séparant les extrémités des vecteurs associés). Exemple6 illustratif de projection dans un espace à deux dimensions : Figure 1 - Exemple de vecteur dans un espace à 2 dimensions. Deux documents sont similaires si leurs vecteurs sont confondus. Si deux documents ne sont pas similaires, leurs vecteurs forment un angle 𝛼 dont le cosinus vaut : cos 𝛼 = cos(𝑉1, 𝑉2) = 𝑉1 ∙ 𝑉2 ‖𝑉1‖‖𝑉2‖ Se lit : produit scalaire 𝑉1 ∙ 𝑉2 divisé par le produit de la norme de 𝑉1 multiplié par la norme de 𝑉2; la norme de 𝑉1= la longueur de 𝑉1 (Pythagore) . La mesure du cosinus est la plus couramment employée dans le cadre de la Recherche d’Informations. Cependant, peu d’études ont été menées pour essayer de comparer les propriétés de ces mesures et de justifier du choix d’une mesure selon les différentes applications. 6 Tiré du cours de M. Jardino, S. Rosset intitulé « Comparaison de documents : mesures de similarité et mesures de distance » Lexique : L = {"𝑗𝑒", "𝑣𝑎𝑖𝑠"} D1 = « je je vais » D2 = « je je je je vais vais » D3 = « je vais vais »
  19. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 19/94 2006/2007 19/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Algorithme génétique Les algorithmes génétiques font partie de la classe des algorithmes évolutifs. Les techniques d’algorithmique évolutive sont basées sur le principe puissant de survie du meilleur. Elles modélisent les phénomènes naturels liés à la génétique darwinienne. Elles constituent une catégorie intéressante d’heuristiques de recherche et d’optimisation pour la problématique de mon sujet. Les algorithmes évolutifs sont caractérisés par :  la manipulation d’une population d’individus représentant les solutions candidates au problème posé ;  l’évaluation de la qualité des individus grâce à une fonction d’adaptation (fitness) ;  la détermination d’une stratégie de sélection des individus d’une génération à une autre ;  l’application d’opérateurs de transformation d’individus entre générations. Qu’est ce qu’un algorithme génétique ? Un algorithme génétique a pour but de faire évoluer un ensemble de solutions candidates à un problème posé vers la solution optimale. Cette évolution s’effectue sur la base de transformations inspirées de la génétique, assurant de génération en génération, l’exploration de l’espace des solutions en direction des plus adaptées (voir Figure 2 - Structure générale d'un algorithme génétique). Figure 2 - Structure générale d'un algorithme génétique Propriétés et concepts de base des algorithmes génétiques Les AG présentent deux propriétés qui constituent un avantage décisif. L’une est connue sous le qualificatif de parallélisme implicite. Celui-ci exprime la capacité des AG, pour une Début t :=0 Initialiser la population Évaluer l’adaptation de chaque individu de la population Tant que (┐condition arrêt) Faire t := t+1 Sélectionner les meilleurs individus pour la reproduction Appliquer les opérateurs génétiques Évaluer chaque individu de la génération enfant Fait Fin
  20. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 20/94 2006/2007 20/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art population de taille N, de traiter simultanément un nombre de directions de l’ordre de N³. La seconde, les distingue par leur faculté à résoudre le dilemme exploration/exploitation. L’exploitation consiste à encourager l’apparition de ses représentants dans la population tandis que l’exploration plaide en faveur de nouvelles directions de recherche. En effet, elle détermine un équilibre entre ces deux procédures antagonistes, exploration/exploitation, par l’allocation d’un nombre exponentiel croissant à la meilleure direction observée. En conséquence, dans mes travaux, les techniques d’algorithme génétique ciblent deux objectifs :  la représentation optimale des requêtes, qui consiste à découvrir itérativement l’intégralité de la sémantique véhiculée par la requête initiale, intègre des techniques de reformulation de requête dans les structures des opérateurs génétiques.  la représentation optimale du contexte des requêtes qui proposent une méthode génétique de recherche basée sur la coopération d’agents de recherche. Chaque agent diffuse le processus de recherche de document pertinent à l’ensemble des agents évoluant dans des contextes différents d’interrogation des moteurs de recherche : langue, cookies, session,… Individu : Chaque individu ou chromosome exprimé par un génotype, est constitué d’un ensemble fixe de gènes représentant chacune de ses caractéristiques. Le décodage d’un individu produit son phénotype. Un gène identifié par sa position appelée locus, peut prendre plusieurs valeurs dénommés allèles. L’individu est la structure fondamentale permettant d’encoder une solution candidate à un problème. Population : ensemble d’individus d’une même génération. Fonction d’adaptation : Chaque individu/solution a une valeur fitness retournée par l’application d’une fonction d’adaptation qui doit être capable de favoriser la sélection d’individus dans la direction de l’optimum. C’est une mesure d’efficacité des individus solutions. Opérateurs génétiques : Ils représentent des procédures de transformations des individus entre générations. Les algorithmes génétiques exploitent principalement trois opérateurs :  Sélection : le principe de sélection est tel que les individus les plus adaptés fournissent la descendance la plus élevée. C’est un opérateur de clonage orienté vers l’exploitation des individus solutions.  Croisement : le croisement ou cross-over est le second opérateur génétique appliqué à la population issu de la sélection. C’est un opérateur de combinaison qui agit généralement par paires en déterminant un ou plusieurs points de coupure, délimitant les frontières des parties à échanger. C’est l’opérateur le plus puissant car il combine deux solutions comportant chacune une partie de la solution ; il est d’avantage orienté vers l’exploitation des solutions en cours.  Mutation : la mutation qui est l’opérateur le plus simple, consiste à modifier, aléatoirement, la valeur d’un gène par un autre; il est d’avantage orienté vers l’exploration de l’espace de recherche. 2. Traitement Automatique des Langues (TAL) Intelligence Artificielle et Linguistique
  21. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 21/94 2006/2007 21/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art Le Traitement Automatique des Langues (TAL) est une branche de l’Intelligence Artificielle. Cette discipline est à la frontière de la Linguistique et de l'Informatique. Elle concerne l'application de programmes et techniques informatiques pour prendre en charge différents aspects du langage humain : traduction, compréhension, résumé de texte, etc. L’objet premier de l’Informatique n’est pas l’étude des langues humaines, but qui relève davantage de la Linguistique. Les linguistes cherchent à identifier les phénomènes caractéristiques du langage dans toute leur étendue et à en donner des descriptions, plus ou moins formelles selon les théories. Tandis qu’en Intelligence Artificielle, l’objectif est de construire des systèmes capables de reproduire certaines performances impliquant une activité de compréhension. Un processus de changement de représentation et un mécanisme d’inférence sont les principales capacités qui fondent les mises en œuvres informatiques. Inférences, car l’évaluation d’un tel système compare les conclusions que le système est capable de tirer. Dans le contexte actuel, de nombreuses recherches dans ce domaine tentent d’apporter des réponses à notre société qui manipule un volume croissant de documents textuels et dont les besoins en termes de gestion de cette information textuelle se développent rapidement. La suite de cette section présente, un aperçu des techniques de TAL [2] susceptible d’améliorer les performances de l’empreinte lexicale. Reconnaissance d’entités nommées Cette tâche consiste à repérer et typer certains items lexicaux particuliers qu’on appelle « entités nommées » : des noms propres souvent, des lieux, des institutions mais plus largement toutes les entités référentielles bien identifiées (dates, mesures, adresse http,…) En pratique, ces entités nommées sont importantes à repérer dans les textes parce qu’elles fixent une référence. L’exemple ci-contre illustre la reconnaissance de l’entité nommée « YouTube » en surbrillance rouge. Analyse syntaxique de surface (ou morpho-syntaxique) L’analyse syntaxique de surface (ou « Analyse morphosyntaxique7 ») est un traitement linguistique superficiel qui identifie les constituants d’une phrase : noms, verbes, adverbes, adjectifs, etc. Et cela sans spécifier leurs structures internes, ni leurs fonctions dans la phrase. Précisément, l’analyse syntaxique de surface ne produit pas un arbre syntaxique complet. La couche morphologique sert de soubassement à la plupart des traitements de TAL. En effet, elle permet la reconnaissance des unités textuelles de base que sont les mots et l’analyse de leur structure. D’ailleurs les premiers succès applicatifs en TAL reposent sur des traitements morphologiques : la correction orthographique et la césure automatique. Ces applications sont aujourd’hui intégrées dans les traitements de texte et le grand public y est familiarisé depuis longtemps. Par ailleurs, on distingue la morphologie flexionnelle qui décrit la manière dont un mot change de forme (conjugaison des verbes, déclinaison des noms et adjectifs) et la morphologie dérivationnelle qui analyse le mode construction des mots, par combinaison/concaténation d’affixes à un mot-racine : 7 en anglais on parle de « shallow parsing » ou « light parsing » Origine Catégorie Forme Canonique Pour PRP pour diverses ADJ divers raisons NOM raison techniques ADJ technique YouTube NAM YouTube semble VER:pres sembler alors ADV alors avoir VER:infi avoir du PRP:det du mal NOM mal à PRP à supprimerVER:infi supprimer les DET:ART le fichiers NOM fichier Figure 3 - Exemple d'analyse syntaxique de surface
  22. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 22/94 2006/2007 22/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA État de l’art exemples : revenir ≈ re- + venir, rapidement ≈ rapide + -ment. L’analyse flexionnelle est importante : elle permet d’identifier le lemme8 à partir de forme fléchie (on parle de lemmatisation) et d’en décrire les traits morphologiques. Par exemple : diverses est la forme de l’adjectif divers au féminin pluriel, semble est la forme du verbe sembler conjuguée au présent de l’indicatif à la 3ièmes personne du singulier (Ex. : Figure 3). Toutes les langues indo-européennes sont flexionnelles, à des degrés divers. L'Anglais, par exemple, est très faiblement fléchi par rapport à l'Islandais. Le Français l'est bien plus à l'écrit qu'à l'oral, un grand nombre de désinences9 étant muettes. Hors de cette famille, les langues sémitiques10 sont elles aussi flexionnelles à des degrés divers : l'arabe littéral se fléchissant plus que le dialectal, par exemple. 3. Évaluation des Systèmes de Recherche d’Information On mesure communément l’efficacité d’une technique de recherche d’informations en utilisant quatre critères la précision (opposée au bruit) et le rappel (opposé au silence) :  Précision : Rapport du nombre de documents pertinents trouvés au nombre total de documents sélectionnés. En anglais precision.  Rappel : Rapport du nombre de documents pertinents trouvés au nombre total de documents pertinents. En anglais recall. Les notions de bruit et de silence sont assez intuitives. Elles sont illustrées par la figure de gauche ci- dessous. En pratique, on cherche un bon compromis entre le rappel et la précision. Afin d’évaluer un système, on fait souvent un graphique (à droite) du rappel par rapport à la pertinence (ou vice- versa). Si on prend une collection de documents donnés (la zone grisée), et une requête donnée, un expert est en mesure de déterminer la liste des documents "pertinents" (l’ellipse jaune). Mais un moteur de recherche n’est jamais parfait, il retournera les documents symbolisés par l’ellipse bleue. Les documents pertinents ramenés apparaissent en verdâtre. Les documents trouvés, mais non pertinents, constituent le bruit (zone bleu vif). Les documents pertinents, mais non trouvés, constituent le silence (zone jaune vif). Intuitivement, on peut dire que la précision représente la pertinence du système et le rappel sa couverture. En pratique, il est facile de fournir un système avec un rappel de 100 % : il suffit de retourner la liste de tous les documents. Ces mesures sont souvent antagonistes. 8 forme canonique du mot. 9 en linguistique, suffixe ajouté pour indiquer la forme d'une conjugaison ou la déclinaison (le -s du pluriel). 10 groupe de langues d'Asie occidentale, Moyen Orient et du nord de l'Afrique.
  23. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 23/94 2006/2007 23/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés III. TRAVAUX D’ANALYSES ET DE CONCEPTIONS MENES 1. Analyse des comportements, hypothèses et démarche générale. Les travaux de mon projet vont se focaliser sur le phénomène des UGC. Dans ce cadre, on peut résumer de façon relativement simpliste l’orientation de mes travaux par la question suivante : Comment détecter un contenu vidéo mis en ligne illégalement sur les sites d’UGC ? Une fouille naïve et la comparaison de l’ensemble des vidéos mise en ligne sur la totalité des sites d’UGC restent une réponse irréaliste et inenvisageable. Par conséquent, il s’agit de réfléchir à une approche qui permette de réduire l’espace d’exploration, tout en analysant la façon dont les internautes échangent la localisation (URL11 ) des vidéos mises en ligne. Naturellement, la localisation n’est ni centralisée ni structurée dans une base de données. Non, celle-ci est disponible sur le web à qui veut se donner les moyens de la trouver. Un internaute motivé et aguerri aux techniques de formulation de requête pour les moteurs de recherches (Google, Yahoo, MSN, etc…) peut assez rapidement, par un cheminement mental propre à l’Homme, aboutir à ses fins. Même si certains aspects de ce cheminement mental sont difficilement automatisables, on peut imaginer des approches visant à simuler les processus de reformulation de requête. Ceci en vue d’optimiser la représentativité des descripteurs (mots clés) destinés à interroger les moteurs de recherches. Cette approche doit tenir compte de contraintes comme l’absence de ressources externes comme des dictionnaires de synonymie, d’antonymie, de concepts,… coûteuses, difficile à adapter à cette application et à concevoir. De plus, dans les travaux initiés par Claude de Loupy12 durant sa thèse [6], celui-ci indique que « l’accroissement des performances est, cela dit, faible et ne justifie pas l’effort et le coût de création et d’utilisation de telles ressources ». Pour mieux appréhender les difficultés inhérentes et les solutions qui seront expérimentées, partons du cas concret d’une vidéo diffusée massivement sur les sites d’UGC. Sur celle-ci, on aperçoit une manipulation à effectuer pour contourner la limitation sur le réseau Orange du téléphone mobile de la firme Apple : iPhone. Depuis le 29 novembre 2007, date officielle de commercialisation de l’appareil, cette information a été reprise de nombreuses fois par des internautes et cela sur de multiples forums et blogs commentant la nouvelle et le moyen de le « débloquer ». Pratique très intéressante pour cette étude, ceux-ci invitent les lecteurs à visionner la vidéo en question en plaçant un pointeur (URL) vers une plateforme UGC. De ce cas, on peut émettre l’hypothèse selon laquelle la mise en ligne d’une vidéo, licite ou non, est accompagnée d’une phase de promotion où le contenu de celle-ci est fidèlement décrit. Les espaces de discussions entre internautes autour d’une thématique, à l’instar des forums et blogs, constituent des lieux propices à cette publicité. La fouille par des traitements automatisés de ces lieux constituera un des fondements de notre SRI. 11 URL, de l'anglais Uniform Resource Locator, littéralement « localisateur uniforme de ressource », est une chaîne de caractères utilisée pour adresser les Ressources dans l’Internet : document HTML, image, son, forum Usenet, boîte aux lettres électronique, etc. Elle est informellement appelée une adresse Web. 12 Claude de Loupy est maître de Conférence associé à l’Université Paris X et intervient à l’ENSIIE pour un cours sur les moteurs de recherche. Fortuitement, il est à l’initiative et animateur du projet PIITHIE.
  24. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 24/94 2006/2007 24/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Cette publicité est l’un des fondements théorique visant à rendre la fouille plus efficace :  Les échanges sur les forums et les messages mis en ligne sur les blogs reprennent, reformulent une information de façon importante et surtout variée. En soit, ceux-ci ne constituent-ils pas un moyen efficace d’extraire un ensemble de descripteurs en l’absence de ressources externes ?  Dans ce dessein, nous analyserons et extrairons les termes saillants employés dans le voisinage d’un lien hypertexte pointant vers la vidéo en question. Ceux-ci ne sont-ils pas autant de descripteurs de la même idée, notion ou concept reformulés par une communauté d’internautes ? Il s’agira donc d’exploiter les différentes reprises informationnelles en vue d’engendrer de nouvelles requêtes visant à optimiser la qualité des descripteurs posées aux moteurs de recherche. La réalisation du Système de Recherche d’Information décrit dans ce mémoire se fonde en partie sur ces observations. La finalité est de permettre la localisation d’une vidéo de référence mise en ligne sur les plateformes d’UGC par l’analyse des échanges textuels sur les blogs et les forums. 2. Analyse et Conception du Système de Recherche d’Information : Spy-der Définition des besoins et contraintes du SRI En préambule, on rappellera que les besoins recensés guident l’ensemble des aspects du projet. La finalité principale de ce projet est de fournir un service de localisation automatique des vidéos protégées diffusée sur les plateformes de partage vidéos (UGC). Ce service s’inscrit clairement dans le cœur de métier d’Advestigo à savoir : la protection des actifs incorporels numériques des industriels des médias dans le monde. En termes d’exigences fonctionnelles, on mentionnera principalement qu’il doit fouiller avec efficience13 son espace de recherche : le Web. Aussi, les moyens d’exploitation sont volontairement limités, ce qui exclue la réalisation d’un moteur d’indexation et justifie le choix de travailler en métamoteur. Les métamoteurs permettent de traduire une requête dans la syntaxe propre à plusieurs moteurs et de l’expédier à chacun d’entre eux, en éliminant en retour les doublons. L'intérêt est d'augmenter son pourcentage de couverture du web. On mentionnera d’autres fonctionnalités de haut niveau comme :  Capacité à évaluer la similarité entre deux contenus textuels et audiovisuels.  Permettre de visualiser et conserver les résultats des recherches. Par ailleurs, en termes d’exigences non fonctionnelles, on rappelle que le système doit offrir une couverture la plus large possible. Aussi, il doit conserver une relative insensibilité aux langues. Par conséquent, les techniques employées doivent, tout autant que possible, être indépendantes des langues. Le système doit limiter le nombre d’erreurs : faux négatif et faux positif. Les faux positifs étant plus gênant pour ce type de système. Aussi la réalisation du système doit tenir compte des contraintes légales et économiques qui en l’occurrence demeurent relativement fortes. 13 On mesure l’efficacité des techniques de recherche d’information en utilisant deux mesures distinctes et liées : la précision et le rappel explicités dans la section précédente « État de l’Art ».
  25. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 25/94 2006/2007 25/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Naturellement, la conception du système de recherche d’information visée s’emploie aussi à respecter les principes de base du génie logiciel suivants :  Séparation des problèmes,  Modularité : Décomposition en modules connectés entre eux par des interfaces bien définies mais aussi indépendantes que possible,  Abstraction,  Généricité,  Construction incrémentale,  Anticipation du changement. Pour tout problème spécifique, il existe plusieurs méthodes pour en appréhender sa complexité et les problèmes sous-jacents. Pour la conception et la réalisation des systèmes à dominante informatique une approche système est un choix naturel. En adoptant un point de vue externe (dit de « boite noire ») le « Tableau 1 - Vue système et environnement » ci- dessous permet d’identifier les éléments-clés de solutions et les relations de cause à effet : Tableau 1 - Vue système et environnement À partir de l’expression des besoins, la phase de conception proprement dite peut débuter. Dans la conception de systèmes, la complexité est l’une des raisons principales justifiant la modélisation. Les éléments qui suivront doivent permettre de se concentrer, de documenter et de communiquer les aspects importants de la conception du SRI. •Protéger les actifs incorporels numériques de l'industrie des médias sur les réseaux électroniquesProblème à résoudre •Fourniture d'un service de localisation automatique des vidéos protégées diffusées sur les plateformes de partage vidéos (UGC)Finalité du système •Fouiller efficacement le web (couverture) Exigences fonctionnelles (Faire) •FURPSE(Fonctionnality, Usability, Realibility, Performance, Serviceability, Evolutivity) ISO CEI 9126Exigences non fonctionnelles (Etre) •Moyen d'exploitation limité/espace de recherche -> métamoteur •Délai de réalisation de 8 mois/ engagement financier dans les limites du bugdet prévisionnelContraintes de l'environnement direct •Politique : des actions gouvernementales sont à prévoir (sujet sensible) •Economique : marché mondial; •Sociale : sentiment profondément ancré de gratuité des oeuvres audiovisuelles •Technologie : "immensité "du Web (passage à l'échelle de la fouille) •Environnementale: comsommation et bilan énergitiques des serveurs sous tension 24h/24h •Légale : contrainte très forte (Droit des exploitants de BD versus Droits d'Auteur) Contraintes de l'environnement indirect PESTEL •Promotion de la mise en ligne sur les blogs et forums •Information "semi-structurée" en HTML Nature et disponibilité des données •Connaissance structurelle et organisationnelle du WebEnsemble des connaissances et des compétences disponibles •Compétences linguistiquesEnsemble des connaissances et des compétences à développer/sous-traiter
  26. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 26/94 2006/2007 26/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Modélisation UML et conception architecturale orientée objet En préambule, on rappellera qu’un modèle est une abstraction de la réalité. Cette simplification du système réel doit permettre de comprendre, d’évaluer et de critiquer plus rapidement la conception et sa viabilité qu’en s’immisçant directement dans le système. Un élément important pour bien modéliser un système, c’est le langage permettant de décrire le modèle. Mon choix s’est porté vers UML14 qui est en passe de devenir un standard incontournable dans le génie logiciel, et plus encore lorsqu’on s’inscrit dans une architecture objet. En effet, ce type d’architecture se développe en entreprise principalement pour ses qualités de modularité, de maintenance et d’évolutivité que confère le paradigme objet. Les données sont encapsulées dans des composants (objets) et ils sont manipulés par des opérations (communication et coordination réalisées par les messages). Dans les langages orientés objet, une classe est un ensemble d’objets possédant une structure, un comportement et des relations similaires. Exigences du système : Diagramme des cas d’utilisation Le diagramme des cas d’utilisations (Figure 4) décrit ce que le système de recherche doit faire. Il fait apparaître les interactions entre le système et les utilisateurs externes ainsi qu’avec d’autres systèmes externes comme les moteurs de recherches et les plateformes UGC. Figure 4 - Diagramme de cas d'utilisation du SRI NB : Le lecteur plus intéressé pourra se reporter dans l’annexe au « Synopsis de l’architecture générale du Spy-der » page 81. 14 Unified Model Language : les raisons de ce choix sont développées dans la section Abstraction et modélisation en page 54.
  27. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 27/94 2006/2007 27/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Processus de haut niveau du système : diagramme d’activité de l’expansion de requêtes. A partir du diagramme des cas d’utilisations, on précise comment le système accomplira ces differentes tâches. C’est au travers d’un diagramme d’activité que l’on décrit des actions de haut niveau. Leur enchaînement représente un processus du système. Par souci de concision, je ne présente ici que la modélisation d’un processus central du système : l’expansion de requêtes (Figure 5). La stratégie mise en œuvre consiste à débuter par l’interrogation des moteurs de recherche généralistes (nombre de pages indexées importants). Ensuite, l’interrogation amène , via des moteurs de recherche spécialisés dans les blogs et forum, à une réduction du bruit introduit par les descripteurs précédents. La segmentation en bloc abouti à une analyse plus fine du texte. A l’issue de l’étape précédente, l’ensemble des descripteurs est exploité sur des moteurs indexant de la vidéo et les moteurs internes des plateformes UGC (figure ci-dessous lecture de gauche à droite suivant la fléche). Figure 5 - Diagramme d'activité de l'expansion de requêtes Moteur Généraliste • Large couverture • Large Introduction de "bruit" Moteur Spécialisé blog et forum • Faible couverture • Faible introduction de "bruit" Finalité : Moteur Spécialisé Vidéo et interne UGC
  28. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 28/94 2006/2007 28/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Architecture physique des composants : Web Services Gartner (1999) : la mise en oeuvre des flux de communication inter-applicatifs dépasse les 40% du coût total de développement d'un Système d’Information. En partant de ce constat dans les applications complexes (syndrome spaghetti classique des SI), il s’agit d’identifier pour le SRI une architecture assurant une réponse efficace aux problématiques rencontrées en termes de réutilisation, d'interopérabilité et de réduction de couplage15 . L’architecture orientée service (en anglais Service Oriented Architecture, ou SOA) est une architecture logicielle s'appuyant sur un ensemble de services simples avec un objectif double:  décomposer une fonctionnalité en un ensemble de fonctions basiques, appelées services, fournies par des composants logiciels ;  décrire finement le schéma d'interaction entre ces services (composants logiciels). Les Web Services constituent une concrétisation majeure du concept d'architectures de services qui sont en passe de s'imposer comme une référence incontournable en matière de développement de grands systèmes en environnement fortement distribué. Parmi les caractéristiques notables de cette implantation, citons :  une standardisation systématique des protocoles de communication et des interfaces de services pour garantir un haut niveau d'interopérabilité ;  une méthodologie de construction de systèmes complexes par couplage faible de composants distribués aux frontières clairement définies ;  la définition d'un cadre non propriétaire d'intégration d'applications, potentiellement supporté par plusieurs infrastructures logicielles (J2EE, Mono .Net). Les Web Services sont des composants métiers ou techniques accessibles par des protocoles standard. De plus, ils garantissent un haut niveau d'interopérabilité tout en permettant à des composants distants d'échanger des objets relativement complexes. D’autant que les infrastructures associées prennent totalement en charge les opérations d'encodage et de décodage requises pour transporter ces objets à travers les réseaux. Sous l'impulsion d'organismes de standardisation comme le W3C, OASIS et WSI, le socle technologique des Web Services s'est construit par élaboration progressive et cumulative de recommandations techniques fondées sur le formalisme XML, pour couvrir les différentes facettes de la communication entre logiciel (consulter Figure 6 page suivante) :  Formalisation des messages échangés entre services distants (SOAP16 ) ;  Composition de services en passant par la description d'interfaces (WSDL17 ) ;  Publication de services (UDDI18 ). 15 L'idée générale du couplage faible consiste à établir un protocole d'échange et à effectuer le moins d'hypothèses (ou à imposer le moins de contraintes) possible entre les composants. Les structures fonctionnant sur du couplage faible sont donc plus souples et plus ouvertes. 16 Simple Object Access Protocol (SOAP) est un protocole d’appel de procédures à distance orienté objet bâti sur XML. Il permet la transmission de messages entre objets distants, ce qui veut dire qu'il autorise un objet à invoquer des méthodes d'objets physiquement situés sur un autre serveur. Le transfert se fait le plus souvent à l'aide du protocole http. 17 Web Service Description Language (WSDL) est le langage de description pour décrire une Interface publique d'accès à un Service Web. 18 Universal Description Discovery and Integration (UDDI) est un annuaire qui permet de localiser sur le réseau le service Web recherché.
  29. Nabil BOUZERNA - Mémoire d'Ingénieur ENSIIE-Advestigo 2007 V2.0.0-Pub Page 29/94 2006/2007 29/94Mémoire d’Ingénieur ENSIIE, Spécialité Informatique Nabil BOUZERNA Nabil BOUZERNA Travaux d’analyses et de conceptions menés Figure 6 - Architecture conceptuelle des Web Services Prolongement des travaux d’analyses et conception du SRI À moyen terme cette architecture fondée sur les Web services doit intégrer une couche d’orchestration. Dans un système d’informatique distribuée, mais en particulier pour les Web services, l'orchestration est un système qui permet d’enchaîner les services. L’orchestration assure la succession des tâches, le contrôle de la bonne exécution, les reprises en cas d’incident, etc. Plusieurs camps s'affrontent dans la production de standard d'orchestration. En l’attente d’un standard mature, le Spy-der s’appuie sur un système d’orchestration développé en interne.
Advertisement