Your SlideShare is downloading. ×

Des applications plus intelligentes

4,871

Published on

Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide …

Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide to your (Web) application.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,871
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
32
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • 80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)
  • Transcript

    • 1. Des applications plus intelligentes
      Bashar Al-Fallouji
    • 2. Qui suis-je ?
      Bashar Al-Fallouji
      Architecte de Solution chez OpenText (Nstein)
      Mon Blog : bashar.alfallouji.com
      Sujets d’intérêt
      Génie logiciel
      Informatique décisionnelle (BI)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      2
    • 3. Objectif
      Présenter les technologies de Text-Mining existantes et leurs fonctionnalités.
      Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web).
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      3
    • 4. Agenda
      Rappel sur le textmining (définition, concepts clés, etc.)
      Présentation des technologies existantes (produits, API, fonctionnalités, etc.)
      Intégration du Text-Mining dans les applications (Web)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      4
    • 5. Deux questions pour vous …
      Que signifie le terme Text-Mining ?
      Qui a déjà utilisé une technologie de Text-Mining ?
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      5
    • 6. #1 – Rappel sur le Text-Mining
    • 7. Différents types de donnéesdansnos applications
      Les applications de traitement de l’information gère en général différents types de données
      Données structurées
      Date
      Booléen
      Valeur numérique (prix, pourcentage, quantité, etc.)
      Types énumérés (Mr, Ms, etc.)
      Données non-structurées
      Image
      Vidéo
      Son
      Corps de texte
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      7
    • 8. Différents types de donnéesdansnos applications
      Il est facile de comprendre et de retrouver de l’information à partir de données structurés
      SELECT * FROM TBL_FACTURE WHERE prix > 100
      Moins évident avec les données non-structurées
      Pourtant les données non-structurées peuvent receler une grande quantité d’information!
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      8
    • 9. Données non-structurées sont des mine d’or d’information
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      9
    • 10. Données non-structurées sont des mine d’or d’information
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      10
    • 11. Données non-structurées sont des mine d’or d’information
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      11
      Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
    • 12. Mine d’or d’information
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      12
      Constat
      Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités.
      But
      Extraire cette information et automatiser le processus d’extraction.
    • 13. Données non-structurées
      80%
      Source : Experts Corner: Seth Grimes
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      13
    • 14. Définition Text-Mining
      Processusd’extractiond’information de hautes-qualités à partir d’un texte
      Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations.
      Le Text-Mining mélange plusieurs disciplines
      Recherche d’information (Information Retrieval);
      Data Mining;
      Apprentissage Machine (Machine Learning);
      Linguistique;
      Statistique.
      Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      14
    • 15. Text-Mining
      Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte)
      Données non-structurées, Bloc de texte :
      Article (e.g. news, blogs)
      Email (e.g. feedback client)
      Post, Commentaire (e.g. forum)
      Logs (Server logs)
      Le Text-Mining permet d’enrichir le contenu et de mieux les structurer
      Plus les données sont structurées, plus facile il est de les
      Retrouver (Recherche facilitée)
      Analyser (Interprétation des données)
      Regrouper, relier
      Réutiliser
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      15
    • 16. Quelques concepts clés
      Traitementautomatique du language naturelou NLP (Natural Language Processing)
      Discipline mélangeant informatique et linguistique
      Application de programmes et techniques à tous les aspects du language humain
      Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc.
      Source : Wikipedia
      Entité
      Catégories
      • Fichiers d’autorité
      • 17. Taxonomie = Classification d’entités (souvent représenté sous forme d’un arbre)
      • 18. Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      16
    • 19. Text-Mining ?
      Permet de répondre à des questions précises
      Qui, Quand, Où, etc.
      Détection de la langue
      Génération automatisée de résumés
      Détection du ton (Sentiment Analysis)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      17
    • 20. Extraction d’entités
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      18
    • 21. Exemple
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      19
      Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway.
      Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna.
      The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time.
      MinedwithAlchemyAPI
    • 22. Garbage in = Garbage out
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      20
    • 23. #2 – Technologies existantes
    • 24. SaaSvs not SaaS
      SaaS
      Avantages
      Accès facile aux fonctionnalités (Rest, Soap)
      Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.)
      Désavantages
      Restrictions au niveau API
      Potentiels problèmes au niveau performance (ping, blocage IP)
      Disponibilité du service (Service Level Agreement)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      22
      Not SaaS
      • Avantages
      • 25. Peut être plus performant (temps de latence, pas de restriction à priori)
      • 26. Possibilité d’avoir des taxonomies et AF personnalisés
      • 27. Désavantages
      • 28. Coût
      • 29. Complexité et maintenance
    • Gate (Not SaaS)
      Suite logiciel Open Source
      Existe depuis 15 ans (Java)
      La suite est composée
      Un IDE - GATE Developer4 : Environnement de développement intégré (plusieurs plugins disponible)
      Une web app - GATE Teamware : Un outil d’annotation (collaboratif) offrant un backend
      Un framework - GATE Embedded: Librairie orientée objet exposant l’API
      an architecture: a high-levelorganisationalpicture of how languageprocessing software composition
      a process for the creation of robust and maintainable services
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      23
    • 30. Technologies existantes (SaaS)
      Quelquesnoms (listes non-exhaustive!)
      Open Calais
      AlchemyAPI
      OpenAmplify
      BeliefNetworks
      Yahoo Term Extraction
      Evri
      Wingify
      Zemanta
      UClassify
      Alias-I
      Etc…
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      24
    • 31. Fonctionnalitéesoffertes
      Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue
      Langues supportées (EN, FR, SP)
      Format supportés (HTML, Microformats)
      API existantes (PHP, Perl, .NET, etc.)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      25
    • 32. OpenCalais
      Rachat par Reuters de ClearForest en 2007
      Reuters a démarré OpenCalais en Janvier 2008
      Fonctionnalités principales
      Catégorisation
      Extraction d’entité, faits et événements
      Langues supportées : Anglais, Français (Espagnol)
      Quota : 50,000 transactions / jour, 4 transactions par seconde
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      26
    • 33. OpenCalais : Exempled’appel
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      27
    • 34. AlchemyAPI
      Produit de Orchestr8 (2005)
      Fonctionnalités principales
      Concept / Keywords Extractions
      Categorization
      Entity
      Languagedetection
      MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing
      Quota : 30,000 API appel / jour
      Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois)
      Plugins
      Wordpress
      AlchemySEO : Tagging Automatique (SEO) basé sur les microformats
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      28
    • 35. OpenAmplify
      Web service développé par Hapax
      Fonctionnalités principales
      Catégorisation
      Extraction d’entité
      Analyse du Sentiment
      Format de sortie supporté : DART, OAS, RDF, RDFa, HTML
      1000 transactions / jour
      Source : www.openAmplify.com
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      29
    • 36. Yahoo Term Extraction
      Fonctionnalités principales
      Extraction d’entité
      5000 transactions / jour et IP (utilisation non-commerciale)
      Seule l’anglais est supportée
      Output : JSON / PHP
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      30
    • 37. NaCTeM
      National Center for TextMining
      NaCTeMoffredifférentes solutions
      TerMine : Reconnaissance automatique de termesdans un document
      AcroMine : Recherched’acronyme (biomédical)
      Medie : Engin de rechercheSémantique (Biomédical)
      Facta+ : Engin de recherched’association entre concept (biomédical)
      KLEIO : Recherchesémantique par facette (biomédical)
      Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      31
    • 38. #3 – L’intégration du Text-Mining dans les applications (Web)
    • 39. Intégration typique
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      33
    • 40. Intégration du Text-Mining dans des applications open source
      OpenCalais
      Drupalhttp://drupal.org/project/opencalais
      Wordpresshttp://tagaroo.opencalais.com/
      Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      34
    • 41. Intégration du Text-Mining dans des applications open source
      AlchemyAPI
      PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi
      AlchemySEO
      Automatic tagging for SEO using MicroFormats
      Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/
      Exemple (tags générés automatiquement)
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      35
    • 42. Intégration du Text-Mining dans des applications open source
      OpenAmplify
      Drupalhttp://drupal.org/project/amplify
      Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx
      Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      36
    • 43. Autresexemples :RechercheSémantiqueOntoText KIM
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      37
    • 44. Autres exemples : Zemanta
      Zemanta analyses des donnéesgénérées par les utilisateurs (UGC) pour suggérer des photos, tags et liens pertinents.
      Disponible pour Firefox, Explorer et Google Chrome
      Zemantasuggère du contenuprovenant de Wikipedia, Youtube, IMDB, Amazon.com, Crunchbase, Flickr, ITIS, Musicbrainz, Mybloglog, Myspace, NCBI, Rottentomatoes, Twitter, Facebook, Snooth et Wikinvest.
      Source : Wikipedia
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      38
    • 45. Autres exemples : Zemanta
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      39
    • 46. Conclusion - Le Text-Mining dansvos applications ?
      Système d’annotation / tagging automatisée
      Amélioration de la recherche
      Regroupement automatisée de contenu
      A des fins d’analyses
      Rapport (Statistique sur le contenu, Aggrégation, etc)
      Offrir plus de liens sur un site Web
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      40
    • 47. Merci pour votre attention !
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      41
    • 48. Liens & Références
      SemanticSearchEngine
      http://wortschatz.uni-leipzig.de/
      NaCTeM
      http://www.nactem.ac.uk/
      OpenCalais
      http://www.opencalais.com
      OpenAmplify
      http://www.openamplify.com
      AlchemyAPI
      http://www.alchemyapi.com
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      42
    • 49. Liens & Références
      Text Mining: Finding Nuggets in Mountains of Textual DataJochen Dijrre, Peter Gerstl, Roland Seiffert
      http://www.cs.uvm.edu/~xwu/kdd/TextMining-09.ppt
      Natural Language ProcessingJF Allen
      http://portal.acm.org/citation.cfm?id=1074630
      Bashar Al-Fallouji - Des Applications Plus Intelligentes
      43

    ×