Des applications plus intelligentes
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Des applications plus intelligentes

on

  • 4,914 views

Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide ...

Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide to your (Web) application.

Statistics

Views

Total Views
4,914
Views on SlideShare
4,477
Embed Views
437

Actions

Likes
1
Downloads
31
Comments
0

3 Embeds 437

http://bashar.alfallouji.com 434
http://www.slideshare.net 2
http://translate.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • 80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)

Des applications plus intelligentes Presentation Transcript

  • 1. Des applications plus intelligentes
    Bashar Al-Fallouji
  • 2. Qui suis-je ?
    Bashar Al-Fallouji
    Architecte de Solution chez OpenText (Nstein)
    Mon Blog : bashar.alfallouji.com
    Sujets d’intérêt
    Génie logiciel
    Informatique décisionnelle (BI)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    2
  • 3. Objectif
    Présenter les technologies de Text-Mining existantes et leurs fonctionnalités.
    Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web).
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    3
  • 4. Agenda
    Rappel sur le textmining (définition, concepts clés, etc.)
    Présentation des technologies existantes (produits, API, fonctionnalités, etc.)
    Intégration du Text-Mining dans les applications (Web)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    4
  • 5. Deux questions pour vous …
    Que signifie le terme Text-Mining ?
    Qui a déjà utilisé une technologie de Text-Mining ?
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    5
  • 6. #1 – Rappel sur le Text-Mining
  • 7. Différents types de donnéesdansnos applications
    Les applications de traitement de l’information gère en général différents types de données
    Données structurées
    Date
    Booléen
    Valeur numérique (prix, pourcentage, quantité, etc.)
    Types énumérés (Mr, Ms, etc.)
    Données non-structurées
    Image
    Vidéo
    Son
    Corps de texte
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    7
  • 8. Différents types de donnéesdansnos applications
    Il est facile de comprendre et de retrouver de l’information à partir de données structurés
    SELECT * FROM TBL_FACTURE WHERE prix > 100
    Moins évident avec les données non-structurées
    Pourtant les données non-structurées peuvent receler une grande quantité d’information!
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    8
  • 9. Données non-structurées sont des mine d’or d’information
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    9
  • 10. Données non-structurées sont des mine d’or d’information
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    10
  • 11. Données non-structurées sont des mine d’or d’information
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    11
    Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.
  • 12. Mine d’or d’information
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    12
    Constat
    Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités.
    But
    Extraire cette information et automatiser le processus d’extraction.
  • 13. Données non-structurées
    80%
    Source : Experts Corner: Seth Grimes
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    13
  • 14. Définition Text-Mining
    Processusd’extractiond’information de hautes-qualités à partir d’un texte
    Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations.
    Le Text-Mining mélange plusieurs disciplines
    Recherche d’information (Information Retrieval);
    Data Mining;
    Apprentissage Machine (Machine Learning);
    Linguistique;
    Statistique.
    Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    14
  • 15. Text-Mining
    Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte)
    Données non-structurées, Bloc de texte :
    Article (e.g. news, blogs)
    Email (e.g. feedback client)
    Post, Commentaire (e.g. forum)
    Logs (Server logs)
    Le Text-Mining permet d’enrichir le contenu et de mieux les structurer
    Plus les données sont structurées, plus facile il est de les
    Retrouver (Recherche facilitée)
    Analyser (Interprétation des données)
    Regrouper, relier
    Réutiliser
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    15
  • 16. Quelques concepts clés
    Traitementautomatique du language naturelou NLP (Natural Language Processing)
    Discipline mélangeant informatique et linguistique
    Application de programmes et techniques à tous les aspects du language humain
    Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc.
    Source : Wikipedia
    Entité
    Catégories
    • Fichiers d’autorité
    • 17. Taxonomie = Classification d’entités (souvent représenté sous forme d’un arbre)
    • 18. Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    16
  • 19. Text-Mining ?
    Permet de répondre à des questions précises
    Qui, Quand, Où, etc.
    Détection de la langue
    Génération automatisée de résumés
    Détection du ton (Sentiment Analysis)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    17
  • 20. Extraction d’entités
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    18
  • 21. Exemple
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    19
    Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway.
    Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna.
    The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time.
    MinedwithAlchemyAPI
  • 22. Garbage in = Garbage out
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    20
  • 23. #2 – Technologies existantes
  • 24. SaaSvs not SaaS
    SaaS
    Avantages
    Accès facile aux fonctionnalités (Rest, Soap)
    Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.)
    Désavantages
    Restrictions au niveau API
    Potentiels problèmes au niveau performance (ping, blocage IP)
    Disponibilité du service (Service Level Agreement)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    22
    Not SaaS
    • Avantages
    • 25. Peut être plus performant (temps de latence, pas de restriction à priori)
    • 26. Possibilité d’avoir des taxonomies et AF personnalisés
    • 27. Désavantages
    • 28. Coût
    • 29. Complexité et maintenance
  • Gate (Not SaaS)
    Suite logiciel Open Source
    Existe depuis 15 ans (Java)
    La suite est composée
    Un IDE - GATE Developer4 : Environnement de développement intégré (plusieurs plugins disponible)
    Une web app - GATE Teamware : Un outil d’annotation (collaboratif) offrant un backend
    Un framework - GATE Embedded: Librairie orientée objet exposant l’API
    an architecture: a high-levelorganisationalpicture of how languageprocessing software composition
    a process for the creation of robust and maintainable services
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    23
  • 30. Technologies existantes (SaaS)
    Quelquesnoms (listes non-exhaustive!)
    Open Calais
    AlchemyAPI
    OpenAmplify
    BeliefNetworks
    Yahoo Term Extraction
    Evri
    Wingify
    Zemanta
    UClassify
    Alias-I
    Etc…
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    24
  • 31. Fonctionnalitéesoffertes
    Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue
    Langues supportées (EN, FR, SP)
    Format supportés (HTML, Microformats)
    API existantes (PHP, Perl, .NET, etc.)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    25
  • 32. OpenCalais
    Rachat par Reuters de ClearForest en 2007
    Reuters a démarré OpenCalais en Janvier 2008
    Fonctionnalités principales
    Catégorisation
    Extraction d’entité, faits et événements
    Langues supportées : Anglais, Français (Espagnol)
    Quota : 50,000 transactions / jour, 4 transactions par seconde
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    26
  • 33. OpenCalais : Exempled’appel
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    27
  • 34. AlchemyAPI
    Produit de Orchestr8 (2005)
    Fonctionnalités principales
    Concept / Keywords Extractions
    Categorization
    Entity
    Languagedetection
    MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing
    Quota : 30,000 API appel / jour
    Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois)
    Plugins
    Wordpress
    AlchemySEO : Tagging Automatique (SEO) basé sur les microformats
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    28
  • 35. OpenAmplify
    Web service développé par Hapax
    Fonctionnalités principales
    Catégorisation
    Extraction d’entité
    Analyse du Sentiment
    Format de sortie supporté : DART, OAS, RDF, RDFa, HTML
    1000 transactions / jour
    Source : www.openAmplify.com
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    29
  • 36. Yahoo Term Extraction
    Fonctionnalités principales
    Extraction d’entité
    5000 transactions / jour et IP (utilisation non-commerciale)
    Seule l’anglais est supportée
    Output : JSON / PHP
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    30
  • 37. NaCTeM
    National Center for TextMining
    NaCTeMoffredifférentes solutions
    TerMine : Reconnaissance automatique de termesdans un document
    AcroMine : Recherched’acronyme (biomédical)
    Medie : Engin de rechercheSémantique (Biomédical)
    Facta+ : Engin de recherched’association entre concept (biomédical)
    KLEIO : Recherchesémantique par facette (biomédical)
    Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    31
  • 38. #3 – L’intégration du Text-Mining dans les applications (Web)
  • 39. Intégration typique
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    33
  • 40. Intégration du Text-Mining dans des applications open source
    OpenCalais
    Drupalhttp://drupal.org/project/opencalais
    Wordpresshttp://tagaroo.opencalais.com/
    Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    34
  • 41. Intégration du Text-Mining dans des applications open source
    AlchemyAPI
    PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi
    AlchemySEO
    Automatic tagging for SEO using MicroFormats
    Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/
    Exemple (tags générés automatiquement)
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    35
  • 42. Intégration du Text-Mining dans des applications open source
    OpenAmplify
    Drupalhttp://drupal.org/project/amplify
    Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx
    Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    36
  • 43. Autresexemples :RechercheSémantiqueOntoText KIM
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    37
  • 44. Autres exemples : Zemanta
    Zemanta analyses des donnéesgénérées par les utilisateurs (UGC) pour suggérer des photos, tags et liens pertinents.
    Disponible pour Firefox, Explorer et Google Chrome
    Zemantasuggère du contenuprovenant de Wikipedia, Youtube, IMDB, Amazon.com, Crunchbase, Flickr, ITIS, Musicbrainz, Mybloglog, Myspace, NCBI, Rottentomatoes, Twitter, Facebook, Snooth et Wikinvest.
    Source : Wikipedia
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    38
  • 45. Autres exemples : Zemanta
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    39
  • 46. Conclusion - Le Text-Mining dansvos applications ?
    Système d’annotation / tagging automatisée
    Amélioration de la recherche
    Regroupement automatisée de contenu
    A des fins d’analyses
    Rapport (Statistique sur le contenu, Aggrégation, etc)
    Offrir plus de liens sur un site Web
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    40
  • 47. Merci pour votre attention !
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    41
  • 48. Liens & Références
    SemanticSearchEngine
    http://wortschatz.uni-leipzig.de/
    NaCTeM
    http://www.nactem.ac.uk/
    OpenCalais
    http://www.opencalais.com
    OpenAmplify
    http://www.openamplify.com
    AlchemyAPI
    http://www.alchemyapi.com
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    42
  • 49. Liens & Références
    Text Mining: Finding Nuggets in Mountains of Textual DataJochen Dijrre, Peter Gerstl, Roland Seiffert
    http://www.cs.uvm.edu/~xwu/kdd/TextMining-09.ppt
    Natural Language ProcessingJF Allen
    http://portal.acm.org/citation.cfm?id=1074630
    Bashar Al-Fallouji - Des Applications Plus Intelligentes
    43