Your SlideShare is downloading. ×
0
Des applications plus intelligentes<br />Bashar Al-Fallouji<br />
Qui suis-je ?<br />Bashar Al-Fallouji 	<br />Architecte de Solution chez OpenText (Nstein)<br />Mon Blog : bashar.alfallou...
Objectif<br />Présenter les technologies de Text-Mining existantes et leurs fonctionnalités.<br />Vous sensibiliser au pot...
Agenda<br />Rappel sur le textmining  (définition, concepts clés, etc.)<br />Présentation des technologies existantes  (pr...
Deux questions pour vous …<br />Que signifie le terme Text-Mining ?<br />Qui a déjà utilisé une technologie de Text-Mining...
#1 – Rappel sur le Text-Mining<br />
Différents types de donnéesdansnos applications<br />Les applications de traitement de l’information gère en général diffé...
Différents types de donnéesdansnos applications<br />Il est facile de comprendre et de retrouver de l’information à partir...
Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br ...
Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br ...
Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br ...
Mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />12<br />Constat<br />Vidéos, Ph...
Données non-structurées<br />80%<br />Source : Experts Corner: Seth Grimes<br />Bashar Al-Fallouji - Des Applications Plus...
Définition Text-Mining  <br />Processusd’extractiond’information de hautes-qualités à partir d’un texte<br />Le but étant ...
Text-Mining<br />Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte)<br />Données non-str...
Quelques concepts clés<br />Traitementautomatique du language naturelou NLP (Natural Language Processing)<br />Discipline ...
Taxonomie  = Classification d’entités (souvent représenté sous forme d’un arbre)
Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)</li></ul>Bashar Al-Fallou...
Text-Mining ?<br />Permet de répondre à des questions précises<br />Qui, Quand, Où, etc.<br />Détection de la langue<br />...
Extraction d’entités<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />18<br />
Exemple<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />19<br />Several people are dead and more than a...
Garbage in = Garbage out<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />20<br />
#2 – Technologies existantes<br />
SaaSvs not SaaS<br />SaaS<br />Avantages <br />Accès facile aux fonctionnalités (Rest, Soap)<br />Généralement moins coûte...
Peut être plus performant  (temps de latence, pas de restriction à priori)
Possibilité d’avoir des taxonomies et AF personnalisés
Désavantages
Coût
Complexité et maintenance</li></li></ul><li>Gate (Not SaaS)<br />Suite logiciel Open Source <br />Existe depuis 15 ans (Ja...
Technologies existantes (SaaS)<br />Quelquesnoms (listes non-exhaustive!)<br />Open Calais<br />AlchemyAPI<br />OpenAmplif...
Fonctionnalitéesoffertes<br />Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse d...
OpenCalais<br />Rachat par Reuters de ClearForest en 2007<br />Reuters a démarré OpenCalais en Janvier 2008<br />Fonctionn...
OpenCalais : Exempled’appel<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />27<br />
AlchemyAPI<br />Produit de Orchestr8 (2005)<br />Fonctionnalités principales<br />Concept / Keywords Extractions<br />Cate...
OpenAmplify<br />Web service développé par Hapax<br />Fonctionnalités principales<br />Catégorisation<br />Extraction d’en...
Yahoo Term Extraction<br />Fonctionnalités principales<br />Extraction d’entité<br />5000 transactions / jour et IP (utili...
NaCTeM<br />National Center for TextMining<br />NaCTeMoffredifférentes solutions <br />TerMine : Reconnaissance automatiqu...
#3 – L’intégration du Text-Mining dans les applications (Web)<br />
Intégration typique<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />33<br />
Intégration du Text-Mining dans des applications open source<br />OpenCalais<br />Drupalhttp://drupal.org/project/opencala...
Intégration du Text-Mining dans des applications open source<br />AlchemyAPI<br />PluginWordpresshttp://wordpress.org/exte...
Intégration du Text-Mining dans des applications open source<br />OpenAmplify<br />Drupalhttp://drupal.org/project/amplify...
Autresexemples :RechercheSémantiqueOntoText KIM<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />37<br />
Upcoming SlideShare
Loading in...5
×

Des applications plus intelligentes

4,919

Published on

Presenting the core notions related to Text-Mining, we will see some of the existing technologies, their features. The talk will be focused on the added value and benefits that Text-Mining may provide to your (Web) application.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,919
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
32
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • 80% of all potentially usable business information originates in unstructured form (MerryllLinch, 1998)
  • Transcript of "Des applications plus intelligentes"

    1. 1. Des applications plus intelligentes<br />Bashar Al-Fallouji<br />
    2. 2. Qui suis-je ?<br />Bashar Al-Fallouji <br />Architecte de Solution chez OpenText (Nstein)<br />Mon Blog : bashar.alfallouji.com<br />Sujets d’intérêt <br />Génie logiciel<br />Informatique décisionnelle (BI)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />2<br />
    3. 3. Objectif<br />Présenter les technologies de Text-Mining existantes et leurs fonctionnalités.<br />Vous sensibiliser au potentiel énorme que le Text-Mining peut apporter dans vos applications (Web).<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />3<br />
    4. 4. Agenda<br />Rappel sur le textmining (définition, concepts clés, etc.)<br />Présentation des technologies existantes (produits, API, fonctionnalités, etc.)<br />Intégration du Text-Mining dans les applications (Web)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />4<br />
    5. 5. Deux questions pour vous …<br />Que signifie le terme Text-Mining ?<br />Qui a déjà utilisé une technologie de Text-Mining ?<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />5<br />
    6. 6. #1 – Rappel sur le Text-Mining<br />
    7. 7. Différents types de donnéesdansnos applications<br />Les applications de traitement de l’information gère en général différents types de données <br />Données structurées<br />Date<br />Booléen <br />Valeur numérique (prix, pourcentage, quantité, etc.)<br />Types énumérés (Mr, Ms, etc.)<br />Données non-structurées<br />Image<br />Vidéo<br />Son<br />Corps de texte<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />7<br />
    8. 8. Différents types de donnéesdansnos applications<br />Il est facile de comprendre et de retrouver de l’information à partir de données structurés<br />SELECT * FROM TBL_FACTURE WHERE prix > 100<br />Moins évident avec les données non-structurées<br />Pourtant les données non-structurées peuvent receler une grande quantité d’information!<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />8<br />
    9. 9. Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />9<br />
    10. 10. Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />10<br />
    11. 11. Données non-structurées sont des mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />11<br />Femme flottant sur le dos dans la mer avec une vue à l’horizon sur des montagnes durant une journée ensoleillée.<br />
    12. 12. Mine d’or d’information<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />12<br />Constat<br />Vidéos, Photos, Son et Texte recèlent / cachent des informations de hautes qualités.<br />But<br />Extraire cette information et automatiser le processus d’extraction.<br />
    13. 13. Données non-structurées<br />80%<br />Source : Experts Corner: Seth Grimes<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />13<br />
    14. 14. Définition Text-Mining <br />Processusd’extractiond’information de hautes-qualités à partir d’un texte<br />Le but étant de réduire l’effort (automatiser) liée à l’extraction des ces informations.<br />Le Text-Mining mélange plusieurs disciplines <br />Recherche d’information (Information Retrieval);<br />Data Mining;<br />Apprentissage Machine (Machine Learning);<br />Linguistique;<br />Statistique.<br />Plusieurs domaines d’application (Média, Publishing, Securité, Biomédical, Académique, etc.)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />14<br />
    15. 15. Text-Mining<br />Nécessite du texte (quantitéimportanted’information se trouvedans le corps de texte)<br />Données non-structurées, Bloc de texte : <br />Article (e.g. news, blogs)<br />Email (e.g. feedback client)<br />Post, Commentaire (e.g. forum)<br />Logs (Server logs)<br />Le Text-Mining permet d’enrichir le contenu et de mieux les structurer<br />Plus les données sont structurées, plus facile il est de les <br />Retrouver (Recherche facilitée)<br />Analyser (Interprétation des données)<br />Regrouper, relier <br />Réutiliser<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />15<br />
    16. 16. Quelques concepts clés<br />Traitementautomatique du language naturelou NLP (Natural Language Processing)<br />Discipline mélangeant informatique et linguistique<br />Application de programmes et techniques à tous les aspects du language humain <br />Traduction, Correction Orthographique, Résumé automatique, Synthèse de la parole, reconnaissance vocale, classification et catégorisation de documents, etc.<br />Source : Wikipedia<br />Entité<br />Catégories <br /><ul><li>Fichiers d’autorité
    17. 17. Taxonomie = Classification d’entités (souvent représenté sous forme d’un arbre)
    18. 18. Onthologie = Description de l’ensemble (Possède une grammaire, des relations entres les entités)</li></ul>Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />16<br />
    19. 19. Text-Mining ?<br />Permet de répondre à des questions précises<br />Qui, Quand, Où, etc.<br />Détection de la langue<br />Génération automatisée de résumés <br />Détection du ton (Sentiment Analysis)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />17<br />
    20. 20. Extraction d’entités<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />18<br />
    21. 21. Exemple<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />19<br />Several people are dead and more than a dozen others are injured following an avalanche in the interior of British Columbia. Numerous others may be missing and a massive search operation is underway.<br />Late Saturday night, three people were reported dead and 17 others were injured. Among the injured, two are in critical condition, CTV News reports. The avalanche occurred near Revelstoke, which is in the province's rugged interior, about 200 kilometres northeast of Kelowna.<br />The slide occurred as about 200 people were taking part in a large snowmobile gathering on Boulder Mountainon Saturday afternoon. Helicopters and search dogs were scouring the area on Saturday and the mountain has been shut down. The snowmobiling event is known as the Big Iron Shootout. CTV camera operator Rod Romano arrived at the avalanche scene about three minutes after the slide occurred around 3 p.m. local time.<br />MinedwithAlchemyAPI<br />
    22. 22. Garbage in = Garbage out<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />20<br />
    23. 23. #2 – Technologies existantes<br />
    24. 24. SaaSvs not SaaS<br />SaaS<br />Avantages <br />Accès facile aux fonctionnalités (Rest, Soap)<br />Généralement moins coûteux en terme d’Infrastructure (Coût en serveur, Maintenance, Mise à niveau, etc.)<br />Désavantages<br />Restrictions au niveau API<br />Potentiels problèmes au niveau performance (ping, blocage IP)<br />Disponibilité du service (Service Level Agreement)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />22<br />Not SaaS<br /><ul><li>Avantages
    25. 25. Peut être plus performant (temps de latence, pas de restriction à priori)
    26. 26. Possibilité d’avoir des taxonomies et AF personnalisés
    27. 27. Désavantages
    28. 28. Coût
    29. 29. Complexité et maintenance</li></li></ul><li>Gate (Not SaaS)<br />Suite logiciel Open Source <br />Existe depuis 15 ans (Java)<br />La suite est composée<br />Un IDE - GATE Developer4 : Environnement de développement intégré (plusieurs plugins disponible)<br />Une web app - GATE Teamware : Un outil d’annotation (collaboratif) offrant un backend<br />Un framework - GATE Embedded: Librairie orientée objet exposant l’API<br />an architecture: a high-levelorganisationalpicture of how languageprocessing software composition<br />a process for the creation of robust and maintainable services<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />23<br />
    30. 30. Technologies existantes (SaaS)<br />Quelquesnoms (listes non-exhaustive!)<br />Open Calais<br />AlchemyAPI<br />OpenAmplify<br />BeliefNetworks<br />Yahoo Term Extraction<br />Evri<br />Wingify<br />Zemanta<br />UClassify<br />Alias-I<br />Etc…<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />24<br />
    31. 31. Fonctionnalitéesoffertes<br />Annotateur d'entité, extraction de concepts, catégorisation, génération de résumé, analyse du sentiment, détection de la langue<br />Langues supportées (EN, FR, SP)<br />Format supportés (HTML, Microformats)<br />API existantes (PHP, Perl, .NET, etc.)<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />25<br />
    32. 32. OpenCalais<br />Rachat par Reuters de ClearForest en 2007<br />Reuters a démarré OpenCalais en Janvier 2008<br />Fonctionnalités principales<br />Catégorisation<br />Extraction d’entité, faits et événements<br />Langues supportées : Anglais, Français (Espagnol)<br />Quota : 50,000 transactions / jour, 4 transactions par seconde<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />26<br />
    33. 33. OpenCalais : Exempled’appel<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />27<br />
    34. 34. AlchemyAPI<br />Produit de Orchestr8 (2005)<br />Fonctionnalités principales<br />Concept / Keywords Extractions<br />Categorization<br />Entity<br />Languagedetection<br />MicroformatParsing, RSS / ATOM FeedDetection / Web page cleansing<br />Quota : 30,000 API appel / jour<br />Anglais, Français, Espagnol, (Allemand, Italien, Portuguais, Russe et Suédois)<br />Plugins<br />Wordpress<br />AlchemySEO : Tagging Automatique (SEO) basé sur les microformats<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />28<br />
    35. 35. OpenAmplify<br />Web service développé par Hapax<br />Fonctionnalités principales<br />Catégorisation<br />Extraction d’entité<br />Analyse du Sentiment <br />Format de sortie supporté : DART, OAS, RDF, RDFa, HTML<br />1000 transactions / jour<br />Source : www.openAmplify.com<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />29<br />
    36. 36. Yahoo Term Extraction<br />Fonctionnalités principales<br />Extraction d’entité<br />5000 transactions / jour et IP (utilisation non-commerciale)<br />Seule l’anglais est supportée<br />Output : JSON / PHP<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />30<br />
    37. 37. NaCTeM<br />National Center for TextMining<br />NaCTeMoffredifférentes solutions <br />TerMine : Reconnaissance automatique de termesdans un document<br />AcroMine : Recherched’acronyme (biomédical)<br />Medie : Engin de rechercheSémantique (Biomédical)<br />Facta+ : Engin de recherched’association entre concept (biomédical)<br />KLEIO : Recherchesémantique par facette (biomédical)<br />Info-PubMed : Fournit de l’information (graphique) sur les maladies et les organismes<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />31<br />
    38. 38. #3 – L’intégration du Text-Mining dans les applications (Web)<br />
    39. 39. Intégration typique<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />33<br />
    40. 40. Intégration du Text-Mining dans des applications open source<br />OpenCalais<br />Drupalhttp://drupal.org/project/opencalais<br />Wordpresshttp://tagaroo.opencalais.com/<br />Plugin Firefoxhttps://addons.mozilla.org/en-US/firefox/addon/3999<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />34<br />
    41. 41. Intégration du Text-Mining dans des applications open source<br />AlchemyAPI<br />PluginWordpresshttp://wordpress.org/extend/plugins/tags/alchemyapi<br />AlchemySEO<br />Automatic tagging for SEO using MicroFormats<br />Généreune version sémantique de votre page pour les moteurs de recherche (Extraction d’entités)http://www.alchemyapi.com/tools/alchemyseo/<br />Exemple (tags générés automatiquement) <br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />35<br />
    42. 42. Intégration du Text-Mining dans des applications open source<br />OpenAmplify<br />Drupalhttp://drupal.org/project/amplify<br />Gmail Addonhttp://community.openamplify.com/media/p/1029.aspx<br />Pluginsdisponiblessurhttp://community.openamplify.com/media/g/gallery/default.aspx<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />36<br />
    43. 43. Autresexemples :RechercheSémantiqueOntoText KIM<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />37<br />
    44. 44. Autres exemples : Zemanta<br />Zemanta analyses des donnéesgénérées par les utilisateurs (UGC) pour suggérer des photos, tags et liens pertinents.<br />Disponible pour Firefox, Explorer et Google Chrome<br />Zemantasuggère du contenuprovenant de Wikipedia, Youtube, IMDB, Amazon.com, Crunchbase, Flickr, ITIS, Musicbrainz, Mybloglog, Myspace, NCBI, Rottentomatoes, Twitter, Facebook, Snooth et Wikinvest.<br /> Source : Wikipedia<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />38<br />
    45. 45. Autres exemples : Zemanta<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />39<br />
    46. 46. Conclusion - Le Text-Mining dansvos applications ?<br />Système d’annotation / tagging automatisée<br />Amélioration de la recherche<br />Regroupement automatisée de contenu<br />A des fins d’analyses<br />Rapport (Statistique sur le contenu, Aggrégation, etc)<br />Offrir plus de liens sur un site Web<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />40<br />
    47. 47. Merci pour votre attention !<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />41<br />
    48. 48. Liens & Références<br />SemanticSearchEngine<br />http://wortschatz.uni-leipzig.de/<br />NaCTeM<br />http://www.nactem.ac.uk/<br />OpenCalais<br />http://www.opencalais.com<br />OpenAmplify<br />http://www.openamplify.com<br />AlchemyAPI<br />http://www.alchemyapi.com<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />42<br />
    49. 49. Liens & Références<br />Text Mining: Finding Nuggets in Mountains of Textual DataJochen Dijrre, Peter Gerstl, Roland Seiffert<br />http://www.cs.uvm.edu/~xwu/kdd/TextMining-09.ppt<br />Natural Language ProcessingJF Allen<br />http://portal.acm.org/citation.cfm?id=1074630<br />Bashar Al-Fallouji - Des Applications Plus Intelligentes<br />43<br />
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×