Text Mining - Data Mining

7,679 views

Published on

Published in: Lifestyle
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
7,679
On SlideShare
0
From Embeds
0
Number of Embeds
1,543
Actions
Shares
0
Downloads
212
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Text Mining - Data Mining

  1. 1. เทคโนโลยี Text Mining / Data Mining รังสิมา เพ็ชรเม็ดใหญ่ ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS โครงการสัมมนา Applied ICT for Executive Librarians 30 กรกฎาคม 2553 มหาวิทยาลัยธุรกิจบัณฑิตย์ 1
  2. 2. Outlines ความหมาย Definition ประวัติ ความเป็ นมา เทคนิ ค Text Mining Techniques การประยุกต์ใชู Applications เคร่ ืองมือ Text mining tools ประสบการณ์ ของ STKS กับ Text Mining บรรณานุกรม 2
  3. 3. ความหมายของ Text Mining Text mining is the process of analyzing & structure Large sets of documents applying statistical and/or Computational linguistics technology in order to extract Previously unknown knowledge useful to take crucial Business decision. คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา ื ี ี information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ ู แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย 3
  4. 4. ความหมาย Text mining (ต่อ) Text mining is a new and exciting research area in computer sciences that tries to solve the information overload problem by using techniques from data mining / machine learning / natural language processing (NLP) / information retrieval and knowledge management. A key element of text mining is its on the document collection. At its simplest a document collection can be any grouping of text based documents such as business report /legal memorandum / e-mail/ research Paper / manuscript /article /press release 4
  5. 5. Text Mining แตกต่างกับการสืบค้น การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว ี ื ั ้ ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ ไม่มีขูอมูลท่ถกบันทึกไวูก่อน ี ู Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก ื แตกต่างกันไปเช่น Data Mining Scientometrics Webometrics Bibliometrics etc. 5
  6. 6. ประวัติ ของ Information Extraction / IE จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation) MUC-2 Conference 1989 MUC-3 conference 1991 Latin American Terrorisms MUC-4 1992 MUC-5 1993 Japanese document ( joint ventures + microelectronics) MUC-6 1995 Financial domain MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English ) European Commission / LRE ( linguistic research & engineering ) IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC / CROSSMARC , MOSES 6
  7. 7. Figure 1 แสดง The Evolution of database system technology. 7
  8. 8. Example of output from industry analyzer term extraction process Biogen Idec Inc. ended its third quarter with $543 million in Revenues , slightly lower than analyst estimates as it near the One-year anniversary of a merger that made it the world largest Biotech company The Cambridge,Mass.-based company reported non-GAAP Earnings per share of 37 cents and net income of $132 million compared with 35 cents and 123 million for the quarter last year. Analysts consensus estimate for the quarter was 35 cents 8
  9. 9. การประยุกต์ Text Mining ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง) ้ ั มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson ู เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน 9
  10. 10. สาขา Genomics ประสบความสำาเร็จ ด้วย TM ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ ิ ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน ึ้ ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน ี 10
  11. 11. ปั จจุบน TM ได้รับความสนใจในหลายสาขา ั Security Application (CIA analyze terrorist events) Software Application IBM , Microsoft กำาลังพัฒนา Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ เช่น Nature / NIH / Univ.Manchester / Uinv.California Customer Service ตูองการ quick response เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน 11
  12. 12. Text Mining Techniques เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่ Text Extraction Summarized Extraction Feature Selection Cluster Generation Topic Identification Information Mapping, Visualization Text Categorization TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ Data Mining / Information Retrieval / Linguistics / Machine pattern / Statistics/ Pattern recognition / Database / Visualization 12
  13. 13. ตลาดของ Text Mining ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ Customer Relationship Management /CRM มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn Knowledge & Content management มีมูลค่า $ 1.9 bn Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn 13
  14. 14. TM กับภาคธุรกิจ Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย ธนาคาร Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ ั ของบริษัท R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา ั เอกสารวิชาการ 14
  15. 15. การประยุกต์ในงาน Crime Pattern Detection หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า Police Information Report / PIR ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่ จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก ผลท่ีไดูผิดพลาดและลำาเอียง ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ ้ Date District Event type Description 1/05/2003 Reston Robbery ………………. 5/05/2003 Lake Accident ………………. 6/05/2003 South Narcotics ……………… 15
  16. 16. งานข้อมูลตำารวจ (ต่อ) ขันตอนท่ี 2 Extract important & concept ้ ขันตอนท่ี 3 Analyze pattern ( Co-occurrence ) ้ การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม ่ เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ และภาษาอ่ ืนๆ มากมาย คือ German / Spanish / French /Russian / Italian / Portuguese / Dutch / Swedish / Greek 16
  17. 17. Text Mining Tools / Software ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่ Megaputer Intelligence SAS SPSS Synthema TEMIS Autonomy Clearforest Fast IBM Inxight Vantage Point etc. 17
  18. 18. Text Mining Tools ประเภท Open Sources Software Gate - Natural language processing & language engineering tool YALE- with its Word vector Tool plugin data and text mining software Pimiento- a text-mining application framework written in Java (http://ee.usyd.edu.au/~jjga/pimiento) 18
  19. 19. 19
  20. 20. 20
  21. 21. 21
  22. 22. Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ ่ ์ ่ (have proven particularly fertile ground for TM) Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน business intelligence Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย Life Science identify complex patterns of interactivities between proteins 22
  23. 23. ขันตอนการทำางานของ Text Mining ้ • Issue identification • Selection of information sources • Search refinement and data retrieval • Data cleaning • Basic analyses • Advance analyses • Representation 23
  24. 24. Text Mining Tasks Search & Retrieval Information mine various databases ( internal,external publications/patents ) retrieve search results analyses with text mining software Profile ( Statistical analyses ) R&D activities / Technology application emphases Represent : text , tables , graphs activities by time / player / Technology map Interpret : perform competitive analyses describe & project technology by nation / company anticipate / forecast / trend technology 24
  25. 25. ประสบการณ์ ของ STKS กับ TM Tool TM : Vantage Point / VP ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus ั ฐานขูอมูลสิทธิบัตร Delphion ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc. 25
  26. 26. การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science ั PT J AU Yoksan, R Akashi, M AF Yoksan, Rangrong Akashi, Mitsuru TI Low molecular weight chitosan-g-L-phenylalanine: Preparation, characterization, and complex formation with DNA SO CARBOHYDRATE POLYMERS LA English DT Article DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA release ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS; VECTORS; REMOVAL AB The grafting of L-phenylalanine onto low molecular weight chitosan is ............................................................................. C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan. [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand. RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka, Suita, Osaka 5650871, Japan. EM akashi@chem.eng.osaka-u.ac.jp FU Japan Society for the Promotion of Science (JSPS), Japan [P05133] FX This work was financially supported by the Japan Society for the Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.) thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for the technique and discussion on cell culture. NR 36 TC 5 PU ELSEVIER SCI LTD PI OXFORD PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND SN 0144-8617 J9 CARBOHYD POLYM JI Carbohydr. Polym. PD JAN 5 PY 2009 VL 75 IS 1 BP 95 EP 103 DI 10.1016/j.carbpol.2008.07.001 PG 9 SC Chemistry, Applied; Chemistry, Organic; Polymer Science 26 GA 361SY
  27. 27. ตัวอย่าง ข้อมูลบรรณานุกรมสิทธิบัตร จากฐานข้อมูล Thomson : Delphion 27
  28. 28. 28
  29. 29. 29
  30. 30. 30
  31. 31. 31
  32. 32. A p p lic a tio n A p p lic a tio n P a te n t A s s ig n e e s T itle IP C -R C o u n tr ie s D a te s Top 5 T o p T e rm s T o p T e rm s T o p T e rm s T o p T e rm s 2 0 0 5 -1 1 -2 8 [2 ]; P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ]; A 6 1 K 3 6 /0 2 D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ; 2 0 0 5 -0 3 -1 6 T o p ic a l m e d ic a m e n t [3 ]; [1 2 ]; O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju [2 ]; P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ; A 6 1 K 3 6 /1 8 5 & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ]; U S [5 2 ] 2 0 0 5 -0 6 -2 4 H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d [1 2 ]; O c e a n N u tr itio n C a n a d a L im ite d [2 ]; [2 ]; c o n d it io n s [2 ]; A 6 1 K 3 6 /8 2 [7 ]; S a h a ja n a n d B io te c h P v t. L td . [2 ]; 2 0 0 5 -0 6 -3 0 A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T A 6 1 K 3 5 /6 6 [6 ]; B A S F C o r p o r a t io n [1 ] [2 ]; C O M P O S IT IO N [2 ] A 6 1 K 3 6 /0 5 [6 ] 2 0 0 5 -0 9 -0 6 [2 ] 2 0 0 6 -0 3 -2 3 A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F [3 ]; L A C T IC A C ID B A C T E R IU M [1 ]; A 2 3 L 1 /3 0 [1 1 ]; D A IN IP P O N IN K & C H E M IN C [5 ]; 2 0 0 7 -1 2 -2 0 C H E W IN G G U M [1 ]; A 6 1 K 3 6 /0 2 S P IR U L IN A B IO L O G IC A L L A B L T D [4 ]; [2 ]; F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y [1 0 ]; J P [2 6 ] S U E T S U N A K U N IO [3 ]; 2 0 0 5 -0 4 -1 5 H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ; A 6 1 K 3 6 /0 5 [6 ]; Y A M A D A Y A K K E N :K K [3 ]; [2 ]; N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D A 6 1 P 4 3 /0 0 [5 ]; N O D A S H O K U K IN K O G Y O K K [2 ] 2 0 0 4 -0 4 -0 8 P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]; A 6 1 K 3 8 /0 0 [4 ] [1 ]; N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D 2 0 0 5 -0 9 -2 1 [1 ] P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ] 2 0 0 7 -0 9 -1 0 H E A L T H S U P P L E M E N T [2 ]; [3 ]; T o p ic a l m e d ic a m e n t [2 ]; A 6 1 K 3 6 /0 2 [5 ]; S C H O C K J O E L [2 ]; 2 0 0 5 -0 9 -0 7 Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in A 6 1 K 3 6 /1 8 5 U n iv e r s it y o f M is s is s ip p i [2 ]; [2 ]; M ic r o a lg a e E x tr a c t [ 2 ]; [5 ]; W O [1 9 ] M O R G A N C L Y D E [2 ]; 2 0 0 5 -0 6 -2 4 F E E D S U P P L E M E N T A N D M E T H O D O F IT S A 2 3 L 1 /3 0 [3 ]; D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ]; [2 ]; P R O D U C T IO N [1 ]; A 6 1 K 3 6 /8 8 [3 ]; H e n k e l A G & C o . K G a A [1 ] 2 0 0 7 -0 8 -0 2 C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A A 6 1 K 3 6 /8 8 6 [3 ] [1 ]; [1 ] 2 0 0 7 -1 1 -3 0 [1 ] 32
  33. 33. สรุป ประโยชนของเทคโนโลยี Text / Data Mining ์ เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market / Technology Intelligence ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content) ื แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship) จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking) ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where) ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ อ่ ืนๆ 33
  34. 34. การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน มี Metadata / Controlled Vocabulary / Taxonomy / Ontology ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data) เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง ู ฐานขูอมูลวิทยานิ พนธ์ไทย พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ............... ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์ ปี ท่ีจบ .................... 2545 / 1997 อ่ ืนๆ 34
  35. 35. บรรณานุกรม Zanasi A. 2005 Text mining and its applications to Intelligence , CRM and Knowledge Management ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550. Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007 35
  36. 36. END Thank you for your attention 36

×