SlideShare a Scribd company logo
1 of 36
เทคโนโลยี Text Mining / Data Mining


                 รังสิมา เพ็ชรเม็ดใหญ่
 ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS
โครงการสัมมนา Applied ICT for Executive Librarians
                   30 กรกฎาคม 2553
               มหาวิทยาลัยธุรกิจบัณฑิตย์




                                                     1
Outlines
  ความหมาย Definition
  ประวัติ ความเป็ นมา
  เทคนิ ค Text Mining Techniques
  การประยุกต์ใชู Applications
  เคร่ ืองมือ Text mining tools
  ประสบการณ์ ของ STKS กับ Text Mining
  บรรณานุกรม




                                        2
ความหมายของ Text Mining

Text mining is the process of analyzing & structure
Large sets of documents applying statistical
 and/or Computational linguistics technology in
order to extract Previously unknown knowledge
useful to take crucial Business decision.

คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู
เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา
                  ื   ี                         ี
information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ
 นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ
                                            ู
แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย



                                                                    3
ความหมาย Text mining (ต่อ)

Text mining is a new and exciting research area in
computer sciences that tries to solve the information
overload problem by using techniques from data mining
/ machine learning / natural language processing (NLP)
/ information retrieval and knowledge management.

A key element of text mining is its on the document
collection. At its simplest a document collection
 can be any grouping of text based documents such as
business report /legal memorandum / e-mail/ research
Paper / manuscript /article /press release


                                                         4
Text Mining แตกต่างกับการสืบค้น

การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง
ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว
  ี ื        ั           ้

ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ
ไม่มีขูอมูลท่ถกบันทึกไวูก่อน
             ี ู

Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก
                                                    ื
แตกต่างกันไปเช่น
Data Mining
Scientometrics
Webometrics
Bibliometrics etc.


                                                                    5
ประวัติ ของ Information Extraction / IE
จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community
ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation)
MUC-2 Conference 1989
MUC-3 conference 1991 Latin American Terrorisms
MUC-4 1992
MUC-5 1993 Japanese document ( joint ventures + microelectronics)
MUC-6 1995 Financial domain
MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English )
European Commission / LRE ( linguistic research & engineering )

IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC /
CROSSMARC , MOSES




                                                                              6
Figure 1 แสดง
The Evolution of
database system
technology.




                   7
Example of output from industry analyzer term extraction process

Biogen Idec Inc. ended its third quarter with $543 million in
Revenues , slightly lower than analyst estimates as it near the
One-year anniversary of a merger that made it the world largest
Biotech company

The Cambridge,Mass.-based company reported non-GAAP
Earnings per share of 37 cents and net income of $132 million
compared with 35 cents and 123 million for the quarter last year. Analysts
consensus estimate for the quarter was
35 cents




                                                                             8
การประยุกต์ Text Mining


ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น

การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing
Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา
บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง)
     ้           ั
มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย

สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson
                                  ู
เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง
ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง
great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน




                                                                           9
สาขา Genomics ประสบความสำาเร็จ ด้วย TM

ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ
                    ิ
ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน
          ึ้

ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน
           ี




                                                                                  10
ปั จจุบน TM ได้รับความสนใจในหลายสาขา
       ั

Security Application (CIA analyze terrorist events)
Software Application IBM , Microsoft กำาลังพัฒนา
Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ
เช่น Nature / NIH / Univ.Manchester / Uinv.California
Customer Service ตูองการ quick response
เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน




                                                         11
Text Mining Techniques

เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่
 Text Extraction
 Summarized Extraction
 Feature Selection
 Cluster Generation
 Topic Identification
 Information Mapping, Visualization
 Text Categorization

TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ
Data Mining / Information Retrieval / Linguistics
/ Machine pattern / Statistics/
 Pattern recognition / Database / Visualization

                                                    12
ตลาดของ Text Mining


ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ
Customer Relationship Management /CRM
  มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn
Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn
Knowledge & Content management มีมูลค่า $ 1.9 bn
Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn




                                                                     13
TM กับภาคธุรกิจ
Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย
 ธนาคาร

Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ
 เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ
                                           ั
 ของบริษัท

R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา
                         ั
เอกสารวิชาการ




                                                                       14
การประยุกต์ในงาน Crime Pattern Detection
หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า
        Police Information Report / PIR
ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่
จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก
ผลท่ีไดูผิดพลาดและลำาเอียง

ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ
  ้
         Date           District    Event type                  Description
         1/05/2003     Reston      Robbery                       ……………….
         5/05/2003     Lake        Accident                     ……………….
        6/05/2003      South       Narcotics                     ………………




                                                                                            15
งานข้อมูลตำารวจ (ต่อ)

ขันตอนท่ี 2 Extract important & concept
    ้
ขันตอนท่ี 3 Analyze pattern ( Co-occurrence )
  ้

การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู
เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ
สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด
ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม
               ่

เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ
และภาษาอ่ ืนๆ มากมาย คือ
 German / Spanish / French /Russian / Italian / Portuguese / Dutch
/ Swedish / Greek




                                                                               16
Text Mining Tools / Software

ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่
 Megaputer Intelligence
 SAS
 SPSS
 Synthema
 TEMIS
 Autonomy
 Clearforest
 Fast
 IBM
 Inxight
 Vantage Point
 etc.

                                                    17
Text Mining Tools ประเภท Open Sources Software

Gate - Natural language processing & language
 engineering tool

YALE- with its Word vector Tool plugin data and text
 mining software

Pimiento- a text-mining application framework written
in Java (http://ee.usyd.edu.au/~jjga/pimiento)




                                                        18
19
20
21
Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ
                             ่          ์ ่
(have proven particularly fertile ground for TM)


Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน
 business intelligence

 Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย

 Life Science identify complex patterns of interactivities between
  proteins




                                                                     22
ขันตอนการทำางานของ Text Mining
  ้


•   Issue identification
•   Selection of information sources
•   Search refinement and data retrieval
•   Data cleaning
•   Basic analyses
•   Advance analyses
•   Representation




                                           23
Text Mining Tasks

Search & Retrieval Information
 mine various databases ( internal,external publications/patents )
 retrieve search results analyses with text mining software

Profile ( Statistical analyses ) R&D activities /
Technology application emphases

Represent : text , tables , graphs   activities by time / player
/ Technology map

Interpret : perform competitive analyses describe & project
 technology by nation / company anticipate / forecast / trend technology




                                                                       24
ประสบการณ์ ของ STKS กับ TM

Tool TM : Vantage Point / VP
ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus
                ั
ฐานขูอมูลสิทธิบัตร Delphion

     ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features
ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน
เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc.




                                                                         25
การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ
ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science
                                  ั
PT J
AU Yoksan, R
   Akashi, M
AF Yoksan, Rangrong
   Akashi, Mitsuru
TI Low molecular weight chitosan-g-L-phenylalanine: Preparation,
   characterization, and complex formation with DNA
SO CARBOHYDRATE POLYMERS
LA English
DT Article
DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA
   release
ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION
   EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS;
   VECTORS; REMOVAL
AB The grafting of L-phenylalanine onto low molecular weight chitosan is
 .............................................................................
C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan.
   [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand.
RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka,
   Suita, Osaka 5650871, Japan.
EM akashi@chem.eng.osaka-u.ac.jp
FU Japan Society for the Promotion of Science (JSPS), Japan [P05133]
FX This work was financially supported by the Japan Society for the
   Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.)
   thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for
   the technique and discussion on cell culture.
NR 36
TC 5
PU ELSEVIER SCI LTD
PI OXFORD
PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND
SN 0144-8617
J9 CARBOHYD POLYM
JI Carbohydr. Polym.
PD JAN 5
PY 2009
VL 75
IS 1
BP 95
EP 103
DI 10.1016/j.carbpol.2008.07.001
PG 9
SC Chemistry, Applied; Chemistry, Organic; Polymer Science                                                  26
GA 361SY
ตัวอย่าง ข้อมูลบรรณานุกรมสิทธิบัตร จากฐานข้อมูล Thomson : Delphion




                                                                     27
28
29
30
31
A p p lic a tio n                                                                                 A p p lic a tio n
                                       P a te n t A s s ig n e e s                                                                                                     T itle                                                     IP C -R
 C o u n tr ie s                                                                                      D a te s
     Top 5                                      T o p T e rm s                                       T o p T e rm      s                                          T o p T e rm s                                               T o p T e rm s
                                                                                                     2 0 0 5 -1 1 -2   8
                                                                                                            [2 ];                P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ];      A 6 1 K 3 6 /0 2
                           D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ;
                                                                                                     2 0 0 5 -0 3 -1   6                                    T o p ic a l m e d ic a m e n t [3 ];                                    [1 2 ];
                    O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju
                                                                                                            [2 ];                                  P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ;                  A 6 1 K 3 6 /1 8 5
                             & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ];
    U S [5 2 ]                                                                                       2 0 0 5 -0 6 -2   4      H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d            [1 2 ];
                            O c e a n N u tr itio n C a n a d a L im ite d [2 ];
                                                                                                            [2 ];                                                   c o n d it io n s [2 ];                                 A 6 1 K 3 6 /8 2 [7 ];
                               S a h a ja n a n d B io te c h P v t. L td . [2 ];
                                                                                                     2 0 0 5 -0 6 -3   0      A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T                      A 6 1 K 3 5 /6 6 [6 ];
                                        B A S F C o r p o r a t io n [1 ]
                                                                                                            [2 ];                                               C O M P O S IT IO N [2 ]                                     A 6 1 K 3 6 /0 5 [6 ]
                                                                                                  2 0 0 5 -0 9 -0 6    [2 ]
                                                                                                     2 0 0 6 -0 3 -2   3       A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F
                                                                                                            [3 ];                               L A C T IC A C ID B A C T E R IU M [1 ];
                                                                                                                                                                                                                            A 2 3 L 1 /3 0 [1 1 ];
                             D A IN IP P O N IN K & C H E M IN C [5 ];                               2 0 0 7 -1 2 -2   0                                C H E W IN G G U M [1 ];
                                                                                                                                                                                                                               A 6 1 K 3 6 /0 2
                         S P IR U L IN A B IO L O G IC A L L A B L T D [4 ];                                [2 ];                     F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y
                                                                                                                                                                                                                                     [1 0 ];
     J P [2 6 ]                     S U E T S U N A K U N IO [3 ];                                   2 0 0 5 -0 4 -1   5       H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ;
                                                                                                                                                                                                                            A 6 1 K 3 6 /0 5 [6 ];
                                  Y A M A D A Y A K K E N :K K [3 ];                                        [2 ];             N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                                                                                                                                            A 6 1 P 4 3 /0 0 [5 ];
                             N O D A S H O K U K IN K O G Y O K K [2 ]                               2 0 0 4 -0 4 -0   8               P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ];
                                                                                                                                                                                                                             A 6 1 K 3 8 /0 0 [4 ]
                                                                                                            [1 ];                N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                  2 0 0 5 -0 9 -2 1    [1 ]            P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]
                                                                                                     2 0 0 7 -0 9 -1   0
                                                                                                                                                   H E A L T H S U P P L E M E N T [2 ];
                                                                                                            [3 ];
                                                                                                                                                       T o p ic a l m e d ic a m e n t [2 ];                                A 6 1 K 3 6 /0 2 [5 ];
                                      S C H O C K J O E L [2 ];                                      2 0 0 5 -0 9 -0   7
                                                                                                                              Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in          A 6 1 K 3 6 /1 8 5
                                U n iv e r s it y o f M is s is s ip p i [2 ];                              [2 ];
                                                                                                                                                         M ic r o a lg a e E x tr a c t [ 2 ];                                        [5 ];
    W O [1 9 ]                      M O R G A N C L Y D E [2 ];                                      2 0 0 5 -0 6 -2   4
                                                                                                                                      F E E D S U P P L E M E N T A N D M E T H O D O F IT S                                  A 2 3 L 1 /3 0 [3 ];
                      D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ];                                [2 ];
                                                                                                                                                           P R O D U C T IO N [1 ];                                         A 6 1 K 3 6 /8 8 [3 ];
                                 H e n k e l A G & C o . K G a A [1 ]                                2 0 0 7 -0 8 -0   2
                                                                                                                              C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A                         A 6 1 K 3 6 /8 8 6 [3 ]
                                                                                                            [1 ];
                                                                                                                                                                         [1 ]
                                                                                                  2 0 0 7 -1 1 -3 0    [1 ]




                                                                                                                                                                                                                                                      32
สรุป ประโยชนของเทคโนโลยี Text / Data Mining
            ์

เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market /
 Technology Intelligence
ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content)
                ื
แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship)
จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking)
ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where)
 ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ

                                   อ่ ืนๆ




                                                                                33
การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining

ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน
    มี Metadata / Controlled Vocabulary / Taxonomy / Ontology

ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data)
       เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง
                                                     ู
       ฐานขูอมูลวิทยานิ พนธ์ไทย
       พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น
              ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ...............
              ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์
              ปี ท่ีจบ .................... 2545 / 1997
                        อ่ ืนๆ




                                                                                       34
บรรณานุกรม

Zanasi A. 2005 Text mining and its applications to Intelligence ,
CRM and Knowledge Management

ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and
Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550.

Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007




                                                                               35
END

Thank you for your attention




                               36

More Related Content

What's hot

วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูลวิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูลCoco Tan
 
คู่มือ Handbook app inventor
คู่มือ Handbook app inventorคู่มือ Handbook app inventor
คู่มือ Handbook app inventorAreefin Kareng
 
โครงงานคณิตศาสตร์ (1)
โครงงานคณิตศาสตร์ (1)โครงงานคณิตศาสตร์ (1)
โครงงานคณิตศาสตร์ (1)Nomjeab Nook
 
หลักสูตร51 vs หลักสูตร 60
หลักสูตร51 vs หลักสูตร 60หลักสูตร51 vs หลักสูตร 60
หลักสูตร51 vs หลักสูตร 60Krittalak Chawat
 
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์pungpaka
 
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทอง
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทองการสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทอง
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทองPrachyanun Nilsook
 
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าวิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าCoco Tan
 
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียน
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียนโครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียน
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียนyudohappyday
 
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...ธิติพล เทียมจันทร์
 
ตัวอย่างโครงการสอน
ตัวอย่างโครงการสอนตัวอย่างโครงการสอน
ตัวอย่างโครงการสอนKrupol Phato
 
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูลวิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูลCoco Tan
 
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการ
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการPowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการ
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการwaranyuati
 

What's hot (20)

วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูลวิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 3 การวิเคราะห์ข้อมูล
 
73 สถิติและการวิเคราะห์ข้อมูล บทนำ
73 สถิติและการวิเคราะห์ข้อมูล บทนำ73 สถิติและการวิเคราะห์ข้อมูล บทนำ
73 สถิติและการวิเคราะห์ข้อมูล บทนำ
 
29 ความสัมพันธ์และฟังก์ชัน บทนำ
29 ความสัมพันธ์และฟังก์ชัน บทนำ29 ความสัมพันธ์และฟังก์ชัน บทนำ
29 ความสัมพันธ์และฟังก์ชัน บทนำ
 
คำนำ
คำนำคำนำ
คำนำ
 
คู่มือ Handbook app inventor
คู่มือ Handbook app inventorคู่มือ Handbook app inventor
คู่มือ Handbook app inventor
 
โครงงานคณิตศาสตร์ (1)
โครงงานคณิตศาสตร์ (1)โครงงานคณิตศาสตร์ (1)
โครงงานคณิตศาสตร์ (1)
 
บทคัดย่อ บทเรียนสำเร็จรูปคณิตศาสตร์
บทคัดย่อ บทเรียนสำเร็จรูปคณิตศาสตร์บทคัดย่อ บทเรียนสำเร็จรูปคณิตศาสตร์
บทคัดย่อ บทเรียนสำเร็จรูปคณิตศาสตร์
 
หลักสูตร51 vs หลักสูตร 60
หลักสูตร51 vs หลักสูตร 60หลักสูตร51 vs หลักสูตร 60
หลักสูตร51 vs หลักสูตร 60
 
Text Mining and Thai NLP
Text Mining and Thai NLP Text Mining and Thai NLP
Text Mining and Thai NLP
 
First Step to Big Data
First Step to Big DataFirst Step to Big Data
First Step to Big Data
 
การเขียนผังงาน (Flow Chart)
การเขียนผังงาน (Flow Chart)การเขียนผังงาน (Flow Chart)
การเขียนผังงาน (Flow Chart)
 
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์
โครงการพัฒนาทักษะบุคลากรด้านคอมพิวเตอร์
 
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทอง
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทองการสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทอง
การสอบป้องกันวิทยานิพนธ์ ผศ.ดร.ชนินทร์ ตั้งพานทอง
 
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่าวิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
วิทยาการคำนวณ ม.5 - บทที่ 1 ข้อมูลมีคุณค่า
 
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียน
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียนโครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียน
โครงงานวิชาคอมพิวเตอร์ เรื่อง แอปพลิเคชั่นตัดคะแนนนักเรียน
 
บทที่ 5 การแปลง er diagram ให้เป็น table
บทที่ 5 การแปลง er diagram ให้เป็น tableบทที่ 5 การแปลง er diagram ให้เป็น table
บทที่ 5 การแปลง er diagram ให้เป็น table
 
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...
การสร้างแบรนด์ ให้ ธุรกิจดิจิทัล ยืนหนึ่งบนโลกออนไลน์ โดย อาจารย์แชมป์ ธิติพล...
 
ตัวอย่างโครงการสอน
ตัวอย่างโครงการสอนตัวอย่างโครงการสอน
ตัวอย่างโครงการสอน
 
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูลวิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
วิทยาการคำนวณ ม.5 - บทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
 
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการ
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการPowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการ
PowerPoint อบรมสภานักเรียนโรงเรียนสมุทรปราการ
 

Similar to Text Mining - Data Mining

นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์filjerpark
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2amphaiboon
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2amphaiboon
 
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่Satapon Yosakonkun
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
ใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะKoNg KoNgpop
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111jongjang
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 

Similar to Text Mining - Data Mining (20)

Part1
Part1Part1
Part1
 
นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2
 
Mis 1
Mis 1Mis 1
Mis 1
 
Book st chapter1
Book st chapter1Book st chapter1
Book st chapter1
 
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
ใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะ
 
Work3 23
Work3 23Work3 23
Work3 23
 
Work3 23
Work3 23Work3 23
Work3 23
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
Digital Collection ... Guideline
Digital Collection ... GuidelineDigital Collection ... Guideline
Digital Collection ... Guideline
 

More from Boonlert Aroonpiboon (20)

Excel quiz
Excel quizExcel quiz
Excel quiz
 
Scival for Research Performance
Scival for Research PerformanceScival for Research Performance
Scival for Research Performance
 
20190726 icde-session-chularat-nstda-4
20190726 icde-session-chularat-nstda-420190726 icde-session-chularat-nstda-4
20190726 icde-session-chularat-nstda-4
 
20190409 social-media-backup
20190409 social-media-backup20190409 social-media-backup
20190409 social-media-backup
 
20190220 open-library
20190220 open-library20190220 open-library
20190220 open-library
 
20190220 digital-archives
20190220 digital-archives20190220 digital-archives
20190220 digital-archives
 
OER KKU Library
OER KKU LibraryOER KKU Library
OER KKU Library
 
Museum digital-code
Museum digital-codeMuseum digital-code
Museum digital-code
 
OER MOOC - Success Story
OER MOOC - Success StoryOER MOOC - Success Story
OER MOOC - Success Story
 
LAM Code of conduct
LAM Code of conductLAM Code of conduct
LAM Code of conduct
 
RLPD - OER MOOC
RLPD - OER MOOCRLPD - OER MOOC
RLPD - OER MOOC
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information Services
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information Services
 
digital law for GLAM
digital law for GLAMdigital law for GLAM
digital law for GLAM
 
20180919 digital-collections
20180919 digital-collections20180919 digital-collections
20180919 digital-collections
 
Field-Weighted Citation Impact (FWCI)
Field-Weighted Citation Impact (FWCI)Field-Weighted Citation Impact (FWCI)
Field-Weighted Citation Impact (FWCI)
 
20180828 digital-archives
20180828 digital-archives20180828 digital-archives
20180828 digital-archives
 
Local Wisdom Information : How to
Local Wisdom Information : How toLocal Wisdom Information : How to
Local Wisdom Information : How to
 
201403 etda-library-settup
201403 etda-library-settup201403 etda-library-settup
201403 etda-library-settup
 
201403 etda-library
201403 etda-library201403 etda-library
201403 etda-library
 

Text Mining - Data Mining

  • 1. เทคโนโลยี Text Mining / Data Mining รังสิมา เพ็ชรเม็ดใหญ่ ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS โครงการสัมมนา Applied ICT for Executive Librarians 30 กรกฎาคม 2553 มหาวิทยาลัยธุรกิจบัณฑิตย์ 1
  • 2. Outlines ความหมาย Definition ประวัติ ความเป็ นมา เทคนิ ค Text Mining Techniques การประยุกต์ใชู Applications เคร่ ืองมือ Text mining tools ประสบการณ์ ของ STKS กับ Text Mining บรรณานุกรม 2
  • 3. ความหมายของ Text Mining Text mining is the process of analyzing & structure Large sets of documents applying statistical and/or Computational linguistics technology in order to extract Previously unknown knowledge useful to take crucial Business decision. คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา ื ี ี information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ ู แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย 3
  • 4. ความหมาย Text mining (ต่อ) Text mining is a new and exciting research area in computer sciences that tries to solve the information overload problem by using techniques from data mining / machine learning / natural language processing (NLP) / information retrieval and knowledge management. A key element of text mining is its on the document collection. At its simplest a document collection can be any grouping of text based documents such as business report /legal memorandum / e-mail/ research Paper / manuscript /article /press release 4
  • 5. Text Mining แตกต่างกับการสืบค้น การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว ี ื ั ้ ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ ไม่มีขูอมูลท่ถกบันทึกไวูก่อน ี ู Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก ื แตกต่างกันไปเช่น Data Mining Scientometrics Webometrics Bibliometrics etc. 5
  • 6. ประวัติ ของ Information Extraction / IE จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation) MUC-2 Conference 1989 MUC-3 conference 1991 Latin American Terrorisms MUC-4 1992 MUC-5 1993 Japanese document ( joint ventures + microelectronics) MUC-6 1995 Financial domain MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English ) European Commission / LRE ( linguistic research & engineering ) IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC / CROSSMARC , MOSES 6
  • 7. Figure 1 แสดง The Evolution of database system technology. 7
  • 8. Example of output from industry analyzer term extraction process Biogen Idec Inc. ended its third quarter with $543 million in Revenues , slightly lower than analyst estimates as it near the One-year anniversary of a merger that made it the world largest Biotech company The Cambridge,Mass.-based company reported non-GAAP Earnings per share of 37 cents and net income of $132 million compared with 35 cents and 123 million for the quarter last year. Analysts consensus estimate for the quarter was 35 cents 8
  • 9. การประยุกต์ Text Mining ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง) ้ ั มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson ู เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน 9
  • 10. สาขา Genomics ประสบความสำาเร็จ ด้วย TM ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ ิ ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน ึ้ ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน ี 10
  • 11. ปั จจุบน TM ได้รับความสนใจในหลายสาขา ั Security Application (CIA analyze terrorist events) Software Application IBM , Microsoft กำาลังพัฒนา Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ เช่น Nature / NIH / Univ.Manchester / Uinv.California Customer Service ตูองการ quick response เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน 11
  • 12. Text Mining Techniques เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่ Text Extraction Summarized Extraction Feature Selection Cluster Generation Topic Identification Information Mapping, Visualization Text Categorization TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ Data Mining / Information Retrieval / Linguistics / Machine pattern / Statistics/ Pattern recognition / Database / Visualization 12
  • 13. ตลาดของ Text Mining ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ Customer Relationship Management /CRM มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn Knowledge & Content management มีมูลค่า $ 1.9 bn Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn 13
  • 14. TM กับภาคธุรกิจ Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย ธนาคาร Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ ั ของบริษัท R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา ั เอกสารวิชาการ 14
  • 15. การประยุกต์ในงาน Crime Pattern Detection หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า Police Information Report / PIR ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่ จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก ผลท่ีไดูผิดพลาดและลำาเอียง ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ ้ Date District Event type Description 1/05/2003 Reston Robbery ………………. 5/05/2003 Lake Accident ………………. 6/05/2003 South Narcotics ……………… 15
  • 16. งานข้อมูลตำารวจ (ต่อ) ขันตอนท่ี 2 Extract important & concept ้ ขันตอนท่ี 3 Analyze pattern ( Co-occurrence ) ้ การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม ่ เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ และภาษาอ่ ืนๆ มากมาย คือ German / Spanish / French /Russian / Italian / Portuguese / Dutch / Swedish / Greek 16
  • 17. Text Mining Tools / Software ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่ Megaputer Intelligence SAS SPSS Synthema TEMIS Autonomy Clearforest Fast IBM Inxight Vantage Point etc. 17
  • 18. Text Mining Tools ประเภท Open Sources Software Gate - Natural language processing & language engineering tool YALE- with its Word vector Tool plugin data and text mining software Pimiento- a text-mining application framework written in Java (http://ee.usyd.edu.au/~jjga/pimiento) 18
  • 19. 19
  • 20. 20
  • 21. 21
  • 22. Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ ่ ์ ่ (have proven particularly fertile ground for TM) Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน business intelligence Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย Life Science identify complex patterns of interactivities between proteins 22
  • 23. ขันตอนการทำางานของ Text Mining ้ • Issue identification • Selection of information sources • Search refinement and data retrieval • Data cleaning • Basic analyses • Advance analyses • Representation 23
  • 24. Text Mining Tasks Search & Retrieval Information mine various databases ( internal,external publications/patents ) retrieve search results analyses with text mining software Profile ( Statistical analyses ) R&D activities / Technology application emphases Represent : text , tables , graphs activities by time / player / Technology map Interpret : perform competitive analyses describe & project technology by nation / company anticipate / forecast / trend technology 24
  • 25. ประสบการณ์ ของ STKS กับ TM Tool TM : Vantage Point / VP ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus ั ฐานขูอมูลสิทธิบัตร Delphion ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc. 25
  • 26. การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science ั PT J AU Yoksan, R Akashi, M AF Yoksan, Rangrong Akashi, Mitsuru TI Low molecular weight chitosan-g-L-phenylalanine: Preparation, characterization, and complex formation with DNA SO CARBOHYDRATE POLYMERS LA English DT Article DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA release ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS; VECTORS; REMOVAL AB The grafting of L-phenylalanine onto low molecular weight chitosan is ............................................................................. C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan. [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand. RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka, Suita, Osaka 5650871, Japan. EM akashi@chem.eng.osaka-u.ac.jp FU Japan Society for the Promotion of Science (JSPS), Japan [P05133] FX This work was financially supported by the Japan Society for the Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.) thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for the technique and discussion on cell culture. NR 36 TC 5 PU ELSEVIER SCI LTD PI OXFORD PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND SN 0144-8617 J9 CARBOHYD POLYM JI Carbohydr. Polym. PD JAN 5 PY 2009 VL 75 IS 1 BP 95 EP 103 DI 10.1016/j.carbpol.2008.07.001 PG 9 SC Chemistry, Applied; Chemistry, Organic; Polymer Science 26 GA 361SY
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. A p p lic a tio n A p p lic a tio n P a te n t A s s ig n e e s T itle IP C -R C o u n tr ie s D a te s Top 5 T o p T e rm s T o p T e rm s T o p T e rm s T o p T e rm s 2 0 0 5 -1 1 -2 8 [2 ]; P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ]; A 6 1 K 3 6 /0 2 D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ; 2 0 0 5 -0 3 -1 6 T o p ic a l m e d ic a m e n t [3 ]; [1 2 ]; O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju [2 ]; P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ; A 6 1 K 3 6 /1 8 5 & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ]; U S [5 2 ] 2 0 0 5 -0 6 -2 4 H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d [1 2 ]; O c e a n N u tr itio n C a n a d a L im ite d [2 ]; [2 ]; c o n d it io n s [2 ]; A 6 1 K 3 6 /8 2 [7 ]; S a h a ja n a n d B io te c h P v t. L td . [2 ]; 2 0 0 5 -0 6 -3 0 A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T A 6 1 K 3 5 /6 6 [6 ]; B A S F C o r p o r a t io n [1 ] [2 ]; C O M P O S IT IO N [2 ] A 6 1 K 3 6 /0 5 [6 ] 2 0 0 5 -0 9 -0 6 [2 ] 2 0 0 6 -0 3 -2 3 A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F [3 ]; L A C T IC A C ID B A C T E R IU M [1 ]; A 2 3 L 1 /3 0 [1 1 ]; D A IN IP P O N IN K & C H E M IN C [5 ]; 2 0 0 7 -1 2 -2 0 C H E W IN G G U M [1 ]; A 6 1 K 3 6 /0 2 S P IR U L IN A B IO L O G IC A L L A B L T D [4 ]; [2 ]; F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y [1 0 ]; J P [2 6 ] S U E T S U N A K U N IO [3 ]; 2 0 0 5 -0 4 -1 5 H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ; A 6 1 K 3 6 /0 5 [6 ]; Y A M A D A Y A K K E N :K K [3 ]; [2 ]; N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D A 6 1 P 4 3 /0 0 [5 ]; N O D A S H O K U K IN K O G Y O K K [2 ] 2 0 0 4 -0 4 -0 8 P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]; A 6 1 K 3 8 /0 0 [4 ] [1 ]; N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D 2 0 0 5 -0 9 -2 1 [1 ] P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ] 2 0 0 7 -0 9 -1 0 H E A L T H S U P P L E M E N T [2 ]; [3 ]; T o p ic a l m e d ic a m e n t [2 ]; A 6 1 K 3 6 /0 2 [5 ]; S C H O C K J O E L [2 ]; 2 0 0 5 -0 9 -0 7 Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in A 6 1 K 3 6 /1 8 5 U n iv e r s it y o f M is s is s ip p i [2 ]; [2 ]; M ic r o a lg a e E x tr a c t [ 2 ]; [5 ]; W O [1 9 ] M O R G A N C L Y D E [2 ]; 2 0 0 5 -0 6 -2 4 F E E D S U P P L E M E N T A N D M E T H O D O F IT S A 2 3 L 1 /3 0 [3 ]; D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ]; [2 ]; P R O D U C T IO N [1 ]; A 6 1 K 3 6 /8 8 [3 ]; H e n k e l A G & C o . K G a A [1 ] 2 0 0 7 -0 8 -0 2 C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A A 6 1 K 3 6 /8 8 6 [3 ] [1 ]; [1 ] 2 0 0 7 -1 1 -3 0 [1 ] 32
  • 33. สรุป ประโยชนของเทคโนโลยี Text / Data Mining ์ เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market / Technology Intelligence ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content) ื แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship) จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking) ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where) ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ อ่ ืนๆ 33
  • 34. การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน มี Metadata / Controlled Vocabulary / Taxonomy / Ontology ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data) เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง ู ฐานขูอมูลวิทยานิ พนธ์ไทย พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ............... ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์ ปี ท่ีจบ .................... 2545 / 1997 อ่ ืนๆ 34
  • 35. บรรณานุกรม Zanasi A. 2005 Text mining and its applications to Intelligence , CRM and Knowledge Management ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550. Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007 35
  • 36. END Thank you for your attention 36