SlideShare a Scribd company logo
1 of 36
เทคโนโลยี Text Mining / Data Mining


                 รังสิมา เพ็ชรเม็ดใหญ่
 ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS
โครงการสัมมนา Applied ICT for Executive Librarians
                   30 กรกฎาคม 2553
               มหาวิทยาลัยธุรกิจบัณฑิตย์




                                                     1
Outlines
  ความหมาย Definition
  ประวัติ ความเป็ นมา
  เทคนิ ค Text Mining Techniques
  การประยุกต์ใชู Applications
  เคร่ ืองมือ Text mining tools
  ประสบการณ์ ของ STKS กับ Text Mining
  บรรณานุกรม




                                        2
ความหมายของ Text Mining

Text mining is the process of analyzing & structure
Large sets of documents applying statistical
 and/or Computational linguistics technology in
order to extract Previously unknown knowledge
useful to take crucial Business decision.

คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู
เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา
                  ื   ี                         ี
information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ
 นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ
                                            ู
แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย



                                                                    3
ความหมาย Text mining (ต่อ)

Text mining is a new and exciting research area in
computer sciences that tries to solve the information
overload problem by using techniques from data mining
/ machine learning / natural language processing (NLP)
/ information retrieval and knowledge management.

A key element of text mining is its on the document
collection. At its simplest a document collection
 can be any grouping of text based documents such as
business report /legal memorandum / e-mail/ research
Paper / manuscript /article /press release


                                                         4
Text Mining แตกต่างกับการสืบค้น

การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง
ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว
  ี ื        ั           ้

ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ
ไม่มีขูอมูลท่ถกบันทึกไวูก่อน
             ี ู

Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก
                                                    ื
แตกต่างกันไปเช่น
Data Mining
Scientometrics
Webometrics
Bibliometrics etc.


                                                                    5
ประวัติ ของ Information Extraction / IE
จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community
ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation)
MUC-2 Conference 1989
MUC-3 conference 1991 Latin American Terrorisms
MUC-4 1992
MUC-5 1993 Japanese document ( joint ventures + microelectronics)
MUC-6 1995 Financial domain
MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English )
European Commission / LRE ( linguistic research & engineering )

IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC /
CROSSMARC , MOSES




                                                                              6
Figure 1 แสดง
The Evolution of
database system
technology.




                   7
Example of output from industry analyzer term extraction process

Biogen Idec Inc. ended its third quarter with $543 million in
Revenues , slightly lower than analyst estimates as it near the
One-year anniversary of a merger that made it the world largest
Biotech company

The Cambridge,Mass.-based company reported non-GAAP
Earnings per share of 37 cents and net income of $132 million
compared with 35 cents and 123 million for the quarter last year. Analysts
consensus estimate for the quarter was
35 cents




                                                                             8
การประยุกต์ Text Mining


ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น

การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing
Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา
บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง)
     ้           ั
มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย

สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson
                                  ู
เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง
ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง
great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน




                                                                           9
สาขา Genomics ประสบความสำาเร็จ ด้วย TM

ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ
                    ิ
ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน
          ึ้

ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน
           ี




                                                                                  10
ปั จจุบน TM ได้รับความสนใจในหลายสาขา
       ั

Security Application (CIA analyze terrorist events)
Software Application IBM , Microsoft กำาลังพัฒนา
Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ
เช่น Nature / NIH / Univ.Manchester / Uinv.California
Customer Service ตูองการ quick response
เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน




                                                         11
Text Mining Techniques

เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่
 Text Extraction
 Summarized Extraction
 Feature Selection
 Cluster Generation
 Topic Identification
 Information Mapping, Visualization
 Text Categorization

TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ
Data Mining / Information Retrieval / Linguistics
/ Machine pattern / Statistics/
 Pattern recognition / Database / Visualization

                                                    12
ตลาดของ Text Mining


ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ
Customer Relationship Management /CRM
  มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn
Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn
Knowledge & Content management มีมูลค่า $ 1.9 bn
Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn




                                                                     13
TM กับภาคธุรกิจ
Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย
 ธนาคาร

Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ
 เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ
                                           ั
 ของบริษัท

R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา
                         ั
เอกสารวิชาการ




                                                                       14
การประยุกต์ในงาน Crime Pattern Detection
หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า
        Police Information Report / PIR
ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่
จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก
ผลท่ีไดูผิดพลาดและลำาเอียง

ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ
  ้
         Date           District    Event type                  Description
         1/05/2003     Reston      Robbery                       ……………….
         5/05/2003     Lake        Accident                     ……………….
        6/05/2003      South       Narcotics                     ………………




                                                                                            15
งานข้อมูลตำารวจ (ต่อ)

ขันตอนท่ี 2 Extract important & concept
    ้
ขันตอนท่ี 3 Analyze pattern ( Co-occurrence )
  ้

การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู
เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ
สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด
ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม
               ่

เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ
และภาษาอ่ ืนๆ มากมาย คือ
 German / Spanish / French /Russian / Italian / Portuguese / Dutch
/ Swedish / Greek




                                                                               16
Text Mining Tools / Software

ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่
 Megaputer Intelligence
 SAS
 SPSS
 Synthema
 TEMIS
 Autonomy
 Clearforest
 Fast
 IBM
 Inxight
 Vantage Point
 etc.

                                                    17
Text Mining Tools ประเภท Open Sources Software

Gate - Natural language processing & language
 engineering tool

YALE- with its Word vector Tool plugin data and text
 mining software

Pimiento- a text-mining application framework written
in Java (http://ee.usyd.edu.au/~jjga/pimiento)




                                                        18
19
20
21
Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ
                             ่          ์ ่
(have proven particularly fertile ground for TM)


Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน
 business intelligence

 Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย

 Life Science identify complex patterns of interactivities between
  proteins




                                                                     22
ขันตอนการทำางานของ Text Mining
  ้


•   Issue identification
•   Selection of information sources
•   Search refinement and data retrieval
•   Data cleaning
•   Basic analyses
•   Advance analyses
•   Representation




                                           23
Text Mining Tasks

Search & Retrieval Information
 mine various databases ( internal,external publications/patents )
 retrieve search results analyses with text mining software

Profile ( Statistical analyses ) R&D activities /
Technology application emphases

Represent : text , tables , graphs   activities by time / player
/ Technology map

Interpret : perform competitive analyses describe & project
 technology by nation / company anticipate / forecast / trend technology




                                                                       24
ประสบการณ์ ของ STKS กับ TM

Tool TM : Vantage Point / VP
ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus
                ั
ฐานขูอมูลสิทธิบัตร Delphion

     ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features
ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน
เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc.




                                                                         25
การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ
ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science
                                  ั
PT J
AU Yoksan, R
   Akashi, M
AF Yoksan, Rangrong
   Akashi, Mitsuru
TI Low molecular weight chitosan-g-L-phenylalanine: Preparation,
   characterization, and complex formation with DNA
SO CARBOHYDRATE POLYMERS
LA English
DT Article
DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA
   release
ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION
   EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS;
   VECTORS; REMOVAL
AB The grafting of L-phenylalanine onto low molecular weight chitosan is
 .............................................................................
C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan.
   [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand.
RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka,
   Suita, Osaka 5650871, Japan.
EM akashi@chem.eng.osaka-u.ac.jp
FU Japan Society for the Promotion of Science (JSPS), Japan [P05133]
FX This work was financially supported by the Japan Society for the
   Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.)
   thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for
   the technique and discussion on cell culture.
NR 36
TC 5
PU ELSEVIER SCI LTD
PI OXFORD
PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND
SN 0144-8617
J9 CARBOHYD POLYM
JI Carbohydr. Polym.
PD JAN 5
PY 2009
VL 75
IS 1
BP 95
EP 103
DI 10.1016/j.carbpol.2008.07.001
PG 9
SC Chemistry, Applied; Chemistry, Organic; Polymer Science                                                  26
GA 361SY
ตัวอย่าง ข้อมูลบรรณานุกรมสิทธิบัตร จากฐานข้อมูล Thomson : Delphion




                                                                     27
28
29
30
31
A p p lic a tio n                                                                                 A p p lic a tio n
                                       P a te n t A s s ig n e e s                                                                                                     T itle                                                     IP C -R
 C o u n tr ie s                                                                                      D a te s
     Top 5                                      T o p T e rm s                                       T o p T e rm      s                                          T o p T e rm s                                               T o p T e rm s
                                                                                                     2 0 0 5 -1 1 -2   8
                                                                                                            [2 ];                P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ];      A 6 1 K 3 6 /0 2
                           D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ;
                                                                                                     2 0 0 5 -0 3 -1   6                                    T o p ic a l m e d ic a m e n t [3 ];                                    [1 2 ];
                    O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju
                                                                                                            [2 ];                                  P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ;                  A 6 1 K 3 6 /1 8 5
                             & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ];
    U S [5 2 ]                                                                                       2 0 0 5 -0 6 -2   4      H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d            [1 2 ];
                            O c e a n N u tr itio n C a n a d a L im ite d [2 ];
                                                                                                            [2 ];                                                   c o n d it io n s [2 ];                                 A 6 1 K 3 6 /8 2 [7 ];
                               S a h a ja n a n d B io te c h P v t. L td . [2 ];
                                                                                                     2 0 0 5 -0 6 -3   0      A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T                      A 6 1 K 3 5 /6 6 [6 ];
                                        B A S F C o r p o r a t io n [1 ]
                                                                                                            [2 ];                                               C O M P O S IT IO N [2 ]                                     A 6 1 K 3 6 /0 5 [6 ]
                                                                                                  2 0 0 5 -0 9 -0 6    [2 ]
                                                                                                     2 0 0 6 -0 3 -2   3       A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F
                                                                                                            [3 ];                               L A C T IC A C ID B A C T E R IU M [1 ];
                                                                                                                                                                                                                            A 2 3 L 1 /3 0 [1 1 ];
                             D A IN IP P O N IN K & C H E M IN C [5 ];                               2 0 0 7 -1 2 -2   0                                C H E W IN G G U M [1 ];
                                                                                                                                                                                                                               A 6 1 K 3 6 /0 2
                         S P IR U L IN A B IO L O G IC A L L A B L T D [4 ];                                [2 ];                     F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y
                                                                                                                                                                                                                                     [1 0 ];
     J P [2 6 ]                     S U E T S U N A K U N IO [3 ];                                   2 0 0 5 -0 4 -1   5       H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ;
                                                                                                                                                                                                                            A 6 1 K 3 6 /0 5 [6 ];
                                  Y A M A D A Y A K K E N :K K [3 ];                                        [2 ];             N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                                                                                                                                            A 6 1 P 4 3 /0 0 [5 ];
                             N O D A S H O K U K IN K O G Y O K K [2 ]                               2 0 0 4 -0 4 -0   8               P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ];
                                                                                                                                                                                                                             A 6 1 K 3 8 /0 0 [4 ]
                                                                                                            [1 ];                N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                  2 0 0 5 -0 9 -2 1    [1 ]            P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]
                                                                                                     2 0 0 7 -0 9 -1   0
                                                                                                                                                   H E A L T H S U P P L E M E N T [2 ];
                                                                                                            [3 ];
                                                                                                                                                       T o p ic a l m e d ic a m e n t [2 ];                                A 6 1 K 3 6 /0 2 [5 ];
                                      S C H O C K J O E L [2 ];                                      2 0 0 5 -0 9 -0   7
                                                                                                                              Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in          A 6 1 K 3 6 /1 8 5
                                U n iv e r s it y o f M is s is s ip p i [2 ];                              [2 ];
                                                                                                                                                         M ic r o a lg a e E x tr a c t [ 2 ];                                        [5 ];
    W O [1 9 ]                      M O R G A N C L Y D E [2 ];                                      2 0 0 5 -0 6 -2   4
                                                                                                                                      F E E D S U P P L E M E N T A N D M E T H O D O F IT S                                  A 2 3 L 1 /3 0 [3 ];
                      D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ];                                [2 ];
                                                                                                                                                           P R O D U C T IO N [1 ];                                         A 6 1 K 3 6 /8 8 [3 ];
                                 H e n k e l A G & C o . K G a A [1 ]                                2 0 0 7 -0 8 -0   2
                                                                                                                              C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A                         A 6 1 K 3 6 /8 8 6 [3 ]
                                                                                                            [1 ];
                                                                                                                                                                         [1 ]
                                                                                                  2 0 0 7 -1 1 -3 0    [1 ]




                                                                                                                                                                                                                                                      32
สรุป ประโยชนของเทคโนโลยี Text / Data Mining
            ์

เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market /
 Technology Intelligence
ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content)
                ื
แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship)
จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking)
ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where)
 ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ

                                   อ่ ืนๆ




                                                                                33
การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining

ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน
    มี Metadata / Controlled Vocabulary / Taxonomy / Ontology

ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data)
       เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง
                                                     ู
       ฐานขูอมูลวิทยานิ พนธ์ไทย
       พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น
              ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ...............
              ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์
              ปี ท่ีจบ .................... 2545 / 1997
                        อ่ ืนๆ




                                                                                       34
บรรณานุกรม

Zanasi A. 2005 Text mining and its applications to Intelligence ,
CRM and Knowledge Management

ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and
Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550.

Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007




                                                                               35
END

Thank you for your attention




                               36

More Related Content

What's hot

คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7Pitchayanida Khumwichai
 
การเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยการเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยDr.Krisada [Hua] RMUTT
 
มัธยฐาน F
มัธยฐาน  Fมัธยฐาน  F
มัธยฐาน FBangon Suyana
 
mind map สถิติศาสตร์.pdf
mind map สถิติศาสตร์.pdfmind map สถิติศาสตร์.pdf
mind map สถิติศาสตร์.pdfssuser3892ca
 
แนวคิดเชิงนามธรรม
แนวคิดเชิงนามธรรมแนวคิดเชิงนามธรรม
แนวคิดเชิงนามธรรมJanchai Pokmoonphon
 
รายงานวิจัยบทที่ 1 5
รายงานวิจัยบทที่ 1 5รายงานวิจัยบทที่ 1 5
รายงานวิจัยบทที่ 1 5kruwaeo
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpsskuankaaw
 
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"Pinmanas Kotcha
 
Unit5.ppt (read only)
Unit5.ppt (read only)Unit5.ppt (read only)
Unit5.ppt (read only)sirinyabh
 
Chapter 7 data mining and olap
Chapter 7 data mining and olapChapter 7 data mining and olap
Chapter 7 data mining and olapTeetut Tresirichod
 
2559 project ผ้าปักม้ง
2559 project ผ้าปักม้ง2559 project ผ้าปักม้ง
2559 project ผ้าปักม้งarisanoodee
 
โครงการจิตอาสาพัฒนาวัด
โครงการจิตอาสาพัฒนาวัดโครงการจิตอาสาพัฒนาวัด
โครงการจิตอาสาพัฒนาวัดพัน พัน
 
กิตติกรรมประกาศ
กิตติกรรมประกาศกิตติกรรมประกาศ
กิตติกรรมประกาศsutima piboon
 

What's hot (20)

คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
นวัตกรรมทางการศึกษา
นวัตกรรมทางการศึกษานวัตกรรมทางการศึกษา
นวัตกรรมทางการศึกษา
 
การเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัยการเขียนระเบียบวิธีวิจัย
การเขียนระเบียบวิธีวิจัย
 
มัธยฐาน F
มัธยฐาน  Fมัธยฐาน  F
มัธยฐาน F
 
mind map สถิติศาสตร์.pdf
mind map สถิติศาสตร์.pdfmind map สถิติศาสตร์.pdf
mind map สถิติศาสตร์.pdf
 
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and IntermediatePractical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
Practical Data Mining with RapidMiner Studio 7 : A Basic and Intermediate
 
แนวคิดเชิงนามธรรม
แนวคิดเชิงนามธรรมแนวคิดเชิงนามธรรม
แนวคิดเชิงนามธรรม
 
รายงานวิจัยบทที่ 1 5
รายงานวิจัยบทที่ 1 5รายงานวิจัยบทที่ 1 5
รายงานวิจัยบทที่ 1 5
 
คู่มือSpss
คู่มือSpssคู่มือSpss
คู่มือSpss
 
Data mining and_big_data_web
Data mining and_big_data_webData mining and_big_data_web
Data mining and_big_data_web
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"
แบบเสนอประวัติและผลงาน "ราชมงคลสรรเสริญ ประจำปี 2557"
 
Entity Relationship
Entity RelationshipEntity Relationship
Entity Relationship
 
บทที่1 บทนำ
บทที่1 บทนำบทที่1 บทนำ
บทที่1 บทนำ
 
Unit5.ppt (read only)
Unit5.ppt (read only)Unit5.ppt (read only)
Unit5.ppt (read only)
 
Chapter 7 data mining and olap
Chapter 7 data mining and olapChapter 7 data mining and olap
Chapter 7 data mining and olap
 
การจัดเก็บข้อมูลสารสนเทศ
การจัดเก็บข้อมูลสารสนเทศการจัดเก็บข้อมูลสารสนเทศ
การจัดเก็บข้อมูลสารสนเทศ
 
2559 project ผ้าปักม้ง
2559 project ผ้าปักม้ง2559 project ผ้าปักม้ง
2559 project ผ้าปักม้ง
 
โครงการจิตอาสาพัฒนาวัด
โครงการจิตอาสาพัฒนาวัดโครงการจิตอาสาพัฒนาวัด
โครงการจิตอาสาพัฒนาวัด
 
กิตติกรรมประกาศ
กิตติกรรมประกาศกิตติกรรมประกาศ
กิตติกรรมประกาศ
 

Similar to Text Mining - Data Mining

นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์filjerpark
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2amphaiboon
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2amphaiboon
 
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่Satapon Yosakonkun
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
ใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะKoNg KoNgpop
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวNart-Anong Srinak
 
เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111jongjang
 

Similar to Text Mining - Data Mining (20)

Part1
Part1Part1
Part1
 
นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์นพรัตน์ เสตะกลัพม์
นพรัตน์ เสตะกลัพม์
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2
 
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2
 
Mis 1
Mis 1Mis 1
Mis 1
 
Book st chapter1
Book st chapter1Book st chapter1
Book st chapter1
 
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
ใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะใบงานที่ 7 นะจ้ะ
ใบงานที่ 7 นะจ้ะ
 
Work3 23
Work3 23Work3 23
Work3 23
 
Work3 23
Work3 23Work3 23
Work3 23
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิวเทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
 
เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศ111111
 
Digital Collection ... Guideline
Digital Collection ... GuidelineDigital Collection ... Guideline
Digital Collection ... Guideline
 

More from Boonlert Aroonpiboon (20)

Excel quiz
Excel quizExcel quiz
Excel quiz
 
Scival for Research Performance
Scival for Research PerformanceScival for Research Performance
Scival for Research Performance
 
20190726 icde-session-chularat-nstda-4
20190726 icde-session-chularat-nstda-420190726 icde-session-chularat-nstda-4
20190726 icde-session-chularat-nstda-4
 
20190409 social-media-backup
20190409 social-media-backup20190409 social-media-backup
20190409 social-media-backup
 
20190220 open-library
20190220 open-library20190220 open-library
20190220 open-library
 
20190220 digital-archives
20190220 digital-archives20190220 digital-archives
20190220 digital-archives
 
OER KKU Library
OER KKU LibraryOER KKU Library
OER KKU Library
 
Museum digital-code
Museum digital-codeMuseum digital-code
Museum digital-code
 
OER MOOC - Success Story
OER MOOC - Success StoryOER MOOC - Success Story
OER MOOC - Success Story
 
LAM Code of conduct
LAM Code of conductLAM Code of conduct
LAM Code of conduct
 
RLPD - OER MOOC
RLPD - OER MOOCRLPD - OER MOOC
RLPD - OER MOOC
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information Services
 
New Technology for Information Services
New Technology for Information ServicesNew Technology for Information Services
New Technology for Information Services
 
digital law for GLAM
digital law for GLAMdigital law for GLAM
digital law for GLAM
 
20180919 digital-collections
20180919 digital-collections20180919 digital-collections
20180919 digital-collections
 
Field-Weighted Citation Impact (FWCI)
Field-Weighted Citation Impact (FWCI)Field-Weighted Citation Impact (FWCI)
Field-Weighted Citation Impact (FWCI)
 
20180828 digital-archives
20180828 digital-archives20180828 digital-archives
20180828 digital-archives
 
Local Wisdom Information : How to
Local Wisdom Information : How toLocal Wisdom Information : How to
Local Wisdom Information : How to
 
201403 etda-library-settup
201403 etda-library-settup201403 etda-library-settup
201403 etda-library-settup
 
201403 etda-library
201403 etda-library201403 etda-library
201403 etda-library
 

Text Mining - Data Mining

  • 1. เทคโนโลยี Text Mining / Data Mining รังสิมา เพ็ชรเม็ดใหญ่ ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS โครงการสัมมนา Applied ICT for Executive Librarians 30 กรกฎาคม 2553 มหาวิทยาลัยธุรกิจบัณฑิตย์ 1
  • 2. Outlines ความหมาย Definition ประวัติ ความเป็ นมา เทคนิ ค Text Mining Techniques การประยุกต์ใชู Applications เคร่ ืองมือ Text mining tools ประสบการณ์ ของ STKS กับ Text Mining บรรณานุกรม 2
  • 3. ความหมายของ Text Mining Text mining is the process of analyzing & structure Large sets of documents applying statistical and/or Computational linguistics technology in order to extract Previously unknown knowledge useful to take crucial Business decision. คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา ื ี ี information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ ู แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย 3
  • 4. ความหมาย Text mining (ต่อ) Text mining is a new and exciting research area in computer sciences that tries to solve the information overload problem by using techniques from data mining / machine learning / natural language processing (NLP) / information retrieval and knowledge management. A key element of text mining is its on the document collection. At its simplest a document collection can be any grouping of text based documents such as business report /legal memorandum / e-mail/ research Paper / manuscript /article /press release 4
  • 5. Text Mining แตกต่างกับการสืบค้น การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว ี ื ั ้ ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ ไม่มีขูอมูลท่ถกบันทึกไวูก่อน ี ู Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก ื แตกต่างกันไปเช่น Data Mining Scientometrics Webometrics Bibliometrics etc. 5
  • 6. ประวัติ ของ Information Extraction / IE จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation) MUC-2 Conference 1989 MUC-3 conference 1991 Latin American Terrorisms MUC-4 1992 MUC-5 1993 Japanese document ( joint ventures + microelectronics) MUC-6 1995 Financial domain MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English ) European Commission / LRE ( linguistic research & engineering ) IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC / CROSSMARC , MOSES 6
  • 7. Figure 1 แสดง The Evolution of database system technology. 7
  • 8. Example of output from industry analyzer term extraction process Biogen Idec Inc. ended its third quarter with $543 million in Revenues , slightly lower than analyst estimates as it near the One-year anniversary of a merger that made it the world largest Biotech company The Cambridge,Mass.-based company reported non-GAAP Earnings per share of 37 cents and net income of $132 million compared with 35 cents and 123 million for the quarter last year. Analysts consensus estimate for the quarter was 35 cents 8
  • 9. การประยุกต์ Text Mining ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง) ้ ั มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson ู เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน 9
  • 10. สาขา Genomics ประสบความสำาเร็จ ด้วย TM ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ ิ ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน ึ้ ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน ี 10
  • 11. ปั จจุบน TM ได้รับความสนใจในหลายสาขา ั Security Application (CIA analyze terrorist events) Software Application IBM , Microsoft กำาลังพัฒนา Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ เช่น Nature / NIH / Univ.Manchester / Uinv.California Customer Service ตูองการ quick response เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน 11
  • 12. Text Mining Techniques เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่ Text Extraction Summarized Extraction Feature Selection Cluster Generation Topic Identification Information Mapping, Visualization Text Categorization TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ Data Mining / Information Retrieval / Linguistics / Machine pattern / Statistics/ Pattern recognition / Database / Visualization 12
  • 13. ตลาดของ Text Mining ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ Customer Relationship Management /CRM มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn Knowledge & Content management มีมูลค่า $ 1.9 bn Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn 13
  • 14. TM กับภาคธุรกิจ Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย ธนาคาร Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ ั ของบริษัท R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา ั เอกสารวิชาการ 14
  • 15. การประยุกต์ในงาน Crime Pattern Detection หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า Police Information Report / PIR ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่ จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก ผลท่ีไดูผิดพลาดและลำาเอียง ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ ้ Date District Event type Description 1/05/2003 Reston Robbery ………………. 5/05/2003 Lake Accident ………………. 6/05/2003 South Narcotics ……………… 15
  • 16. งานข้อมูลตำารวจ (ต่อ) ขันตอนท่ี 2 Extract important & concept ้ ขันตอนท่ี 3 Analyze pattern ( Co-occurrence ) ้ การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม ่ เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ และภาษาอ่ ืนๆ มากมาย คือ German / Spanish / French /Russian / Italian / Portuguese / Dutch / Swedish / Greek 16
  • 17. Text Mining Tools / Software ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่ Megaputer Intelligence SAS SPSS Synthema TEMIS Autonomy Clearforest Fast IBM Inxight Vantage Point etc. 17
  • 18. Text Mining Tools ประเภท Open Sources Software Gate - Natural language processing & language engineering tool YALE- with its Word vector Tool plugin data and text mining software Pimiento- a text-mining application framework written in Java (http://ee.usyd.edu.au/~jjga/pimiento) 18
  • 19. 19
  • 20. 20
  • 21. 21
  • 22. Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ ่ ์ ่ (have proven particularly fertile ground for TM) Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน business intelligence Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย Life Science identify complex patterns of interactivities between proteins 22
  • 23. ขันตอนการทำางานของ Text Mining ้ • Issue identification • Selection of information sources • Search refinement and data retrieval • Data cleaning • Basic analyses • Advance analyses • Representation 23
  • 24. Text Mining Tasks Search & Retrieval Information mine various databases ( internal,external publications/patents ) retrieve search results analyses with text mining software Profile ( Statistical analyses ) R&D activities / Technology application emphases Represent : text , tables , graphs activities by time / player / Technology map Interpret : perform competitive analyses describe & project technology by nation / company anticipate / forecast / trend technology 24
  • 25. ประสบการณ์ ของ STKS กับ TM Tool TM : Vantage Point / VP ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus ั ฐานขูอมูลสิทธิบัตร Delphion ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc. 25
  • 26. การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science ั PT J AU Yoksan, R Akashi, M AF Yoksan, Rangrong Akashi, Mitsuru TI Low molecular weight chitosan-g-L-phenylalanine: Preparation, characterization, and complex formation with DNA SO CARBOHYDRATE POLYMERS LA English DT Article DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA release ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS; VECTORS; REMOVAL AB The grafting of L-phenylalanine onto low molecular weight chitosan is ............................................................................. C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan. [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand. RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka, Suita, Osaka 5650871, Japan. EM akashi@chem.eng.osaka-u.ac.jp FU Japan Society for the Promotion of Science (JSPS), Japan [P05133] FX This work was financially supported by the Japan Society for the Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.) thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for the technique and discussion on cell culture. NR 36 TC 5 PU ELSEVIER SCI LTD PI OXFORD PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND SN 0144-8617 J9 CARBOHYD POLYM JI Carbohydr. Polym. PD JAN 5 PY 2009 VL 75 IS 1 BP 95 EP 103 DI 10.1016/j.carbpol.2008.07.001 PG 9 SC Chemistry, Applied; Chemistry, Organic; Polymer Science 26 GA 361SY
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. A p p lic a tio n A p p lic a tio n P a te n t A s s ig n e e s T itle IP C -R C o u n tr ie s D a te s Top 5 T o p T e rm s T o p T e rm s T o p T e rm s T o p T e rm s 2 0 0 5 -1 1 -2 8 [2 ]; P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ]; A 6 1 K 3 6 /0 2 D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ; 2 0 0 5 -0 3 -1 6 T o p ic a l m e d ic a m e n t [3 ]; [1 2 ]; O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju [2 ]; P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ; A 6 1 K 3 6 /1 8 5 & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ]; U S [5 2 ] 2 0 0 5 -0 6 -2 4 H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d [1 2 ]; O c e a n N u tr itio n C a n a d a L im ite d [2 ]; [2 ]; c o n d it io n s [2 ]; A 6 1 K 3 6 /8 2 [7 ]; S a h a ja n a n d B io te c h P v t. L td . [2 ]; 2 0 0 5 -0 6 -3 0 A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T A 6 1 K 3 5 /6 6 [6 ]; B A S F C o r p o r a t io n [1 ] [2 ]; C O M P O S IT IO N [2 ] A 6 1 K 3 6 /0 5 [6 ] 2 0 0 5 -0 9 -0 6 [2 ] 2 0 0 6 -0 3 -2 3 A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F [3 ]; L A C T IC A C ID B A C T E R IU M [1 ]; A 2 3 L 1 /3 0 [1 1 ]; D A IN IP P O N IN K & C H E M IN C [5 ]; 2 0 0 7 -1 2 -2 0 C H E W IN G G U M [1 ]; A 6 1 K 3 6 /0 2 S P IR U L IN A B IO L O G IC A L L A B L T D [4 ]; [2 ]; F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y [1 0 ]; J P [2 6 ] S U E T S U N A K U N IO [3 ]; 2 0 0 5 -0 4 -1 5 H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ; A 6 1 K 3 6 /0 5 [6 ]; Y A M A D A Y A K K E N :K K [3 ]; [2 ]; N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D A 6 1 P 4 3 /0 0 [5 ]; N O D A S H O K U K IN K O G Y O K K [2 ] 2 0 0 4 -0 4 -0 8 P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]; A 6 1 K 3 8 /0 0 [4 ] [1 ]; N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D 2 0 0 5 -0 9 -2 1 [1 ] P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ] 2 0 0 7 -0 9 -1 0 H E A L T H S U P P L E M E N T [2 ]; [3 ]; T o p ic a l m e d ic a m e n t [2 ]; A 6 1 K 3 6 /0 2 [5 ]; S C H O C K J O E L [2 ]; 2 0 0 5 -0 9 -0 7 Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in A 6 1 K 3 6 /1 8 5 U n iv e r s it y o f M is s is s ip p i [2 ]; [2 ]; M ic r o a lg a e E x tr a c t [ 2 ]; [5 ]; W O [1 9 ] M O R G A N C L Y D E [2 ]; 2 0 0 5 -0 6 -2 4 F E E D S U P P L E M E N T A N D M E T H O D O F IT S A 2 3 L 1 /3 0 [3 ]; D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ]; [2 ]; P R O D U C T IO N [1 ]; A 6 1 K 3 6 /8 8 [3 ]; H e n k e l A G & C o . K G a A [1 ] 2 0 0 7 -0 8 -0 2 C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A A 6 1 K 3 6 /8 8 6 [3 ] [1 ]; [1 ] 2 0 0 7 -1 1 -3 0 [1 ] 32
  • 33. สรุป ประโยชนของเทคโนโลยี Text / Data Mining ์ เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market / Technology Intelligence ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content) ื แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship) จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking) ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where) ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ อ่ ืนๆ 33
  • 34. การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน มี Metadata / Controlled Vocabulary / Taxonomy / Ontology ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data) เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง ู ฐานขูอมูลวิทยานิ พนธ์ไทย พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ............... ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์ ปี ท่ีจบ .................... 2545 / 1997 อ่ ืนๆ 34
  • 35. บรรณานุกรม Zanasi A. 2005 Text mining and its applications to Intelligence , CRM and Knowledge Management ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550. Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007 35
  • 36. END Thank you for your attention 36