SlideShare a Scribd company logo
The First NIDA Business Analytics and Data Sciences Contest/Conference
วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์
https://businessanalyticsnida.wordpress.com
https://www.facebook.com/BusinessAnalyticsNIDA/
โดย รศ. ดร. โอม ศรนิล
สาขาวิชาวิทยาการข้อมูล
คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์
Text Mining in Business Intelligence
การทาเหมืองข้อความทาได้อย่างไร มีหลักการอย่างไร
ทาเหมืองข้อความภาษาไทยได้หรือไม่
เราจะประยุกต์ใช้การทาเหมืองข้อความกับธุรกิจได้อย่างไร
ต้องเขียนโปรแกรมเป็นหรือไม่หากจะทาเหมืองข้อความ
ทาเหมืองข้อความแล้วจะได้ความรู้อะไรบ้าง
นวมินทราธิราช 3003 วันที่ 1 กันยายน 2559 9.30-10.00 น.
TEXT MINING
IN BUSINESS INTELLIGENCE
OHM SORNIL, Ph.D.
Department of Computer Science, NIDA
BUSINESS INTELLIGENCE
“the ability to apprehend the interrelationships of presented facts in
such a way as to guide action towards a desired goal.”
(H. P. Luhn, 1958)
“a set of techniques and tools for the acquisition and transformation of
raw data into meaningful and useful information for business analysis
purposes.”
(D. M. Turner, 2016)
UNSTRUCTURED DATA
◉ Unstructured data is like Text, video, a voice recording of a
customer service transaction
◉ Generally accepted maxim is that structured data represents
only 20%. The rest is unstructured.
◉ If it can be counted, it can be analyzed.
◉ If it can be analyzed, it can be interpreted.
Source: http://www.csc.com/insights/flxwd/78931-big_data_universe_beginning_to_explode
JUST MARKETING TERMS
◉ Text mining = Text analytics = Natural language processing (NLP)
◉ A move from university research to real-world business problems
Internal
◉ Company documents
◉ Emails
◉ Reports
◉ Media releases
◉ Customer records and communication
SOURCES OF TEXTUAL DATA
External
◉ News
◉ Websites
◉ Blogs
◉ Social media posts
CHALLENGES
◉ Text is generally unstructured
◉ Large quantities and increasing rapidly
◉ Noisy (e.g., typoerrors, slangs, informal words, etc.)
◉ Synonymy and polysemy
TEXT MINING
◉ Process of extracting interesting information or patterns from
unstructured text
◉ An interdisciplinary field: computational linguistics, statistics,
and machine learning
◉ Can lead to the development of new opportunities in business
Business Applications
CUSTOMER RELATIONSHIP MANAGEMENT (CRM)
Input
◉ Text documents produced from
a variety of sources in contact
centers
Output
◉ Contents of client’s messages
◉ Routing specific requests to the
appropriate service
◉ Supplying immediate answers to
the most frequently asked
questions
OPINION ANALYSIS
Output
◉ Frequency of words mentioned is an indicator for concept
salience, e.g., “unbreakable”, “fragile”
◉ Frequency of co-occurrence represents the strength of
connection in the customer‘s mind,
e.g., <“Samsung”, “camera”>, <“iPhone”, “expensive”>
Input
◉ Customers’ messages in websites, blogs, Tweeter,
Facebook, etc.
MEDICAL RECORD ANALYSIS
Input
◉ Doctors’ comments
Output
◉ An early warning regarding
specific diseases
If frequency of “lungs” or “breathing” appears more than
45 appearances in the last 30 days for a given ZIP code or
region, it can be a clue to excessive environmental
conditions which are resulting in respiratory problems. A
proactive intervention can be activated to remedy the
situation.
SENTIMENT ANALYSIS
Input
◉ Customers’ messages in
websites, blogs, Tweeter,
Facebook, etc.
Output
◉ Positive, negative or neutral
opinions/feelings (polarity)
expressed by a writer in a
document collection
SENTIMENT ANALYSIS (FEATURE-BASED)
EMOTIONAL STATE CLASSIFICATION
SOURCE: http://emotion-research.net/toolbox/toolboxlabellingtool.2006-09-26.9095478150
https://annaszymanska1324161.wordpress.com/2014/04/28/very-emotional-research/
HUMAN RESOURCE MANAGEMENT
Input
◉ Staff’s opinions
◉ CVs from applicants
Output
◉ Level of employee satisfaction
◉ Selection of new personnel
INSURANCE CLAIM DIAGNOSIS
Input
◉ Note of all the details related to
the claim/health issues in the
form of a brief description
Output
◉ Identified a common group of
problems
CORPORATE FINANCE
Input
◉ Publicly available descriptions of any startups' business
- products/services, investors and social links between
individuals in 2 firms
Output
◉ Targets for mergers and acquisitions
Source: http://phys.org/news/2016-07-text-mining-intelligence-startups.html#jCp
INVESTMENT
Input
◉ Security related newsfeed
Output
◉ A model to predict movements of markets for everything
from government bonds to commodities.
MEANINGThe key is to capture the meaning of text.
TEXT MINING PROCESS
Text Sources Preprocessing
Presentation
(Visualization/
Browsing)
Modeling
COMMON PREPROCESSING
◉ Extracting text
◉ Tokenization
◉ Stopword elimination: is, am, are, the, of, for, … (http://www.ranks.nl/stopwords/thai-stopwords)
◉ Stemming: run, runs, ran, running  run
TEXT REPRESENTATION FOR MINING
INVERSE DOCUMENT FREQUENCY
SOURCE: http://nlp.stanford.edu/IR-book/pdf/06vect.pdf
TF-IDF TERM WEIGHTING
REAL-VALUED VECTOR
COSINE SIMILARITY BETWEEN 2 VECTORS
WORD CO-OCCURRENCE STRENGTH
◉ Mutual Information (MI) between words x and y
ADD-ON COMPONENTS
◉ WordNet
◉ Feature selection/reduction
WordNet
◉ WordNet is essentially Dictionary + Thesaurus
Relations: hyponymy, meronymy, antonymy
TASK SPECIFIC COMPONENTS
◉ Part-of-Speech (POS) tagging
◉ SentiWordNet
- Results of automatic annotation of all synsets of WordNet
according to the notions of “positivity”, “negativity” and “neutral”
◉ Emoticons
MINING ALGORITHMS
◉ General machine learning algorithms are applicable
Classification
Naïve Bayes
Support Vector Machine
Bayesian Network
Neural Network
Logistic Regression
etc.
Clustering
K-means
Fuzzy C-means
Hierarhical Clustering
Self-Organizing Map
etc.
Association Analysis
and Sequence Analysis
Apriori
Generalized Rule Induction
Influential Apriori
FP-Growth
etc.
Analysis Tasks
GENERAL DATA MINING TASKS
◉ Classification
◉ Clustering
◉ Association Analysis
◉ Prediction
◉ Sequence Analysis
INFORMATION EXTRACTION
Analytics Tools with Text Mining
Capabilities
OPEN SOURCED SOFTWARE
SOURCE: http://www.predictiveanalyticstoday.com/top-free-software-for-text-analysis-
text-mining-text-analytics/
R package TM
COMMERCIAL SOFTWARE
SOURCE: http://www.predictiveanalyticstoday.com/top-free-software-for-text-analysis-
text-mining-text-analytics/
THANKS !http://as.nida.ac.th
Email: osornil@as.nida.ac.th
Phone: 081-731-7175

More Related Content

Viewers also liked

การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
BAINIDA
 
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์ เอื้อวัฒนามงคล
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์  เอื้อวัฒนามงคลMachine Learning: An introduction โดย รศ.ดร.สุรพงค์  เอื้อวัฒนามงคล
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์ เอื้อวัฒนามงคล
BAINIDA
 
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
BAINIDA
 
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
BAINIDA
 
From fraudulence to adversarial learning จรัล งามวิโรจน์เจริญ chief data sci...
From fraudulence to adversarial learning  จรัล งามวิโรจน์เจริญ chief data sci...From fraudulence to adversarial learning  จรัล งามวิโรจน์เจริญ chief data sci...
From fraudulence to adversarial learning จรัล งามวิโรจน์เจริญ chief data sci...
BAINIDA
 
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร ...
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร  ..."Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร  ...
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร ...
BAINIDA
 
Smart farm concept ait
Smart farm concept aitSmart farm concept ait
Smart farm concept ait
Pisuth paiboonrat
 
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
BAINIDA
 
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
BAINIDA
 
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
BAINIDA
 
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
BAINIDA
 
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)  วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
BAINIDA
 

Viewers also liked (12)

การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
การฉายภาพประชากรข้าราชการไทยใน 30 ปีข้างหน้า โดย อาจารย์ ดร. อานนท์ ศักดิ์วรว...
 
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์ เอื้อวัฒนามงคล
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์  เอื้อวัฒนามงคลMachine Learning: An introduction โดย รศ.ดร.สุรพงค์  เอื้อวัฒนามงคล
Machine Learning: An introduction โดย รศ.ดร.สุรพงค์ เอื้อวัฒนามงคล
 
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
Proportional Hazard Model for Predicting Stroke Mortality โดย พิมพ์ชนก พุฒขาว...
 
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
ออกแบบกรมธรรมประกันชีวิตให้เข้าใจง่ายและดึงดูดใจคนซื้อ: การศึกษาตัวแปรส่งผ่าน...
 
From fraudulence to adversarial learning จรัล งามวิโรจน์เจริญ chief data sci...
From fraudulence to adversarial learning  จรัล งามวิโรจน์เจริญ chief data sci...From fraudulence to adversarial learning  จรัล งามวิโรจน์เจริญ chief data sci...
From fraudulence to adversarial learning จรัล งามวิโรจน์เจริญ chief data sci...
 
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร ...
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร  ..."Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร  ...
"Factors Affecting The Engagement of LINE Customers in Bangkok โดย นายวงศกร ...
 
Smart farm concept ait
Smart farm concept aitSmart farm concept ait
Smart farm concept ait
 
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
Big Data Analytics to Enhance Security คุณอนพัทย์ พิพัฒน์กิติบดี Technical Ma...
 
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
นำเสนอขาย RMF อย่างไรให้ได้ผล: การศึกษาเชิงทดลองเพื่อรองรับภาวะสังคมผู้สูงอาย...
 
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
Big data technology by Data Sciences Thailand ในงาน THE FIRST NIDA BUSINESS A...
 
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
สถิติทางการกับการพัฒนาประเทศ บทบาทของสำนักงานสถิติแห่งชาติ โดย นางหทัยชนก พรร...
 
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)  วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา  รุ่งระวี วทม. (NIDA)
วิชาการสถิติเกี่ยวข้องกับงานวิจัยเกษตรอย่างไร โดย พุฒนา รุ่งระวี วทม. (NIDA)
 

Similar to Text Mining in Business Intelligence โดย รศ.ดร.โอม ศรนิล

c3120a_da5fc4915453496da207be7f8420705e
c3120a_da5fc4915453496da207be7f8420705ec3120a_da5fc4915453496da207be7f8420705e
c3120a_da5fc4915453496da207be7f8420705eHenry Schneider
 
Application Security Maturity Model
Application Security Maturity ModelApplication Security Maturity Model
Application Security Maturity ModelSecurity Innovation
 
Science to Data Science: PhDs and postdocs moving to startups and industry (2...
Science to Data Science: PhDs and postdocs moving to startups and industry (2...Science to Data Science: PhDs and postdocs moving to startups and industry (2...
Science to Data Science: PhDs and postdocs moving to startups and industry (2...
AI Guild
 
Analytics what to look for sustaining your growing business-
Analytics   what to look for sustaining your growing business-Analytics   what to look for sustaining your growing business-
Analytics what to look for sustaining your growing business-
Ajay Ohri
 
Worldwide Intranet Challenge Intra Team Presentation V4
Worldwide Intranet Challenge   Intra Team Presentation V4Worldwide Intranet Challenge   Intra Team Presentation V4
Worldwide Intranet Challenge Intra Team Presentation V4
Deloitte Australia
 
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
Splunk
 
AI INSURANCE SPOTLIGHT
AI INSURANCE SPOTLIGHTAI INSURANCE SPOTLIGHT
AI INSURANCE SPOTLIGHT
AlbanTranchard
 
The Future of Search - Martin White
The Future of Search - Martin WhiteThe Future of Search - Martin White
The Future of Search - Martin White
Findwise
 
We spline invdeck_may2018
We spline invdeck_may2018We spline invdeck_may2018
We spline invdeck_may2018
Fernanda Torós
 
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical StudiesSoft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
Daniel Russo
 
We spline invdeck_may2018
We spline invdeck_may2018We spline invdeck_may2018
We spline invdeck_may2018
Fernanda Torós
 
Basic operation research
Basic operation researchBasic operation research
Basic operation researchVivekanandam BE
 
ICIC 2017: New product presentation EXPERT SYSTEM
ICIC 2017: New product presentation EXPERT SYSTEMICIC 2017: New product presentation EXPERT SYSTEM
ICIC 2017: New product presentation EXPERT SYSTEM
Dr. Haxel Consult
 
resume for work in predictive analytics
resume for work in predictive analyticsresume for work in predictive analytics
resume for work in predictive analyticsbutest
 
Resume and the Future of Internet Recruiting
Resume and the Future of Internet RecruitingResume and the Future of Internet Recruiting
Resume and the Future of Internet Recruiting
Andrew Cunsolo
 
Industrial Natural Language Processing and Information Extraction
Industrial Natural Language Processing and Information ExtractionIndustrial Natural Language Processing and Information Extraction
Industrial Natural Language Processing and Information Extraction
Institute for Technologies and Management of Digital Transformation, University of Wuppertal
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
Natalya Rostun, MBA
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
Natalya Rostun, MBA
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
Natalya Rostun, MBA
 

Similar to Text Mining in Business Intelligence โดย รศ.ดร.โอม ศรนิล (20)

c3120a_da5fc4915453496da207be7f8420705e
c3120a_da5fc4915453496da207be7f8420705ec3120a_da5fc4915453496da207be7f8420705e
c3120a_da5fc4915453496da207be7f8420705e
 
Application Security Maturity Model
Application Security Maturity ModelApplication Security Maturity Model
Application Security Maturity Model
 
Science to Data Science: PhDs and postdocs moving to startups and industry (2...
Science to Data Science: PhDs and postdocs moving to startups and industry (2...Science to Data Science: PhDs and postdocs moving to startups and industry (2...
Science to Data Science: PhDs and postdocs moving to startups and industry (2...
 
Analytics what to look for sustaining your growing business-
Analytics   what to look for sustaining your growing business-Analytics   what to look for sustaining your growing business-
Analytics what to look for sustaining your growing business-
 
Worldwide Intranet Challenge Intra Team Presentation V4
Worldwide Intranet Challenge   Intra Team Presentation V4Worldwide Intranet Challenge   Intra Team Presentation V4
Worldwide Intranet Challenge Intra Team Presentation V4
 
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
SplunkLive! London 2017 - Building an Analytics Driven Security Operation Cen...
 
AI INSURANCE SPOTLIGHT
AI INSURANCE SPOTLIGHTAI INSURANCE SPOTLIGHT
AI INSURANCE SPOTLIGHT
 
The Future of Search - Martin White
The Future of Search - Martin WhiteThe Future of Search - Martin White
The Future of Search - Martin White
 
We spline invdeck_may2018
We spline invdeck_may2018We spline invdeck_may2018
We spline invdeck_may2018
 
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical StudiesSoft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
Soft Theory: A Pragmatic Alternative to Conduct Quantitative Empirical Studies
 
We spline invdeck_may2018
We spline invdeck_may2018We spline invdeck_may2018
We spline invdeck_may2018
 
Basic operation research
Basic operation researchBasic operation research
Basic operation research
 
ICIC 2017: New product presentation EXPERT SYSTEM
ICIC 2017: New product presentation EXPERT SYSTEMICIC 2017: New product presentation EXPERT SYSTEM
ICIC 2017: New product presentation EXPERT SYSTEM
 
CV
CVCV
CV
 
resume for work in predictive analytics
resume for work in predictive analyticsresume for work in predictive analytics
resume for work in predictive analytics
 
Resume and the Future of Internet Recruiting
Resume and the Future of Internet RecruitingResume and the Future of Internet Recruiting
Resume and the Future of Internet Recruiting
 
Industrial Natural Language Processing and Information Extraction
Industrial Natural Language Processing and Information ExtractionIndustrial Natural Language Processing and Information Extraction
Industrial Natural Language Processing and Information Extraction
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
 
ADGS Computer Systems
ADGS Computer SystemsADGS Computer Systems
ADGS Computer Systems
 

More from BAINIDA

Mixed methods in social and behavioral sciences
Mixed methods in social and behavioral sciencesMixed methods in social and behavioral sciences
Mixed methods in social and behavioral sciences
BAINIDA
 
Advanced quantitative research methods in political science and pa
Advanced quantitative  research methods in political science and paAdvanced quantitative  research methods in political science and pa
Advanced quantitative research methods in political science and pa
BAINIDA
 
Latest thailand election2019report
Latest thailand election2019reportLatest thailand election2019report
Latest thailand election2019report
BAINIDA
 
Data science in medicine
Data science in medicineData science in medicine
Data science in medicine
BAINIDA
 
Nursing data science
Nursing data scienceNursing data science
Nursing data science
BAINIDA
 
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
BAINIDA
 
Statistics and big data for justice and fairness
Statistics and big data for justice and fairnessStatistics and big data for justice and fairness
Statistics and big data for justice and fairness
BAINIDA
 
Data science and big data for business and industrial application
Data science and big data  for business and industrial applicationData science and big data  for business and industrial application
Data science and big data for business and industrial application
BAINIDA
 
Update trend: Free digital marketing metrics for start-up
Update trend: Free digital marketing metrics for start-upUpdate trend: Free digital marketing metrics for start-up
Update trend: Free digital marketing metrics for start-up
BAINIDA
 
Advent of ds and stat adjustment
Advent of ds and stat adjustmentAdvent of ds and stat adjustment
Advent of ds and stat adjustment
BAINIDA
 
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
BAINIDA
 
Data visualization. map
Data visualization. map Data visualization. map
Data visualization. map
BAINIDA
 
Dark data by Worapol Alex Pongpech
Dark data by Worapol Alex PongpechDark data by Worapol Alex Pongpech
Dark data by Worapol Alex Pongpech
BAINIDA
 
Deepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDADeepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDA
BAINIDA
 
Professionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data ScienceProfessionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data Science
BAINIDA
 
Deep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr SanparitDeep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr Sanparit
BAINIDA
 
Visualizing for impact final
Visualizing for impact finalVisualizing for impact final
Visualizing for impact final
BAINIDA
 
Python programming workshop
Python programming workshopPython programming workshop
Python programming workshop
BAINIDA
 
Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...
BAINIDA
 
Second prize data analysis @ the First NIDA business analytics and data scie...
Second prize data analysis @ the First NIDA  business analytics and data scie...Second prize data analysis @ the First NIDA  business analytics and data scie...
Second prize data analysis @ the First NIDA business analytics and data scie...
BAINIDA
 

More from BAINIDA (20)

Mixed methods in social and behavioral sciences
Mixed methods in social and behavioral sciencesMixed methods in social and behavioral sciences
Mixed methods in social and behavioral sciences
 
Advanced quantitative research methods in political science and pa
Advanced quantitative  research methods in political science and paAdvanced quantitative  research methods in political science and pa
Advanced quantitative research methods in political science and pa
 
Latest thailand election2019report
Latest thailand election2019reportLatest thailand election2019report
Latest thailand election2019report
 
Data science in medicine
Data science in medicineData science in medicine
Data science in medicine
 
Nursing data science
Nursing data scienceNursing data science
Nursing data science
 
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
Financial time series analysis with R@the 3rd NIDA BADS conference by Asst. p...
 
Statistics and big data for justice and fairness
Statistics and big data for justice and fairnessStatistics and big data for justice and fairness
Statistics and big data for justice and fairness
 
Data science and big data for business and industrial application
Data science and big data  for business and industrial applicationData science and big data  for business and industrial application
Data science and big data for business and industrial application
 
Update trend: Free digital marketing metrics for start-up
Update trend: Free digital marketing metrics for start-upUpdate trend: Free digital marketing metrics for start-up
Update trend: Free digital marketing metrics for start-up
 
Advent of ds and stat adjustment
Advent of ds and stat adjustmentAdvent of ds and stat adjustment
Advent of ds and stat adjustment
 
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
เมื่อ Data Science เข้ามา สถิติศาสตร์จะปรับตัวอย่างไร
 
Data visualization. map
Data visualization. map Data visualization. map
Data visualization. map
 
Dark data by Worapol Alex Pongpech
Dark data by Worapol Alex PongpechDark data by Worapol Alex Pongpech
Dark data by Worapol Alex Pongpech
 
Deepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDADeepcut Thai word Segmentation @ NIDA
Deepcut Thai word Segmentation @ NIDA
 
Professionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data ScienceProfessionals and wanna be in Business Analytics and Data Science
Professionals and wanna be in Business Analytics and Data Science
 
Deep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr SanparitDeep learning and image analytics using Python by Dr Sanparit
Deep learning and image analytics using Python by Dr Sanparit
 
Visualizing for impact final
Visualizing for impact finalVisualizing for impact final
Visualizing for impact final
 
Python programming workshop
Python programming workshopPython programming workshop
Python programming workshop
 
Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...Second prize business plan @ the First NIDA business analytics and data scien...
Second prize business plan @ the First NIDA business analytics and data scien...
 
Second prize data analysis @ the First NIDA business analytics and data scie...
Second prize data analysis @ the First NIDA  business analytics and data scie...Second prize data analysis @ the First NIDA  business analytics and data scie...
Second prize data analysis @ the First NIDA business analytics and data scie...
 

Recently uploaded

The Art Pastor's Guide to Sabbath | Steve Thomason
The Art Pastor's Guide to Sabbath | Steve ThomasonThe Art Pastor's Guide to Sabbath | Steve Thomason
The Art Pastor's Guide to Sabbath | Steve Thomason
Steve Thomason
 
Fish and Chips - have they had their chips
Fish and Chips - have they had their chipsFish and Chips - have they had their chips
Fish and Chips - have they had their chips
GeoBlogs
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
Jisc
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
Celine George
 
ESC Beyond Borders _From EU to You_ InfoPack general.pdf
ESC Beyond Borders _From EU to You_ InfoPack general.pdfESC Beyond Borders _From EU to You_ InfoPack general.pdf
ESC Beyond Borders _From EU to You_ InfoPack general.pdf
Fundacja Rozwoju Społeczeństwa Przedsiębiorczego
 
Polish students' mobility in the Czech Republic
Polish students' mobility in the Czech RepublicPolish students' mobility in the Czech Republic
Polish students' mobility in the Czech Republic
Anna Sz.
 
The French Revolution Class 9 Study Material pdf free download
The French Revolution Class 9 Study Material pdf free downloadThe French Revolution Class 9 Study Material pdf free download
The French Revolution Class 9 Study Material pdf free download
Vivekanand Anglo Vedic Academy
 
Basic phrases for greeting and assisting costumers
Basic phrases for greeting and assisting costumersBasic phrases for greeting and assisting costumers
Basic phrases for greeting and assisting costumers
PedroFerreira53928
 
Template Jadual Bertugas Kelas (Boleh Edit)
Template Jadual Bertugas Kelas (Boleh Edit)Template Jadual Bertugas Kelas (Boleh Edit)
Template Jadual Bertugas Kelas (Boleh Edit)
rosedainty
 
Instructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptxInstructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptx
Jheel Barad
 
Sectors of the Indian Economy - Class 10 Study Notes pdf
Sectors of the Indian Economy - Class 10 Study Notes pdfSectors of the Indian Economy - Class 10 Study Notes pdf
Sectors of the Indian Economy - Class 10 Study Notes pdf
Vivekanand Anglo Vedic Academy
 
Introduction to Quality Improvement Essentials
Introduction to Quality Improvement EssentialsIntroduction to Quality Improvement Essentials
Introduction to Quality Improvement Essentials
Excellence Foundation for South Sudan
 
1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx
JosvitaDsouza2
 
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
EugeneSaldivar
 
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
MysoreMuleSoftMeetup
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
Nguyen Thanh Tu Collection
 
Palestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptxPalestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptx
RaedMohamed3
 
PART A. Introduction to Costumer Service
PART A. Introduction to Costumer ServicePART A. Introduction to Costumer Service
PART A. Introduction to Costumer Service
PedroFerreira53928
 
MARUTI SUZUKI- A Successful Joint Venture in India.pptx
MARUTI SUZUKI- A Successful Joint Venture in India.pptxMARUTI SUZUKI- A Successful Joint Venture in India.pptx
MARUTI SUZUKI- A Successful Joint Venture in India.pptx
bennyroshan06
 
How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17
Celine George
 

Recently uploaded (20)

The Art Pastor's Guide to Sabbath | Steve Thomason
The Art Pastor's Guide to Sabbath | Steve ThomasonThe Art Pastor's Guide to Sabbath | Steve Thomason
The Art Pastor's Guide to Sabbath | Steve Thomason
 
Fish and Chips - have they had their chips
Fish and Chips - have they had their chipsFish and Chips - have they had their chips
Fish and Chips - have they had their chips
 
Supporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptxSupporting (UKRI) OA monographs at Salford.pptx
Supporting (UKRI) OA monographs at Salford.pptx
 
Model Attribute Check Company Auto Property
Model Attribute  Check Company Auto PropertyModel Attribute  Check Company Auto Property
Model Attribute Check Company Auto Property
 
ESC Beyond Borders _From EU to You_ InfoPack general.pdf
ESC Beyond Borders _From EU to You_ InfoPack general.pdfESC Beyond Borders _From EU to You_ InfoPack general.pdf
ESC Beyond Borders _From EU to You_ InfoPack general.pdf
 
Polish students' mobility in the Czech Republic
Polish students' mobility in the Czech RepublicPolish students' mobility in the Czech Republic
Polish students' mobility in the Czech Republic
 
The French Revolution Class 9 Study Material pdf free download
The French Revolution Class 9 Study Material pdf free downloadThe French Revolution Class 9 Study Material pdf free download
The French Revolution Class 9 Study Material pdf free download
 
Basic phrases for greeting and assisting costumers
Basic phrases for greeting and assisting costumersBasic phrases for greeting and assisting costumers
Basic phrases for greeting and assisting costumers
 
Template Jadual Bertugas Kelas (Boleh Edit)
Template Jadual Bertugas Kelas (Boleh Edit)Template Jadual Bertugas Kelas (Boleh Edit)
Template Jadual Bertugas Kelas (Boleh Edit)
 
Instructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptxInstructions for Submissions thorugh G- Classroom.pptx
Instructions for Submissions thorugh G- Classroom.pptx
 
Sectors of the Indian Economy - Class 10 Study Notes pdf
Sectors of the Indian Economy - Class 10 Study Notes pdfSectors of the Indian Economy - Class 10 Study Notes pdf
Sectors of the Indian Economy - Class 10 Study Notes pdf
 
Introduction to Quality Improvement Essentials
Introduction to Quality Improvement EssentialsIntroduction to Quality Improvement Essentials
Introduction to Quality Improvement Essentials
 
1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx1.4 modern child centered education - mahatma gandhi-2.pptx
1.4 modern child centered education - mahatma gandhi-2.pptx
 
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...TESDA TM1 REVIEWER  FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
TESDA TM1 REVIEWER FOR NATIONAL ASSESSMENT WRITTEN AND ORAL QUESTIONS WITH A...
 
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
Mule 4.6 & Java 17 Upgrade | MuleSoft Mysore Meetup #46
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI BUỔI 2) - TIẾNG ANH 8 GLOBAL SUCCESS (2 CỘT) N...
 
Palestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptxPalestine last event orientationfvgnh .pptx
Palestine last event orientationfvgnh .pptx
 
PART A. Introduction to Costumer Service
PART A. Introduction to Costumer ServicePART A. Introduction to Costumer Service
PART A. Introduction to Costumer Service
 
MARUTI SUZUKI- A Successful Joint Venture in India.pptx
MARUTI SUZUKI- A Successful Joint Venture in India.pptxMARUTI SUZUKI- A Successful Joint Venture in India.pptx
MARUTI SUZUKI- A Successful Joint Venture in India.pptx
 
How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17How to Make a Field invisible in Odoo 17
How to Make a Field invisible in Odoo 17
 

Text Mining in Business Intelligence โดย รศ.ดร.โอม ศรนิล

  • 1. The First NIDA Business Analytics and Data Sciences Contest/Conference วันที่ 1-2 กันยายน 2559 ณ อาคารนวมินทราธิราช สถาบันบัณฑิตพัฒนบริหารศาสตร์ https://businessanalyticsnida.wordpress.com https://www.facebook.com/BusinessAnalyticsNIDA/ โดย รศ. ดร. โอม ศรนิล สาขาวิชาวิทยาการข้อมูล คณะสถิติประยุกต์ สถาบันบัณฑิตพัฒนบริหารศาสตร์ Text Mining in Business Intelligence การทาเหมืองข้อความทาได้อย่างไร มีหลักการอย่างไร ทาเหมืองข้อความภาษาไทยได้หรือไม่ เราจะประยุกต์ใช้การทาเหมืองข้อความกับธุรกิจได้อย่างไร ต้องเขียนโปรแกรมเป็นหรือไม่หากจะทาเหมืองข้อความ ทาเหมืองข้อความแล้วจะได้ความรู้อะไรบ้าง นวมินทราธิราช 3003 วันที่ 1 กันยายน 2559 9.30-10.00 น.
  • 2. TEXT MINING IN BUSINESS INTELLIGENCE OHM SORNIL, Ph.D. Department of Computer Science, NIDA
  • 3. BUSINESS INTELLIGENCE “the ability to apprehend the interrelationships of presented facts in such a way as to guide action towards a desired goal.” (H. P. Luhn, 1958) “a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes.” (D. M. Turner, 2016)
  • 4. UNSTRUCTURED DATA ◉ Unstructured data is like Text, video, a voice recording of a customer service transaction ◉ Generally accepted maxim is that structured data represents only 20%. The rest is unstructured. ◉ If it can be counted, it can be analyzed. ◉ If it can be analyzed, it can be interpreted.
  • 6. JUST MARKETING TERMS ◉ Text mining = Text analytics = Natural language processing (NLP) ◉ A move from university research to real-world business problems
  • 7. Internal ◉ Company documents ◉ Emails ◉ Reports ◉ Media releases ◉ Customer records and communication SOURCES OF TEXTUAL DATA External ◉ News ◉ Websites ◉ Blogs ◉ Social media posts
  • 8. CHALLENGES ◉ Text is generally unstructured ◉ Large quantities and increasing rapidly ◉ Noisy (e.g., typoerrors, slangs, informal words, etc.) ◉ Synonymy and polysemy
  • 9. TEXT MINING ◉ Process of extracting interesting information or patterns from unstructured text ◉ An interdisciplinary field: computational linguistics, statistics, and machine learning ◉ Can lead to the development of new opportunities in business
  • 11. CUSTOMER RELATIONSHIP MANAGEMENT (CRM) Input ◉ Text documents produced from a variety of sources in contact centers Output ◉ Contents of client’s messages ◉ Routing specific requests to the appropriate service ◉ Supplying immediate answers to the most frequently asked questions
  • 12. OPINION ANALYSIS Output ◉ Frequency of words mentioned is an indicator for concept salience, e.g., “unbreakable”, “fragile” ◉ Frequency of co-occurrence represents the strength of connection in the customer‘s mind, e.g., <“Samsung”, “camera”>, <“iPhone”, “expensive”> Input ◉ Customers’ messages in websites, blogs, Tweeter, Facebook, etc.
  • 13. MEDICAL RECORD ANALYSIS Input ◉ Doctors’ comments Output ◉ An early warning regarding specific diseases If frequency of “lungs” or “breathing” appears more than 45 appearances in the last 30 days for a given ZIP code or region, it can be a clue to excessive environmental conditions which are resulting in respiratory problems. A proactive intervention can be activated to remedy the situation.
  • 14. SENTIMENT ANALYSIS Input ◉ Customers’ messages in websites, blogs, Tweeter, Facebook, etc. Output ◉ Positive, negative or neutral opinions/feelings (polarity) expressed by a writer in a document collection
  • 16. EMOTIONAL STATE CLASSIFICATION SOURCE: http://emotion-research.net/toolbox/toolboxlabellingtool.2006-09-26.9095478150 https://annaszymanska1324161.wordpress.com/2014/04/28/very-emotional-research/
  • 17. HUMAN RESOURCE MANAGEMENT Input ◉ Staff’s opinions ◉ CVs from applicants Output ◉ Level of employee satisfaction ◉ Selection of new personnel
  • 18. INSURANCE CLAIM DIAGNOSIS Input ◉ Note of all the details related to the claim/health issues in the form of a brief description Output ◉ Identified a common group of problems
  • 19. CORPORATE FINANCE Input ◉ Publicly available descriptions of any startups' business - products/services, investors and social links between individuals in 2 firms Output ◉ Targets for mergers and acquisitions Source: http://phys.org/news/2016-07-text-mining-intelligence-startups.html#jCp
  • 20. INVESTMENT Input ◉ Security related newsfeed Output ◉ A model to predict movements of markets for everything from government bonds to commodities.
  • 21. MEANINGThe key is to capture the meaning of text.
  • 22. TEXT MINING PROCESS Text Sources Preprocessing Presentation (Visualization/ Browsing) Modeling
  • 23. COMMON PREPROCESSING ◉ Extracting text ◉ Tokenization ◉ Stopword elimination: is, am, are, the, of, for, … (http://www.ranks.nl/stopwords/thai-stopwords) ◉ Stemming: run, runs, ran, running  run
  • 25. INVERSE DOCUMENT FREQUENCY SOURCE: http://nlp.stanford.edu/IR-book/pdf/06vect.pdf
  • 29. WORD CO-OCCURRENCE STRENGTH ◉ Mutual Information (MI) between words x and y
  • 30. ADD-ON COMPONENTS ◉ WordNet ◉ Feature selection/reduction
  • 31. WordNet ◉ WordNet is essentially Dictionary + Thesaurus Relations: hyponymy, meronymy, antonymy
  • 32. TASK SPECIFIC COMPONENTS ◉ Part-of-Speech (POS) tagging ◉ SentiWordNet - Results of automatic annotation of all synsets of WordNet according to the notions of “positivity”, “negativity” and “neutral” ◉ Emoticons
  • 33. MINING ALGORITHMS ◉ General machine learning algorithms are applicable Classification Naïve Bayes Support Vector Machine Bayesian Network Neural Network Logistic Regression etc. Clustering K-means Fuzzy C-means Hierarhical Clustering Self-Organizing Map etc. Association Analysis and Sequence Analysis Apriori Generalized Rule Induction Influential Apriori FP-Growth etc.
  • 35. GENERAL DATA MINING TASKS ◉ Classification ◉ Clustering ◉ Association Analysis ◉ Prediction ◉ Sequence Analysis
  • 37. Analytics Tools with Text Mining Capabilities
  • 38. OPEN SOURCED SOFTWARE SOURCE: http://www.predictiveanalyticstoday.com/top-free-software-for-text-analysis- text-mining-text-analytics/ R package TM