SlideShare a Scribd company logo
1 of 49
人工智慧
教師:陳志華博士
報告大綱-k個最近鄰居(醫療旅遊)
自然語言分析與醫療旅遊應用
人工智慧方法
◦ 資訊檢索
◦ k個最近鄰居
◦ 本體論
醫療旅遊應用方法
k個最近鄰居實作
k個最近鄰居應用案例
2
自然語言分析與醫療旅遊應用
近年來,隨著經濟成長、人民生活水準的提高、醫學藥物進步,人口的平均年齡已顯著的
延長;全球進入高齡化的社會,台灣目前被列為老化速度世界第一的國家。根據經建會統
計,2006年台灣地區老年人口占總人口數約為9.94%,總數達226萬人,預估台灣65歲以上
人口所占比重到2016年和2026年時將分別增加為13%和20%。目前國人疾病型態及死亡原
因,也由原來主要是急性傳染病和急性疾病,轉變成慢性疾病,如:心臟病、糖尿病、高
血壓等。
以綠色健康生活為目標的「樂活族(Lifestyles Of Health And Sustainability, LOHAS)」,漸
漸成為社會主流目標。根據研究機構自然行銷研究所(Natural Marketing Institute)的統計,
美國約有6800萬樂活族,佔全美人口23%。東方消費者行銷資料庫也指出,台灣消費者每
三人就有一位泛樂活族。樂活族市場之中的「SHAPE」,主要包括有永續發展的經濟
(Sustainable Economy)、健康的生活形態(Healthy Lifestyle)、另類療法(Alternative
Healthcare,例如自然療法)、個人發展(Personal Development)、符合自然生態的生活
(Ecological Lifestyle),其中在「健康的生活形態」和「另類療法」的市場分別占有500億美
元和400億美元的市場價值,具有高度的發展潛力。
3
自然語言分析與醫療旅遊應用
行政院發佈的「2015年經濟發展願景」中可以發現未來將會著重於發展寬頻通訊、數位生
活和健康照護等,其中Ubiquitous Healthcare (U-Health)計劃、台灣醫療旅遊產業計劃是非
常受到重視的。因此,國內在2007年更成立了台灣醫療旅遊發展協會,以推動國內外醫療
旅遊相關產業調查研究和協助政府發展觀光產業。然而,在目前現有的資訊系統中卻缺乏
一套有效的決策支援系統(Decision Support Systems, DSS),以提供醫療旅遊服務(Medical
Tourism Service, MTS)推薦。
有鑑於上述相關服務所衍生之需求,一套基於語意網基礎之醫療旅遊服務推薦系統設計原
則與功能包括:
◦ 需建置語意推論引擎分析使用者需求。
◦ 需依據醫療專業知識和旅遊服務資源為基礎,進行醫療旅遊服務之搜尋、比較、重組,以及整合。
◦ 需提供有效率且流程簡單的搜尋機制。
4
自然語言分析與醫療旅遊應用
本研究將服務導向架構(Service Oriented
Architecture, SOA )和語意網技術結合在資訊系
統上,提供醫療旅遊服務之推薦。因此提出一
套六大元件架構之智慧型醫療旅遊服務推薦系
統(Intelligent Medical Tourism Service
Recommendation System, IMTSRS),並且提出
醫療旅遊詞幹處理機制(Medical Tourism
Stemming Mechanism, MTSM)和醫療本體論
(Medical Ontologies, MOs)以進行使用者需求語
意分析和處理,並整合詞頻-逆向文件頻率
(Term Frequency - Inverse Document Frequency,
TF-IDF)、潛在語意分析(Latent Semantic
Analysis, LSA)和k個最近鄰居(k-Nearest
Neighbors, kNN)演算法推論最適醫療旅遊服務
給行動式使用者端。
5
把「病症」當作「字詞」
把「療法」當作「類別」
即可將問題定義為「分類」問題
人工智慧方法
資訊檢索(Information Retrieval, IR)(資料前處理過程)
◦ 斷詞切字(Stemming)
◦ 詞頻(Term Frequency, TF)
◦ 逆向文件頻率(Inverse Document Frequency, IDF)
◦ TF-IDF
k個最近鄰居(k-Nearest Neighbors, kNN)
◦ 相似度算法
◦ 距離算法
◦ kNN演算法
本體論(Ontology)
6
人工智慧方法-資訊檢索
文章如何轉換為向量空間模型(Vector Space Model, VSM)?
7
Machine learning gives the
systems of computer the ability
to "learn" with data.
Data mining is the process of
discovering data patterns based
on machine learning.
Computer science is the study
of the theory for the design of
computers.
第1篇文章內容 第2篇文章內容 第3篇文章內容
Machine: 1
Learn: 2
Give: 1
…
Data: 2
Mine: 1
Be: 1
…
Computer: 2
Science: 1
Be: 1
…
進行斷詞切字,
取得字詞原形,
並計算出現次數
人工智慧方法-資訊檢索
詞頻(Term Frequency, TF)
◦ 在一份給定的檔案裡,詞頻指的是某一個給定的詞語在該檔案中出現的頻率
◦ 這個數字是對詞數的正規化,以防止它偏向長的檔案
◦ 假設第i篇文章第j個字詞共出現cij次,第i篇文章共有ni個字詞,第i篇文章第j個字詞詞頻tij為
8
文章編號 machine learn give the system of computer ability to with data mine
1 1 2 1 2 1 1 1 1 1 1 1 0
2 1 1 0 1 0 1 0 0 0 0 2 1
3 0 0 0 3 0 2 2 0 0 0 0 0
文章編號 be process discover pattern base on science study theory for design 總和
1 0 0 0 0 0 0 0 0 0 0 0 13
2 1 1 1 1 1 1 0 0 0 0 0 13
3 1 0 0 0 0 0 1 1 1 1 1 13

 iN
j
ij
ij
ij
n
n
t
1
人工智慧方法-資訊檢索
詞頻(Term Frequency, TF)
◦ 在一份給定的檔案裡,詞頻指的是某一個給定的詞語在該檔案中出現的頻率
◦ 這個數字是對詞數的正規化,以防止它偏向長的檔案
◦ 假設第i篇文章第j個字詞共出現nij次,第i篇文章共有Ni個字詞,第i篇文章第j個字詞詞頻tij為
9
文章編號 machine learn give the system of computer ability to with data mine
1 0.077 0.154 0.077 0.154 0.077 0.077 0.077 0.077 0.077 0.077 0.077 0.000
2 0.077 0.077 0.000 0.077 0.000 0.077 0.000 0.000 0.000 0.000 0.154 0.077
3 0.000 0.000 0.000 0.231 0.000 0.154 0.154 0.000 0.000 0.000 0.000 0.000

 iN
j
ij
ij
ij
n
n
t
1
文章編號 be process discover pattern base on science study theory for design
1 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
2 0.077 0.077 0.077 0.077 0.077 0.077 0.000 0.000 0.000 0.000 0.000
3 0.077 0.000 0.000 0.000 0.000 0.000 0.077 0.077 0.077 0.077 0.077
1/13 = 0.077 2/13 = 0.154
人工智慧方法-資訊檢索
逆向文件頻率(Inverse Document Frequency, IDF)
◦ 一個詞語普遍重要性的度量
◦ 可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取以10為底的對數得到
◦ 假設第j個字詞出現在mj篇文章,文章總共有M篇,第j個字詞逆向文件頻率dj為
10
文章編號 machine learn give the system of computer ability to with data mine
1 o o o o o o o o o o o x
2 o o x o x o x x x x o o
3 x x x o x o o x x x x x
mj 2 2 1 3 1 3 2 1 1 1 2 1
j
j
m
M
d log
文章編號 be process discover pattern base on science study theory for design
1 x x x x x x x x x x x
2 o o o o o o x x x x x
3 o x x x x x o o o o o
mj 2 1 1 1 1 1 1 1 1 1 1
人工智慧方法-資訊檢索
逆向文件頻率(Inverse Document Frequency, IDF)
◦ 一個詞語普遍重要性的度量
◦ 可以由總檔案數目除以包含該詞語之檔案的數目,再將得到的商取以10為底的對數得到
◦ 假設第j個字詞出現在mj篇文章,文章總共有M篇,第j個字詞逆向文件頻率dj為
11
文章編號 machine learn give the system of computer ability to with data mine
1 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
2 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
3 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
mj 2 2 1 3 1 3 2 1 1 1 2 1
j
j
m
M
d log
文章編號 be process discover pattern base on science study theory for design
1 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
2 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
3 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
mj 2 1 1 1 1 1 1 1 1 1 1
log(3/2) = 0.176 log(3/3) = 0
人工智慧方法-資訊檢索
TF-IDF
◦ 詞頻(Term Frequency, TF)和逆向文件頻率(Inverse Document Frequency, IDF)相乘
◦ 第i篇文章第j個字詞TF-IDF值vij為
12
j
N
j
ij
ij
jijij
m
M
n
n
dtv i
log
1


文章編號 machine learn give the system of computer ability to with data mine
1 0.014 0.027 0.037 0.000 0.037 0.000 0.014 0.037 0.037 0.037 0.014 0.000
2 0.014 0.014 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.027 0.037
3 0.000 0.000 0.000 0.000 0.000 0.000 0.027 0.000 0.000 0.000 0.000 0.000
文章編號 be process discover pattern base on science study theory for design
1 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
2 0.014 0.037 0.037 0.037 0.037 0.037 0.000 0.000 0.000 0.000 0.000
3 0.014 0.000 0.000 0.000 0.000 0.000 0.037 0.037 0.037 0.037 0.037
0.077 * 0.176 = 0.014
0.213 * 0 = 0
1. 在詞頻的計算下,找出
同一篇文章具有代表性
的字詞
2. 在逆向文件頻率的計算
下,把每篇文章都會出
現的一般字詞去除
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型(Vector Space Model, VSM)?
13
機器學習可以讓計算機系統具
有學習資料的能力。
資料探勘是基於機器學習的發
現資料樣式過程。
計算機科學是計算機設計理論
的學門。
第1篇文章內容 第2篇文章內容 第3篇文章內容
機: 2
器: 1
學: 2
…
資: 2
料: 2
探: 1
…
計: 2
算: 2
機: 2
…
單一文字拆解後
似乎不具意義
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型
(Vector Space Model, VSM)?
中央研究院研發「中文斷詞系統」,可
免費使用
◦ 網址:http://ckipsvr.iis.sinica.edu.tw/
英文系統名稱為「CKIP (Chinese
Knowledge and Information Processing)」
點擊「線上展示」
14
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型
(Vector Space Model, VSM)?
輸入文章內容(以第1篇文章為例)
點擊「送出」
15
機器學習可以讓計算機系統具
有學習資料的能力。
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型
(Vector Space Model, VSM)?
點擊「包含未知詞的斷詞標記結果」
16
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型
(Vector Space Model, VSM)?
取得斷詞切字後的結果
◦ 字詞(詞性)
第1篇文章斷詞切字結果
◦ 機器(Na)、學習(VC)、可以(D)、讓(VL)、
計算機(Na)、系統(Na)、具有(VJ)、學習
(VC)、資料(Na)、的(DE)、能力(Na)
17
機器(Na): 1
學習(VC): 2
可以(D): 1
…
人工智慧方法-資訊檢索
「中文」文章如何轉換為向量空間模型(Vector Space Model, VSM)?
18
機器學習可以讓計算機系統具
有學習資料的能力。
資料探勘是基於機器學習的發
現資料樣式過程。
計算機科學是計算機設計理論
的學門。
第1篇文章內容 第2篇文章內容 第3篇文章內容
機器(Na): 1
學習(VC): 2
可以(D): 1
…
資料(Na): 2
探勘(VC): 1
是(SHI): 1
…
計算機(Na): 2
科學(Na): 1
是(SHI): 1
…
運用中文斷詞切
系統,並統計字
詞出現次數
人工智慧方法-k個最近鄰居
k個最近鄰居(k-Nearest Neighbors, kNN)
◦ kNN為可用來解決「分類」問題
◦ 訓練資料是由輸入物件(通常是向量)和預期輸出(如分類標籤)所組成
◦ 最鄰近的k個樣本點並進行投票,以最多票的類別來決定新樣本點它所屬是哪個類別
演算法過程
◦ 將輸入物件轉換為向量空間模型
◦ 選定一個k值
◦ 計算與每一個樣本的距離或相似度
◦ 取得k個最鄰近的樣本
◦ 取得這k個樣本中類別標籤最多的那個類別
19
k值的大小將可能影響
分類結果
當k = 3時,將被分類
為「紅色」
當k = 5時,將被分類
為「藍色」
人工智慧方法-k個最近鄰居
「距離」算法
計算X與Y的「距離d(X, Y)」
絕對距離量測(Absolute distance measuring)
歐幾里德距離量測(Euclidean distance measuring)
20
   

n
i
ii yxYXd
1
2
,
  

n
i
ii yxYXd
1
,
   nn yyyYxxxX ,...,,,,...,, 2121 
人工智慧方法-k個最近鄰居
「距離」算法
計算X與Y的「距離d(X, Y)」
絕對距離量測
d(X, Y) = 12
歐幾里德距離量測
d(X, Y) = 6
21
1 2 3 4 5 Sum
x 3 5 1 3 4
y 4 1 4 4 1
|x-y| 1 4 3 1 3 12
(x-y)2
1 16 9 1 9 36
人工智慧方法-k個最近鄰居
「相似度」算法
計算X與Y的「相似度s(X, Y)」
Jaccard相似度(Jaccard similarity)
餘弦相似度(Cosine similarity)
22
 




n
i
i
n
i
i
n
i
ii
yx
yx
YXs
1
2
1
2
1
,
 
YX
YX
YXs


,
   nn yyyYxxxX ,...,,,,...,, 2121 
人工智慧方法-k個最近鄰居
「相似度」算法
計算X與Y的「相似度s(X, Y)」
Jaccard相似度
2 / 4 = 0.5
餘弦相似度
2 / 3 = 0.67
23
1 2 3 4 5 Sum
x 1 1 1 0 0
y 0 1 1 0 1
交集 0 1 1 0 0 2
聯集 1 1 1 0 1 4
xy 0 1 1 0 0 2
x2
1 1 1 0 0 3
y2
0 1 1 0 1 3
人工智慧方法-k個最近鄰居
k個最近鄰居(k-Nearest Neighbors, kNN)如何解決文件「分類」問題?
原始資料如右表
採用「絕對距離量測」
24
Document class t1 t2 t3
d1 C1 6 5 0
d2 C2 1 3 2
d3 C2 0 3 3
d4 C1 4 2 0
d5 C2 0 2 4
d6 C1 3 4 0
d7 ? 3 3 0
Document class t1 t2 t3 Sum
d1 C1 3 2 0 5
d2 C2 2 0 2 4
d3 C2 3 0 3 6
d4 C1 1 1 0 2
d5 C2 3 1 4 8
d6 C1 0 1 0 1
d7 ?
人工智慧方法-k個最近鄰居
k個最近鄰居(k-Nearest Neighbors, kNN)如何解決文件「分類」問題?
距離計算結果如右表
設k = 3,可得類別為C1
25
人工智慧方法-本體論
本體論(Ontology)是「研究到底哪些名詞代表真實存在實體,哪些名詞只是代表一種概念」
近年來,人工智慧及資訊技術相關領域的學者也開始將本體論的觀念用在知識表達上,即
藉由本體論中的基本元素:概念及概念間的關連,作為描述真實世界的知識模型。
本體論怎麼用?
26
皮膚有類症
皮膚(Na): 1
有(V_2): 1
類(Nf): 1
症(Na): 1
皮膚有類症(Na): 1 皮膚科: 1
中文斷詞切字後結果 本體論處理後結果
中央研究院中文斷詞切字系統
主要針對「一般性」字詞用法
進行斷詞,但無法對特定領域
進行斷詞
可依特定領域的本體論找出關
鍵字詞,並劃分該字詞所屬的
類別
人工智慧方法-本體論
醫療本體論
27
Domain Layer
疾病
Category Layer
.
.
.
內科
耳鼻喉科
皮膚性病科疾病
外科
Concept Layer
.
.
.
心臟與血管疾病
呼吸系與胸部疾病
骨科
燒傷
Extended Subclass Layer
心臟疾病
血管疾病
骨折
關節疾病
心力衰竭
心絞痛
關節炎
腱鞘炎
.
.
.
.
.
.
.
.
.
需根據各個應用領域
建置不同的本體論
醫療旅遊應用方法
語意推論處理流程和最適醫療旅遊服務推論流程
28
語意推論模組
1. 觀光醫療專家建議
2. 行動使用者端需求
預先處理
Suffix Stripping Algorithms
Brute Force Algorithms
Lemmatisation Algorithms
觀光醫療詞幹處理機制
Medical Hierarchical Architecture
Medical Classification
Medical Conception Retrieval
醫療本體論
最適觀光醫療服務推論模組
反置檔
Term Frequency - Inversed Document
Frequency (TF - IDF)
Matrix Operations and Processes
Singular Value Decomposition (SVD)
潛在語意分析
k - Nearest Neighbor (kNN)
觀光醫療服務類別
語意推論模組
預先處理
觀光醫療詞幹處理機制
觀光醫療本體論
把「病症」當作「字詞」
把「療法」當作「類別」
即可將問題定義為「分類」問題
醫療旅遊應用方法
醫療旅遊專家建議
◦ 萬芳醫院家庭醫學科
◦ 「遊玩」與「療養」兼顧的旅遊形式
◦ 網址:
http://www1.wanfang.gov.tw/family/astm/kn
ow_3.htm
29
正向療效
負向療效
醫療旅遊專家
輕度的心血管病、I和II期高血壓、
低血壓、血管痙攣、雷諾氏病、腦
血管意外後遺症等
第1篇文章內容
慢性骨關節及肌肉疾病、中樞和周
圍神經系統 疾病、婦科生殖系統病、
皮膚營養不良性疾病等
第2篇文章內容
類別:碳
酸氫納泉
類別:硫
化氫泉
文章編號 類別
可治輕度的
早期心血管
系統疾病患
者
高血壓 高血壓患者
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0 0
2 硫化氫泉 0 0 0 1 1 1
3 碳酸氫納泉 0 0 1 0 0 0
4 硫化氫泉 0 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0 0
6 硫化氫泉 0 0 0 0 1 1
醫療旅遊應用方法
原始資料
◦ 計算每篇文章中提及的文字出現次數
◦ 標記每篇文章所屬類別
30
醫療旅遊應用方法
斷詞切字結果
◦ “可治輕度的早期心血管系統疾病患者”,經由CKIP處理後可分割成九個部分(segments):“可(D)”、
“治(VC)”、“輕度(A)”、“的(DE)”、“早期(Nd)”、“心血管(Na)”、“系統(Na)”、“疾病(Na)”、“患者(Na)”
◦ 將與疾病無關字詞去除,例如:“可(D)”、“治(VC)”、“輕度(A)”、“的(DE)”、“患者(Na)”
31
文章編號 類別
早期心血管
系統疾病
高血壓 高血壓
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0 0
2 硫化氫泉 0 0 0 1 1 1
3 碳酸氫納泉 0 0 1 0 0 0
4 硫化氫泉 0 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0 0
6 硫化氫泉 0 0 0 0 1 1
醫療旅遊應用方法
斷詞切字結果
◦ 將相同字詞之資料屬性合併,並將次數加總
32
文章編號 類別
早期心血管
系統疾病
高血壓
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0
2 硫化氫泉 0 0 1 1 1
3 碳酸氫納泉 0 1 0 0 0
4 硫化氫泉 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0
6 硫化氫泉 0 0 0 1 1
醫療旅遊應用方法
本體論結果
◦ 參考醫療本體論,將各個疾病名稱抽象化為「概念層級」
33
文章編號 類別
心臟與血管
疾病
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 1 1 0 0 0
2 硫化氫泉 0 0 1 1 1
3 碳酸氫納泉 0 1 0 0 0
4 硫化氫泉 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0
6 硫化氫泉 0 0 0 1 1
醫療旅遊應用方法
本體論結果
◦ 將抽象化後相同概念之資料屬性合併,並將次數加總
34
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 2 0 0 0
2 硫化氫泉 0 1 1 1
3 碳酸氫納泉 1 0 0 0
4 硫化氫泉 0 1 0 1
5 碳酸氫納泉 1 0 0 0
6 硫化氫泉 0 0 1 1
醫療旅遊應用方法
詞頻(Term Frequency, TF)結果
◦ 計算每一個字詞的次數總和
35
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科 總和
1 碳酸氫納泉 2 0 0 0 2
2 硫化氫泉 0 1 1 1 3
3 碳酸氫納泉 1 0 0 0 1
4 硫化氫泉 0 1 0 1 2
5 碳酸氫納泉 1 0 0 0 1
6 硫化氫泉 0 0 1 1 2
醫療旅遊應用方法
詞頻(Term Frequency, TF)結果
◦ 依詞頻公式計算
36
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 1.000 0.000 0.000 0.000
2 硫化氫泉 0.000 0.333 0.333 0.333
3 碳酸氫納泉 1.000 0.000 0.000 0.000
4 硫化氫泉 0.000 0.500 0.000 0.500
5 碳酸氫納泉 1.000 0.000 0.000 0.000
6 硫化氫泉 0.000 0.000 0.500 0.500

 iN
j
ij
ij
ij
n
n
t
1 2/2 = 1 1/3 = 0.333
醫療旅遊應用方法
逆向文件頻率(Inverse Document Frequency, IDF)結果
◦ 計算每一個字詞出現的文章篇數總和
37
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 o x x x
2 硫化氫泉 x o o o
3 碳酸氫納泉 o x x x
4 硫化氫泉 x o x o
5 碳酸氫納泉 o x x x
6 硫化氫泉 x x o o
篇數 3 2 2 3
醫療旅遊應用方法
逆向文件頻率(Inverse Document Frequency, IDF)結果
◦ 依逆向文件頻率公式計算
38
j
j
m
M
d log
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 0.301 0.477 0.477 0.301
2 硫化氫泉 0.301 0.477 0.477 0.301
3 碳酸氫納泉 0.301 0.477 0.477 0.301
4 硫化氫泉 0.301 0.477 0.477 0.301
5 碳酸氫納泉 0.301 0.477 0.477 0.301
6 硫化氫泉 0.301 0.477 0.477 0.301
log(6/3) = 0.301
log(6/2) = 0.477
醫療旅遊應用方法
詞頻-逆向文件頻率(Term Frequency - Inverse Document Frequency, TF-IDF)結果
◦ 依TF-IDF公式計算
39
j
N
j
ij
ij
jijij
m
M
n
n
dtv i
log
1


文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
1 碳酸氫納泉 0.301 0.000 0.000 0.000
2 硫化氫泉 0.000 0.159 0.159 0.100
3 碳酸氫納泉 0.301 0.000 0.000 0.000
4 硫化氫泉 0.000 0.239 0.000 0.151
5 碳酸氫納泉 0.301 0.000 0.000 0.000
6 硫化氫泉 0.000 0.000 0.239 0.151
1 * 0.301 = 0.301
0.5 * 0.477 = 0.239
醫療旅遊應用方法
k個最近鄰居(k-Nearest Neighbors, kNN)-查詢資料與療法類別
◦ 查詢內容「輕度高血壓、腸胃不舒服」
◦ 運用歐幾里德距離公式計算距離
40
查詢內容 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
輕度高血壓、
腸胃不舒服
? 1 0 0 0
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科 距離 排名
1 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
2 硫化氫泉 1.000 0.025 0.025 0.010 1.030 4
3 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
4 硫化氫泉 1.000 0.057 0.000 0.023 1.039 5
5 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
6 硫化氫泉 1.000 0.000 0.057 0.023 1.039 5
當k = 3時,最接近的3筆
皆為「碳酸氫納泉」
此查詢之病症,推薦可以
採用「碳酸氫納泉」療法
醫療旅遊應用方法
k個最近鄰居(k-Nearest Neighbors, kNN)-查詢資料與療法類別
◦ 查詢內容「腳扭傷」
◦ 運用歐幾里德距離公式計算距離
41
查詢內容 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科
腳扭傷 ? 0 0 0 1
文章編號 類別
心臟與血管
疾病
神經系統
疾病
皮膚科 骨科 距離 排名
1 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
2 硫化氫泉 0.000 0.025 0.025 0.809 0.927 3
3 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
4 硫化氫泉 0.000 0.057 0.000 0.722 0.882 1
5 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
6 硫化氫泉 0.000 0.000 0.057 0.722 0.882 1
當k = 3時,最接近的3筆
皆為「硫化氫泉」
此查詢之病症,推薦可以
採用「硫化氫泉」療法
k個最近鄰居實作
k個最近鄰居實作
◦ 開啟RStudio整合開發環境
◦ 新增Rscript檔案
◦ 撰寫程式碼
◦ 假設k設定為3
◦ 全選程式碼,並點擊「 」執行程式
◦ 瀏覽主控台訊息,取得規則
42
k個最近鄰居實作
k個最近鄰居實作
◦ #引用class函式庫
◦ library(class)
◦ #載入訓練資料集合
◦ training_dataset <- read.csv(file.choose(), header = TRUE)
◦ #載入測試資料集合
◦ testing_dataset <- read.csv(file.choose(), header = TRUE)
◦ #取得訓練資料集合中的資料屬性部分
◦ training_data <- subset(training_dataset, select = -Class)
◦ #取得測試資料集合中的資料屬性部分
◦ testing_data <- subset(testing_dataset, select = -Class)
◦ #取得訓練資料集合中的類別資訊部分
◦ training_label <- training_dataset$Class
◦ #取得測試資料集合中的類別資訊部分
◦ testing_label <- testing_dataset$Class
◦ #KNN分類結果
◦ predict_label <- knn(training_data, testing_data, training_label, k = 3, prob=TRUE)
◦ #將結果輸出成表格
◦ table(predict_label, testing_label) 43
使用class函式庫
顯示比較表格
讀入資料
呼叫knn函式,執行k個最近鄰居方法
k個最近鄰居實作
k個最近鄰居實作
44
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
「非目標類別」
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
硫化氫泉 碳酸氫納泉
硫化氫泉 1 0
碳酸氫納泉 0 1
%100
1
1
Precision 


FPTP
TP
%100
1
1
Recall 


FNTP
TP
k個最近鄰居應用案例
開放資料-臺灣證券交易所
◦ 網址:
http://www.twse.com.tw/zh/page/trading/ex
change/FMTQIK.html
資料集服務分類
◦ 盤後資訊
◦ 臺灣跨市場指數
◦ TWSE自行編製指數
◦ 與FTSE合作編製指數
◦ 與銳聯合作編製指數
◦ 與S&PDJI合作編製指數
◦ 升降幅度/首五日無漲跌幅
◦ 當日沖銷交易標的及統計
◦ 融資融券與可借券賣出額度
45
k個最近鄰居應用案例
選擇資料日期和股票代碼
本例資料日期以2017年為例
挑選電信業者股票代碼
◦ 2412中華電
◦ 3045台灣大
◦ 3682亞太電
◦ 4904遠傳
46
k個最近鄰居應用案例
將目標個股每個月的加權平均價存到Excel
依漲跌情況,漲以1表示,跌以0表示,編碼為0、1二元表,
47
個股每個月加權平均價 個股漲跌二元表
漲以1表示,跌以0表示
k個最近鄰居應用案例
將個股漲跌二元表存成CSV檔
作為關聯規則學習的訓練資料
48
中華電欄位更名為Class
k個最近鄰居應用案例
K個最近鄰居實驗結果
49
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
「非目標類別」
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
中華電_跌 中華電_漲
中華電_跌 5 1
中華電_漲 1 4
%83
6
5
Precision 


FPTP
TP
%83
6
5
Recall 


FNTP
TP

More Related Content

Similar to 人工智慧05_k個最近鄰居(醫療旅遊)

R 語言教學: 探索性資料分析與文字探勘初探
R 語言教學: 探索性資料分析與文字探勘初探R 語言教學: 探索性資料分析與文字探勘初探
R 語言教學: 探索性資料分析與文字探勘初探Sean Yu
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysisFEG
 
海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館皓仁 柯
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里George Ang
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationChuancong Gao
 
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521Beckett Hsieh
 
初探深度學習技術與應用
初探深度學習技術與應用初探深度學習技術與應用
初探深度學習技術與應用Fuzhou University
 
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習NTC.im(Notch Training Center)
 

Similar to 人工智慧05_k個最近鄰居(醫療旅遊) (9)

R 語言教學: 探索性資料分析與文字探勘初探
R 語言教學: 探索性資料分析與文字探勘初探R 語言教學: 探索性資料分析與文字探勘初探
R 語言教學: 探索性資料分析與文字探勘初探
 
Customer behavior analysis
Customer behavior analysisCustomer behavior analysis
Customer behavior analysis
 
海量資料與圖書館
海量資料與圖書館海量資料與圖書館
海量資料與圖書館
 
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
腾讯大讲堂59 数据蕴含商机,挖掘决胜千里
 
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for ClassificationMaster Thesis 2010 - Pattern Discovery Algorithms for Classification
Master Thesis 2010 - Pattern Discovery Algorithms for Classification
 
深度學習方法與實作
深度學習方法與實作深度學習方法與實作
深度學習方法與實作
 
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
教材摘要版 -Big data-海量資料的資料採礦方法-三星課程網陳景祥顧問-20130521
 
初探深度學習技術與應用
初探深度學習技術與應用初探深度學習技術與應用
初探深度學習技術與應用
 
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習
NTC_Tensor flow 深度學習快速上手班_Part2 -深度學習
 

More from Fuzhou University

神經網路(Python+TensorFlow+Keras)
神經網路(Python+TensorFlow+Keras)神經網路(Python+TensorFlow+Keras)
神經網路(Python+TensorFlow+Keras)Fuzhou University
 
多媒體系統10_3D繪圖軟體Blender
多媒體系統10_3D繪圖軟體Blender多媒體系統10_3D繪圖軟體Blender
多媒體系統10_3D繪圖軟體BlenderFuzhou University
 
多媒體系統09_3D互動擴增實境
多媒體系統09_3D互動擴增實境多媒體系統09_3D互動擴增實境
多媒體系統09_3D互動擴增實境Fuzhou University
 
人工智慧10_卷積神經網路
人工智慧10_卷積神經網路人工智慧10_卷積神經網路
人工智慧10_卷積神經網路Fuzhou University
 
多媒體系統08_Inkscape繪製圖形與漸層
多媒體系統08_Inkscape繪製圖形與漸層多媒體系統08_Inkscape繪製圖形與漸層
多媒體系統08_Inkscape繪製圖形與漸層Fuzhou University
 
機器學習工具_微軟Azure Machine Learning Studio
機器學習工具_微軟Azure Machine Learning Studio機器學習工具_微軟Azure Machine Learning Studio
機器學習工具_微軟Azure Machine Learning StudioFuzhou University
 
論文導讀01_k個最近鄰居(行動定位)
論文導讀01_k個最近鄰居(行動定位)論文導讀01_k個最近鄰居(行動定位)
論文導讀01_k個最近鄰居(行動定位)Fuzhou University
 
多媒體系統02_影像處理原理與技術
多媒體系統02_影像處理原理與技術多媒體系統02_影像處理原理與技術
多媒體系統02_影像處理原理與技術Fuzhou University
 
多媒體系統07_Android App影音互動擴增實境
多媒體系統07_Android App影音互動擴增實境多媒體系統07_Android App影音互動擴增實境
多媒體系統07_Android App影音互動擴增實境Fuzhou University
 
多媒體系統06_影音編輯軟體Movie Maker
多媒體系統06_影音編輯軟體Movie Maker多媒體系統06_影音編輯軟體Movie Maker
多媒體系統06_影音編輯軟體Movie MakerFuzhou University
 
多媒體系統05_Android App圖形元件
多媒體系統05_Android App圖形元件多媒體系統05_Android App圖形元件
多媒體系統05_Android App圖形元件Fuzhou University
 
多媒體系統04_GIMP繪圖、特效、動畫
多媒體系統04_GIMP繪圖、特效、動畫多媒體系統04_GIMP繪圖、特效、動畫
多媒體系統04_GIMP繪圖、特效、動畫Fuzhou University
 
多媒體系統03_GIMP影像合成與圖層應用
多媒體系統03_GIMP影像合成與圖層應用多媒體系統03_GIMP影像合成與圖層應用
多媒體系統03_GIMP影像合成與圖層應用Fuzhou University
 
多媒體系統01_安裝開發環境
多媒體系統01_安裝開發環境多媒體系統01_安裝開發環境
多媒體系統01_安裝開發環境Fuzhou University
 
人工智慧04_貝氏分類和貝氏網路
人工智慧04_貝氏分類和貝氏網路人工智慧04_貝氏分類和貝氏網路
人工智慧04_貝氏分類和貝氏網路Fuzhou University
 
人工智慧01_安裝機器學習開發環境
人工智慧01_安裝機器學習開發環境人工智慧01_安裝機器學習開發環境
人工智慧01_安裝機器學習開發環境Fuzhou University
 

More from Fuzhou University (19)

神經網路(Python+TensorFlow+Keras)
神經網路(Python+TensorFlow+Keras)神經網路(Python+TensorFlow+Keras)
神經網路(Python+TensorFlow+Keras)
 
多媒體系統10_3D繪圖軟體Blender
多媒體系統10_3D繪圖軟體Blender多媒體系統10_3D繪圖軟體Blender
多媒體系統10_3D繪圖軟體Blender
 
多媒體系統09_3D互動擴增實境
多媒體系統09_3D互動擴增實境多媒體系統09_3D互動擴增實境
多媒體系統09_3D互動擴增實境
 
人工智慧10_卷積神經網路
人工智慧10_卷積神經網路人工智慧10_卷積神經網路
人工智慧10_卷積神經網路
 
多媒體系統08_Inkscape繪製圖形與漸層
多媒體系統08_Inkscape繪製圖形與漸層多媒體系統08_Inkscape繪製圖形與漸層
多媒體系統08_Inkscape繪製圖形與漸層
 
機器學習工具_微軟Azure Machine Learning Studio
機器學習工具_微軟Azure Machine Learning Studio機器學習工具_微軟Azure Machine Learning Studio
機器學習工具_微軟Azure Machine Learning Studio
 
論文導讀01_k個最近鄰居(行動定位)
論文導讀01_k個最近鄰居(行動定位)論文導讀01_k個最近鄰居(行動定位)
論文導讀01_k個最近鄰居(行動定位)
 
人工智慧08_神經網路
人工智慧08_神經網路人工智慧08_神經網路
人工智慧08_神經網路
 
多媒體系統02_影像處理原理與技術
多媒體系統02_影像處理原理與技術多媒體系統02_影像處理原理與技術
多媒體系統02_影像處理原理與技術
 
多媒體系統07_Android App影音互動擴增實境
多媒體系統07_Android App影音互動擴增實境多媒體系統07_Android App影音互動擴增實境
多媒體系統07_Android App影音互動擴增實境
 
多媒體系統06_影音編輯軟體Movie Maker
多媒體系統06_影音編輯軟體Movie Maker多媒體系統06_影音編輯軟體Movie Maker
多媒體系統06_影音編輯軟體Movie Maker
 
多媒體系統05_Android App圖形元件
多媒體系統05_Android App圖形元件多媒體系統05_Android App圖形元件
多媒體系統05_Android App圖形元件
 
多媒體系統04_GIMP繪圖、特效、動畫
多媒體系統04_GIMP繪圖、特效、動畫多媒體系統04_GIMP繪圖、特效、動畫
多媒體系統04_GIMP繪圖、特效、動畫
 
多媒體系統03_GIMP影像合成與圖層應用
多媒體系統03_GIMP影像合成與圖層應用多媒體系統03_GIMP影像合成與圖層應用
多媒體系統03_GIMP影像合成與圖層應用
 
多媒體系統01_安裝開發環境
多媒體系統01_安裝開發環境多媒體系統01_安裝開發環境
多媒體系統01_安裝開發環境
 
人工智慧06_決策樹
人工智慧06_決策樹人工智慧06_決策樹
人工智慧06_決策樹
 
人工智慧04_貝氏分類和貝氏網路
人工智慧04_貝氏分類和貝氏網路人工智慧04_貝氏分類和貝氏網路
人工智慧04_貝氏分類和貝氏網路
 
人工智慧03_關聯規則
人工智慧03_關聯規則人工智慧03_關聯規則
人工智慧03_關聯規則
 
人工智慧01_安裝機器學習開發環境
人工智慧01_安裝機器學習開發環境人工智慧01_安裝機器學習開發環境
人工智慧01_安裝機器學習開發環境
 

人工智慧05_k個最近鄰居(醫療旅遊)