人工智慧05_k個最近鄰居(醫療旅遊)

人工智慧
教師：陳志華博士

報告大綱-k個最近鄰居(醫療旅遊)
自然語言分析與醫療旅遊應用
人工智慧方法
◦ 資訊檢索
◦ k個最近鄰居
◦ 本體論
醫療旅遊應用方法
k個最近鄰居實作
k個最近鄰居應用案例
2

近年來，隨著經濟成長、人民生活水準的提高、醫學藥物進步，人口的平均年齡已顯著的
延長；全球進入高齡化的社會，台灣目前被列為老化速度世界第一的國家。根據經建會統
計，2006年台灣地區老年人口占總人口數約為9.94%，總數達226萬人，預估台灣65歲以上
人口所占比重到2016年和2026年時將分別增加為13%和20%。目前國人疾病型態及死亡原
因，也由原來主要是急性傳染病和急性疾病，轉變成慢性疾病，如：心臟病、糖尿病、高
血壓等。
以綠色健康生活為目標的「樂活族(Lifestyles Of Health And Sustainability, LOHAS)」，漸
漸成為社會主流目標。根據研究機構自然行銷研究所(Natural Marketing Institute)的統計，
美國約有6800萬樂活族，佔全美人口23％。東方消費者行銷資料庫也指出，台灣消費者每
三人就有一位泛樂活族。樂活族市場之中的「SHAPE」，主要包括有永續發展的經濟
(Sustainable Economy)、健康的生活形態(Healthy Lifestyle)、另類療法(Alternative
Healthcare，例如自然療法)、個人發展(Personal Development)、符合自然生態的生活
(Ecological Lifestyle)，其中在「健康的生活形態」和「另類療法」的市場分別占有500億美
元和400億美元的市場價值，具有高度的發展潛力。
3

行政院發佈的「2015年經濟發展願景」中可以發現未來將會著重於發展寬頻通訊、數位生
活和健康照護等，其中Ubiquitous Healthcare (U-Health)計劃、台灣醫療旅遊產業計劃是非
常受到重視的。因此，國內在2007年更成立了台灣醫療旅遊發展協會，以推動國內外醫療
旅遊相關產業調查研究和協助政府發展觀光產業。然而，在目前現有的資訊系統中卻缺乏
一套有效的決策支援系統(Decision Support Systems, DSS)，以提供醫療旅遊服務(Medical
Tourism Service, MTS)推薦。
有鑑於上述相關服務所衍生之需求，一套基於語意網基礎之醫療旅遊服務推薦系統設計原
則與功能包括：
◦ 需建置語意推論引擎分析使用者需求。
◦ 需依據醫療專業知識和旅遊服務資源為基礎，進行醫療旅遊服務之搜尋、比較、重組，以及整合。
◦ 需提供有效率且流程簡單的搜尋機制。
4

本研究將服務導向架構(Service Oriented
Architecture, SOA )和語意網技術結合在資訊系
統上，提供醫療旅遊服務之推薦。因此提出一
套六大元件架構之智慧型醫療旅遊服務推薦系
統(Intelligent Medical Tourism Service
Recommendation System, IMTSRS)，並且提出
醫療旅遊詞幹處理機制(Medical Tourism
Stemming Mechanism, MTSM)和醫療本體論
(Medical Ontologies, MOs)以進行使用者需求語
意分析和處理，並整合詞頻-逆向文件頻率
(Term Frequency - Inverse Document Frequency,
TF-IDF)、潛在語意分析(Latent Semantic
Analysis, LSA)和k個最近鄰居(k-Nearest
Neighbors, kNN)演算法推論最適醫療旅遊服務
給行動式使用者端。
5
把「病症」當作「字詞」
把「療法」當作「類別」
即可將問題定義為「分類」問題

人工智慧方法
資訊檢索(Information Retrieval, IR)(資料前處理過程)
◦ 斷詞切字(Stemming)
◦ 詞頻(Term Frequency, TF)
◦ 逆向文件頻率(Inverse Document Frequency, IDF)
◦ TF-IDF
k個最近鄰居(k-Nearest Neighbors, kNN)
◦ 相似度算法
◦ 距離算法
◦ kNN演算法
本體論(Ontology)
6

人工智慧方法-資訊檢索
文章如何轉換為向量空間模型(Vector Space Model, VSM)？
7
Machine learning gives the
systems of computer the ability
to "learn" with data.
Data mining is the process of
discovering data patterns based
on machine learning.
Computer science is the study
of the theory for the design of
computers.
第1篇文章內容第2篇文章內容第3篇文章內容
Machine: 1
Learn: 2
Give: 1
…
Data: 2
Mine: 1
Be: 1
…
Computer: 2
Science: 1
Be: 1
…
進行斷詞切字，
取得字詞原形，
並計算出現次數

詞頻(Term Frequency, TF)
◦ 在一份給定的檔案裡，詞頻指的是某一個給定的詞語在該檔案中出現的頻率
◦ 這個數字是對詞數的正規化，以防止它偏向長的檔案
◦ 假設第i篇文章第j個字詞共出現cij次，第i篇文章共有ni個字詞，第i篇文章第j個字詞詞頻tij為
8
文章編號 machine learn give the system of computer ability to with data mine
1 1 2 1 2 1 1 1 1 1 1 1 0
2 1 1 0 1 0 1 0 0 0 0 2 1
3 0 0 0 3 0 2 2 0 0 0 0 0
文章編號 be process discover pattern base on science study theory for design 總和
1 0 0 0 0 0 0 0 0 0 0 0 13
2 1 1 1 1 1 1 0 0 0 0 0 13
3 1 0 0 0 0 0 1 1 1 1 1 13

 iN
j
ij
ij
ij
n
n
t
1

詞頻(Term Frequency, TF)
◦ 在一份給定的檔案裡，詞頻指的是某一個給定的詞語在該檔案中出現的頻率
◦ 這個數字是對詞數的正規化，以防止它偏向長的檔案
◦ 假設第i篇文章第j個字詞共出現nij次，第i篇文章共有Ni個字詞，第i篇文章第j個字詞詞頻tij為
9
1 0.077 0.154 0.077 0.154 0.077 0.077 0.077 0.077 0.077 0.077 0.077 0.000
2 0.077 0.077 0.000 0.077 0.000 0.077 0.000 0.000 0.000 0.000 0.154 0.077
3 0.000 0.000 0.000 0.231 0.000 0.154 0.154 0.000 0.000 0.000 0.000 0.000

 iN
j
ij
ij
ij
n
n
t
1
文章編號 be process discover pattern base on science study theory for design
1 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
2 0.077 0.077 0.077 0.077 0.077 0.077 0.000 0.000 0.000 0.000 0.000
3 0.077 0.000 0.000 0.000 0.000 0.000 0.077 0.077 0.077 0.077 0.077
1/13 = 0.077 2/13 = 0.154

逆向文件頻率(Inverse Document Frequency, IDF)
◦ 一個詞語普遍重要性的度量
◦ 可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取以10為底的對數得到
◦ 假設第j個字詞出現在mj篇文章，文章總共有M篇，第j個字詞逆向文件頻率dj為
10
1 o o o o o o o o o o o x
2 o o x o x o x x x x o o
3 x x x o x o o x x x x x
mj 2 2 1 3 1 3 2 1 1 1 2 1
j
j
m
M
d log
1 x x x x x x x x x x x
2 o o o o o o x x x x x
3 o x x x x x o o o o o
mj 2 1 1 1 1 1 1 1 1 1 1

逆向文件頻率(Inverse Document Frequency, IDF)
◦ 一個詞語普遍重要性的度量
◦ 可以由總檔案數目除以包含該詞語之檔案的數目，再將得到的商取以10為底的對數得到
◦ 假設第j個字詞出現在mj篇文章，文章總共有M篇，第j個字詞逆向文件頻率dj為
11
1 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
2 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
3 0.176 0.176 0.477 0.000 0.477 0.000 0.176 0.477 0.477 0.477 0.176 0.477
mj 2 2 1 3 1 3 2 1 1 1 2 1
j
j
m
M
d log
1 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
2 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
3 0.176 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477 0.477
mj 2 1 1 1 1 1 1 1 1 1 1
log(3/2) = 0.176 log(3/3) = 0

TF-IDF
◦ 詞頻(Term Frequency, TF)和逆向文件頻率(Inverse Document Frequency, IDF)相乘
◦ 第i篇文章第j個字詞TF-IDF值vij為
12
j
N
j
ij
ij
jijij
m
M
n
n
dtv i
log
1


1 0.014 0.027 0.037 0.000 0.037 0.000 0.014 0.037 0.037 0.037 0.014 0.000
2 0.014 0.014 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.027 0.037
3 0.000 0.000 0.000 0.000 0.000 0.000 0.027 0.000 0.000 0.000 0.000 0.000
1 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
2 0.014 0.037 0.037 0.037 0.037 0.037 0.000 0.000 0.000 0.000 0.000
3 0.014 0.000 0.000 0.000 0.000 0.000 0.037 0.037 0.037 0.037 0.037
0.077 * 0.176 = 0.014
0.213 * 0 = 0
1. 在詞頻的計算下，找出
同一篇文章具有代表性
的字詞
2. 在逆向文件頻率的計算
下，把每篇文章都會出
現的一般字詞去除

「中文」文章如何轉換為向量空間模型(Vector Space Model, VSM)？
13
機器學習可以讓計算機系統具
有學習資料的能力。
資料探勘是基於機器學習的發
現資料樣式過程。
計算機科學是計算機設計理論
的學門。
機: 2
器: 1
學: 2
…
資: 2
料: 2
探: 1
…
計: 2
算: 2
機: 2
…
單一文字拆解後
似乎不具意義

「中文」文章如何轉換為向量空間模型
(Vector Space Model, VSM)？
中央研究院研發「中文斷詞系統」，可
免費使用
◦ 網址：http://ckipsvr.iis.sinica.edu.tw/
英文系統名稱為「CKIP (Chinese
Knowledge and Information Processing)」
點擊「線上展示」
14

輸入文章內容(以第1篇文章為例)
點擊「送出」
15

點擊「包含未知詞的斷詞標記結果」
16

取得斷詞切字後的結果
◦ 字詞(詞性)
第1篇文章斷詞切字結果
◦ 機器(Na)、學習(VC)、可以(D)、讓(VL)、
計算機(Na)、系統(Na)、具有(VJ)、學習
(VC)、資料(Na)、的(DE)、能力(Na)
17
機器(Na): 1
學習(VC): 2
可以(D): 1
…

「中文」文章如何轉換為向量空間模型(Vector Space Model, VSM)？
18
資料探勘是基於機器學習的發
現資料樣式過程。
計算機科學是計算機設計理論
的學門。
機器(Na): 1
學習(VC): 2
可以(D): 1
…
資料(Na): 2
探勘(VC): 1
是(SHI): 1
…
計算機(Na): 2
科學(Na): 1
是(SHI): 1
…
運用中文斷詞切
系統，並統計字
詞出現次數

人工智慧方法-k個最近鄰居
k個最近鄰居(k-Nearest Neighbors, kNN)
◦ kNN為可用來解決「分類」問題
◦ 訓練資料是由輸入物件(通常是向量)和預期輸出(如分類標籤)所組成
◦ 最鄰近的k個樣本點並進行投票，以最多票的類別來決定新樣本點它所屬是哪個類別
演算法過程
◦ 將輸入物件轉換為向量空間模型
◦ 選定一個k值
◦ 計算與每一個樣本的距離或相似度
◦ 取得k個最鄰近的樣本
◦ 取得這k個樣本中類別標籤最多的那個類別
19
k值的大小將可能影響
分類結果
當k = 3時，將被分類
為「紅色」
當k = 5時，將被分類
為「藍色」

「距離」算法
計算X與Y的「距離d(X, Y)」
絕對距離量測(Absolute distance measuring)
歐幾里德距離量測(Euclidean distance measuring)
20
   

n
i
ii yxYXd
1
2
,
  

n
i
ii yxYXd
1
,
   nn yyyYxxxX ,...,,,,...,, 2121 

「距離」算法
計算X與Y的「距離d(X, Y)」
絕對距離量測
d(X, Y) = 12
歐幾里德距離量測
d(X, Y) = 6
21
1 2 3 4 5 Sum
x 3 5 1 3 4
y 4 1 4 4 1
|x-y| 1 4 3 1 3 12
(x-y)2
1 16 9 1 9 36

「相似度」算法
計算X與Y的「相似度s(X, Y)」
Jaccard相似度(Jaccard similarity)
餘弦相似度(Cosine similarity)
22
 




n
i
i
n
i
i
n
i
ii
yx
yx
YXs
1
2
1
2
1
,
 
YX
YX
YXs


,
   nn yyyYxxxX ,...,,,,...,, 2121 

「相似度」算法
計算X與Y的「相似度s(X, Y)」
Jaccard相似度
2 / 4 = 0.5
餘弦相似度
2 / 3 = 0.67
23
1 2 3 4 5 Sum
x 1 1 1 0 0
y 0 1 1 0 1
交集 0 1 1 0 0 2
聯集 1 1 1 0 1 4
xy 0 1 1 0 0 2
x2
1 1 1 0 0 3
y2
0 1 1 0 1 3

k個最近鄰居(k-Nearest Neighbors, kNN)如何解決文件「分類」問題？
原始資料如右表
採用「絕對距離量測」
24
Document class t1 t2 t3
d1 C1 6 5 0
d2 C2 1 3 2
d3 C2 0 3 3
d4 C1 4 2 0
d5 C2 0 2 4
d6 C1 3 4 0
d7 ? 3 3 0

Document class t1 t2 t3 Sum
d1 C1 3 2 0 5
d2 C2 2 0 2 4
d3 C2 3 0 3 6
d4 C1 1 1 0 2
d5 C2 3 1 4 8
d6 C1 0 1 0 1
d7 ?
k個最近鄰居(k-Nearest Neighbors, kNN)如何解決文件「分類」問題？
距離計算結果如右表
設k = 3，可得類別為C1
25

人工智慧方法-本體論
本體論(Ontology)是「研究到底哪些名詞代表真實存在實體，哪些名詞只是代表一種概念」
近年來，人工智慧及資訊技術相關領域的學者也開始將本體論的觀念用在知識表達上，即
藉由本體論中的基本元素：概念及概念間的關連，作為描述真實世界的知識模型。
本體論怎麼用？
26
皮膚有類症
皮膚(Na): 1
有(V_2): 1
類(Nf): 1
症(Na): 1
皮膚有類症(Na): 1 皮膚科: 1
中文斷詞切字後結果本體論處理後結果
中央研究院中文斷詞切字系統
主要針對「一般性」字詞用法
進行斷詞，但無法對特定領域
進行斷詞
可依特定領域的本體論找出關
鍵字詞，並劃分該字詞所屬的
類別

人工智慧方法-本體論
醫療本體論
27
Domain Layer
疾病
Category Layer
.
.
.
內科
耳鼻喉科
皮膚性病科疾病
外科
Concept Layer
.
.
.
心臟與血管疾病
呼吸系與胸部疾病
骨科
燒傷
Extended Subclass Layer
心臟疾病
血管疾病
骨折
關節疾病
心力衰竭
心絞痛
關節炎
腱鞘炎
.
.
.
.
.
.
.
.
.
需根據各個應用領域
建置不同的本體論

語意推論處理流程和最適醫療旅遊服務推論流程
28
語意推論模組
1. 觀光醫療專家建議
2. 行動使用者端需求
預先處理
Suffix Stripping Algorithms
Brute Force Algorithms
Lemmatisation Algorithms
觀光醫療詞幹處理機制
Medical Hierarchical Architecture
Medical Classification
Medical Conception Retrieval
醫療本體論
最適觀光醫療服務推論模組
反置檔
Term Frequency - Inversed Document
Frequency (TF - IDF)
Matrix Operations and Processes
Singular Value Decomposition (SVD)
潛在語意分析
k - Nearest Neighbor (kNN)
觀光醫療服務類別
語意推論模組
預先處理
觀光醫療詞幹處理機制
觀光醫療本體論
把「病症」當作「字詞」
把「療法」當作「類別」
即可將問題定義為「分類」問題

醫療旅遊專家建議
◦ 萬芳醫院家庭醫學科
◦ 「遊玩」與「療養」兼顧的旅遊形式
◦ 網址：
http://www1.wanfang.gov.tw/family/astm/kn
ow_3.htm
29
正向療效
負向療效
醫療旅遊專家
輕度的心血管病、I和II期高血壓、
低血壓、血管痙攣、雷諾氏病、腦
血管意外後遺症等
第1篇文章內容
慢性骨關節及肌肉疾病、中樞和周
圍神經系統疾病、婦科生殖系統病、
皮膚營養不良性疾病等
第2篇文章內容
類別：碳
酸氫納泉
類別：硫
化氫泉

文章編號類別
可治輕度的
早期心血管
系統疾病患
者
高血壓高血壓患者
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0 0
2 硫化氫泉 0 0 0 1 1 1
3 碳酸氫納泉 0 0 1 0 0 0
4 硫化氫泉 0 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0 0
6 硫化氫泉 0 0 0 0 1 1
原始資料
◦ 計算每篇文章中提及的文字出現次數
◦ 標記每篇文章所屬類別
30

斷詞切字結果
◦ “可治輕度的早期心血管系統疾病患者”，經由CKIP處理後可分割成九個部分(segments)：“可(D)”、
“治(VC)”、“輕度(A)”、“的(DE)”、“早期(Nd)”、“心血管(Na)”、“系統(Na)”、“疾病(Na)”、“患者(Na)”
◦ 將與疾病無關字詞去除，例如：“可(D)”、“治(VC)”、“輕度(A)”、“的(DE)”、“患者(Na)”
31
文章編號類別
早期心血管
系統疾病
高血壓高血壓
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0 0
2 硫化氫泉 0 0 0 1 1 1
3 碳酸氫納泉 0 0 1 0 0 0
4 硫化氫泉 0 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0 0
6 硫化氫泉 0 0 0 0 1 1

斷詞切字結果
◦ 將相同字詞之資料屬性合併，並將次數加總
32
文章編號類別
早期心血管
系統疾病
高血壓
中樞和周圍
神經系統疾
病
皮膚營養不
良性疾病
慢性骨關節
疾病
1 碳酸氫納泉 1 1 0 0 0
2 硫化氫泉 0 0 1 1 1
3 碳酸氫納泉 0 1 0 0 0
4 硫化氫泉 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0
6 硫化氫泉 0 0 0 1 1

本體論結果
◦ 參考醫療本體論，將各個疾病名稱抽象化為「概念層級」
33
文章編號類別
心臟與血管
疾病
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 1 1 0 0 0
2 硫化氫泉 0 0 1 1 1
3 碳酸氫納泉 0 1 0 0 0
4 硫化氫泉 0 0 1 0 1
5 碳酸氫納泉 0 1 0 0 0
6 硫化氫泉 0 0 0 1 1

本體論結果
◦ 將抽象化後相同概念之資料屬性合併，並將次數加總
34
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 2 0 0 0
2 硫化氫泉 0 1 1 1
3 碳酸氫納泉 1 0 0 0
4 硫化氫泉 0 1 0 1
5 碳酸氫納泉 1 0 0 0
6 硫化氫泉 0 0 1 1

詞頻(Term Frequency, TF)結果
◦ 計算每一個字詞的次數總和
35
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科總和
1 碳酸氫納泉 2 0 0 0 2
2 硫化氫泉 0 1 1 1 3
3 碳酸氫納泉 1 0 0 0 1
4 硫化氫泉 0 1 0 1 2
5 碳酸氫納泉 1 0 0 0 1
6 硫化氫泉 0 0 1 1 2

詞頻(Term Frequency, TF)結果
◦ 依詞頻公式計算
36
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 1.000 0.000 0.000 0.000
2 硫化氫泉 0.000 0.333 0.333 0.333
3 碳酸氫納泉 1.000 0.000 0.000 0.000
4 硫化氫泉 0.000 0.500 0.000 0.500
5 碳酸氫納泉 1.000 0.000 0.000 0.000
6 硫化氫泉 0.000 0.000 0.500 0.500

 iN
j
ij
ij
ij
n
n
t
1 2/2 = 1 1/3 = 0.333

逆向文件頻率(Inverse Document Frequency, IDF)結果
◦ 計算每一個字詞出現的文章篇數總和
37
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 o x x x
2 硫化氫泉 x o o o
4 硫化氫泉 x o x o
6 硫化氫泉 x x o o
篇數 3 2 2 3

逆向文件頻率(Inverse Document Frequency, IDF)結果
◦ 依逆向文件頻率公式計算
38
j
j
m
M
d log
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 0.301 0.477 0.477 0.301
2 硫化氫泉 0.301 0.477 0.477 0.301
3 碳酸氫納泉 0.301 0.477 0.477 0.301
4 硫化氫泉 0.301 0.477 0.477 0.301
5 碳酸氫納泉 0.301 0.477 0.477 0.301
6 硫化氫泉 0.301 0.477 0.477 0.301
log(6/3) = 0.301
log(6/2) = 0.477

詞頻-逆向文件頻率(Term Frequency - Inverse Document Frequency, TF-IDF)結果
◦ 依TF-IDF公式計算
39
j
N
j
ij
ij
jijij
m
M
n
n
dtv i
log
1


文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
1 碳酸氫納泉 0.301 0.000 0.000 0.000
2 硫化氫泉 0.000 0.159 0.159 0.100
3 碳酸氫納泉 0.301 0.000 0.000 0.000
4 硫化氫泉 0.000 0.239 0.000 0.151
5 碳酸氫納泉 0.301 0.000 0.000 0.000
6 硫化氫泉 0.000 0.000 0.239 0.151
1 * 0.301 = 0.301
0.5 * 0.477 = 0.239

k個最近鄰居(k-Nearest Neighbors, kNN)-查詢資料與療法類別
◦ 查詢內容「輕度高血壓、腸胃不舒服」
◦ 運用歐幾里德距離公式計算距離
40
查詢內容類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
輕度高血壓、
腸胃不舒服
？ 1 0 0 0
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科距離排名
1 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
2 硫化氫泉 1.000 0.025 0.025 0.010 1.030 4
3 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
4 硫化氫泉 1.000 0.057 0.000 0.023 1.039 5
5 碳酸氫納泉 0.489 0.000 0.000 0.000 0.699 1
6 硫化氫泉 1.000 0.000 0.057 0.023 1.039 5
當k = 3時，最接近的3筆
皆為「碳酸氫納泉」
此查詢之病症，推薦可以
採用「碳酸氫納泉」療法

k個最近鄰居(k-Nearest Neighbors, kNN)-查詢資料與療法類別
◦ 查詢內容「腳扭傷」
◦ 運用歐幾里德距離公式計算距離
41
查詢內容類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科
腳扭傷？ 0 0 0 1
文章編號類別
心臟與血管
疾病
神經系統
疾病
皮膚科骨科距離排名
1 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
2 硫化氫泉 0.000 0.025 0.025 0.809 0.927 3
3 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
4 硫化氫泉 0.000 0.057 0.000 0.722 0.882 1
5 碳酸氫納泉 0.091 0.000 0.000 1.000 1.044 4
6 硫化氫泉 0.000 0.000 0.057 0.722 0.882 1
當k = 3時，最接近的3筆
皆為「硫化氫泉」
此查詢之病症，推薦可以
採用「硫化氫泉」療法

◦ 開啟RStudio整合開發環境
◦ 新增Rscript檔案
◦ 撰寫程式碼
◦ 假設k設定為3
◦ 全選程式碼，並點擊「」執行程式
◦ 瀏覽主控台訊息，取得規則
42

◦ #引用class函式庫
◦ library(class)
◦ #載入訓練資料集合
◦ training_dataset <- read.csv(file.choose(), header = TRUE)
◦ #載入測試資料集合
◦ testing_dataset <- read.csv(file.choose(), header = TRUE)
◦ #取得訓練資料集合中的資料屬性部分
◦ training_data <- subset(training_dataset, select = -Class)
◦ #取得測試資料集合中的資料屬性部分
◦ testing_data <- subset(testing_dataset, select = -Class)
◦ #取得訓練資料集合中的類別資訊部分
◦ training_label <- training_dataset$Class
◦ #取得測試資料集合中的類別資訊部分
◦ testing_label <- testing_dataset$Class
◦ #KNN分類結果
◦ predict_label <- knn(training_data, testing_data, training_label, k = 3, prob=TRUE)
◦ #將結果輸出成表格
◦ table(predict_label, testing_label) 43
使用class函式庫
顯示比較表格
讀入資料
呼叫knn函式，執行k個最近鄰居方法

44
正確答案為
「目標類別」
正確答案為
「非目標類別」
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
硫化氫泉碳酸氫納泉
硫化氫泉１０
碳酸氫納泉０１
%100
1
1
Precision 


FPTP
TP
%100
1
1
Recall 


FNTP
TP

開放資料-臺灣證券交易所
◦ 網址：
http://www.twse.com.tw/zh/page/trading/ex
change/FMTQIK.html
資料集服務分類
◦ 盤後資訊
◦ 臺灣跨市場指數
◦ TWSE自行編製指數
◦ 與FTSE合作編製指數
◦ 與銳聯合作編製指數
◦ 與S&PDJI合作編製指數
◦ 升降幅度/首五日無漲跌幅
◦ 當日沖銷交易標的及統計
◦ 融資融券與可借券賣出額度
45

選擇資料日期和股票代碼
本例資料日期以2017年為例
挑選電信業者股票代碼
◦ 2412中華電
◦ 3045台灣大
◦ 3682亞太電
◦ 4904遠傳
46

將目標個股每個月的加權平均價存到Excel
依漲跌情況，漲以1表示，跌以0表示，編碼為0、1二元表，
47
個股每個月加權平均價個股漲跌二元表
漲以1表示，跌以0表示

將個股漲跌二元表存成CSV檔
作為關聯規則學習的訓練資料
48
中華電欄位更名為Class

K個最近鄰居實驗結果
49
正確答案為
「目標類別」
正確答案為
機器答案為
「目標類別」
True Positive (TP)
False Positive (FP)
(型一(Type I)誤差)
機器答案為
False Negative (FN)
(型二(Type II)誤差)
True Negative (TN)
中華電_跌中華電_漲
中華電_跌 5 1
中華電_漲 1 4
%83
6
5
Precision 


FPTP
TP
%83
6
5
Recall 


FNTP
TP

人工智慧05_k個最近鄰居(醫療旅遊)

More Related Content

Similar to 人工智慧05_k個最近鄰居(醫療旅遊)

More from Fuzhou University

人工智慧05_k個最近鄰居(醫療旅遊)