無標記擴增實境實驗平台建置與追蹤技術驗證

國防大學理工學院資訊工程學系
資訊科學碩士班
碩士學位論文
無標記擴增實境實驗平台建置與追蹤技術驗證
Markerless Augmented Reality Platform Design and
Verification of Tracking Technologies
研究生：鍾德煥
指導教授：王順吉
中華民國一ＯＯ年五月十二日

ii
誌謝
本研究論文之完成，首先感謝恩師王順吉老師悉心無私教誨、耐心指導與
督促，得以順利完成，使本人不僅能在學識上有所獲益，更能在為人處世及事
理分析等各方面更成熟穩健，師恩浩蕩，特於卷首致上最誠摯的謝意！
論文口試期間，幸蒙台北大學資訊工程學系系主任黃俊堯教授、銘傳大學
資訊學院院長賈叢林教授、本院陳丙堃教授與賴義鵬教授，鼎力斧正，使論文
更完整，衷心感謝。在學習過程中，感謝實驗室智仁與鼎捷學長於課業及研究
領域的指導，以及正豪與昭瑞同學的互相勉勵，也感謝蒼昱、志偉及裕宸學弟
在各個研討會、論文撰寫及口試期間的多方協助。
除此之外也感謝智隆在擔任所長期間的諸多幫忙，以及全展在論文修正期
間的多方幫忙，更感謝佳萱、宣羽和捷文在口試期間的幫忙，當然也感謝陪我
一同度過無數個用餐時光的同學們，在此一併誌謝。
衷心感謝生育與教養的父母，於求學過程中給予的鼓勵。也感謝聯傑國際
蔡實學協理給予求學階段的通融，使本人能無後顧之憂在課業上專心研究。最
後謹將這份成果獻給每一位幫助過我的貴人，有你們支持及鼓勵，才能使本論
文達臻善臻美。

iii
摘要
擴增實境技術是在真實視訊影像中加入虛擬物件，並透過追蹤與定位技
術，可以與人們產生良好之互動效果。在視覺追蹤應用領域裡，可分為標記與
無標記兩類應用。標記識別技術較為成熟，目前擴增實境開發平台以採用標記
識別為主；至於無標記則侷限在特定方法之識別追蹤應用領域，例如樂高玩具
利用包裝盒上之印刷圖片當作辨識物件。面對無標記擴增實境之應用日趨重
要，且必須因應不同物件採用不同特徵之識別追蹤方法來達成無標記擴增實境
之應用。而目前擴增實境平台並不提供模組化方式來替換識別追蹤方法，因此
本文提出無標記擴增實境實驗平台，以現有擴增實境套件 ARtoolKit 為基礎，
整合 OpenCV 與 OpenGL 函式庫，並採用模組化方式來設計視覺追蹤方法，做
為驗證無標記擴增實境識別追蹤方法之平台，且透過視窗操作選擇不同視覺追
蹤模組來呈現各式追蹤方法，以利分析驗證追蹤效能。
關鍵字：擴增實境，無標記，虛擬實境，視覺追蹤，特徵追蹤，自然特徵

iv
ABSTRACT
The technique of augmented reality (AR) is to augment 3D virtual objects into
real images. Individual can interact with 3D virtual objects using tracking and
registration methods. Visual tracking is the most popular tracking approach used in
AR system, and markers are simply and generally used for identification and
tracking. Moreover, natural feature or marker-less identification and tracking is
getting more and more important and can be widely used in numerous applications.
Therefore, many natural feature extraction and object tracking schemes are
developed to efficiently identify and track natural objects. However, few of
platforms are designed to verify different tracking algorithms for AR system. In this
thesis, a novel tracking verification platform for AR environment, ARStudio, is
proposed. ARStudio is on the basis of ARToolKit, and integrates the library of
OpenCV and OpenGL. Furthermore, we modularize each component such as image
capture, image transform, visual tracking, image rendering, for the purpose of
independent usage and design. Users can select different displaying windows, and
easily demonstrate results by using drag and drop. Experimental results manifest that
ARStudio can be used for the purpose of verifying tracking schemes and AR
applications.
Keywords：Augmented Reality, Markerless, Virtual Reality, Visual Tracking, Feature
Tracking, Natural Features.

v
目錄
誌謝 ...............................................................................................................................ii
摘要 ..............................................................................................................................iii
ABSTRACT .................................................................................................................iv
目錄 ...............................................................................................................................v
表目錄 ........................................................................................................................viii
圖目錄 ..........................................................................................................................ix
1. 緒論.......................................................................................................................1
1.1. 研究動機 ..................................................................................................1
1.2. 研究目的 ..................................................................................................4
1.3. 研究架構 ..................................................................................................4
2. 相關文獻探討.......................................................................................................5
2.1. 擴增實境介紹 ..........................................................................................5
2.1.1. 擴增實境的源起 ...............................................................................5
2.1.2. 擴增實境的原理 ...............................................................................7
2.1.3. 擴增實境的分類 ...............................................................................9
2.1.4. 擴增實境的呈現 .............................................................................15
2.1.5. 擴增實境的應用 .............................................................................22
2.1.6. 小結..................................................................................................28
2.2. 基礎概念介紹 ........................................................................................28
2.2.1. 座標系統..........................................................................................29
2.2.2. 投影原理..........................................................................................32
2.2.3. 攝影機模型......................................................................................34

vi
2.2.4. 三維物件顯示 .................................................................................43
2.2.5. 小結..................................................................................................44
2.3. 應用技術介紹 ........................................................................................44
2.3.1. 標記追蹤..........................................................................................45
2.3.2. 前景物偵測......................................................................................46
2.3.3. 物件追蹤..........................................................................................50
2.3.4. 擴增實境在追蹤辨識上的限制 .....................................................54
2.3.5. 小結..................................................................................................54
3. 現有開發技術分析.............................................................................................55
3.1. 現有技術分析 ........................................................................................55
3.2. 採用套件分析 ........................................................................................60
3.2.1. ARtoolKit.........................................................................................61
3.2.2. OpenCV ...........................................................................................63
3.2.3. OpenGL............................................................................................66
3.3. 小結 ........................................................................................................69
4. 無標記擴增實境驗證平台 ARStudio 建置.......................................................71
4.1. 擴增實境開發平台選定 ........................................................................72
4.2. 擴增實境模組分析與規劃 ....................................................................74
4.3. 使用者操作視窗與基礎模組設計 ........................................................76
4.3.1. 操作視窗介面設計 .........................................................................76
4.3.2. 影像擷取模組設計 .........................................................................80
4.3.3. 影像轉換模組設計 .........................................................................82
4.3.4. 視覺追蹤模組設計 .........................................................................84
4.3.5. 影像繪製模組設計 .........................................................................88
4.3.6. 影像錄影模組設計 .........................................................................96

vii
4.4. 無標記視覺追蹤模組設計 ....................................................................97
4.5. 小結 ......................................................................................................108
5. 結果與分析.......................................................................................................109
5.1. 系統開發及測試環境 ..........................................................................109
5.2. 實驗平台開發成果 .............................................................................. 111
5.2.1. 實驗平台介紹 ............................................................................... 111
5.2.2. 視訊影像擷取模組 ....................................................................... 113
5.2.3. 視覺追蹤模組 ............................................................................... 114
5.2.4. 繪製模組........................................................................................ 115
5.3. 視覺追蹤 .............................................................................................. 117
5.3.1. 標記追蹤........................................................................................ 117
5.3.2. 無標記追蹤....................................................................................122
5.3.3. 無標記擴增實境應用 ...................................................................132
6. 結論...................................................................................................................134
6.1. 結論 ......................................................................................................134
6.2. 未來研究方向 ......................................................................................134
參考文獻 ...................................................................................................................136
論文發表 ...................................................................................................................144
自傳 ...........................................................................................................................145

viii
表目錄
表 3-1 擴增實境現有技術整理。.............................................................................60
表 5-1 硬體測試平台。..........................................................................................109
表 5-2 軟體套件整理。.......................................................................................... 110
表 5-3 無標記應用之追蹤物件。..........................................................................123
表 5-4 NB1 偵測物件一之數據整理。..................................................................128
表 5-5 NB1 偵測物件二之數據整理。..................................................................129
表 5-6 PC2 偵測物件一之數據整理。...................................................................130
表 5-7 PC2 偵測物件二之數據整理。...................................................................131
表 5-8 電腦速度對 SURF 處理之比較。 .............................................................132

ix
圖目錄
圖 2.1 頭戴顯示器[2]。 .............................................................................................6
圖 2.2 真實-虛擬連續性[5]。....................................................................................6
圖 2.3 擴增實境的基礎架構[51]。 ...........................................................................8
圖 2.4 擴增實境的基本運作。..................................................................................9
圖 2.5 ARToolKit 標記範例[72]。............................................................................10
圖 2.6 自行設計可用於 ARToolKit 之標記。........................................................ 11
圖 2.7 ARTag 應用實例[78]。 .................................................................................. 11
圖 2.8 透過 QR-Code Generator 產生之範例[59]。............................................... 12
圖 2.9 QR Code 結合擴增實境之應用[8]。 ............................................................13
圖 2.10 無標記擴增實境應用[83]。 .......................................................................14
圖 2.11 樂高擴增實境展示機[82]。 .......................................................................14
圖 2.12 一般顯示器呈現原理。..............................................................................16
圖 2.13 頭戴式影視顯示器呈現原理。..................................................................17
圖 2.14 頭戴式光學投射顯示器呈現原理。..........................................................17
圖 2.15 光學投射顯示器原理。..............................................................................18
圖 2.16 Lumus 公司的產品資訊[60]。....................................................................19
圖 2.17 第一部星際大戰中的場景[61]。 ...............................................................20
圖 2.18 日立的 Transpost 系統[62]。.......................................................................20
圖 2.19 N-3D 立體顯示器[63]。 ..............................................................................21
圖 2.20 Heliodisplay 空氣投影[64]。.......................................................................22
圖 2.21 隱形眼鏡鏡頭[65]。 ...................................................................................22
圖 2.22 魔法書的應用[13]。 ...................................................................................23

x
圖 2.23 化學教學應用[14]：(a)擴增化學；(b)BSM 模型。 ................................ 24
圖 2.24 太陽與地球之運轉[15]。 ...........................................................................24
圖 2.25 心室模型[18]。 ...........................................................................................25
圖 2.26 裝甲運兵車維修作業[19]。 .......................................................................26
圖 2.27 虛擬寵物遊戲 EyePet™[67]。...................................................................26
圖 2.28 損毀古蹟重建之應用[20]：(a)原址；(b)疊加虛擬模型之面貌。........... 27
圖 2.29 虛擬博物館系統[21]。 ...............................................................................28
圖 2.30 物體與物體座標系統[55]。 .......................................................................30
圖 2.31 世界座標系統與物體座標系統[55]。 .......................................................30
圖 2.32 物件與觀察者座標系統[55]。 ...................................................................31
圖 2.33 投影問題[56]。 ...........................................................................................32
圖 2.34 正交投影示意圖。......................................................................................33
圖 2.35 透視投射示意圖。......................................................................................34
圖 2.36 針孔攝影機模型[52]。 ...............................................................................35
圖 2.37 針孔攝影機模型之投影關係圖[52]。 .......................................................36
圖 2.38 影像座標系統 ),( yx 與攝影機座標系統 ),( camcam yx 。 ................................. 37
圖 2.39 世界座標系統 wQ 與攝影機座標系統 cQ 之轉換圖[52]。......................... 40
圖 2.40 三維虛擬物件呈現流程。..........................................................................43
圖 2.41 標記座標與攝影機座標關係圖[7]。 .........................................................45
圖 2.42 ARToolKit 之標記追蹤定位流程。 ............................................................46
圖 2.43 移動車輛輪廓偵測[29]。 ...........................................................................51
圖 3.1 ARToolKit NFT 之無標記應用範例[72]。................................................... 56
圖 3.2 辨識影像放置於標記外之應用[72]。 .........................................................57
圖 3.3 ARToolKit 運作架構。 ..................................................................................62

xi
圖 3.4 OpenCV 運作架構。......................................................................................64
圖 3.5 OpenCV 使用者介面運作架構。..................................................................66
圖 3.6 OpenGL 與一般程式之運作關係。..............................................................67
圖 3.7 OpenGL 使用者介面運作關係。..................................................................69
圖 4.1 無標記擴增實境平台建構流程。................................................................72
圖 4.2 開發平台選定流程。....................................................................................73
圖 4.3 整合開發環境模組運行架構........................................................................75
圖 4.4 平台操作介面。.............................................................................................77
圖 4.5 平台操作介面模組列舉。.............................................................................79
圖 4.6 Marker 模組之樹狀結構資訊。....................................................................85
圖 4.7 ARStudio 視覺追蹤模組功能。 ..................................................................102
圖 4.8 物件追蹤流程。..........................................................................................103
圖 4.9 區域式追蹤示意圖。..................................................................................108
圖 5.1 ARStudio 執行主畫面。 .............................................................................. 112
圖 5.2 ARStudio 六分割運作畫面。 ...................................................................... 113
圖 5.3 影像屬性設定。.......................................................................................... 114
圖 5.4 透過 Tracker 之方法進行物件偵測。 ....................................................... 115
圖 5.5 三維物件之繪製：(a)透過 OpenGL 繪製 (b)透過 OpenVRML 繪製。 116
圖 5.6 標記訓練。.................................................................................................. 118
圖 5.7 在標記處繪製三維虛擬物件。..................................................................120
圖 5.8 多個標記物件偵測與繪製。.......................................................................120
圖 5.9 標記擴增實境驗證：(a)無遮蔽；(b)部分邊框遮蔽。.............................121
圖 5.10 透過 OpenVRML 呈現標記物件不同觀看視角之三維物件影像。 .....121
圖 5.11 虛擬物件遮蔽問題。................................................................................122

xii
圖 5.12 SURF 特徵點偵測示意圖。......................................................................123
圖 5.13 SURF 無標記物件區域追蹤：(a)正面物件；(b)物件縮小及旋轉。 ....124
圖 5.14 物件一之 SURF 特徵資訊：(a)原始影像；(b)特徵點表示影像。 ......125
圖 5.15 物件二之 SURF 特徵資訊：(a)原始影像；(b)特徵點表示影像。 ......125
圖 5.16 SURF 追蹤撲克牌：(a)正面物件；(b)(c)(d)物件旋轉及縮小。 ...........126
圖 5.17 無標記擴增實境之應用：(a)一般視角；(b)旋轉後之視角。 ..............132
圖 5.18 遮蔽物件之情形。....................................................................................133

1
1. 緒論
擴增實境就是將真實世界的影像、素材和資料，與電腦裡的虛擬物件互相
結合，產生出複合式之影像。在現今軟硬體技術的提升與配合下，擴增實境之
技術才得以在現實生活中呈現。雖然目前此技術已經開始逐漸蓬勃發展，然而
要讓此技術變成日常生活的一部份，則需搭配更多的軟硬體相關技術。
1.1. 研究動機
隨著影像處理之硬體技術的提升，影像媒體也漸漸的由類比轉為數位、二
維影像轉為三維影像，電影阿凡達(Avatar)推出後更是掀起全球三維立體電影
狂潮，之後廠商也相繼投入三維立體電影之拍攝。由此可知人類對於三維立體
影像之期待，儘管三維立體動畫影像已經是行之有年的技術，然而礙於硬體平
台以及相關技術都未能普及之情況下，坊間之視訊影像依然採用傳統二維影像
之方式來呈現；當然在遊戲領域之應用中，早已全面邁入三維立體動畫特效。
以往個人電腦著重提升中央處理器(Central Processing Unit, CPU)之運算能力，
但到達一定技術門檻後，若單純只靠中央處理器來處理影像資訊，顯然是不夠
的。所以，在視訊相關應用必須搭配圖形處理器(Graphic Processing Unit, GPU)
來追求極致的視覺效果。因為唯有支援硬體加速轉換與光源（Transform &
Lighting, T&L）、像素著色器(Pixel Shader)、頂點著色器(Vertex Shader)和 Bump
Mapping 等三維立體影像技術之硬體，才能擁有流暢且細膩的三維立體影像。
隨著智慧型手機(Smart Phone)的熱潮，行動數位化更替資訊研究領域創造
出不同之研究方向，而且攝影機更是智慧型手機之基本配備，所以可研究之領
域更為寬廣；以往只有電腦才能處理之資訊，現在的智慧型手機也可以輕鬆處
理了。除了傳統的應用外，這些智慧型手機有一個嶄新之應用領域，那就是擴

2
增實境(Augmented Reality, AR)；智慧型手機夾帶其在行動力上之優勢，是以往
電腦所無法比擬的。例如 IKEA 就透過這項技術來介紹其一系列的家具，消費
者可以在展示場透過智慧型手機之協助，運用擴增實境之技術來將家具與空間
進行結合，最後透過結合之複合影像來決定是否進行採購。另外信義房屋創新
推出的「iPhone 看屋 App」，不管消費者在哪裡，只要拿起手機對準所在地的街
景，螢幕就會列出附近相關物件資訊，這些都是智慧型手機的發展的優勢。在
頭戴式顯示器(Head-Mounted Display, HDM)不夠便利，而三維立體影像投影技
術依然處在研發階段之情況下；智慧型手機之顯示器，就順理成章的成為擴增
實境用來顯示虛擬物件之平台。也因為如此，整個擴增實境之應用發展，在這
一兩年間得以迅速擴大及成長。
以往購買玩具在尚未拆開包裝之前，很難得知玩具之特性與全貌；現在樂
高(LEGO)採用擴增實境之技術，只需要在特殊展示螢幕前，讓展示器辨識到該
包裝盒上之商品圖標資訊，就可以在該顯示器看到該款玩具的三維立體動畫展
示，讓消費者迅速瞭解並感受此款玩具的特性。另外，被人津津樂道的魔法書
(MagicBook)應用，讓閱讀不再是那樣枯燥與呆板，配合三維立體即時互動之呈
現方式，會使得書本變的更加生動有趣。這些都是擴增實境在標記(Marker)應
用上之例子。
然而綜觀全盤擴增實境之應用，大多數依然需要配合標記來運作，對於現
實環境來說，要將標記帶在身邊有點不切實際，而且目前之開發套件並非採用
相同之標記圖庫，所以往往只能在固定領域採用特定之標記，可想而知其應用
範圍將受到很大之限制。因此，若可以採用現實生活中之物件來取代標記，相
信擴增實境之應用將會大為提升。
目前坊間已經有許多開發環境可供使用者選擇，然而大部分採用標記方式
運作，當然現有開發環境也陸續提供無標記(Markerless)之應用，不過依然侷限

3
在開發平台採取之無標記辨識方法上。因為對於不同之應用領域，需要針對不
同之辨識物件與環境採取不同之辨識方法，來達到最佳辨識效果。所以，如何
在不同環境下辨識各種物件將是發展無標記應用所要面臨之問題。不管標記或
無標記均需對物件進行追蹤與辨識，唯一的差異在於是否使用日常生活中之物
件。簡而言之，標記方式需要特別準備標記圖卡來當作操作物件，而無標記則
不需要。就應用層面來看，無標記的應用將會是擴增實境未來之研究重點。
既然無標記將會是未來的研究重點，而且既有開發環境也只提供有限制的
無標記之應用方法，對於影像研究人員來說，要怎麼樣在既有的開發環境上開
發無標記之追蹤與辨識技術，這將是影像研究人員在擴增實境研究上所要面臨
的重大問題。因為擴增實境所涵蓋之影像技術非常廣泛，除了基礎的數位影像
處理(Digital Image Processing)技術外，還包括了計算機視覺(Computer Vision)
和計算機圖學(Computer Graphics, CG)，所要涉略領域非常廣泛，若沒有一個
整合開發環境，將無法驗證無標記擴增實境技術之各種方法。
目前開放原始碼的 ARToolKit 擴增實境開發工具，並不支援 OpenCV 影像
處理函式庫，而所需影像處理函式均需自行撰寫；若要使用 OpenCV 函式庫來
處理影像資料，則必需將彼此影像格式互相轉換。而 ARToolKit 對於三維立體
物件位置及姿態之呈現，均需使用 OpenGL 函式庫，視訊追蹤後要如何將追蹤
物件使用三維立體虛擬物件來取代，都需要透過 OpenGL 函式庫。如果研究需
要取得使用者介面之控制權，便無法採用 ARToolKit 搭配 GLUT(The OpenGL
Utility Toolkit)之現有架構來處理使用者介面，而必需配合複雜之應用程式介面
(Application Programming Interface, API)來重新改寫部分 ARToolKit 函式才能達
成。

4
1.2. 研究目的
近幾年來擴增實境相關技術之發展與應用與日俱增，越來越多的研究學者
投入相關研究領域。這種融入現實生活並且可以與虛擬物件有良好即時互動效
果之技術，不但具有虛擬實境所強調的想像力 (Imagination) 、融入性
(Immersion)、互動性(Interaction)，更將環境背景轉到現實生活中，提升人們接
受度。
然而，目前既有擴增實境之開發函式庫或開發平台，主要目的為提供擴增
實境之應用開發，無法提供無標記擴增實境技術研究方法之驗證。故本文預計
整合 ARToolKit、OpenCV 與 OpenGL 等函式庫，提出一個適合無標記擴增實境
相關技術研發之驗證平台，且此平台各項功能採用模組化設計，以更彈性提供
各種追蹤與辨識方法之驗證。
1.3. 研究架構
本論文分為六章，第一章是緒論，介紹研究動機、研究目的和論文架構；
第二章是相關文獻探討，介紹擴增實境之既有技術與相關研究，並對現有擴增
實境開發平台做分析；第三章是現有開發技術分析，分析目前既有擴增實境開
發套件；第四章是無標記擴增實境驗證平台建置，說明開發平台的設計架構；；
第五章是結果與分析，介紹擴增實境開發平台之成果；第六章是結論，本文結
論以及未來研究方向。

5
2. 相關文獻探討
本章首先對擴增實境做一介紹，讓我們對擴增實境有所瞭解；然後提及將
會應用到之基礎概念，最後則針對辨識方法做一簡短的介紹。
2.1. 擴增實境介紹
擴增實境是一個結合真實、創意與媒體世界的科技，對於人類的科技應用
與創新，將會是改變人們生活應用的關鍵技術。其初期主要以個人電腦當作運
作平台，然而隨著智慧型手機運算能力的提升，許多研究也朝向這個平台發展。
2.1.1. 擴增實境的源起
擴增實境，是一種即時運算攝影機影像的位置與角度，並在真實影像中加
入虛擬物件的一種技術，此種技術之目的在於將虛擬物件融入真實環境之中，
真實與虛擬可透過事先定義的互動行為進行互動，最後將其呈現在顯示器上。
1965 年在哈佛大學擔任副教授的 Ivan E. Sutherland[1]，提出 Ultimate Display
的構想，使用電腦顯示三度空間中的物體，並與他的學生 Bob Sproully 在 1968
年建立了第一個虛擬實境與擴增實境的頭戴顯示系統[2][3]，如圖 2.1 所示。而
在 1970 與 80 年代，美國空軍阿姆斯壯實驗室、航太總署艾密斯研究中心也開
始投入研究，直到 1990 年代初「擴增實境」這個名詞才被波音公司的幾個科學
家正式提出[4]，後續之文獻才不斷對其做更深入的定義與探討。

6
圖 2.1 頭戴顯示器[2]。
對許多人來說，或許是第一次聽到擴增實境這一個名詞，然而另外一個名
詞－「虛擬實境(Virtual Reality)」，相信一定不會感到陌生。在 1994 年 Paul
Milgram 和 Fumio Kishino 等人[5]，提出了「真實-虛擬連續性(Reality–Virtuality
Continuum)」的理論，他們將真實環境和虛擬環境分別作為連續性的兩端，如
圖 2.2 所示，然而位於兩邊端點之間的被稱為「混合實境(Mixed Reality)」。其
中靠近真實環境的是擴增實境，靠近虛擬環境的則是擴增虛境(Augmented
Virtuality)。
圖 2.2 真實-虛擬連續性[5]。
以融入的程度來區分，虛擬實境與擴增實境仍有差異存在的，擴增實境提
供一個複合式之景觀，讓使用者所見之場景為真假兼具；而虛擬實境則是一種

7
完全融入之環境(Totally Immersive Environment)，讓使用者的視覺、聽覺與知覺
等，則必須完全在虛擬實境系統的控制中，系統必須模擬出一個涵蓋使用者各
種輸入處理之完全人造世界，這是一個非常有挑戰性的議題。
在 1997 年 Ronald Azuma[6]提出了擴增實境是由虛擬環境（Virtual
Environments, VE）所變化而來的（或者稱呼為虛擬實境）。所謂的虛擬環境技
術是讓使用者完全沉浸在一個合成環境中，使用者無法看到在位於他周圍的真
實世界；而擴增實境則在真實世界中複合疊加虛擬物件，換句話說，擴增實境
允許使用者看到真實的世界。為此 Azuma 下了一個更明確的定義，它必須同時
擁有下面三個特性：一是結合真實與虛擬(Combines real and virtual)、二是即時
性的互動(Interactive in real time)、三是資訊的呈現必需在三度空間內(Registered
in 3-D)。
2.1.2. 擴增實境的原理
有別於虛擬實境技術，是以假想空間將現實畫面完整重現於電腦畫面；而
擴增實境技術，則是將實際資訊以虛擬方式重疊至現實環境，藉由將虛擬資訊
融入真實環境以提高生活之便利。
在 2005 年 Oliver Bimber 和 Ramesh Raskar 的「Spatial Augmented Reality
Merging Real and Virtual Worlds」著作一書中提出了擴增實境的基礎架構[51]，
如圖 2.3 中所示。第一層的追蹤(Tracking)與定位(Registration)、顯示技術
(Display Technology)和三維立體繪圖(Rendering)為基礎部分。第二層為人機互
動機制 (Interaction devices and techniques) 、展示 (Presentation) 和創作
(Authoring)，如果與虛擬實境比較的話，目前虛擬實境技術則較為成熟。因為
虛擬實境的大部分研究已經邁向此階段，而目前擴增實境則依然停留在基礎階
段。第三層為應用程序，透過擴增實境之相關技術，有效的將結果呈現在使用

8
者面前。第四層則是終端使用者。
圖 2.3 擴增實境的基礎架構[51]。
關於追蹤定位技術，依據不同的應用範圍，將會採用不同的追蹤定位技術。
以追蹤技術來說，有計算機視覺、電磁裝置、全球地位系統(Global Positioning
System, GPS)、羅盤、迴轉儀(Gyroscope)等技術；對於影像處理技術來說，利
用計算機視覺來進行追蹤是一個值得發展的一個領域。視覺追蹤(Visual
Tracking)又可以區分標記與無標記兩類。至於定位技術，主要是將追蹤資訊準
確地呈現在裝置上。例如在擴增實境的應用中，將虛擬物件準確的取代真實影
像中的被追蹤物件。
此外有別於既有的追蹤與定位，視覺追蹤技術採用了攝影機來當作輸入裝
置，所以額外增加校準(Calibration)這一個部分，其主要是由軟體即時地計算攝
影鏡頭的各項參數，例如視野範圍、感應位置與物件位置、歪斜率等等。所以，
以視覺追蹤技術來說，可以分為追蹤、定位與校準這三個部分。
將視覺追蹤技術用於擴增實境應用，其基本運作流程分為四大部分，圖 2.4
為標記視覺追蹤運作示意圖：
(1) 從攝影機讀取標記物件之影像。
(2) 分析追蹤物件之角度及位置，進行位置及姿態的估算。
(3) 載入三維立體虛擬物件，並進行疊加作業。
User
Application
Interaction Devices and Techniques Presentation Authoring
Tracking and Registration Display Technology Rendering

9
(4) 將三維立體影像依據分析演算的結果，呈現在顯示器上。
讀取標記
物件影像
標記物件偵測、
分析標記物件之
角度及位置
載入3D虛擬物件
並進行影像疊加
在螢幕上呈現
擴增實境影像
圖 2.4 擴增實境的基本運作。
2.1.3. 擴增實境的分類
在視覺追蹤環境下的擴增實境應用，受到影像辨識技術的影響極深，而在
整個發展上可以分為標記與無標記兩大類，而各有優缺點，可依據用途選擇。
標記定位技術較成熟及容易開發，而無標記定位技術也因為擴增實境之推廣，
將更備受矚目。
2.1.3.1.標記系統
標記系統，是應用一個可以被可靠參考(Trusted Reference)的圖形標記，並
稱之為基準標記(Fiducial Marker)是目前發展相對成熟的視覺追蹤技術。現有多
個不同單位發展的基準標記系統(Fiducial Marker System)，且各自擁有獨特的處

10
理的方式，對系統效能及現場光源變化的反應程度各有不同。目前廣泛被使用
的基準追蹤(Fiducial Base Tracking)系統是由 Kato 等人[7]發展出來並應用於
ARToolKit，它提供相對可靠穩定建置應用的函式庫，圖 2.5 為 ARToolKit[72]
常用之標記。
圖 2.5 ARToolKit 標記範例[72]。
標記擴增實境系統必須經由特定標記、圖樣提供系統辨識及定位，除了函
式庫所包含之標記外，也可以依據需求自行設計標記圖示，如圖 2.6 所示。為
了能夠準確的追蹤定位，ARToolKit[72]官方建議圖標設計的原則如下：
(1) 在黑色正方形中間包含一個白色正方形，可參考套件所附之 blankPatt.gif
圖檔。
(2) 白色正方形內之圖案採用黑色、白色或彩色來設計。
(3) 白色正方形內之細部圖案最好為非對稱設計。

11
圖 2.6 自行設計可用於 ARToolKit 之標記。
不同的開發套件之標記也採用不同的設計方式，如圖 2.7 為 ARTag[78]官
方網站的應用介紹，可以從圖中看到其標記設計與 ARToolKit 之標記不同。依
據 ARToolKit[72]官方網站介紹，ARTag 開發套件針對 ARToolKit 之標記部分進
行修改，而運作原理則與 ARToolKit 相同。
圖 2.7 ARTag 應用實例[78]。
QR Code(Quick Response Code)為另一種常見的標記，它是二維條碼的一
種，在 1994 年由日本 Denso-Wave 公司發明[58]。其來自英文「Quick Response」

12
的縮寫，即快速反應的意思，因為發明者希望 QR Code 可讓其內容快速被解碼。
QR 碼目前廣泛應用於日本，並為目前日本最流行的二維空間條碼。它在水平
與垂直方向中都包含有意義之資訊，所以比普通條碼可儲存更多資料，亦無需
像普通條碼般在掃描時需直線對準掃描器。
圖 2.8 為透過 QR-Code Generator[59]所產生之 QR Code 圖像，呈正方形，
只有黑白兩色。在 3 個角落，印有較小，像「回」字的正方圖案，主要用於幫
助解碼軟體定位，使用者不需要對準，無論以任何角度掃描，資料仍可正確被
讀取。也因為辨識率高，所以有學者用它取代原本的標記，將其運用在擴增實
境的應用上。Kan 等人[8]在 2009 年就將 QR Code 結合擴增實境應用於商品之
展示，如圖 2.9 所示。
圖 2.8 透過 QR-Code Generator 產生之範例[59]。

13
圖 2.9 QR Code 結合擴增實境之應用[8]。
目前智慧型手機在擴增實境上的應用有越來越廣泛之趨勢，QR Code 搭配
手機的應用也是行之有年，相信未來會有更多結合 QR Code 在擴增實境之相關
應用被提出；不過，這只是整個擴增實境應用的一小部分，而有更大的應用將
會在無標記的應用領域上。
2.1.3.2.無標記系統
有別於標記系統，無標記系統採用自然特徵追蹤(Nature Feature Tracking)
當作基礎技術，不需採用特定之標記、圖樣來進行追蹤辨識與定位，使用者可
以依據喜好自行設計圖樣或使用真實物件來達成追蹤辨識與定位之目的。在
2004 年 Gordon 等人[9]使用不變的影像特徵來進行識別追蹤。Yuan 等人[11]在
2005 年提出一個廣義的擴增實境定位方法，運用此概念即可結合自然特徵追蹤
方法來進行定位。關於無標記之特徵點辨識，常採用物件的紋理、顏色、輪廓
等來當作辨識之條件。
德國 Metaio 公司之擴增實境開發套件 Unifeye，在其白皮書中就採用圖形

14
辨識來當作無標記應用之範例說明，如圖 2.10 中所示，系統辨識出書中的圖
形，立即在顯示器上顯示相對應的三維虛擬影像。至於實際運用，其並未侷限
於平面之圖形，亦可採用實體物件當作追蹤辨識之特徵，只要有足夠之特徵可
以供辨識即可。圖 2.11 為樂高採用 Unifeye 所設計之擴增實境展示機，利用辨
識相關圖示標籤與消費者即時互動，來將玩具之三維物件呈現在銷售機螢幕上。
圖 2.10 無標記擴增實境應用[83]。
圖 2.11 樂高擴增實境展示機[82]。
關於無標記的應用，通常需要伴隨著事前的辨識訓練，也就是針對不同之

15
應用，需要不同的訓練，才能夠讓系統如預期般的運作；另外，對於不同之實
體物件，也需採用不同的辨識方法，如此才能達到最佳辨識效果。雖然無標記
之辨識能力不如標記來的成熟，然而其確有不可取代性。因為採用現實生活中
之實體物件當作辨識物件，這樣就不必拘泥於既有的標記圖示，而其應用也會
變的比較廣泛。不過目前之開發套件，只針對該套件提出之應用做有限度的支
援；也因為如此，才需要更多的追蹤辨識技術加入擴增實境之領域。
2.1.4. 擴增實境的呈現
擴增實境的呈現技術也是引導整個技術發展的很大原因之一，虛擬實境往
往需要搭配全套設備一起使用，所以能應用的範圍給侷限住了；而擴增實境則
希望將場景移往日常生活之中，所以要有輕便的相關設備才能得到大眾的青
睞。從顯示方式的型態來看，1994 年 Milgram 等人[5]將擴增實境顯示器分為
See-Through 與 Monitor-Based 兩大類，並在混和實境中探討各種顯示概念；
Vallino(1998) [12]依據此概念將擴增實境之影像呈現方式分為三類：
(1) 一般顯示器之顯示(Monitor-based augmented reality display)。
(2) 頭戴式之影視顯示(Video see-through augmented reality display)。
(3) 頭戴式之光學投射顯示(Optical see-through augmented reality display)。
本文參考 Vallino [12]之概念重新繪製圖 2.12～圖 2.15，這三類顯示器是
目前已經成熟之技術。除此之外，目前亦有許多新式顯示器在開發，若將其運
用在擴增實境應用上，對於擴增實境之推展有很大幫助，故本文亦介紹未來顯
示器之發展。
2.1.4.1.一般之顯示器顯示型
以顯示器呈現，是將所有場景與虛擬物件採用顯示器方式來呈現，這是一

16
種最簡型式的擴增實境系統，除了桌上型顯示器之外，還有一些手持式顯示
(Handheld Display)，例如智慧型手機和 PDA 就是現在非常常見到的行動顯示
器，其顯示運作原理與傳統顯示器類似，故本文將這類手持顯示器歸類為一般
顯示器類型，如圖 2.12 為擴增實境透過顯示器呈現之示意圖。
真實場景攝影機
3D虛擬物件繪圖系統
一般之顯示設備
整合後之
擴增視訊
真實場景與虛擬
物件視訊整合
真實場景視訊
圖 2.12 一般顯示器呈現原理。
2.1.4.2.頭戴式之影視顯示型
頭戴式之影視顯示型(Video see-through HMD)，也就是所謂頭戴式顯示
(Head-mounted Display, HMD)，是一個具有外部影像擷取、定位，且能和電腦
所產生的影像，以畫面重疊方式整合顯示之呈現系統。此種方式早已廣泛應用
於虛擬實境領域中，而頭戴影視式顯示器，則是將最後整合畫面，以影視方式
顯示於頭戴式顯示螢幕上。此種方式如同一般顯示器，空間的立體感會消失，
如果運算上有所延遲，也會影響整個呈現結果，如圖 2.13 為擴增實境透過頭戴
式之影視顯示器呈現之示意圖。

17
真實場景
真實場景視訊
3D虛擬物件
繪圖系統
整合後之擴增視訊
真實場景與虛擬
物件視訊整合
頭戴型顯示器
顯示器
攝影機
使用者視景點
圖 2.13 頭戴式影視顯示器呈現原理。
2.1.4.3.頭戴式之光學投射顯示型
頭戴式光學投射顯示型(Optical see-through HMD)，其與前兩種方式不同；
一般顯示器顯示型與頭戴式影視呈現型可以將真實環境影視與虛擬物件影像進
行畫面重疊整合於單一顯示器上。而光學投射式，則不需要如此，它是藉由投
影與真實場景融合，以減少影視所造成的失真，如圖 2.14 為擴增實境透過頭戴
式之光學顯示器呈現之示意圖。
真實場景
視訊追蹤資訊
3D虛擬物件或
顯示資訊
繪圖系統
擴增視訊
頭戴型光學投
影顯示器
光學整
合顯示
攝影機
使用者視景點
圖 2.14 頭戴式光學投射顯示器呈現原理。

18
從圖 2.15 中可知其利用分光鏡將擴增實境之虛擬影像顯示在鏡片上面，而
此時真實環境影像也透過眼鏡與虛擬影像整合並傳達給配戴者，這種方式不像
影視顯示型會讓觀看者與真實世界脫離，但卻能提供相等的，甚至更真實之視
覺模擬效果。
真實場景擴增視訊
頭戴型光學投
影顯示器
光學整合顯示
虛擬影像
使用者視景點
圖 2.15 光學投射顯示器原理。
關於這類產品已經可以在坊間搜尋的到，一家以色列公司 Lumus 就開發出
了這種特殊的眼鏡，可以讓用戶來觀看電視、閱讀 E-mail 或者瀏覽股票行情等
資訊，如圖 2.16 為 Lumus 公司的產品資訊與運作示意圖。

19
圖 2.16 Lumus 公司的產品資訊[60]。
2.1.4.4.未來顯示器之發展
在 1977 年推出的「星際大戰(Star Wars)」系列電影中，莉亞公主發出的信
息，被以全息圖(Hologram)的形式發送給絶地武士，如圖 2.17 為星際大戰中之
場景畫面。在「回到未來 2」電影中，也有呈現這種投影技術之情節。簡單地
說，全息圖就是讓影像直接出現在空氣裡面，不管是二維還是三維影像都將栩
栩如生地出現在空氣中呈現。對於這樣的技術，不管對於過去甚至現在來說，
都是具有挑戰性，若在此技術成熟並普及在生活中後，擴增實境之應用也將更
生活化。

20
圖 2.17 第一部星際大戰中的場景[61]。
日本日立公司人類交互作用實驗室 (Hitachi Human Interaction
Laboratory)[62]就有從事這方面的開發，如圖 2.18 所示。其命名為 Transpost，
這套系統可以將二維圖像轉變成立體圖像，它能使人不用戴特殊眼鏡就能看到
立體圖像，就有如星際大戰中的全息通訊系統。
圖 2.18 日立的 Transpost 系統[62]。
日本 Aircord 實驗室[63]也利用 iPAD 展示他們研發的 N-3D 立體顯示器，
如圖 2.19 所示，用一個金字塔形的銀幕膠片來投射影像內容，讓人們直接使用

21
肉眼從各個方向觀看立體影像。首先在 iPad 的銀幕上會顯示出多個動畫畫面，
每一個畫面可以投射到透明罩的一個斜面上，經過光線的折射後，多個畫面將
會在透明罩的中心部位整合，然後再經過多次的反射後，使用者就能使用肉眼
看到這種立體畫面。此外，該系統不僅可在 iPad 上運作，亦可以採用投影設備
來進行展示。
圖 2.19 N-3D 立體顯示器[63]。
美國麻省理工學院的研究生 Chad Dyne[64]，也發明空氣投影和互動技術，
並將其命名為 Heliodisplay，它可以在氣流形成的牆上投影出具有交互功能的圖
像，此技術來源是海市蜃樓的原理，將圖像投射在水蒸氣上，由於分子震動不
均衡，可以形成層次和立體感很強的圖像。目前可以在 IO2 Technology[64]中找
到這個產品的相關資訊，如圖 2.20 為實際展示影片畫面。

22
圖 2.20 Heliodisplay 空氣投影[64]。
除了上述所介紹的顯示器之外，目前還有眾多之顯示方式被提出，例如華
盛頓大學(University of Washington)的 Babak Parviz[65]在 2009 年時便在北京的
BioCas 研討會上展示一款可代替 LED 電腦螢幕、能將影像直接投射到視網膜
上之隱形眼鏡，如圖 2.21 中所示，左圖為隱形眼鏡電路與鏡頭，右圖為配戴在
兔子眼睛上後的情景。不管這些新新的顯示技術目前的是否已經成熟，相信未
來都會影響著擴增實境之發展。
圖 2.21 隱形眼鏡鏡頭[65]。
2.1.5. 擴增實境的應用
眾所皆知，擴增實境的應用，正如火如荼地在各個領域中展開。可將其應

23
用在教育、醫學、遊戲、軍事、維修、商業等各種領域中，而各個領域的相關
文獻也都不斷被提及，甚至有些已經朝向商品化階段。
魔法書為 Mark 等人[13]在華盛頓大學之人機介面科技實驗室(Human
Interface Technology Laboratory)所進行之研究計畫。如圖 2.22 所示，它是使用
手持式之擴增實境顯示(Hand Held Display, HHD)方式，將虛擬物件與真實的書
整合呈現，在人機介面操作上，則是以書籍、電腦搭配手持式顯示器，所整合
之真實與虛擬混成環境，作為整個系統之溝通介面。若使用者並未使用任何擴
增實境之嵌入式科技，這本魔法書就如同一般書籍一樣，使用者可以直接進行
閱讀；若不同的使用者，在不同的角度分別使用手持式顯示器觀看書籍，在書
籍的上方，則會出現配合書籍內容的虛擬主角、虛擬物件與虛擬場景，而且會
隨著觀看角度不同，而改變呈現效果，從傳統實體書籍搖身一變成為立體多媒
體書籍。當使用者翻閱不同畫面時，不同的場景與情節，將搭配書籍內容以即
時改變方式，呈現在觀賞者的眼前。
圖 2.22 魔法書的應用[13]。
在教育學習上，可將其應用於數位學習，或者互動的幼教教材，甚至將其
應用在以往較抽象的物理化學原理上。2007 年 Bötschi 等人[14]在有機化學的教
學上，就針對採用擴增化學(Augmented Chemistry, AC)這一套有形的使用者介
面與傳統 BSM 模型(Ball-and-Stick Model, BSM)這兩種教學方式做一比較。如

24
圖 2.23 所示，圖(a)為使用背投影方式呈現擴增化學使用介面之畫面，右方圖
示為使用右手操作來旋轉立方體，而在標記上方可看到分子結構；圖(b)為傳統
BSM 模型的教學設備，右方圖示為傳統 BSM 模型實際組合的分子結構。在 2002
年 Shelton 等人[15]將其應用在地球與太陽之運作教學上，如圖 2.24 所示，左
圖為使用者配戴頭戴顯示器操作畫面，右圖為使用者觀看頭戴顯示器之顯示畫
面。這些教學方式可以讓學生有身歷其境的感覺，可以有效的提升學生學習興
趣。
(a)
(b)
圖 2.23 化學教學應用[14]：(a)擴增化學；(b)BSM 模型。
圖 2.24 太陽與地球之運轉[15]。

25
醫學科技不斷的提升，相信對於全體人民來說，這是一個很大的福音。除
了外科手術應用上，對於沒有臨床經驗的醫護人員，亦可透過擴增實境的幫忙，
來提升其操作上之相關經驗。Fischer等人[18]提出採用現有的IGS(Image Guided
Surgery)醫學設備，結合擴增實境技術來完成擴增實境在醫學手術上之應用。其
利用攝影機追蹤標記，並透過醫療數位影像傳輸協定(Digital Imaging and
Communications in Medicine, DICOM)來取得電腦斷層掃描(X-ray Computed
Tomography, CT)或核磁共振攝影(Magnetic Resonance Imaging, MRI)所產生之
影像資料，最後透過擴增實境繪圖技術，將三維影像呈現在醫療設備上，如圖
2.25 為 IGS 結合擴增實境技術顯示 MRI 掃瞄之心臟三維影像。
圖 2.25 心室模型[18]。
在設備的維護上，寶馬汽車(BMW)便在汽車維修上應用擴增實境的技術。
維修人員只要帶上一幅具有顯示功能的眼鏡，配合聲控功能，當維修人員對着
汽車引擎時，眼鏡便會顯示出相關配件的位置及操作程序。不但省卻查閱操作
手册的時間，亦減少出錯的機會。而 Steve Henderson 和 Steve Feiner[19]指出，
在複雜的維修作業中，透過擴增實境技術的幫助可以減少時間和精力的浪費。
如圖 2.26 所示，透過擴增實境應用系統的幫助來對裝甲運兵車進行維修作業。
相信此技術對軍方或民間來說，是一個很有用的一項技術，其不但可以節省訓

26
練上的時間，亦可幫助維修人員迅速進入狀況。
圖 2.26 裝甲運兵車維修作業[19]。
以遊戲的發展史來看，從早期挑戰人工智慧，進而發展到網路連線對戰，
這代表著人們渴望彼此的互動。Wii Sport®[66]的推出，其利用偵測玩家的行
為、力道、角度等，進而做出不同的回饋效果，這更是改變了以往玩遊戲的習
慣。若在視覺上能結合擴增實境，讓整個遊戲融入到真實環境中，相信這將再
次顛覆整個遊戲市場。日本 Sony 在 2009 年秋季推出適合全家大小一道同樂的
虛擬寵物遊戲 EyePet™[67]，透過 PlayStation®Eye 攝影機搭配擴增實境技術，
將 EyePet 融入真實環境中，讓玩家以臥房或客廳為舞台，與俏皮 EyePet 進行
深度互動。
圖 2.27 虛擬寵物遊戲 EyePet™[67]。

27
以往對於已經消失的歷史古蹟，只能透過既有的圖片或文字來想像古蹟昔
日的風貌，然而如果能結合擴增實境的技術，那麼可以在原遺址上，利用三維
繪圖技術，進行虛擬原貌恢復。在 2001 年 Vlahakis 等人[20]提出將已經毀損的
古蹟建築透過擴增實境之技術，在原址疊加古蹟原來的面貌。
(a) (b)
圖 2.28 損毀古蹟重建之應用[20]：(a)原址；(b)疊加虛擬模型之面貌。
在瀏覽博物館時，以往對於文物的介紹，只能從文字或者導覽語音來進行
瞭解，若善用擴增實境之技術，不在只能透過語音方式來瞭解文物的歷史，而
更可以透過互動方式，進行相關文物資訊的查詢與介紹，對於該文物有更深入
的瞭解。2005 年 Huang [21]提出利用電腦視覺技術來輔導參觀者與展場之間的
互動，提升參觀者對展場的融入感與互動性；在博物館的應用中，利用擴增實
境之技術來顯示文物資訊以增加參觀者的融入感，如圖 2.29 為利用文物展示系
統呈現之結果。

28
圖 2.29 虛擬博物館系統[21]。
2.1.6. 小結
從上述討論可知擴增實境之發展，是經過漫長歲月之洗滌，在相關技術相
繼成熟後，才能有此佳績。未來其所能帶給人類之貢獻，是可以想像的，至於
要怎麼樣運用此技術，更是相關研究人員該探索的，相信不久之將來，一定會
有更多的探討文獻相繼提出，讓這個研究領域的技術融入生活中。
2.2. 基礎概念介紹
要處理三維電腦繪圖，就必須先瞭解座標的相關知識，想要在二維的螢幕
描繪出三維空間之物體，就必需要瞭解投影之原理。換句話說，三維物體之呈
現是使用投射的概念，將三維圖形投影成二維圖形在螢幕上顯示出來。雖然投
影成二維圖形，但為了讓此二維圖形看起來有三維的感覺，可以使用一些三維
效果讓觀看者產生三維的幻覺。
這些看似簡單的觀念，其背後都有一堆數學算式作為基礎，簡單的來看待，
就是需要在不同的座標系統間進行轉換，最後才能有一個滿意之呈現效果。

29
2.2.1. 座標系統
對一個位置，通常需要給予一個固定單位的座標用來提供識別其位置所
做，所以不管是二維、三維都需要統一的測量與定位方式；在三維圖形處理中
將會使用多種座標系統，它們在各自的場合中有其獨特的地方，透過它們之間
的轉換，可以簡化圖形程式之開發，然而不同座標系要如何轉換，就必需深入
的去瞭解計算機圖學，常見座標系統有[53][55]：
(1) 世界座標系統(World Coordinate System, WCS)。
(2) 物體座標系統(Object Coordinate System)。
(3) 觀察座標系統(Observe Coordinate System)。
(4) 設備座標(Device Coordinates, DC) 系統與正規化設備座標 (Normalized
Device Coordinates, NDC) 系統。
(5) 螢幕座標系統(Screen Coordinate System)。
以下針對各個座標系統做一簡短介紹，首先介紹的是世界座標系統，世界
座標系統是一個獨特的座標系統，因為世界座標系統建立了描述其它座標系統
所需要的參考框架。從非技術意義上來說，世界座標系統所建立的是整個場景
的最大座標系統，其它的座標系統都是參考世界座標系統來建立的。
世界座標系統也被廣泛稱為全局座標系統或宇宙座標系統。對整個場景中
的每一個物體，它的位置和方向一般是指它在世界座標中的值，它是一個絕對
座標，不會隨者觀察者方向之變化而改變。
物體座標系統適合特定的物體相關連的座標系統，也被稱為模型座標系統
(Model Coordinate System)或局部座標系統(Local Coordinate System)，對於場景
中的每一個物體都可以有自己的物體座標系統，而且其和其它物體的物體座標

30
系統是相互獨立的。圖 2.30 顯示了物體與物體座標系統的關係，而圖 2.31 則
顯示了世界座標系統與物體座標系統之間的關係。
z-axis
x-axis
y-axis
物體
物體座標系統
O
圖 2.30 物體與物體座標系統[55]。
z-axis
x-axis
y-axis
x-axis
z-axis
y-axis
物體
物體座標系統
O
O
世界座標系統
圖 2.31 世界座標系統與物體座標系統[55]。
物體座標系統在三維世界中處處存在，每一個物體發生移動或改變方向
時，和該物體相關的物體座標系統，也隨之移動或改變方向，這將大幅簡化對

31
各個模型的控制。
觀察座標系統是與觀察者相關的座標系統，也被稱為攝影機座標系統，在
該座標系中採用右手座標系統，攝影機觀察點位於原點，X 軸為右，Z 軸為前，
Y 軸向上，而這裡的上方，並非一定是世界座標中的上方，而是指攝影機本身
的上方，如圖 2.32 所示。觀察者座標系在三維圖形處理中非常重要，它是聯繫
三維世界座標系統與二維設備座標系統的橋樑。
z-axis
x-axis
y-axis
O
物體
視棱台
觀察點
圖 2.32 物件與觀察者座標系統[55]。
設備座標系統是與圖形設備的物理參數有關之座標系統；而正規化座標系
統是獨立於具體物理設備的一種座標系統，其具有顯示空間和在 X 與 Y 方向上
都是從 0 到 1。對於每台物理設備而言，NDC 與 DC 是座標值相差一個比例因
子，它可以看成是一個抽象的圖形設備。
最後是螢幕座標系統，其為顯示器的平面座標系統，它的座標原點位於螢
幕的左上角，水平方向右為 X 軸方向，垂直向下為 Y 軸方向，以像素為單位。
任何物體的頂點座標最終都要轉化為螢幕座標系統中的座標來進行顯示。

32
2.2.2. 投影原理
在很久以來藝術家與建築師都試圖在解決如何用二維方法表示三維物體或
場景這樣的一個問題，而其所面臨的問題在現今圖學的設計者也同樣面臨相同
問題。而三維電腦繪圖的投影原理是一種由三維到二維的過程，利用二維座標
來表示三維空間中的位置，在電腦螢幕上的像素仍然為平面的，也就是將三維
笛卡兒座標轉換成可繪製在螢幕上的二維座標，如圖 2.33 所示，為空間中之點
P 投影到投影平面 P’之示意圖，P 點的映射是由一條穿過 P 點並與投影平面相
交之投影線來確定；而物體投影的結果取決於物體上一個個點進行投影所產生
之投影線間之空間關係。
z-axis
x-axis
y-axis
P(x, y, z)
P'(x', y', z')
圖 2.33 投影問題[56]。
2.2.2.1.正交投影
正交投影(Orthographic Projection)是一系列用於顯示三維物體的輪廓、細節
或精確測量結果的變換方法。通常又被稱作平面圖 (Plane) 、截面圖
(Cross-section)、鳥瞰圖(Bird's-eye)或立面圖(Elevation)。在平行投影中所有的投
影線都互相平行並且有著相同的投影方向。此外，如果所有投影線都垂直於視

33
平面，就會有正平行投影，即正交投影；否則就有斜平行投影，及斜投影(Oblique
Projection)。所以正交投影可視為平行投影一種，其方法為指定一個立方或長方
體為剪裁體積以進行投影，剪裁區域外的物件皆不會繪製出來。其特點為「所
有具有相同維度的物體不管遠近其大小皆相同」。此種投影常用於建築設計，電
腦輔助繪圖(CAD)或二維圖形上。指定正交投射的剪裁體積時，可以指定其遠、
近、左、右、上與下方剪裁平面(Clipping Planes)。在此觀察區域內的物體會投
射到螢幕的二維影像上，圖 2.34 為正交投影示意圖。
剪裁視窗
z-axis
x-axis
y-axis
投影區間
投影到此平面
近平面
遠平面
圖 2.34 正交投影示意圖。
2.2.2.2.透視投影
透視投影的定義更為複雜。可以將其理解為透過攝影機取景器對於被投影
物體進行觀察。攝影機的位置、朝向和視野都將影響投影變換的結果。圖 2.35
為透視投影(Perspective Projection)示意圖，透視投影會使遠方的物體看起來比
近端物體小，此種方法的觀測區形狀像是尖端被切掉的金字塔，切下來的部分

34
稱為截頂錐體(Frustum)。靠近觀察區域前方的物體大小與實際大小較相近，但
靠近末端的物體投射後會縮小許多。此種投射方式為虛擬與三維立體動畫帶來
最佳的真實感。
z-axis
x-axis
y-axis
投影區間
投影到此平面
遠平面
近平面
剪裁視窗
圖 2.35 透視投射示意圖。
2.2.3. 攝影機模型
在 Learning OpenCV[52]書中提及針孔攝影機模型(Pinhole Camera Model)
為最簡單之攝影機模型，其為一透視投影(Perspective Projective )的成像方式，
如圖 2.36 所示。想像有一光線是從很遠的場景或很遠的物體發射過來，但其實
是來自於某一條光線。影像平面(Image Plane)是成像結果也稱為投影平面
(Projective Plane)，其中圖像是被聚焦。在整個成像的過程中，所選擇之投影中
心(Projection Center)與影像平面(Image Plane)對於整個成像的結果有著決定性
影響。這些看似簡單的觀念，裡面包含著許多座標系統之轉換，接下來就做一
簡單之介紹。

35
影像平面針孔平面
光學軸
H
h
f D
圖 2.36 針孔攝影機模型[52]。
在圖 2.36 中可看到兩個相似三角形，利用相似三角形原理推得：
D
H
f
h
=− 或
D
H
fh =−
(2.1)
其中各個參數說明如下：
(1) f 是攝影機焦距。
(2) D 是攝影機到物體的距離。
(3) H 是物體實際高度。
(4) h 是 Image plane 中物體的圖像高度。
將整個應用擴展到三維空間，並將整個光學軸(Optical Axis)往下移位，其
目的在於消除負號，讓所有的計算都在光學軸之上。在基本的針孔攝影機模型
中，將投影中心放置在歐氏座標系統(Euclidean Coordinate)的原點，並將影像平
面放置在 Z 軸上距離原點為 f 的位置。在此針孔攝影機模型之下，一個在三
維空間的點 T
)ZY,X,(Q = ，其投影至二維影像上的 q 點，其中 ),( screenscreen yxq = 。
也就是由投影中心與三維座標點 Q 之連線和成像平面之交點，如圖 2.37 所示。

36
影像平面
光學軸
Q=(X, Y, Z)
o
f
投影中心
q=(x, y, f)
z-axis
y-axis
x-axis
圖 2.37 針孔攝影機模型之投影關係圖[52]。
將座標為 ),,( ZYX 之物理點Q 映射到投影平面上座標為 ),( screenscreen yx 之點q的
過程稱為投影變換(Projective Transform)，而齊次座標可把維度為 n 的投影空間
上的點用(n+1)維向量表示；換句話說，二維平面投影空間，可以使用一個三維
向量 )q,q,(qq 321= 來表示該平面的點，如公式(2.2)所示，其中λ為一比例係數，
因為投影空間上的所有比例不變，因此可以透過除以 3q 來計算實際之像素座標
值。










=










3
2
1
q
q
q
f
y
x
q
q
λ (2.2)
藉由前面所提之相似三角形的原理，可推算出三維座標點 T
)ZY,X,(Q = 投影
到影像平面上之二維點 T
Z
Y
f
Z
X
fq ),(= ，故可獲得從三維空間投影至二維空間之
映射關係。其中的投影中心又稱之為攝影機中心(Camera Center)或光學中心
(Optical Center)，Z 軸稱之為主軸(Principal Axis)，而主軸與影像平面的交點稱
之為主點(Principal Point)。對於大部分影像呈現採用矩形而非正方形，故針對 X
軸與 Y 軸分別定義兩個不同之焦距 xf 與 yf ，透過公式 (2.1)推得投影平面上座

37
標：






=





=






=





=
Z
Y
f
D
H
fy
Z
X
f
D
H
fx
yyscreen
xxscreen
(2.3)
然而公式(2.3)是在假設影像平面座標系統之原點是落在主點之上。不過事
實上並不完全是如此，其與主點的位置會有一位移存在，如圖 2.38 所示。重新
整理如公式(2.4)所示：
yyscreen
xxscreen
c
Z
Y
fy
c
Z
X
fx
+





=
+





=
(2.4)
o
投影中心
q
y-axis
x-axis
y
x
qcam
ycam
xcam
Cx
Cy
圖 2.38 影像座標系統 ),( yx 與攝影機座標系統 ),( camcam yx 。
從公式(2.4)中可知 xc 與 yc 分別代表 x 與 y 上的偏移量，不過為了便於後續

38
討論，在此暫且將移位值忽略。接下來討論如何從攝影機座標系轉成影像座標
系，將公式(2.2)重新定義表示成公式(2.5)，其中
cZ
f
=λ 。










=










c
c
c
c
c
Z
Y
X
f
y
x
λ (2.5)
將三維空間座標點與二維影像座標點均採用齊次座標系統來表示，整個三
維空間轉換二維空間的投影關係以齊次座標之線性映射(Linear Mapping)重新
表示成公式(2.6)。






















=










1
0
0
0
1
0
0
0
1
0
0
0
1
c
c
c
c
c
Z
Y
X
f
y
x
(2.6)
將攝影機座標系以 cQ 表示，而影像座標系以 iq 表示。故非齊次座標可表示
成公式(2.7)，而齊次座標表示成公式(2.8)，並重新整理公式(2.6)推得公式(2.9)。
c
c
i
c
c
i
Z
Y
fy
Z
X
fx == , (2.7)
cQ
0100
000
000
1
0100
000
000
q










=






















≅ f
f
Z
Y
X
f
f
c
c
c
i (2.8)

39
c
c
c
c
c
c
c
Qf
f
Z
Y
X
f
f
Z
fY
fX










=






















=










0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
0
0
0
0 (2.9)
其中三維空間點表示為 T
cccc ZYXQ )1,,,(= ，二維影像點表示為
T
cccc ZfYfXq ),,(= ，而中間 3x4 的矩陣以 [ ]0|)1,,( IffdiagM = 來表示，並將其稱為
攝影機投影矩陣(Camera Projection Matrix)，則公式(2.9)可以簡化為公式(2.10)：
cc MQq = (2.10)
前面為了便於討論，將位移值忽略，若重新加入位移則公式(2.9)表示成公
式(2.11)。






















=










+
+
1
0
0
0
10
0
0
0
c
c
c
y
x
y
x
Z
Y
X
c
c
f
f
Z
ZcfY
ZcfX
(2.11)
再將其中攝影機投影矩陣的部分表示成下式：










=
100
0
0
y
x
cf
cf
K (2.12)
則公式(2.11)式可被表示成一更簡潔的形式如(2.13)所示，其中矩陣 K 稱為
攝影機校正矩陣(Camera Calibration Matrix)。

40
[ ] cc QIKq 0|= (2.13)
一般而言，在真實空間下的三維座標皆以世界座標系統來表示，而非以相
機座標系統(Camera Coordinate)，所以在這之間還有一個座標轉換的動作，在二
個座標系統之間的關係，可用旋轉(Rotation)與位移(Translation)來轉換，如圖
2.39 所示。
C
攝影機中心 z-axis
y-axis x-axis
O
x-axis
y-axis
z-axis





=
y
x
q












=
1
w
w
w
w
Z
Y
X
Q
),( tR

圖 2.39 世界座標系統 wQ 與攝影機座標系統 cQ 之轉換圖[52]。
假設 Q 為一在世界座標系統下之三維座標點，齊次座標點以
T
wwww ,1)Z,Y,(XQ = 表示；而 cQ 表示為在相機座標系統下之相對三維座標點，則
wQ 與 cQ 之關係可經由一位移矩陣 T 與一旋轉矩陣 R 來表示，其中位移向量 t
表示攝影機在世界座標系統之位置，而 R 表示攝影機之方向，故將之表示成公

41
式(2.14)：
wTw
x
x
T
x
x
w
w
w
c Q
RtR
Q
TR
Z
Y
X
TRRR
TRRR
TRRR
Q 




 −
=





=
























=
1010
11000
44
13
31
33
3333231
2232221
1131211
(2.14)
並將之導入公式(2.13)式，則可得
[ ] w
w
w
w
Ty
x
QtIKR
Z
Y
X
RtR
cf
cf
q −=

















 −










= |
1
10
100
0
0
(2.15)
公式(2.15)即為針孔攝影機模型一般的投影關係式，相機投影矩陣則為
[ ]-t|IKRM = ，其自由度(Degrees Of Freedom)為 9；其中 K 為 3 個 ),,( yx ccf 、R
為 3 個和 t 為 3 個。包含在 K 矩陣之中的參數，稱之為攝影機之內部參數
(Intrinsic Parameter)，而參數 R 和 t 則稱之為攝影機之外部參數(Extrinsic
Parameter)。所謂內部參數是用來定義相機座標與影像座標之關係，而外部參數
則是用來定義相機座標與世界座標之關係，可透過相機校正來獲得這些參數。
另外，在真實的感光耦合元件(Charge Coupled Devices, CCD)相機中，物理
意義上的像素在 X 方向與 Y 方向之量值不一定為 1 比 1。換句話說，如果影像
上的像素並非 1 比 1，則必須在 X 與 Y 方向各導入一個比例參數 ),( yx qq 來做
調整；因此感光耦合元件相機之相機校正矩陣 K 可表示成公式(2.16)。

42










=
100
0
0
yy
xx
cf
cf
K (2.16)
其中， yyxx fqffqf == , 。另外，在感光耦合元件相機中，在物理意義上的
像素也不一定是矩形，而 X 軸與 Y 軸有一歪斜的參數 s ，最後將整個完整的
感光耦合元件相機校正矩陣表示為：










=
100
0 yy
xx
cf
csf
K (2.17)
因此整個呈現過程是經過多重的座標系統轉換，若不考慮過多的參數，則
針孔攝影機模型之投影可用公式(2.18)表示。對於整個攝影機之參數矩陣計算採
用 Heikkila 和 Silven[22]的方法，這也是 OpenCV 內部所採用之方法。
[ ] wwwT
MQQRtRKQ
RtR
K =−=




 −










≅ |
10
0100
0010
0001
q (2.18)
重新整理各個參數說明如下：
(1) 二維影像上的 q 點。
(2) 三維座標點 Q。
(3) 三維齊次座標點 Qw。
(4) 三維攝影機座標點 Qc。
(5) M 稱為攝影機投影矩陣。
(6) K 稱為攝影機校正矩陣。

43
(7) R 稱為旋轉矩陣。
(8) T 稱為位移矩陣。
(9) t 稱為位移向量。
2.2.4. 三維物件顯示
上一節介紹了針孔攝影機模型的運作原理，在三維電腦繪圖領域中，也運
用類似的觀念，只不過其需要經過更多的座標系統轉換，這樣才能使物體以適
合的位置、大小與方向顯示出來，依據 OpenGL Programming Guide [53] 與
Computer Graphics Using OpenGL[54]書籍整理座標系統轉換流程如圖 2.40 所
示。三維虛擬物件要有三維空間呈現之效果，其必須將三維物件透過相關的幾
何座標轉換轉成人類所接受之座標，再利用投影變換矩陣來將影像轉換成二維
影像，除此之外還需要仿造人類的視野來決定哪些影像將呈現在顯示設備上，
除此之外，面對不同的顯示設備還有不同設備間之座標轉換要處理，整個詳細
流程就不在此討論。
三維物
件
幾何變換
矩陣
投影變換
矩陣
透視處理
視埠變換
矩陣
物體座標人眼座標剪裁座標設備座標視窗座標
圖 2.40 三維虛擬物件呈現流程。
在擴增實境的應用中，要將三維虛擬物件融入真實環境之中，首先必須將
三維立體物件仿造攝影機擷取影像的原理來運作，最後利用三維繪圖技術將真
實環境與三維立體虛擬物件做疊加的動作，如此才能達到將虛擬物件融入真實
環境之中。

44
2.2.5. 小結
不論是將真實影像透過顯示器來顯示，或者利用三維電腦繪圖來呈現虛擬
物件，實際上都是將影像在二維的螢幕中來顯示，其中三維虛擬物件之所以能
營造出三維景深，主要是透過觀察二維影像所得。常見的效果便是物體遠近，
將同樣大小的物體放在遠端與近端會有不一樣的大小感受，這種遠近的效果稱
為透視法；另外亦可透過改變物件之顏色、色彩強度、材質、燈光以及陰影達
到不同之三維影像效果。
不管擴增實境或三維繪圖技術，都無法脫離傳統二維的顯示方式，所以瞭
解底層之幾何轉換是必要的，也是因為這些技術與三維效果之結合，擴增實境
才可以將虛擬物件融入真實影像之中，而不會讓人感受到太過虛假之情境。
2.3. 應用技術介紹
在前面兩節已經對擴增實境以及攝影機成相有所介紹，接下來將以技術層
面來探討與分析，如何將虛擬的物件融入到一個真實環境影像之中。三維影像
技術對於擴增實境來說是不可或缺的，而所謂之三維影像技術不單只有呈現真
實度與複雜度的問題，還包括追蹤與定位的技術部分。換句話說，利用追蹤技
術將物件從影像中分離出來，並透過幾何變換矩陣取得物件所在位置之座標，
最後才將虛擬物件繪製在追蹤物件的座標位置上，有了這一系列的追蹤定位技
術，才能在現實環境中達成與虛擬物件即時互動之效果。
從 2.1 節中有提到追蹤定位技術的概念，可以瞭解視覺追蹤在影像處理領
域之重要性，故在此探討之追蹤辨識技術，將以此為主。擴增實境之標記追蹤
技術已經非常的成熟，已經無須對其做深入之探討與研究；然而採用自然特徵
追蹤為基礎之無標記追蹤，可以採用標記追蹤來當作開發藍圖，將無標記追蹤
技術整合到擴增實境開發平台中。故此節將針對標記在擴增實境中的運作流程

45
做一簡單之介紹，再來則介紹追蹤所需要之相關背景技術。
2.3.1. 標記追蹤
目前廣泛被使用的基準追蹤系統是由 Kato 等人[7]發展出來並應用於
ARToolKit 中，如圖 2.41 所示，其透過座標轉換將標記座標轉換成攝影機座標，
然後依據門檻值取得標記矩形之四條線段，接著偵測標記內之圖案並找到具體
的對應識別 ID，接著將標記位置透過向量矩陣轉換算出三維立體虛擬物件之位
置，然後載入圖標識別碼對應之三維立體虛擬物件，最後在標記位置上繪製虛
擬物件，運作示意圖如圖 2.42 所示。
Marker Coordinates
(Xm,Ym,Zm)
Marker
Camera Screen
Coordinates Camera Coordinates
),( cc yx
Xc
Yc
Zc
cy
cO
cx
Zm
Ym Xm
圖 2.41 標記座標與攝影機座標關係圖[7]。

46
將影像轉成灰階影像，再依據
門檻值來將影像分為黑白兩色找出標記邊框
1.分析標記物件之角度及位置
2.計算三維物體姿態和方向
標記內的符號與定義
的圖樣進行比較，確
認出標記的識別碼
以圖標位置用向量矩陣轉換
算出三維虛擬物件之位置
將圖標識別碼的三維虛擬
物件繪製到視訊影像中
輸出至螢幕
xz
y
圖 2.42 ARToolKit 之標記追蹤定位流程。
2.3.2. 前景物偵測
除了影像幾何座標轉換以及繪製虛擬物件之相關技術外，追蹤技術亦是擴
增實境中不可或缺的重要關鍵技術之一，然而在影像處理研究領域裡，視覺追
蹤也並非是一塊新的研究領域，不過也並非既有的所有視覺追蹤都能夠運用於
擴增實境中。
在物件追蹤之前，首先必須能夠區分影像中的前景與背景，根據運動偵測
技術的不同，常見的移動物體偵測追蹤方法有三類，分別是背景相減法
(Background Subtraction)、時序差異法(Temporal Differencing)與光流法(Optical
Flow Method)[23]。
2.3.2.1.背景影像相減法
背景影像相減法為目前在視覺監測應用上最廣泛使用的運動偵測方法，計
算公式如(2.19)所示，其基本運作原理是先用一段時間建立一個初步的背景模

47
型。然後，使用目前的圖像中減去背景圖片來偵測移動像素。其中影像片段中
固定不變的部份視作背景，再將每一畫格上的像素與背景影像進行相減後得到
差異強度影像，若差異大於給定之門檻值，則視該點為移動像素或稱之為前景，
但它對不斷的明暗變化和移動的攝影機處理效果不彰。


 >−
=
Otherwise
TyxByxIifyxI
yxF dkkk
k
,0
),(),(),,(
),( (2.19)
其中 ),( yxFk 代表第 k 個畫格時，前景影像 kF 上點 ),( yx 的灰階值，灰階值等
於 0 就代表該點屬於背景； kI 為第 k 個畫格的影像； kB 為第 k 的畫格時的背
景影像; dT 為差異強度門檻值。
背景影像相減法最為關鍵之地方在於一開始如何從影像片段中擷取出背
景，目前也已經有許多不同的方法被提出，最常見的有 Longa 等人[24]的採取
訓練片段進行平均之平均法以及 Lai 等人[25]的統計每個像素上灰階值出現頻
率之投票法。
2.3.2.2.時序差異法
時序相減法最大的優點是不必預先產生背景影像，其基本運作方式是將連
續影像中的前後兩個畫格直接相減後得到差異強度影像，再配合門檻值分離出
前景影像，如公式(2.20)所示：


 >−
= −
Otherwise
TyxIyxIifyxI
yxF dkkk
k
,0
),(),(),,(
),( 1
(2.20)
其中 ),( yxFk 代表第 k 個畫格時，前景影像 kF 上點 ),( yx 的灰階值，灰階值

48
等於 0 就代表該點屬於背景； kI 是第 k 個畫格的影像； dT 為差異強度門檻值。
由於時序相減法不需要使用到背景影像，適合在背景光影變化幅度較大的
情況下使用，但是對於偵測物體的形狀和位置也有較大的誤差。
2.3.2.3.光流法
當眼睛觀察運動物體時，物體的景像在眼睛之視網膜上形成一系列連續變
化的圖像，這一系列連續變化的資訊不斷「流過」視網膜（即圖像平面），好像
一種光的「流」，故稱之為光流。光流表達了圖像之變化，由於它包含了目標運
動的資訊，因此可被觀察者用來確定目標的運動情況。
光流法在模式識別、計算機視覺以及其他圖像處理應用中非常有用，它與
運動檢測以及運動估計緊密相關。其定義為在連續的影像平面上，各個像素之
亮度梯度。其原理是利用連續影像中各像素的亮度變化找出影像中的光流場
(Optical Flow Field)，再藉光流場估計移動物體的運動向量後進行特徵匹配。
光流與影像流最大的差別在於，當物體在空間中產生位移，連續的影像平
面上會有影像流以及光流的發生。影像流是因為物體與攝影機之間的相對移動
所造成的，光流則是由於物體的相對移動或是環境的亮度梯度改變而產生。
廣義的說，光流法就是指偵測光線強弱改變之演算法，也就是以影像梯度
為匹配或追蹤基礎之演算法。最常被提及的兩種光流法，其中第一種由 Lucas,
B.D.與 Kanade, T. [26]於 1981 年所發表的方法，它以計算簡單、快速且經過多
年普遍應用，此法稱為 Lucas–Kanade Optical Flow Method，簡稱 LK 光流法。
另一種則由 Horn, B.K.P.與 Schunck, B.G.[27]於 1981 年所發表的 Horn–Schunck
Method，簡稱 HS 光流法。在 OpenCV 函數庫中，其針對 LK 光流法分別實現
了金字塔與非金字塔的 LK 稠密光流演算法；同樣的 OpenCV 亦提供 HS 光流
法之演算法函式庫。

49
在移動物體偵測追蹤方法中，光流法的優勢在於不需建立背景，因此適用
於拍攝平台也會有運動的情況；然而光流法的計算方式複雜，運算量大，而且
對於場景中的雜訊非常敏感，往往需要額外搭配專業之硬體設備來進行即時運
算，故對於沒有強力運算能力之平台比較不適合。除此之外光流法也非能在各
個環境中應用，下面整理了可能不適合的環境與可能會遭遇的問題[49]：
(1) 光流法可能不適用之環境：
a. 沒有灰值梯度變化的物體。
b. 光源移動造成所有物體皆產生光流。
(a) 在所有物體靜止的房間之內，理論上所有特徵皆無光流產生，但若
此時光源產生改變（移動、亮度、照射方向、色溫等），在改變的
瞬間所有受光源照射的物體皆產生光流，因此會造成錯誤的光流向
量。
(b) 如果物體在空間中靜止不動，但環境的光源發生改變時，由於物體
與攝影機之間沒有相對移動存在，自然也就不會有影像流的發生。
(c) 但環境光源的變動依然會使影像平面的亮度梯度發生改變，此時有
光流值的產生。也就是說當物體靜止，但環境光源產生變化時，影
像流為零，但光流值並不為零。
c. 已經維持在穩定旋轉狀態且無梯度變化的物體。例如已經維持穩定等速
旋轉的電扇，此時扇葉已狀似一個圓形的圖形，故不產生光流。
(2) 光流法可能產生問題之狀況：
a. 遮蔽(Occlusion)問題：在進入遮蔽區與脫離遮蔽區的光流很可能產生錯
誤向量。
b. 視野(Aperture)問題：若特徵的移動並未涵蓋在匹配的範圍之內，則向
量會指向視野範圍內最可能的位置，但並非正確。

50
2.3.3. 物件追蹤
一般對影像之處理與分析，首先是利用物件追蹤(Object Tracking)的技術來
追蹤動態物體，一旦追蹤到物體，就可以做進一步的肢體動作分析。而目前的
物體追蹤是透過比對連續影像間物體的相似度來完成，於是物體特徵的擷取，
相似程度的判別，目標物的搜尋，都涵蓋在此議題中。目前物體追蹤的方法可
概分成四類[23][28]：區域式追蹤 (Region-Based Tracking)、主動式輪廓追蹤
(Active Contour-Based Tracking)、特徵追蹤(Feature-Based Tracking)、以及模型
追蹤(Model-Based Tracking)。
2.3.3.1.區域式追蹤
假設影像變動的區域即為目標物之位置，藉由偵測這些變動區域之位置來
追蹤目標物。通常利用目前影像與背景相減或者利用相鄰兩張影像間之差異來
偵測出變化區域，然後再進一步的建立規則來做篩選、合併或分割。
此方法之缺點在於無法處理物體合併之問題，以取得物體之三維動作，且
對於雜亂有變動之背景亦不適用。
2.3.3.2.主動式輪廓追蹤
主動式輪廓追蹤其方法是使用輪廓線(Contour)來描述移動的物體，並利用
輪廓線之改變來進行追蹤，如 Paragios 等人[29]就利用這樣的方法來進行移動
物件偵測。此方法的好處在於更有效率，且降低了複雜度，由於輪廓線是封閉
曲線，即使物體交錯，也較容易解決。但其缺點仍然是缺乏三維的資訊，無法
進行三度空間上的追蹤，且此演算法的追蹤效果對於初步輪廓的偵測或選取非
常敏感，故較難用於全自動的偵測追蹤系統。圖 2.43 採用主動式輪廓追蹤在高
速公路上的偵測情形，從圖中可看出輪廓逐次縮小，最後達成追蹤之目的。

51
圖 2.43 移動車輛輪廓偵測[29]。
2.3.3.3.特徵追蹤
特徵追蹤是利用物體的特徵來進行追蹤，首先針對要追蹤的物體擷取特
徵，這些特徵可分為三種：整體性特徵(Global Feature Based)，如重心、周長、
面積與顏色等；局部性特徵(Local Feature Based)，如線段、曲線段與頂點等；
相依圖形特徵(Dependence Graph Based)，如特徵間的結構變化等。當影像中目
標物的低階特徵擷取出後，即可匯集成更高階的特徵資訊，利用比對連續影像
間之高階特徵來追蹤該物體。
除了相依圖形特徵方法外，其餘兩種方法可以用來即時追蹤多個移動物
體，利用運動特徵、局部特徵或相依的結構特徵來解決物體交錯的問題，但是
使用運動特徵的方法穩定性不高，而使用局部特徵的方法則比較耗時費力。此
演算法的另一缺點是，用二維影像對物體的辨識度並不高，且通常無法還原出
物體的三維資訊。
若考慮良好的辨識效果， Lowe[31] 所發表的尺度不變特徵轉換
(Scale-invariant feature transform, SIFT)是一個選擇，它在空間尺度中尋找極值

52
點，並提取出其位置、尺度、旋轉不變數，可用來偵測與描述影像中的局部性
特徵且有很好的辨識效果，不過辨識時間需要比較久。
為了改善 SIFT 搜尋速度慢，Bay 等人[33]提出 SURF (Speeded-Up Robust
Features)，雖然找出之特徵點不及 SIFT 演算法來的多，不過其搜尋速度卻比
SURF 快上許多，也是目前常用之搜尋特徵點演算法。除此之外，針對 SIFT 提
出改善的尚有 Ke 等人 [34] 所提出的 PCA-SIFT(Principal Components
Analysis-SIFT)與 Morel 等人[35]提出的 Affine-SIFT (ASIFT)等方法。
在實際的應用，除了採用改良的方法來縮短辨識時間，亦可利用硬體平台
來加快演算速度，例如採用多核心之中央處理器或圖形處理器來進行運算處
理，而 SiftGPU[69]與 GPU SURF[71]則分別是透過圖形處理器來完成 SIFT 與
SURF 演算法之例子。
2.3.3.4.模型追蹤
模型追蹤的方法將會提供較精細與準確的判斷，因此需要良好的物體結構
模型，可加入物體本身之運動特性。所以，其比較不易受附近背景或其它物體
干擾之影響，也較能對抗物體間交錯問題，所以相對地運算量也比較大。通常
其追蹤的方式可分為「建立物體模型」、「建立運動模型」與「預測和搜索策略」
三個步驟。
模型追蹤的方法與前三者方法相比，有幾項優點。因為其取得之影像即為
三維資訊，故不需要額外處理才能獲得三維資訊；並且利用先前的三維資訊，
便可整合做為判斷下一個動作之根據，故縱使物體間互相交錯，也可以準確地
進行判斷；除此之外，仍可應用於物體動作變化很大之應用。

53
2.3.3.5.追蹤技術之發展趨勢
如果只單靠一種追蹤技術可能會因為外在環境之影響，導致萃取之資訊與
實際情況有所不同，例如在追蹤過程中找不到相似之處，或者因為交錯之遮蔽
影響，結果導致被遮蔽物之部分資訊遺失，所以目前有相關研究結合多種追蹤
技術，來確保其追蹤系統運作正常。
大部分的追蹤方法會搭配數學演算法，使系統能夠快速找到連續影像之間
的相似處，例如卡爾曼濾波器(Kalman Filter)追蹤、粒子慮除器(Particle Filter)
追蹤和平均移動(Mean Shift)追蹤。其中 Mean Shift 是利用影像色彩的直方圖來
追蹤目標，但其對於快速移動物體之追蹤效果並不好；而 Kalman Filter 演算法
受限於線性系統與高斯分佈的預測問題，在較多雜訊的狀況下，其追蹤失敗之
情形將會提升。
為了解決這個問題，Tanizaki[36]提出了 Particle Filter 演算法以貝氏機率的
觀念，解決雜訊非高斯及非線性的問題，並且對快速移動之物體也有良好的效
果。除此之外，還有從 Mean Shift 改良成之 Cam Shift(Continuously Adaptive
Mean-Shift)演算法，其主要通過視訊圖像中運動物體的顏色訊息來達到追蹤之
目的。其運作原理為將輸入影像由 RGB 色彩空間轉換為 HSV 或 HSI 色彩空間，
接著設定搜尋視窗並計算出搜尋視窗內之色彩分布直方圖，然後執行 MeanShift
演算法來計算结果，並將結果作為下ㄧ張影像執行 MeanShift 演算法之初始值。
在 OpenCV 中，除了提供 Kalman Filter 外，對於 Mean Shift 與 Cam Shift
追蹤演算法也有提供完善之函式庫以供使用；除此之外，OpenCV 在 2.2 版中
更實現了 FAST、STAR、SIFT、SURF 與 MSER 等多套特徵追蹤演算法，對於
對於物件追蹤之開發，有著莫大之幫助。

54
2.3.4. 擴增實境在追蹤辨識上的限制
由於不管是在標記或無標記之擴增實境系統中，在進行影像追蹤、辨識及
定位時，其所使用之底層核心技術均為影像處理之技術，故應用上仍受到既有
影像處理技術之限制，整理如下：
(1)環境光源：
由於擴增實境，是經由影像辨識在追蹤及置放三維物件，故在追踨及辨識
時，週邊環境光源，易影響其辨識效果。
(2)影像解析度：
攝影機的解析度易影響辨識及追蹤效果，解析度愈高辨識效果愈佳，反之
則愈差，然解析度愈高，相對所需之運算資源越多。
(3)對於辨識標記或圖樣之角度：
一般而言攝影機與圖樣平面的夾角以 90 度為最佳，然這樣將降低使用的靈
活度，故角度愈大靈活性愈高，相對的辨識效果愈差。
(4)辨識圖樣或物件之材質：
辨識圖樣與物件之材質，若為光面材質，易引起反光，將導致辨識效果變
差，故製造材質亦是考量因素之一。
2.3.5. 小結
從前面幾節可以知道，整個擴增實境所運用到的之技術非常的廣泛，除了
要對物件進行辨識與追蹤，而且在追蹤到物件之後，還必須透過座標轉換等相
關計算來取得物件之座標資訊，最後才可以利用三維繪圖技術將三維虛擬物件
繪製到顯示器上。然而這還不包含 Guan 等人[37]所提及之物件遮蔽問題，否
則將會運用更多之計算機圖學技術才能實現擴增實境之運用。

55
3. 現有開發技術分析
因為擴增實境所涵蓋之影像技術非常廣泛，除了基礎的數位影像處理技術
外，還包括了計算機視覺和計算機圖學，若沒有一個整合開發環境，相信所要
涉略的領域將會非常的廣泛，所幸目前已經有眾多的開發平台提供應用程式開
發人員採用。此章首先針對既有之擴增實境平台做一介紹，再依據本文採用之
函式庫進行分析，並做一簡短的結論。
3.1. 現有技術分析
擴增實境發展至今，已經有許多相關的開發平台，例如 ARToolkit[72]、
ARTag[78]等，這些開發套件也多採用標記方式來達成擴增實境的應用，以下將
逐一探討。
ARToolKit 為美國華盛頓州立大學 Human Interface Technology Laboratory
的 Kato 等人[7]使用 C 語言所開發出來的一套擴增實境之電腦視覺追蹤函式
庫，其利用視訊追蹤能力來追蹤已定義之標記，並在標記處繪製指定的三維物
件。其解決了兩個擴增實境的問題－追蹤與虛擬物件互動的問題，然而僅能追
蹤特定之標記物件。
在 ARtoolKit 套件推出後，有許多的開發套件架構在其上面發展出新的開
發平台，其目的不外乎提供更多的創作與運行環境，例如 NyARToolKit 與
jARToolKit 就是可以運作在 Java 上的 ARToolKit，除此之外 NyARToolKit 也支
援 C#以及 Android 作業系統；FLARToolkit 則是 Flash 版本的 ARToolKit；而
ARmagic 則是在 Windows 上運作的創作開發平台。當然這些新的開發平台依然
侷限在 ARToolKit 所提供的能力範圍下。
ARToolKit Professional Edition[77]是 ARToolKit 商業化的版本，其結合了許

56
多新的影像處理技術，並支援目前最新的影像串流技術(Video Streaming)協定，
對於影像處理研究人員來說，其採用 OpenCV 來當作基礎架構，更是引人注目。
對於研究人員來說，適合採用 Development license 的授權方式，因為此種方式
可以讓研究人員長期在上面進行研究與發展；但是對於並非要進行商業行為的
研究人員來說，此種方式可能需要較高的研究成本，但是它的 NFT(Natural
Features Tracking)擴展套件提供對自然紋理表面特徵的追蹤技術，可讓研究人
員開發出無標記之擴增實境應用。
雖然 ARToolKit NFT 套件可以發展無標記之應用，不過對於辨識之影像依
然需要傳統標記當作辨識參考，此標記之設計必須是黑色邊框搭配白色或淺色
背景，如果背景顏色並非白色或淺色，則在黑色邊框外必須額外添加白色邊框，
如圖 3.1 所示。至於辨識之影像周圍，至少提供一個標記來當作辨識參考，如
圖 3.2 所示，值得注意的是這些標記沒有受到任何特定大小之限制。
圖 3.1 ARToolKit NFT 之無標記應用範例[72]。

57
圖 3.2 辨識影像放置於標記外之應用[72]。
從以上分析可以知道，雖然 ARToolKit NFT 號稱可以使用 JPEG 當作辨識
影像，不過依然需要搭配標記使用，顯然與真正無標記還有一段落差。
ARTag[78]為 Mark Fiala 修改 ARToolKit 之標記偵測模組而衍生之開發套
件，所以基本運作原理與 ARToolKit 相同；不過因為其著重在標記的辨識率及
處理上，並且採用既定的標記函式庫，所以不必與 ARToolKit 一樣，需要載入
標記文件檔，其聲稱相較於 ARToolKit，其有較高的辨識率及較短的處理時間。
雖然在標記辨識上優於 ARToolKit，然而與 ARToolKit 同樣都屬於需要特定標
記的函式庫，依然不適用於非標記的應用領域；但其建構在 OpenCV 函式庫基
礎上，所以對於只需要標記影像處理的研究人員，可以採用此開發平台搭配
OpenCV 函式庫來實現擴增實境的應用。除此之外，其支
援.wrl(VRML)、.obj(Wavefront, Maya)與.ase (3D-Studio export)這幾種三維模型
的處理，相形之下只支援.wrl 的 ARToolKit 就顯得略遜一籌。
ARToolKit Plus[79]為 ARToolKit 之延伸，除了功能性加強外，還可用在開
發行動裝置之平台上，其辨識標記原理來自於 ARTag 之靈感。
Goblin XNA[80]為架構在 ARTag 之上的開發平台，其結合了 ARTag 的辨
識技術與 XNA 的電腦圖學技術。其採用 C#當作開發平台的語言，有別於
ARToolKit 與 ARTag 等函式庫。
DART(Designer's Augmented Reality Toolkit)[81] 是由 Georgia Institute of

58
Technology 的 GVU center 所開發之擴增實境應用發展工具，這套工具結合了
Macromedia 之 Director MX 與 GVU center 開發之 ARToolKit 外掛程式 Xtra。其
額外提供對視訊畫面的抓取、圖形標籤辨識、擴增三維物件與硬體周邊設備的
支援度，對於硬體設備的支援，例如抓取 GPS、6DOF 追蹤器等。DART 可以
視為 Macromedia Director 多媒體系統之擴充套件。因為 DART 是建立在
Macromedia Director 上面的擴增實境開發環境，對於熟悉 Director 操作的研究
者、設計師和藝術家，可以藉由 DART 來踏入擴增實境的領域，並迅速發展擴
增實境在媒體創作設計之相關應用。
Unifeye [82]是 Metaio 公司的商業產品，目前最新的開發界面，有支援標記
與無標記技術，如同 Goblin XNA 採用 C#當作開發平台的語言，其必須採用
Visual Studio 的開發介面來進行開發，整體設計架構採用 DirectX 的概念來進行
設計，所以整個架構可以說是建構在 Windows 環境下的開發平台。當然除了電
腦的開發平台外，最近當紅的手機平台，Metaio 一樣提供相關的開發套件，讓
擴增實境開發人員使用。
在 2.1.3.2 小節中有提到 Unifeye 應用於無標記的使用，其所能應用的領域
依然是有所限制的，並非所有的物件都可以直接當作擴增實境之道具來使用，
在 Unifeye SDK[83]中之說明範例採用圖片來當作它的辨識物件，當使用者翻到
不同頁面時，系統會偵測到這些事先定義的圖形物件，然後透過擴增實境技術
來呈現三維虛擬物件。對於擴增實境於標記上的應用來說，這種採用圖片當作
追蹤物件的方法或許已經跨出了擴增實境應用的一大步，然而對於真正無標記
的應用來說，顯然還是不夠的，因為有許多應用並不一定都能提供圖片來當作
識別之物件。
皮托科技[84]代理所代理的 Vizard[85]，其使用 Python 語言來當作開發語
言，雖然採用開放的 Python 語言，然而所能開發的功能，卻侷限在的 Vizard

59
所提供的能力上，儘管底層採用 ARToolKit Professional 函式庫，但很難全面發
揮該函式庫的功能，對於開發影像處理技術的研究人員來說，倒不如直接採用
ARToolKit Professional 會比較容易達成目的，如同 ARToolKit 的能力，其依然
需要透過標記來實現在擴增實境上的應用。
D’Fusion[86]為愛迪斯通科技代理 TOTAL IMMERSION 公司的擴增實境
軟體，其標榜使用無標記技術，不過必須對於辨識的物件進行辨識動作，辨識
設定完成之後，才可以進行相關的擴增實境應用。其優點為無須使用標記來進
行應用，但是依然會根據不同實體物件的特性，而有不同的辨識率。先不探討
辨識效果為何，單從其採用特殊的內部腳本語言(Scripting Language)來討論，
其並不適合影像處理研究人員進行研究使用，除了架構給侷限住之外，還必須
額外學習一種程式語言；若只是開發擴增實境的應用，或許是一個值得考慮的
方案。
將各種平台做整理，如表 3-1 所示，相信可以很清楚的感受到，目前的開
發環境依然採取標記方式居多，儘管無標記的應用需求是可想易見的，不過卻
鮮少有平台可用。對於目前這些既有的開發環境來說，它們比較適合給應用開
發的研究人員使用，像是 Vizard、D’Fusion 或 Unifeye 這種整合過的開發介面，
相信可以縮短這些開發人員的開發時程。

無標記擴增實境實驗平台建置與追蹤技術驗證

無標記擴增實境實驗平台建置與追蹤技術驗證

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 無標記擴增實境實驗平台建置與追蹤技術驗證

Similar to 無標記擴增實境實驗平台建置與追蹤技術驗證 (20)

無標記擴增實境實驗平台建置與追蹤技術驗證