2. Machine Vision
LEARNING OUTCOMES
a. Peserta dapat memahami perkembangan penelitian machine vision pada aplikasi content
vased image retrieval
b. Peserta dapat memahami perkembangan penelitian machine vision pada aplikasi face
recognition
c. Peserta dapat mengevaluasi state-of-art dari algoritma-algoritma hasil penelitian pada
bidang machine vision
OUTLINE MATERI (Sub-Topic):
1. Content Based Image Retrieval
2. Face Recognition
3. Machine Vision
ISI MATERI
Content Based Image Retrieval
Sebuah database gambar yang baik juga perlu mendukung pencarian gambar oleh
pengguna dengan mudah dan akurat. Untuk itu diperlukan metode yang bisa mencari dan
menarik gambar yang relevan dengan cepat dan akurat. Search engine biasanya menggunakan
pendekatan text-based. Tapi pendekatan ini memiliki kelemahan di mana gambar-gambar
pada database harus dilabeli atau dianotasi sehingga text-based search engine bisa
menemukan gambar yang yang dicari. Selain itu, gambar pada database juga kadang dilabeli
dengan anotasi yang salah. Sehingga diperlukan usaha ekstra untuk melabeli gambar-gambar
di database secara manual yang kadang terlalu sulit untuk dilakukan pada database dengan
jumlah gambar yang sangat besar.
Content-based image retrieval (CBIR) merupakan cara yang lebih baik dalam
pencarian gambar pada database dibandingkan dengan text-based image retrieval. Pada
sistem CBIR, setiap gambar biasanya direpresentasikan oleh satu set visual features yang
diekstrak dari gambar tersebut. Proses feature extraction untuk mewakili setiap gambar pada
database dilakukan pada fase training (offline). Feature-feature dari setiap gambar pada
database kemudian dirangkum dan dindeks untuk memudahkan dan mempercepat pencarian.
Kemudian, pada fase testing (online) pengguna bisa melakukan pencarian gambar dengan
memasukkan sebuah gambar query. Sistem CBIR melakukan feature extraction pada gambar
query dengan metode yang sama dengan yang digunakan pada fase training. Feature pada
gambar query kemudian dicocokkan dengan feature-feature dari gambar pada database.
Berdasarkan hasil pencocokan ini, sistem CBIR kemudian menghasilkan daftar gambar-
gambar yang dianggap relevant dengan gambar query yang dimasukkan oleh pengguna.
4. Machine Vision
Secara umum visual features yang bisa dimanfaatkan oleh sistem CBIR bisa
dikelompokkan menjadi: color features, texture features, dan shape features. Informasi
berupa lokasi 2D dari setiap feature pada gambar juga bisa dimanfaatkan untuk menghasilkan
hasil image retrieval yang lebih baik. Rangkuman lebih lengkap tentang visual features bisa
dibaca pada jurnal paper yang ditulis oleh (Ismail, 2017) yang ada di Daftar Pustaka no. 3.
Pada paper ini, Ismail juga membahas secara lengkap kelemahan dari sistem-sistem
CBIR yang ada saat ini. Kelemahan utama terdapat pada asumsi bahwa kesamaan visual pada
gambar menunjukkan kesamaan secara semantic. Tapi asumsi ini umumnya tidak berlaku
karena ada ketimpangan (gap) antara makna pada high-level semantic dengan representasi
gambar menggunakan low-level visual features. Ismail pada paper tersebut merangkum
pendekatan-pendekatan yang digunakan untuk menjembatani ketimpangan (gap) tersebut.
Pendekatan-pendekatan ini bisa dikelompokkan menjadi dua, yaitu: pendekatan berdasarkan
supervised dan unsupervised learning, dan pendekatan fusion-based image retrieval.
Selain itu, Ismail dalam papernya (Ismail, 2017) juga membahas tentang
permasalahan-permasalahan yang masih dihadapi oleh sistem CBIR, yaitu: anotasi gambar
secara otomatis, sistem CBIR yang bisa menerima gambar query lebih dari satu, dan proses
benchmarking untuk sistem CBIR. Untuk mendapatkan pemahaman yang lebih baik tentang
CBIR, mahasiswa disarankan untuk membaca pustaka no. 3 di Daftar Pustaka dan juga
pustaka-pustaka lain yang berhubungan.
5. Machine Vision
ISI MATERI
Face Recognition
Face recognition merupakan salah satu sistem biometric yang paling banyak
digunakan dalam proses identifikasi karena bersifat natural dan non-intrusive. Secara umum,
sistem face recognition terbagi menjadi 3 tahap, yaitu face detection, feature extraction dan
face recognition dan ilustrasinya dapat dilihat pada Gambar 1 (Chihaoui, Elkefi, Bellil, &
Amar, 2016).
Gambar 1 – Tahapan dalam sistem Face Recognition (Chihaoui, Elkefi, Bellil, & Amar, 2016)
Tahap pertama adalah face detection, dimana sistem mencoba menentukan apakah
terdapat wajah dalam suatu gambar dan kemudian menentukan lokasi setiap wajah pada
gambar tersebut. Beberapa faktor yang berperan penting dalam face detection antara lain
illumination, position, facial expression, orientation dan morphological criteria seperti
adanya kumis, kacamata, dan sebagainya.
Tahap berikutnya adalah feature extraction yang bertujuan untuk memperoleh feature
vector (signature atau karakteristik unik) dari gambar wajah tersebut. Feature vector ini akan
digunakan untuk membedakan individu yang satu dengan lainnya.
Tahap terakhir adalah proses authentication dan identification. Authentication
merupakan perbandingan antara sebuah wajah dengan wajah lain yang telah ditentukan
(presumed identity) untuk membuktikan identitas pengguna. Identification merupakan
6. Machine Vision
perbandingan antara sebuah wajah dengan berbagai wajah lain yang ada dalam database
untuk menentukan beberapa kemungkinan identitas pengguna dan disajikan dalam bentuk
persentase probabilitas.
Teknik face recognition dapat digolongkan menjadi tiga jenis berdasarkan area wajah
yang digunakan dalam proses (Chihaoui, Elkefi, Bellil, & Amar, 2016), antara lain:
Global Approach
Teknik pada kategori global approach dikenal juga dengan istilah Holistic
Approach, dimana seluruh area wajah akan digunakan sebagai input bagi sistem.
Data ini kemudian diproyeksikan ke dalam dimensi yang lebih kecil (subspace).
Local Approach
Teknik pada kategori local approach hanya akan menggunakan beberapa feature
atau karakteristik dari sebagian area wajah yang diperoleh melalui sebuah
classifier.
Hybrid and Statistical Approach
Teknik pada kategori hybrid and statistical approach umumnya merupakan
gabungan antara kedua jenis diatas untuk meningkatkan akurasi sistem. Metode
statistik dapat digunakan untuk menjelaskan hubungan antar variable dalam
persamaan matematis.
Face Recognition Dengan Global Approach
Pada implementasi face recognition dengan global approach, gambar wajah
direpresentasikan dalam bentuk pixel matrix yang kemudian ditransformasikan ke dalam vector agar
dapat dimanipulasi. Karena seluruh area wajah akan digunakan, maka tidak diperlukan adanya proses
7. Machine Vision
feature extraction untuk memperoleh karakteristik tertentu seperti mulut, hidung, mata, dan
sebagainya.
Meskipun metode ini mudah untuk diimplementasikan, metode ini cenderung sensitif
terhadap berbagai variasi yang mungkin terjadi seperti pose, pencahayaan, ekspresi wajah dan
orientasi wajah karena variasi ini pada dasarnya akan mengubah nilai pixel dari gambar tersebut.
Input data kemudian diproyeksikan kedalam dimensi yang lebih rendah (subspace). Hal ini
dikarenakan tidak semua pixel pada input data merupakan bagian wajah (beberapa pixel bisa saja
merupakan bagian dari background image). Dengan demikian, gambar wajah tersebut dapat diperkecil
dengan memberikan fokus hanya pada bagian wajah.
Berdasarkan teknik yang digunakan dalam melakukan proyeksi, kategori Global Approach
dapat dibagi menjadi 2 jenis yaitu Linear dan Non-Linear.
Linear Techniques
Berikut adalah beberapa contoh teknik yang termasuk dalam kategori linear techniques:
Eigenface
Eigenface merupakan teknik yang paling populer digunakan dalam face recognition.
Teknik ini didasarkan pada penggunaan Principal Component Analysis (PCA) untuk
transformasi gambar menjadi sebuah eigenface. Secara umum, tujuan utama dari teknik
ini adalah untuk menentukan principal components dari berbagai sample gambar yang
ada. Dalam definisi formal, hal ini berarti menentukan eigenvector dari covariance matrix
yang dibentuk berdasarkan sample gambar yang ada. Covariance matrix diperoleh
melalui transformasi setiap gambar menjadi sebuah vector dimana setiap elemen dari
vector tersebut merupakan nilai intensitas pixel yang bersangkutan. Transformasi pixel
matrix menjadi vector ini secara tidak langsung telah menghapus struktur geometri
gambar tersebut.
8. Machine Vision
2D Principal Component Analysis
Teknik 2D Principal Component Analysis berusaha memperbaiki kekurangan pada PCA,
dimana hilangnya informasi (struktur geometri) saat transformasi pixel matrix menjadi
vector diatasi melalui penggunaan two-dimensional matrices (2D PCA). Karena input
sudah berupa 2D matrices, maka transformasi menjadi vector tidak diperlukan lagi.
Image covariance matrix dibangun secara langsung menggunakan matrix gambar input
dan kemudian diperoleh eigenvector sebagai dasar dari proses feature extraction.
Linear Discriminant Analysis (LDA)
Teknik LDA juga berusaha memperbaiki kekurangan pada PCA melalui penerapan linear
discriminant criterion. Criterion ini bertujuan untuk memaksimalkan ratio antara
determinan between-class scatter matrix dengan determinan within-class scatter matrix
dari gambar yang diberikan.
Between-class scatter matrix dikenal juga sebagai extra-personal dan menggambarkan
variasi yang terjadi atas perbedaan identitas (individu yang berbeda), sementara within-
class scatter matrix yang dikenal dengan sebagai intra-personal menggambarkan variasi
yang terjadi pada identitas yang sama. Variasi ini bisa terjadi karena perbedaan
pencahayaan atau ekspresi wajah saat pengambilan gambar.
Non-Linear Techniques
Berikut adalah beberapa teknik yang termasuk dalam kategori non-linear techniques:
Kernel Principal Component Analysis
Kernel PCA merupakan ekstensi dari PCA yang bersifat non-linear. Proses utamanya
adalah mapping data dari input space ke dalam feature space melalui metode non-linear
mapping, dan kemudian melakukan kalkulasi PCA dalam feature space tersebut. Kernel
function yang digunakan adalah polynominal kernel dan memanfaatkan sebuah
pendekatan yang dikenal dengan istilah kernel trick, dimana perhitungan vector (dot
9. Machine Vision
product) pada feature space dapat dilakukan tanpa harus melakukan transformasi ke
dalam feature space tersebut.
Support Vector Machine
Support Vector Machine (SVM) merupakan teknik yang digunakan dalam pattern
recognition secara efektif dan oleh karenanya juga telah digunakan dalam face
recognition. Dalam dataset yang terdiri dari 2 jenis kelas berbeda, SVM akan mencari
sebuah hyperplane untuk memisahkan dataset tersebut menjadi 2 sisi. Hal ini tercapai
dengan cara memaksimalkan jarak antar titik terdekat dari kedua kelas tersebut, dan
hyperplane yang dihasilkan dikenal dengan istilah Optimal Separating Hyperplane
(OSH).
Face Recognition Dengan Local Approach
Teknik face recognition pada kategori local approach memanfaatkan facial features yang
kemudian akan diklasifikasikan berdasarkan parameter statistik tertentu (Chihaoui, Elkefi, Bellil, &
Amar, 2016). Kategori ini juga dikenal sebagai feature-based approach dan dapat dibagi menjadi 2
jenis berdasarkan cara memperoleh facial features yaitu:
Interest-point based methods
Teknik pada kategori interest-point based umumnya telah memiliki point of interest
tertentu, dan kemudian facial features diperoleh berdasarkan point tersebut.
Local-appearance based methods
Teknik pada kategori local-appearance based akan membagi gambar ke dalam beberapa
area kecil (regions) untuk memperoleh local characteristics.
10. Machine Vision
Interest-Point Based Methods
Pada kategori interest-point based, point of interest telah ditentukan berdasarkan geometric
features tertentu, seperti jarak antar mata, lebar kepala, dan sebagainya. Data ini kemudian digunakan
sebagai input bagi classifier dalam membedakan antara individu yang satu dengan yang lainnya.
Berikut adalah beberapa contoh teknik yang termasuk dalam kategori ini:
Elastic Bunch Graph Mapping
Teknik Elastic Bunch Graph Mapping (EBGM) digunakan untuk identifikasi wajah dari
sebuah database yang berisi tepat satu gambar wajah untuk setiap individu. Face
description diperoleh melalui representasi wajah dalam bentuk image graphs dengan
tujuan untuk menghindari kompleksitas yang muncul dari berbagai variasi seperti pose,
ekspresi wajah, dan ukuran gambar wajah. Points of interest (mata, hidung, mulut, dan
lain-lain) direpresentasikan dalam bentuk wavelet components (jets) dan kemudian akan
digabungkan menjadi image graph yang merupakan representasi unik dari sebuah wajah.
Image graph ini kemudian akan dibandingkan dengan data yang ada di database untuk
membedakan antara individu yang satu dengan yang lainnya.
Feature Extraction by Gabor Filter
Gabor filter merupakan sebuah filter linear yang digunakan dalam edge detection dan
dinamai atas penemunya, yaitu Dennis Gabor. Gabor filters telah terbukti sebagai salah
satu tool yang efektif untuk digunakan dalam proses facial feature extraction karena
memiliki properti orientational selectivity dan spatial locality yang mampu memberikan
toleransi terhadap distorsi. Meskipun demikian, Gabor filter masih memiliki kelemahan,
misalnya sifat filter yang tidak saling orthogonal satu sama lain dan oleh karenanya setiap
filter masih memiliki hubungan (correlated) dengan filter lainnya sehingga diperlukan
beberapa kombinasi filter lebih lanjut.
11. Machine Vision
Local-Appearance Based Methods
Setelah gambar terbagi menjadi beberapa region yang lebih kecil, proses berikutnya adalah
merepresentasikan informasi dari setiap region tersebut. Beberapa karakteristik yang umum
digunakan antara lain Gabor Coefficient, Haar Wavelets, Fourier Transform, Local Binary Pattern dan
Local Phase Quantization.
Local Binary Pattern
Local Binary Pattern (LBP) merupakan sebuah descriptor yang bertujuan untuk
merangkum informasi mengenai struktur dari suatu gambar secara efisien. Motivasi dari
penggunaan LBP adalah adanya toleransi terhadap variasi pencahayaan serta memiliki
computational complexity yang cukup rendah.
Sebuah LBP operator akan memberikan label dalam bentuk desimal bagi setiap pixel, dan
dikenal dengan istilah LBP Codes. Setiap pixel akan dibandingkan dengan pixel
disekitarnya dalam area 3x3. Kemudian nilai intensitas dari setiap pixel dalam area 3x3
tersebut akan dikurangi dengan nilai intensitas central pixel, dimana bila hasilnya
negative maka diberi nilai 0 sedangkan jika hasilnya positif akan diberi nilai 1. Seluruh
nilai ini kemudian akan digabungkan secara clockwise membentuk sebuah binary number
dan kemudian dikonversi ke dalam bentuk desimal.
Local Phase Quantization
Quantization merupakan proses mapping dari sebuah set dengan range yang besar
menjadi set dengan range yang lebih kecil, dimana contoh paling sederhananya adalah
pembulatan (rounding atau truncation).
Pada implementasi dalam face recognition, proses dimulai dengan membagi gambar ke
dalam area yang lebih kecil (regions) lalu menerapkan Discrete Fourier Transform untuk
setiap pixel pada gambar dan kemudian melakukan quantization terhadap phase angle
dari frequency coefficient yang ada ke dalam quadrants. Proses quantization ini akan
menghasilkan nilai binary, dimana nilai positif akan diterjemahkan menjadi 1 dan nilai
12. Machine Vision
negatif diterjemahkan menjadi 0. Hasil encoding ini kemudian diubah ke bentuk desimal
dan dikenal sebagai LPQ Labels yang merupakan representasi local texture pada pixel
tersebut.
LPQ Label pada setiap region kemudian digabungkan menjadi sebuah histogram, dan
terakhir histogram dari setiap region akan digabungkan menjadi satu. Identifikasi individu
kemudian tercapai dengan membandingkan histogram yang diperoleh dengan histogram
yang tersimpan di database.
Face Recognition Dengan Hybrid Approach
Teknik pada kategori ini merupakan gabungan antara penggunaan karakteristik global dan
lokal. Contoh yang termasuk dalam kategori ini adalah Hidden Markov Model (HMM). Tahap
pertama adalah membagi sebuah gambar wajah kedalam 5 area (subface) sesuai dengan urutan alami
dalam fase recognition yaitu forehead, eyes, nose, mouth dan chin. Tahap berikutnya adalah
melakukan feature extraction menggunakan LBP atau LPQ dan diikuti dengan penerapan Discrete
Cosine Transform. Hasil dari operasi tersebut berupa vector (HMM subface). Local HMM dari setiap
subface kemudian digabungkan untuk membentuk global HMM.
13. Machine Vision
SIMPULAN
1. Sistem CBIR berdasarkan visual features sudah banyak diusulkan. Tapi pendekatan ini
masih menghadapi kendala adanya kesenjangan (gap) antara makna pada high-level
semantic dengan representasi gambar menggunakan low-level visual features.
Pendekatan-pendekatan untuk menjembatani gap ini juga sudah diusulkan oleh para
peneliti.
2. Perkembangan dari penelitian di bidang face recognition sudah cukup pesat. Mulai dari
face recognition menggunakan pendekatan global, pendekatan lokal, sampai dengan
pendekatan hybrid global dan lokal.
14. Machine Vision
DAFTAR PUSTAKA
1. Forsyth. (2011). Computer Vision a Modern Approach (2nd Edition). Prentice Hall.
New Jersey. ISBN-10: 013608592X. ISBN-13: 978-0136085928.
2. Szeliski. (2010). Computer Vision: Algorithms and Applications. Springer. London.
ISBN-13: 978-1848829343. ISBN-10: 1848829345
3. M. M. Ismail, A Survey on Content-based Image Retrieval, IJACSA, 8 (5), 2017
4. M. Chihaoui, A. Elkefi, W. Bellil, and C. B. Amar, A Survey of 2D Face Recognition
Techniques, Computers 5(4), 2016
5. M. M. Kasar, D. Bhattacharyya, and T-H Kim, Face Recognition Using Neural
Network: A Review, IJSIA 10 (3), 2016, pp. 81 - 100