LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC
THÀNH PHỐ HỒ CHÍ MINH
NGUYỄN SƠN HÓA
ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN
CẢM XÚC MẶT NGƯỜI
LUẬN VĂN THẠC SĨ
NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 60480201
TP.HỒ CHÍ MINH – Tháng 05 Năm 2019

NGƯỜIHƯỚNG DẪN KHOA
ỨNG D
NGÀNH: CÔNG NGH
MÃ SỐ
B
TRƯỜNG
NG DỤNG LBP
NGÀNH: CÔNG NGH
Ố: 60480201
TP.HỒ CHÍ MI
NH
BỘ GIÁO D
NG ĐẠI H
THÀNH
NGUY
NG LBP-CNN CHO BÀI TOÁN NH
CẢM XÚC M
LUẬ
NGÀNH: CÔNG NGH
: 60480201
HỒ CHÍ MI
NH
GIÁO DỤC VÀ
I HỌC NGO
THÀNH PHỐ H
NGUYỄN S
CNN CHO BÀI TOÁN NH
M XÚC MẶ
ẬN VĂN TH
NGÀNH: CÔNG NGHỆ THÔNG TIN
NGƯỜIHƯỚNG DẪN KHOAHỌC:
HỒ CHÍ MI
NH – Tháng 05 N
C VÀ ĐÀO T
C NGOẠI NG
HỒ CHÍ MINH
ƠN HÓA
ẶT NGƯ
N THẠC S
THÔNG TIN
: PGS.TS PH
Tháng 05 N
ÀO TẠO
I NGỮ- TIN H
CHÍ MINH
N HÓA
ƯỜI
C SĨ
PGS.TS PHẠM TH
Tháng 05 Năm 2019
TIN HỌC
CNN CHO BÀI TOÁN NHẬN DIỆN
M THẾ BẢ
m 2019
N
ẢO

LỜI CAM ĐOAN
Luận văn này là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới
sự hướng dẫn khoa học của PGS.TS Phạm Thế Bảo. Các số liệu, những kết luận
nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực.
Tôi hoàn toàn chịu trách nhiệm về lời cam đoan này.
Người cam đoan
Nguyễn Sơn Hóa

Nguyễn Sơn Hóa Nhận dạng cảm xúc mặt người với LBP-CNN
Trang 1/51
Mục lục
Chương 1: Tổng quan ...................................................................................................... 6
1.1 Giới thiệu.................................................................................................................. 6
1.2 Các hướng tiếp cận ................................................................................................... 7
1.3 Khó khăn và thách thức............................................................................................ 9
1.4 Đề xuất hướng giải quyết ......................................................................................... 9
Chương 2: Cơ sở lý thuyết............................................................................................. 11
2.1 Các phương pháp phát hiện khuôn mặt người........................................................ 11
2.1.1 Hướng tiếp cận dựa trên tri thức...................................................................... 11
2.1.2 Hướng tiếp cận dựa trên so khớp mẫu............................................................. 13
2.1.3 Hướng tiếp cận dựa trên diện mạo................................................................... 15
2.2 LBP ........................................................................................................................ 19
2.3 Mạng nơ-ron tích chập ........................................................................................... 27
2.3.1 Tổng quan mạng nơ-ron nhân tạo.................................................................... 27
2.3.2 Mạng nơ-ron tích chập..................................................................................... 28
Chương 3: Xây dựng thuật giải..................................................................................... 32
3.1 Xác định vị trí khuôn mặt....................................................................................... 32
3.2 Trích đặc trưng LBP............................................................................................... 34
3.3 Mô hình CNN với đặc trưng LBP .......................................................................... 35
Chương 4: Kết quả và hướng phát triển...................................................................... 37
4.1 Cơ sở dữ liệu........................................................................................................... 37
4.1.1 Cơ sở dữ liệu CK+........................................................................................... 37
4.1.2 Cơ sở dữ liệu FER2013 ................................................................................... 37
4.2 Môi trường thực nghiệm......................................................................................... 40
4.3 Thiết kế thực nghiệm.............................................................................................. 40
4.4 Kết quả.................................................................................................................... 41
4.4.1 Cơ sở dữ liệu CK+........................................................................................... 41
4.4.2 Cơ sở dữ liệu FER2013 ................................................................................... 45
4.5 Đánh giá.................................................................................................................. 49
4.5.1 Ưu điểm ........................................................................................................... 49
4.5.2 Khuyết điểm..................................................................................................... 49
4.6 Hướng phát triển..................................................................................................... 50
Tài liệu tham khảo.......................................................................................................... 51

Trang 2/51
LỜI CẢM ƠN
Chân thành cảm ơn các Thầy, Cô khoa CNTT Trường Đại học Huflit TPHCM cũng
như các Thầy Cô đã giảng dạy và truyền đạt nhiều kiến thức quý báu.
Đặc biệt cảm ơn PGS.TS Phạm Thế Bảo đã dành rất nhiều thời gian và tận tình
hướng dẫn trong suốt quá trình thực hiện luận văn.

Trang 3/51
DANH MỤC TỪ VIẾT TẮT
FER Facial Expression Recognition
LBP-CNN Local Binary Pattern Convolutional Neural Networks
FACS Face Action Coding System
CK+ The Extended Cohn-Kanada AU-Coded Expression Database

Trang 4/51
DANH MỤC CÁC SƠ ĐỒ, HÌNH VẼ, BẢNG BIỂU
- Sơ đồ 1 - Các bước căn bản trong FER
- Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân giải n=4, 8,
16
- Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khuôn mặt
- Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khuôn mặt và hình nền đơn giản; (b) Ảnh
chỉ có 1 khuôn mặt và hình nền phức tạp; (c) Ảnh có nhiều khuôn mặt
- Hình 4 - Mẫu khuôn mặt, có 16 vùng và 23 quan hệ (các mũi tên)
- Hình 5 - Mô hình mạng nơ-ron theo Rowley
- Hình 6 - Mô hình Markov ẩn: (a) các vector quan sát để huấn luyện cho HMM; (b)
năm trạng thái ẩn
- Hình 7 - Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có những
trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong; trạng thái mắt có
năm trạng thái nhỏ bên trong
- Hình 8 - Tập hợp các điểm xung quanh Ptt: (a) bán kính 1 pixel; (b) bán kính 2.5 pixel;
(c) bán kính 4 pixel
- Hình 9 - Các biến thể của LBP LBP đồng dạng
- Hình 10 - Bảng thống kê các mẫu của uniform LBP
- Hình 11 - Minh họa các trường hợp của LBP khi quay với góc 15 độ: (a) ảnh xoay α
độ; (b) tám mẫu LBP tương ứng
- Hình 12 - Ví dụ về quá trình tính toán đặc trưng
- Hình 13 - Cấu trúc nơ-ron nhân tạo
- Hình 14 - Mô hình mạng neural tích chập
- Hình 15 - Mô hình trường tiếp nhận cục bộ
- Hình 16 - Quan hệ neuron ẩn và pooling
- Hình 17 - Số lượng neuron tương ứng

Trang 5/51
- Hình 18 - Kích thước giảm
- Hình 19 - Phát hiện khuôn mặt với Viola-Jones
- Hình 20 - Trích xuất đặc trưng LBP ảnh khuôn mặt người
- Hình 21 - Mô hình chúng tôi thiết kế cho CNN phân lớp 07 cảm xúc mặt người
- Hình 22 - Ảnh mẫu của cơ sở dữ liệu CK+
- Hình 23 - Một số ảnh và nhãn gây nhầm lẫn trong FER2013
- Hình 24 - Cấu trúc csv của cơ sở dữ liệu FER2013
- Hình 25 - Biểu đồ phân bố cảm xúc trong cơ sở dữ liệu FER2013
- Hình 26 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu CK+
- Hình 27 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu FER2013
- Hình 28 - Một số dữ liệu phân loại sai trong dữ liệu CK+
- Hình 29 - Một số dữ liệu phân loại sai trong dữ liệu FER2013
- Biểu đồ 4.1 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu CK+
- Biểu đồ 4.2 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu FER2013
- Bảng 4.1 - Kết quả phân loại của CNN trên cơ sở dữ liệu CK+
- Bảng 4.2 - Kết quả phân loại của CNN trên cơ sở dữ liệu FER2013

Trang 6/51
Chương 1: Tổng quan
1.1 Giới thiệu
Nhận dạng cảm xúc mặt người (Facial Expression Recognition – FER) giữ vai trò
quan trọng trong tương tác giữa người và máy, trong các hệ thống an ninh với sự phổ
biến của các camera an ninh ở các sân bay, văn phòng, trường đại học, máy ATM, ngân
hàng… FER còn có thể được sử dụng trong nghiên cứu tâm lý học hành vi, chăm sóc
khách hàng hay trong các hệ thống khuyến nghị dựa trên hình ảnh.
Biểu hiện trên khuôn mặt thể hiện tâm trạng hoặc trạng thái cảm xúc của một cá nhân
ở một thời điểm cụ thể như buồn, hạnh phúc, tức giận… Paul Ekman [1] cho thấy sáu
cảm xúc phổ biến là buồn (sad), hạnh phúc (happy), tức giận (angry), sợ hãi (fear), ghê
tởm (disgust) và ngạc nhiên (surprise). Phát hiện khuôn mặt là bước đầu tiên của nhận
dạng cảm xúc khuôn mặt, trong đó khuôn mặt được xác định từ ảnh đầu vào và loại bỏ
các đối tượng khác (nếu có). Sau khi đã xác định được khuôn mặt người, bước tiếp theo
thực hiện trích xuất đặc trưng và biểu diễn các đặc trưng đó. Với đặc trưng thu được,
công việc cuối cùng là phân loại các đặc trưng vào một trong 6 loại cảm xúc phổ biến ở
trên, sơ đồ 1. Nhiều công trình nghiên cứu đã được thực hiện nhằm nâng cao độ chính
xác cho bài toán FER. Tiếp cận ở giai đoạn trích xuất và biểu diễn đặc trưng có các
phương pháp như Gabor Wavelet, LBP (Local Binary Pattern), PCA (Principal
Component Analysis), LDA (Linear Discriminant Analysis), LDP (Local Directional
Pattern), HOG (Histogram of Oriented Gradients). Mỗi phương pháp đều có ưu khuyết
điểm riêng, LBP với ưu điểm chính là ít chịu ảnh hưởng của những thay đổi về độ sáng,
góc quay, độ co giãn, chi phí tính toán thấp, tốc độ xử lý nhanh nên được ứng dụng nhiều
trong bài toán phát hiện và nhận diện khuôn mặt. Ở giai đoạn phân loại, rất nhiều thuật
toán cũng đã được nghiên cứu và công bố như Mô hình Markov ẩn (Hidden Markov
Model), Naïve Bayesian, KNN (K-nearset Neighbours), SVM (Suport Vector Machine),
Mạng nơ ron tích chập (Convolutaion Neural Networks – CNN)… [1][2][3]. Trong đó,
CNN thể hiện ưu thế vượt trội với khả năng xử lý tập dữ liệu lớn cũng như rất nhiều kiến
trúc mạng được nghiên cứu và công bố… Với những ưu điểm đó của LBP và CNN, luận
văn tập trung tìm hiểu, nghiên cứu kiến trúc mà dữ liệu đầu vào của CNN là đặc trưng
LBP hay còn gọi là mạng nơ ron tích chập mẫu nhị phân cục bộ (LBP-CNN – Local

Trang 7/51
Binary Pattern Convolutional Neural Networks) cho bài toán nhận dạng cảm xúc mặt
người.
Sơ đồ 1 - Các bước căn bản trong FER
1.2 Các hướng tiếp cận
Nhận dạng cảm xúc mặt người (FER) là quá trình giúp nhận biết tâm trạng và cảm
xúc của mỗi cá nhân. Rất nhiều công trình đã được thực hiện. FER có hai hướng tiếp cận
chính [2][3] đó là:
• Dựa theo diện mạo (appearance); cách tiếp cận dựa theo diện mạo sẽ xem xét
các thông tin có được từ giá trị cường độ của các điểm ảnh hay toàn bộ ảnh
bằng cách áp dụng các phép biến đổi, bộ lọc hoặc phương pháp máy học,
thống kê…
• Dựa theo hình học (geometric); trong cách tiếp cận dựa theo hình học, hình
dạng, khoảng cách, vị trí của sự thay đổi của các thành phần mặt như: cơ mặt,
mắt, miệng, trán… sẽ được xem xét.
Năm 1978, Ekman giới thiệu một hệ thống để đo biểu hiện khuôn mặt được gọi là FACS
(Face Action Coding System - Hệ thống mã hoá hành động mặt) dựa trên tâm lý học [4].
FACS được phát triển bằng cách phân tích các mối quan hệ giữa sự co giãn cơ và sự thay
đổi diện mạo khuôn mặt do chúng gây ra. Sự co giãn của các cơ chịu trách nhiệm cho
cùng một hành động được đánh dấu như là một đơn vị hành động (Action Unit - AU).
Mặt có thể được chia thành các đơn vị hành động mặt trên (Upper Face AU) và các đơn

Trang 8/51
vị hành động mặt dưới (Lower Face AU). Có 46 AU đại diện cho sự thay đổi biểu hiện
trên khuôn mặt và 12 AU liên quan đến hướng nhìn mắt và hướng đầu. AU có tính mô tả
cao về cử động khuôn mặt, tuy nhiên chúng không cung cấp bất kỳ thông tin đại diện
nào. Các AU được gán nhãn với sự mô tả của các hành động. Nhiệm vụ phân tích cảm
xúc bằng cách sử dụng FACS là dựa trên sự phân rã các biểu hiện quan sát được vào tập
các AU, sau đó cảm xúc được xác định.
Caifeng Shan, Shaogang Gong, Peter W. McOwan [5] đã thực hiện kiểm tra, so sánh
đặc trưng LBP với đặc trưng Gabor Wavelet kết hợp với các thuật toán phân lớp như
LDA, KNN, SVM trên một số cơ sở dữ liệu như JAFFE, CK+. Cụ thể, LBP kết hợp với
SVM đạt 88.9% trong khi Gabor và SVM chỉ đạt 86.8% (Table 6). LBP và SVM đạt
80.2% chiếm ưu thế hơn hẵn với 73.4% của LBP và LDA+NN (Table 8). Ưu điểm tốc độ
của LBP cũng được nhóm tác giả kiểm chứng trên Matlab, 0.03s là thời gian xử lý của
LBP trong khi Gabor cần 30s để hoàn thành công việc trích xuất đặc trưng. Điều này dễ
hiểu bởi Gabor xử lý số chiều đặc trưng là 42,650 trong khi đó LBP chỉ phải xử lý 2478.
Hầu hết các tiếp cận FER đều hoạt động tốt với các cơ sở dữ liệu được kiểm soát
nhưng lại thất bại trong môi trường thực tế. Lý do là vì các tập dữ liệu này có các ảnh
nền khác nhau, đôi khi phức tạp với nhiều ngoại vật xen kẻ với ảnh người… vì thế không
thể đưa ra được các cảm xúc chung. Shan và cộng sự thực nghiệm với các tập dữ liệu
khác nhau. Nhóm thực thiện huấn luyện phân loại với thuật toán SVM bằng việc trích
xuất đặc trưng LBP (Local Binary Pattern) trên tập dữ liệu Cohn-Kanade. Sau đó kiểm
tra bộ phân lớp đã được huấn luyện trên tập dữ liệu MMI và JAFFE. Họ quan sát thấy,
hiệu suất tổng quát trên các tập dữ liệu là thấp hơn nhiều, chẳng hạn như khoảng 50%
trên cơ sở dữ liệu MMI và khoảng 40% trên cơ sở dữ liệu JAFFE (Table 18). Nhóm của
Littlewort và cộng sự huấn luyện các đặc trưng Gabor Wavelet theo SVM trên tập dữ
liệu Cohn-Kanade và kiểm tra chúng trên cơ sở dữ liệu khác, tỷ lệ công nhận đạt được
cũng chỉ là 56% -60%. [6]
Gần đây, một số thuật toán học sâu đã được đề xuất trong học máy và áp dụng cho
phát hiện và nhận dạng các đối tượng thị giác, phân loại hình ảnh, xác minh khuôn mặt
và nhiều vấn đề nghiên cứu khác. Các nền tảng học sâu như CNN, Stacked
AutoEncoders (SAE) và Deep Belief Network (DBN) đã được trình bày, nhiều phương

Trang 9/51
pháp tiếp cận theo hướng học sâu cũng được phát triển dựa trên các nền tảng này. Những
tiếp cận học sâu sử dụng một số lượng lớn các hình ảnh để học và đạt được hiệu suất cao.
Shiam và Aza [7] đã ứng dụng CNN để thực hiện nhận diện cảm xúc mặt người. Họ thực
hiện huấn luyện CNN với nhiều mức sâu khác nhau và sử dụng tập ảnh xám từ trang web
Kaggle với kết quả đạt được là 65%. Nhóm tác giả cũng thực nghiệm kết hợp đặc trưng
HOG với CNN và kết quả đạt được không thay đổi nhiều so với CNN thuần túy.
Mundher Al-Shabi, Wooi Ping Cheah, Tee Connie [8] đã nghiên cứu đặc trưng SIFT kết
hợp với CNN và đạt 73.4% trên FER2013 và 99.1% trên CK+.
1.3 Khó khăn và thách thức
Tuy đạt được những kết quả tương đối khả quan do sự phát triển của nhiều phương
pháp như trí tuệ nhân tạo, mạng nơ ron… nhưng bài toán nhận dạng cảm xúc mặt người
vẫn còn tồn tại nhiều khó khăn và thách thức. Khó khăn trong việc phát hiện mặt người
khi ảnh đầu vào có nhiều ngoại vật khác, hướng nghiêng của mặt hay mặt bị che khuất
một phần cũng là một thách thức lớn. Ngoài ra khi xác định được khuôn mặt người, kích
thước ảnh mặt được cắt ra thường nhỏ nên độ phân giải tương đối thấp, chưa kể một số
ảnh đầu vào có độ phân giải thấp gây khó khăn cho bước tiếp theo là trích xuất và biểu
diễn đặc trưng.
Nhầm lẫn giữa các cảm xúc như ghê tởm (disgust), tức giận (angry) khi phân loại
cũng là thách thức cho bài toán FER vì mức độ tương đồng. Hay môi trường sẽ tác động
đến việc nhận biết các cảm xúc, như ánh sáng quá chói làm hệ thống không phân biệt sự
khác biệt này.
1.4 Đề xuất hướng giải quyết
Với những khó khăn và thách thức trên, luận văn giới hạn với tập ảnh đầu vào có mặt
người nhìn thẳng, ít hoặc không có các vật cản che khuất như kính râm, nón… Chúng tôi
tập trung vào bài toán nhận dạng cảm xúc nên áp dụng thuật toán phát hiện khuôn mặt
người trong ảnh do Viola & John công bố để xác định vùng khuôn mặt trong ảnh,
phương pháp này cho phép xác định khuôn mặt được chụp thẳng với độ chính xác rất cao
và xử lý với thời gian nhanh [3][6]. Đặc trưng LBP có những ưu điểm giúp hệ thống ít bị
tác động từ môi trường trường xung quanh như ánh sáng, kích thước, góc quay, và tốc độ

Trang 10/51
xử lý nhanh [5] nên chúng tôi sẽ trích đặc trưng trên khuôn mặt bằng phương pháp LBP.
Với sức mạnh của phương pháp học sâu (Deep Learning) hiện nay mà cụ thể là mạng
neural tích chập (Convolution Neural Network – CNN) cho nhận dạng xử lý ảnh cũng
như nhận dạng cảm xúc mặt người [7], chúng tôi đề xuất dùng CNN để nhận dạng từ đặc
trưng LBP đã được trích trước đó.

Trang 11/51
Chương 2: Cơ sở lý thuyết
2.1 Các phương pháp phát hiện khuôn mặt người
Đã có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám đến
ngày nay là ảnh màu [11][12]. Dựa vào tính chất của các phương pháp xác định khuôn
mặt người trên ảnh, chúng ta có thể chia các phương pháp này thành bốn hướng tiếp cận
chính sau:
- Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các loại
khuôn mặt người thành các luật. Thông thường các luật mô tả quan hệ của các đặc trưng.
- Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật toán đi
tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ không thay
đổi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay đổi.
- Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của khuôn mặt
người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các đặc
trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà
các tác giả định ra để so sánh).
- Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mô hình
học ở đây được học từ một tập ảnh huấn luyện cho trước. Sau đó hệ thống sẽ xác định
khuôn mặt người. Một số tác giả còn gọi hướng tiếp cận này là hướng tiếp cận theo
phương pháp học.
2.1.1 Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả
nghiên cứu về bài toán xác định khuôn mặt người. Đây là hướng tiếp cận dạng top-down.
Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt và các quan hệ
tương ứng. Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng
ở giữa khuôn mặt và có một mũi, một miệng. Các quan hệ của các đặc trưng có thể được
mô tả như quan hệ về khoảng cách và vị trí. Thông thường các tác giả sẽ trích đặc trưng
của khuôn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác
định thông qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải

Trang 12/51
khuôn mặt. Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ
tri thức con người sang các luật một cách hiệu quả. Nếu các luật này quá chi tiết (chặt
chẽ) thì khi xác định có thể xác định thiếu các khuôn mặt có trong ảnh, vì những khuôn
mặt này không thể thỏa mãn tất cả các luật đưa ra. Nhưng các luật tổng quát quá thì có
thể chúng ta sẽ xác định lầm một vùng nào đó không phải là khuôn mặt mà lại xác định
là khuôn mặt. Và cũng khó khăn khi cần mở rộng yêu cầu của bài toán để xác định các
khuôn mặt có nhiều tư thế khác nhau.
Hình 1 - (a) Ảnh ban đầu có độ phân giải n=1; (b), (c), (d) Ảnh có độ phân
giải n=4, 8, 16
Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định các
khuôn mặt. Hệ thống của hai tác giả này bao gồm ba mức luật. Ở mức cao nhất, dùng
một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên có thể là
khuôn mặt. Ở mức kế tiếp, hai ông dùng một tập luật để mô tả tổng quát hình dáng
khuôn mặt. Còn ở mức cuối cùng lại dùng một tập luật khác để xem xét ở mức chi tiết
các đặc trưng khuôn mặt. Một hệ thống đa độ phân giải có thứ tự được dùng để xác định,
hình 1. Các luật ở mức cao nhất để tìm ứng viên như: “vùng trung tâm khuôn mặt (phần
tối hơn trong hình 2) có bốn phần với một mức độ đều cơ bản”, “phần xung quanh bên
trên của một khuôn mặt (phần sáng hơn trong hình 2) có một mức độ đều cơ bản”, và
“mức độ khác nhau giữa các giá trị xám trung bình của phần trung tâm và phần bao bên
trên là đáng kể”. Ở mức hai, xem xét biểu đồ của các ứng viên để loại bớt ứng viên nào
không phải là khuôn mặt, đồng thời dò ra cạnh bao xung quanh ứng viên. Ở mức cuối
cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về mắt
và miệng. Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để giảm số
lượng tính toán trong xử lý. Mặc dù tỉ lệ chính xác chưa cao, nhưng đây là tiền đề cho
nhiều nghiên cứu sau này.

Trang 13/51
Hình 2 - Một loại tri thức của nghiên cứu phân tích trên khuôn mặt
Kotropoulos và Pitas đưa một phương pháp dùng trên độ phân giải thấp. Hai ông
dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt. Kanade đã thành công
với phương pháp chiếu để xác định biên của khuôn mặt, các hàm để chiếu ảnh theo
phương ngang và thẳng đứng, hình 3.
(a) (b) (c)
Hình 3 - Phương pháp chiếu: (a) Ảnh chỉ có 1 khuôn mặt và hình nền đơn giản;
(b) Ảnh chỉ có 1 khuôn mặt và hình nền phức tạp; (c) Ảnh có nhiều khuôn mặt
Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu cục bộ cho ta biết vị trí miệng,
đỉnh mũi, và hai mắt. Các đặc trưng này đủ để xác định khuôn mặt.
2.1.2 Hướng tiếp cận dựa trên so khớp mẫu
Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp
thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm. Từ một
ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt,
mắt, mũi và miệng. Thông qua các giá trị tương quan này mà các tác giả quyết định có
hay không có tồn tại khuôn mặt trong ảnh. Hướng tiếp cận này có lợi thế là rất dễ cài đặt,
nhưng không hiệu quả khi có sự thay đổi về tỉ lệ, tư thế và hình dáng.
Sinha dùng một tập nhỏ các bất biến ảnh trong không gian ảnh để mô tả không gian
các mẫu ảnh. Tư tưởng chính của ông dựa vào sự thay đổi mức độ sáng của các vùng
khác nhau của khuôn mặt (như hai mắt, hai má, và trán), quan hệ về mức độ sáng của các
vùng còn lại thay đổi không đáng kể. Xác định các cặp tỉ số của mức độ sáng của một số

Trang 14/51
vùng (một vùng tối hơn hay sáng hơn) cho ta một lượng bất biến khá hiệu quả. Các vùng
có độ sáng đều được xem như một mẫu tỉ số mà là mẫu thô trong không gian ảnh của
một khuôn mặt với độ thích hợp ít dùng để chọn như các đặc trưng chính của khuôn mặt
như hai mắt, hai má, và trán. Lưu giữ thay đổi độ sáng của các vùng trên khuôn mặt
trong một tập thích hợp với các cặp quan hệ sáng hơn – tối hơn giữa các vùng nhỏ.
Một khuôn mặt được xác định khi một ảnh phù hợp tất cả các cặp sáng hơn – tối hơn.
Ý tưởng này xuất phát từ sự khác biệt của cường độ giữa các vùng kề cục bộ, sau này
được mở rộng trên cơ sở biến đổi Wavelet để biểu diễn cho xác định người đi bộ, xác
định xe hơi, xác định khuôn mặt. Hình 4 cho thấy mẫu nổi bật trong 23 quan hệ được
định nghĩa. Dùng các quan hệ này để phân loại, có 11 quan hệ thiết yếu (các mũi tên màu
đen) và 12 quan hệ xác thực (các mũi tên xám). Mỗi mũi tên là một quan hệ. Một quan
hệ thỏa mãn mẫu khuôn mặt khi tỉ lệ giữa hai vùng vượt qua một ngưỡng và 23 quan hệ
này vượt ngưỡng thì xem như xác định được một khuôn mặt.
Phương pháp so khớp mẫu theo thứ tự để xác định khuôn mặt người do Miao trình
bày. Ở giai đoạn đầu tiên, ảnh sẽ được xoay từ -200
đến 200
với mỗi bước là 50
và theo
thứ tự. Xây dựng ảnh đa độ phân giải, rồi dùng phép toán Laplace để xác định các cạnh.
Một mẫu khuôn mặt gồm các cạnh mô tả sáu thành phần: hai lông mày, hai mắt, một
mũi, và một miệng.
Hình 4 - Mẫu khuôn mặt, có 16 vùng và 23 quan hệ (các mũi tên)
Wei và Lai dùng bộ lọc để phân đoạn kết hợp thuật toán tìm láng giềng gần nhất xác
định ứng viên khuôn mặt, từ ứng viên này sau đó so khớp với các mẫu đã xác định trước
để biết ứng viên có phải là khuôn mặt hay không. Tỉ lệ chính xác là 80%.

Trang 15/51
2.1.3 Hướng tiếp cận dựa trên diện mạo
Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước
bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu. Một
các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo
hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khuôn mặt và
không phải là khuôn mặt. Các đặc tính đã được học ở trong hình thái các mô hình phân
bố, hay các hàm biệt số có thể dùng các đặc tính này để xác định khuôn mặt người. Đồng
thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như
hiệu quả xác định. Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như
một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải
khuôn mặt bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện p(x | khuôn
mặt) và p(x | không phải khuôn mặt). Có thể dùng phân loại Bayes hoặc khả năng cực đại
để phân loại một ứng viên là khuôn mặt hay không phải là khuôn mặt. Không thể cài đặt
trực tiếp phân loại Bayes bởi vì số chiều của x khá cao, bởi vì p(x | khuôn mặt) và p(x |
không phải khuôn mặt) là đa thức và chưa thể hiểu nếu xây dựng các dạng tham số hóa
một cách tự nhiên cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Có khá nhiều
nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham số hay không có tham số
cho p(x | khuôn mặt) và p(x | không phải khuôn mặt). Các tiếp cận khác trong hướng tiếp
cận dựa trên diện mạo là tìm một hàm biệt số (như: mặt phẳng quyết định, siêu phẳng để
tách dữ liệu, hàm ngưỡng) để phân biệt hai lớp dữ liệu: khuôn mặt và không phải khuôn
mặt. Bình thường, các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn, rồi sau
đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) để phân loại, hoặc xây dựng
mặt quyết định phi tuyến bằng mạng nơ-ron đa tầng. Hoặc dùng SVM (Support Vector
Machine) và các phương thức kernel, chiếu hoàn toàn các mẫu vào không gian có số
chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phẳng quyết
định, phân loại các mẫu khuôn mặt và không phải khuôn mặt.
2.1.3.1 Eigenface
Kohonen đã đưa ra phương pháp dùng vector riêng để nhận dạng khuôn mặt, ông
dùng một mạng nơ-ron đơn giản để chứng tỏ khả năng của phương pháp này trên các ảnh

Trang 16/51
đã được chuẩn hóa. Mạng nơ-ron tính một mô tả của khuôn mặt bằng cách xấp xỉ các
vector riêng của ma trận tương quan của ảnh.
Các vector riêng sau này được biết đến với cái tên Eigenface. Kirby và Sirovich
chứng tỏ các ảnh có các khuôn mặt có thể được mã hóa tuyến tính bằng một số lượng
vừa phải các ảnh cơ sở. Tính chất này dựa trên biến đổi Karhunen-Lòeve, mà còn được
gọi dưới một cái tên khác là PCA và biến đổi Hotelling. Ý tưởng này được xem là của
Pearson trình bày đầu tiên vào năm 1901 và sau đó là Hotelling vào năm 1933. Cho một
tập các ảnh huấn luyện có kích thước n x m được mô tả bởi các vector có kích thước m x
m, các vector cơ sở cho một không gian con tối ưu được xác định thông qua lỗi bình
phương trung bình khi chiếu các ảnh huấn luyện vào không gian con này. Các tác giả gọi
tập các vector cơ sở tối ưu này là ảnh riêng, sau đó gọi cho đơn giản là vector riêng của
ma trận hiệp phương sai, được tính từ các ảnh khuôn mặt đã vector hóa trong tập huấn
luyện.
Turk và Pentland áp dụng PCA để xác định và nhận dạng khuôn mặt. Tương tự, dùng
PCA trên tập huấn luyện ảnh các khuôn mặt để sinh các ảnh riêng (còn gọi là Eigenface)
để tìm một không gian con (không gian khuôn mặt) trong không gian ảnh. Các ảnh
khuôn mặt được chiếu vào không gian con này và được gom nhóm lại. Tương tự các ảnh
không có khuôn mặt dùng để huấn luyện cũng được chiếu vào cùng không gian con và
gom nhóm lại. Các ảnh khi chiếu vào không gian khuôn mặt thì không bị thay đổi tính
chất cơ bản, trong khi chiếu các ảnh không có khuôn mặt thì xuất hiện nhiều sự khác
nhau. Xác định sự có mặt của một khuôn mặt trong ảnh thông qua tất cả khoảng cách
giữa các vị trí trong ảnh và không gian ảnh. Khoảng cách này dùng để xem xét có hay
không có khuôn mặt người, kết quả khi tính toán các khoảng cách sẽ cho ta một bản đồ
về khuôn mặt. Có thể xác định được từ cực tiểu cục bộ của bản đồ này. Có nhiều nghiên
cứu về xác định khuôn mặt, nhận dạng, và trích đặc trưng từ ý tưởng vector riêng, phân
rã và gom nhóm.
2.1.3.2 Mạng Nơ-ron
Mạng nơ-ron được áp dụng khá thành công trong các bài toán nhận dạng mẫu, như:
nhận ký tự, đối tượng, robot tự động vận hành. Xác định khuôn mặt người có thể xem là
bài toán nhận dạng hai loại mẫu, có nhiều kiến trúc mạng nơ-ron đã được trình bày. Một

Trang 17/51
thuận lợi khi dùng mạng nơ-ron để xác định khuôn mặt là tính khả thi của hệ thống học
khi có sự phức tạp trong lớp của các mẫu khuôn mặt. Tuy nhiên, một điều trở ngại là các
kiến trúc mạng đều tổng quát, khi áp dụng thì phải xác định rõ ràng số lượng tầng, số
lượng node, tỉ lệ học … cho từng trường hợp cụ thể, hình 5.
Hình 5 - Mô hình mạng nơ-ron theo Rowley
2.1.3.3 Support Vector Machine
Support Vector Machine (SVM) là một kỹ thuật học được Vapnik đề xuất. Phương
pháp này rất hiệu quả với tập dữ liệu lớn, nhưng lại gặp khó khăn khi cần phải mô tả lại
chính xác các khuôn mặt (vì tính biến thiên của khuôn mặt).
Osuna áp dụng phương pháp này đầu tiên để xác định khuôn mặt người. SVM được
xem như là một kiểu mới dùng huấn luyện để phân loại theo hàm đa thức. Trong khi hầu
hết các phương pháp khác dùng huấn luyện để phân loại (Mạng Bayes, Nueral, RBF) đều
dùng tiêu chí tối thiểu lỗi huấn luyện (rủi ro do kinh nghiệm), trong khi SVM dùng quy
nạp (được gọi là tối thiểu rủi ro cấu trúc), mục tiêu là làm tối thiểu một bao bên trên lỗi
tổng quát. Một phân loại SVM là một phân loại tuyến tính, dùng một mặt phẳng để tách
dữ liệu. Dựa trên một kết hợp có các trọng số của một tập con nhỏ các vector huấn luyện,
các vector này được gọi là support vector. Ước lượng mặt phẳng tương đương với việc
giải một bài toán tuyến tính bậc hai. Osuna đã phát triển một phương pháp hiệu quả để
huấn luyện một SVM với tỉ lệ lớn để áp dụng cho bài toán xác định khuôn mặt người.
Ông dùng 10,000,000 mẫu có kích thước 19 x 19 điểm ảnh, hệ thống của ông có tỉ lệ lỗi
ít hơn Sung và Poggio, nhưng nhanh hơn gần 30 lần. SVM cũng có thể dùng xác định
khuôn mặt người và người đi bộ với phân tích Wavelet.

Trang 18/51
2.1.3.4 AdaBoost
AdaBoost là một phân loại mạnh phi tuyến phức HM(x), được xây dựng từ M phân
loại yếu. Mục tiêu của Adaboost là học một dãy các phân loại yếu. Giả sử có một tập N
mẫu huấn luyện đã được gán nhãn {(x1,y1), …, (xN,yN)}, với yi là nhãn tương ứng của
mẫu xi ∈ Rn. Tính một phân bố của các mẫu huấn luyện [w1,…, wN] cập nhật trong suốt
quá trình học. Sau bước lặp m, mẫu khó phân loại (xi,yi) có trọng số mới wi (m), đến
bước lặp thứ (m+1), mẫu này sẽ có tầm quan trọng hơn. Viola và Jones dùng AdaBoost
kết hợp Cascade để xác định khuôn mặt người với các đặc trưng dạng Haar Wavelet-like.
2.1.3.5 Mô hình Markov ẩn
Samaria và Young dùng Mô hình Markov ẩn một chiều (Hidden Markov Model –
HMM) (hình 6) và hai chiều (hình 7) để trích đặc trưng khuôn mặt dùng để nhận dạng
khuôn mặt. HMM khai thác cấu trúc của khuôn mặt tuân theo các chuyển tiếp trạng thái.
Từ các cùng có đặc trưng quan trọng như: tóc, trán, mắt, mũi, và miệng, hai ông phân
tích theo tự nhiên từ trên xuống dưới, mỗi vùng được thiết kế thành một trạng thái 1-
chiều. Mỗi ảnh được phân đoạn chuẩn thành năm vùng theo thứ tự từ trên xuống dưới tạo
thành năm trạng thái.
Hình 6 - Mô hình Markov ẩn: (a) các vector quan sát để huấn luyện cho HMM;
(b) năm trạng thái ẩn

Trang 19/51
Hình 7 - Xác định khuôn mặt bằng HMM các trạng thái, mỗi trạng thái lại có
những trạng thái nhỏ bên trong: trạng thái trán có ba trạng thái nhỏ bên trong;
trạng thái mắt có năm trạng thái nhỏ bên trong
2.2 LBP
Mẫu nhị phân địa phương (Local Binary Pattern - LBP) được Ojala trình bày vào năm
1996 như là một cách đo độ tương phản cục bộ của ảnh. Phiên bản đầu tiên của LBP
được dùng với 8 điểm ảnh láng giềng và sử dụng giá trị của điểm ảnh ở trung tâm làm
ngưỡng. Giá trị LBP được xác định bằng cách nhân các giá trị ngưỡng với trọng số ứng
với mỗi điểm ảnh sau đó cộng tổng lại.
Dãy LBP được Ojala cải tiến trình bày vào năm 2002. Định nghĩa một cấu trúc điểm
ảnh T là một phân phối đại số của cấp độ xám của P +1 (P > 0) điểm ảnh như công thức
(2.1).
T = t(gc,g0,…,gp-1) (2.1)
Với gc ứng với cấp độ xám của điểm ảnh trung tâm Ptt , gp (p = 0,…,1) tương ứng với
P điểm ảnh xung quanh, P điểm ảnh này nằm trên đường tròn bán kính R và tâm là Ptt,
hình 8.

Trang 20/51
Hình 8 - Tập hợp các điểm xung quanh Ptt: (a) bán kính 1 pixel; (b) bán kính 2.5
pixel; (c) bán kính 4 pixel
Không mất thông tin, ta có thể trừ gp đi một lượng là gc như công thức (2.2).
T = t(gc,g0 – gc ,…,gp – gc) (2.2)
Giả sử sự sai số giữa gp và gc là độc lập với gc, ta có thể nhân tử hóa gc như sau:
T = t(gc)t(g0- gc,…,gp-1- gc) (2.2.1)
t(gc) biểu thị xu hướng độ sáng tối của cả bức ảnh nên không liên quan đến kết cấu
của ảnh cục bộ do đó có thể bỏ qua
T~ t((g0 – gc),…,(gp-1 – gc)) (2.2.2)
Mặc dù tính bất biến ngược với độ thay đổi tỷ lệ xám của điểm ảnh, sự khác biệt ảnh
hưởng bởi tỷ lệ. Để thu được đặc điểm bất biến với bất kỳ một sự thay đổi nào của ảnh
đen trắng (gray scale) chỉ quan tâm đến dấu của độ lệch:
T ~ t (s(g0 – gc),…,s(gp-1 – gc)) (2.2.3)
Với s là hàm dấu: s(x) =
1 x ≥ 0
0 x < 0
Trọng số 2p được dùng cho các hàm dấu, s(gp – gc) để chuyển sự khác biệt giữa các
điểm ảnh bên cạnh về một giá trị duy nhất, công thức 2.3.
LBPP,R = ∑ s(gp – gc)*2p
(2.3)
Với P pixel thì có 2p giá trị LBPP,R trong khoảng [0,2p-1 ] nhưng để đơn giản ta
có thể chọn một số giá trị trong 2p giá trị ký hiệu là ,
(a) P=8, R=1.0 (b) P=12, R=2.5 (c) P=16, R=4.0

Nguyễn
Thuậ
Thôn
tin của c
Bước
Bước
của các p
Tron
các trung
Ví dụ
Một
nhất là 2
0000000
là unifor
uniform
Dựa
1) + 3 nh
sau đây
hình 10.
Sơn Hóa
ật toán LB
ng tin LBP
các pixel lận
c 1: Xác địn
c 2: Tính g
pixel lân cậ
ng đó, (gp) l
g tâm và (s)
ụ
1*2
mẫu nhị ph
2 lần thay đ
00 có 0 tran
rm LBP. 11
LBP.
trên định n
hãn. Có ngh
thể hiện 59
.
BP
của pixel t
n cận. Có th
nh bán kính
giá trị LBP
ận:
là giá trị gr
) là hàm nh
20
+ 1*21
+
Hình 9 -
hân được g
ổi (transitio
nsitions, 01
1001001 có
nghĩa này, b
hĩa là có 59
9 nhãn (mẫu
T
ại trung tâm
hể tóm tắt c
h làm việc.
cho pixel ở
rayscale củ
hị phân đượ
1*22
+ 1*2
- Các biến t
gọi là đồng
ons) từ giá t
1110000 có
ó 4 transitio
bảng ánh xạ
9 nhãn trong
u) và minh h
Nhận dạ
Trang 21/51
m của mỗi k
các bước tiế
ở trung tâm
a các pixel
c xác định n
23
+ 0*24
+
thể của LB
g dạng khi x
trị bit 0 san
2 transition
ons, 010100
ạ cho bán kí
g trường hợ
họa về histo
ạng cảm xúc
1
khối ảnh sẽ
ến hành như
m (xc, yc) kh
l lân cận, (g
như sau: s(z
0*25
+ 0*2
BP LBP đồn
xét chuỗi b
g 1 hoặc từ
ns, 1100111
011 có 6 tran
ính làm việc
ợp làm việc
ogram của đ
c mặt ngườ
ẽ được tính
ư sau:
hối ảnh dựa
gc) là giá tr
z) = 1 nếu g
6
+ 0*27
=
ng dạng
bit xoay vòn
ừ giá trị bit 1
11 có 2 tran
nsitions nên
c P -neighb
c với 8-neig
đặc trưng L
ời với LBP-C
dựa trên th
a trên thông
rị grayscale
giá trị z ≥0.
15.
ng thì có n
1 sang 0. Ví
nsitions nên
n không ph
bours sẽ có
ghbour. Hìn
LBP đồng d
CNN
hông
g tin
e của
nhiều
í dụ:
n đây
hải là
P(P-
nh vẽ
dạng,

Nguyễn
Nguy
Tron
kiểm tra
phải có
thống k
Kullback
Với
thuộc và
dụng tro
Kiến
phân phố
phân phố
phân phố
Lớp
nhất” the
Bên
sự khác
Sơn Hóa
yên lý phân
ng phân lớp
a thống kê
những giả
kê được ch
k (1968). S
G(S,M)
S, M kí hiệ
ào phân phố
ong phân lớp
n trúc mô hì
ối LBP. Tro
ối đơn giản
ối S. L là m
C của một
eo công thứ
cạnh đó, m
biệt và có
Hình 10 - B
n lớp khôn
, sự khác bi
không tham
thiết về ph
họn cho mụ
Sau đó, Soka
) = 2* ∑
ệu phân phố
ối mẫu hoặc
p có thể viế
ình có thể x
ong một ph
n Mi. Tương
một giả ma t
t mẫu khôn
ức (2.4).
một đại lượn
thể sử dụn
T
Bảng thống
ng tham biế
iệt giữa mẫ
m số. Phươ
hân phối của
ục đích là
al và Rohlf
Sb log
ối mẫu và m
c mô hình.
ết lại như sa
L(S,M) = −
xem như xử
hân lớp đơn
g tự , một k
trận đo khả
ng xác định
ng của thống
ng để liên k
Nhận dạ
Trang 22/51
g kê các mẫ
ến
ẫu và mô hì
ơng pháp tiế
a các đặc tr
nguyên lý
(1969) gọi
2 ∑ !S
mô hình m
B là số phầ
au:
− ∑ Sb l
ử lý ngẫu n
n giản , mỗi
kiến trúc mẫ
năng mẫu S
có thể đượ
"#$%&'()
g kê là log-
kết nhiều bộ
ạng cảm xúc
1
ẫu của uni
ình phân ph
ếp cận này
rưng. Thôn
ý cross-entr
cách đo nà
Sb ∗ logSb +
mong muốn.
ần tử trong
og Mb
nhiên có đặ
i lớp được b
ẫu không x
S có thể thu
ợc xác định
)-, /(00
-likelihood
ộ phân lớp
c mặt ngườ
iform LBP
hối LBP đượ
có ưu điểm
ng thường, n
ropy được
ày là thống k
+ Sb ∗ logM
. Sb và Mb l
phân phối.
ặc tính có th
biểu diễn bở
xác định có
uộc lớp i.
h bởi luật “
có thể xem
giống như
ời với LBP-C
ợc đánh giả
m là không
những kiểm
giới thiệu
kê G.
Mb1
là xác suất
Thống kê G
hể xác định
ởi một mô h
thể miêu tả
“láng giềng
(
m như đơn v
bộ phân lớ
CNN
ả bởi
g cần
m tra
bởi
để b
G sử
h bởi
hình
ả bởi
gần
(2.4)
vị đo
ớp k-

Nguyễn
NN hoặc
tốt trong
Trong tr
công thứ
công thứ
Phép
LBP
phép qu
(hình ph
tiên cho
Hì
LBP
và LBP
rotation
P-láng g
8-láng g
Sơn Hóa
c ánh xạ tự
g một số trư
rường hợp
ức (2.5). Để
ức (2.6).
p quay bất
bất biến vớ
ay này điểm
hải): tất cả
giá trị nhỏ
(a)
ình 11 - Mi
đồng dạng
bất biến vớ
– invariant
giềng sẽ có
giềng.
ự tổ chức (S
ường hợp n
này đại lượ
ể đạt được
biến
ới phép qua
m ảnh (x, y
8 mẫu LBP
nhất, hình
inh họa các
xoay α
g có khả năn
ới phép qua
t LBP). Dự
(P + 2) nhã
T
Self-Organiz
nhưng khôn
ợng khoảng
độ chính x
22
(S,M)
H(S,M) =
ay. Giả sử I
y) sẽ nằm tạ
P bên dưới
11.
c trường hợ
α độ; (b) tá
ng bất biến
ay có thể tạo
ựa trên định
ãn . Có ngh
Nhận dạ
Trang 23/51
zing Map –
ng ổn định
g cách Chi
xác cao tác
= ∑
)
)
= ∑ min)
Iα(x, y) là ả
ại vị trí (x',
được ánh x
ợp của LB
ám mẫu LB
với phép qu
o nên một d
h nghĩa này
hĩa là có 10
ạng cảm xúc
1
– SOM). Lo
khi mà kíc
-square thư
giả đề xuấ
06
7 0
)Sb, Mb0
ảnh quay gó
, y') như hìn
xạ về mẫu
BP khi quay
BP tương ứ
uay Kết hợp
dạng biến th
y, bảng ánh
0 nhãn trong
c mặt ngườ
og-likelihoo
ch thước dữ
ường cho k
ất sử dụng g
óc (α) của ả
nh (11.a). T
LBP đầu t
(b)
y với góc 15
ứng
p của mẫu L
hể khác của
xạ cho bán
g trường hợ
ời với LBP-C
od cho đánh
ữ liệu mẫu
kết quả tốt
giao histogr
(
(
ảnh I(x, y).
Trong ví dụ
tiên vì mẫu
5 độ: (a) ản
LBP đồng d
a LBP (unif
n kính làm
ợp làm việc
CNN
h giá
nhỏ.
hơn,
ram,
(2.5)
(2.6)
. Với
ụ này
đầu
nh
dạng
form
việc
c với

Trang 24/51
Để không bị ảnh hưởng bởi tính chất quay, mỗi giá trị LBP cần quay ngược lại về vị
trí ban đầu, cách tốt nhất là tạo ra tất cả các trường hợp quay của một mẫu, phép biến đổi
quay có thể định nghĩa như công thức (2.7).
89
:,;
= min { ROR(LBPP,R,i) i=0,1,…,P-1} (2.7)
Trong đó ri là phép quay bất biến, ROR(x,i) là phép dịch chuyển vòng tròn số nhị
phân P-bit (x) i lần theo chiều kim đồng hồ.
Độ tương phản và kết cấu mẫu
Kết cấu có thể được coi là một hiện tượng hai chiều được đặc trưng bởi hai đặc tính
trực giao: cấu trúc không gian (mô hình) và độ tương phản (độ mạnh của mô hình). Phép
quay bất biến tương phản địa phương có thể được đo trong một hình tròn đối xứng xung
quanh giống như LBP, công thức (2.8).
VARP,R = <
∑<
(gp – μ02
(2.8)
Trong đó: > = <
∑<
gp
Tổng hợp lại ta có : 89
< ,:
/ VARP2,R2
Ví dụ về trích rút đặc trưng LBP trên ảnh
Với một ảnh có kích thước 4x4 Giá trị đặc trưng LBP sẽ là
23 27 33 64
35 29 15 65
6 72 11 30
1 31 3 90
56 104 24 32
16 164 223 2
30 0 223 34
14 2 143 0

Nguyễn
C
Sơn Hóa
Cụ thể
T
23 27
35 29
6 72
1 31
Nhận dạ
Trang 25/51
7 33
9 15
2 11
1 3
ạng cảm xúc
1
64
65
30
90
c mặt ngườ
ời với LBP-C
CNN

Nguyễn
Thuậ
trưng nh
Sơn Hóa
ật toán trích
hanh vì nó l
Hình 12 -
h rút đặc tr
làm việc vớ
T
- Ví dụ về q
rưng LBP c
ới giá trị ngu
56 10
16 16
30 0
14 2
Nhận dạ
Trang 26/51
quá trình t
cài đặt đơn
uyên.
04 24
64 223
0 223
2 143
ạng cảm xúc
1
tính toán đ
n giản, thời
32
2
34
0
c mặt ngườ
đặc trưng
gian tính t
ời với LBP-C
toán giá trị
CNN
ị đặc

Trang 27/51
2.3 Mạng nơ-ron tích chập
2.3.1 Tổng quan mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) là một mô hình xử lý
thông tin phỏng theo cách thức xử lý thông tin của các hệ nơ-ron sinh học. Nó được tạo
nên từ một số lượng lớn các phần tử (nơ-ron) kết nối với nhau thông qua các liên kết
(trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào
đó. Cấu trúc nơ-ron nhân tạo có dạng như hình 13.
Hình 13 – Cấu trúc nơ-ron nhân tạo
Các thành phần cơ bản của một nơ-ron nhân tạo bao gồm:
• Tập các đầu vào: là các tín hiệu vào (input signals) của nơ-ron, các tín hiệu này
thường được đưa vào dưới dạng một vector N chiều.
• Tập các liên kết: mỗi liên kết được thể hiện bởi một trọng số liên kết – Synaptic
weight.
• Bộ tổng (Summing function): thường dùng để tính tổng của tích các đầu vào với
trọng số liên kết của nó.
• Ngưỡng (còn gọi là một độ lệch - bias): ngưỡng này thường được đưa vào như một
thành phần của hàm truyền.
• Hàm truyền (Transfer function): hàm này được dùng để giới hạn phạm vi đầu ra của
mỗi nơ-ron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng.
• Đầu ra: là tín hiệu đầu ra của một nơ-ron, với mỗi nơ-ron sẽ có tối đa là một đầu ra.

Nguyễn
Xét v
Tron
của nơ-r
ra của nơ
Một




2.3.2 Mạ
Mạng
mô hình
thông m
Mô h
Tron
Layer tiế
nối cục b
cục bộ c
Sơn Hóa
về mặt toán
uk = ∑?
yk = f ( u
ng đó: x1, x2
ron thứ k; u
ơ-ron.
số kiểu Mạ
 Tự kết hợ
 Kết hợp k
 Kiến trúc
 Kiến trúc
ạng nơ-ron
g nơ-ron tíc
h học chuy
minh với độ
hình mạng
ng mô hình
ếp theo là k
bộ. Nghĩa l
của nơ-ron l
n học, cấu tr
wkj xj
uk - bk )
2, ..., xp: là
uk là hàm tổ
ạng Nơ-ron
ợp (Autoass
khác kiểu (
c truyền thẳ
c phản hồi (
n tích chập
ch chập (Co
yên sâu tiên
chính xác c
g nơ-ron tíc
CNN các l
kết quả con
à mỗi nơ-ro
layer trước
Hình
T
rúc của một
các tín hiệ
ổng; bk là m
n:
sociative)
(Heteroasso
ẳng (Feedfo
(Feedback a
p
onvolutiona
n tiến giúp
cao như hiện
ch chập
layer liên kế
nvolution từ
on ở layer t
đó, hình 14
14 - Mô hì
Nhận dạ
Trang 28/51
t nơ-ron k, đ
ệu vào; (wk1
một ngưỡng;
ociative)
orward arch
architecture
al Neural N
cho chúng
n nay.
ết được với
ừ layer trướ
tiếp theo sin
4.
nh mạng n
ạng cảm xúc
1
được mô tả
1, wk2,..., wk
; f là hàm tr
hitechture)
e)
Network – C
g ta xây dự
i nhau thôn
ớc đó, nhờ v
nh ra từ filte
nơ-ron tích
c mặt ngườ
ả bằng cặp b
kp) là các tr
ruyền và yk
CNN ) là m
ựng được n
ng qua cơ ch
vậy mà ta c
er áp đặt lên
h chập
ời với LBP-C
biểu thức:
rọng số liên
k là tín hiệu
một trong nh
những hệ th
hế convolut
có được các
n một vùng
CNN
n kết
u đầu
hững
hống
tion.
c kết
g ảnh

Trang 29/51
CNN có tính bất biến và tính kết hợp cục bộ (Location Invariance and
Compositionality). Với cùng một đối tượng, nếu đối tượng này được chiếu theo các gốc
độ khác nhau (translation, rotation, scaling) thì độ chính xác của thuật toán sẽ bị ảnh
hưởng đáng kể. Pooling layer sẽ cho bạn tính bất biến đối với phép dịch chuyển
(translation), phép quay (rotation) và phép co giãn (scaling).
Xây dựng mạng nơ-ron tích chập
Mạng tích chập sử dụng 3 ý tưởng cơ bản: các trường tiếp nhận cục bộ (local
receptive field), trọng số chia sẻ (shared weights) và tổng hợp (pooling). Chúng ta hãy
xem xét lần lượt từng ý tưởng.
Trường tiếp nhận cục bộ (Local receptive fields): Trong các tầng kết nối đầy đủ được
chỉ ra trước đây, đầu vào đã được mô tả là một đường thẳng đứng chứa các nơ-ron.
Trong mạng tích chập, ta sẽ thay thế các đầu vào là 28×28 nơ-ron, giá trị tương ứng với
28x28 cường độ điểm ảnh mà chúng ta sử dụng.
Như thường lệ chúng ta sẽ kết nối các điểm ảnh đầu vào cho các nơ-ron ở tầng ẩn.
Nhưng chúng ta sẽ không kết nối mỗi điểm ảnh đầu vào cho mỗi neuron ẩn. Thay vào
đó, chúng ta chỉ kết nối trong phạm vi nhỏ, các vùng cục bộ của bức ảnh.
Để được chính xác hơn, mỗi nơ-ron trong lớp ẩn đầu tiên sẽ được kết nối với một
vùng nhỏ của các nơ-ron đầu vào, ví dụ, một vùng 5×5, tương ứng với 25 điểm ảnh đầu
vào. Vì vậy, đối với một nơ-ron ẩn cụ thể, chúng ta có thể có các kết nối như trên.
Vùng đó trong bức ảnh đầu vào được gọi là vùng tiếp nhận cục bộ cho nơ-ron ẩn. Đó
là một cửa sổ nhỏ trên các điểm ảnh đầu vào. Mỗi kết nối sẽ học một trọng số. Và nơ-ron
ẩn cũng sẽ học một độ lệch (overall bias). Bạn có thể hiểu rằng nơ-ron lớp ẩn cụ thể là
học để phân tích trường tiếp nhận cục bộ cụ thể của nó.
Sau đó chúng ta trượt trường tiếp nhận cục bộ trên toàn bộ bức ảnh, hình 15. Đối với
mỗi trường tiếp nhận cục bộ, có một nơ-ron ẩn khác trong tầng ẩn đầu tiên . Để minh họa
điều này một cách cụ thể, chúng ta hãy bắt đầu với một trường tiếp nhận cục bộ ở góc
trên bên trái. Sau đó, chúng ta trượt trường tiếp nhận cục bộ trên bởi một điểm ảnh bên
phải (tức là bằng một nơ-ron), để kết nối với một nơ-ron ẩn thứ hai.

Nguyễn
Trọn
độ lệch
vẫn chưa
ron ẩn 2
Ở đâ
trước; b
cùng, ch
Lớp
nơ-ron t
lớp tích
lớp tích
Ví dụ
trước. M
pooling
như hình
Sơn Hóa
ng số chia s
(bias) và 5
a đề cập đế
24 × 24. Nói
ây, σ là hàm
là giá trị c
húng ta sử d
chứa hay lớ
ích chập cũ
chập. Nhữn
chập.
ụ, mỗi đơn
Một thủ tục
chỉ đơn giả
h 16 minh h
Hình 15
ẻ và độ lệch
× 5 trọng s
ến là chúng
i cách khác
@
m kích hoạt
chung cho đ
dụng axy biể
ớp tổng hợp
ũng chứa cá
ng gì các lớ
Hình
n vị trong lớ
c pooling p
ản là kết qu
họa. Lưu ý r
T
5 - Mô hình
ch (Shared w
số liên kết v
ta sẽ sử dụ
c, đối với nh
@AB C ∑ ∑
D
E
neuron - h
độ lệch; l, m
ểu thị giá tr
p (Pooling l
ác lớp pooli
ớp pooling l
h 16 - Quan
ớp pooling
phổ biến là
uả đầu ra kíc
rằng bởi vì
Nhận dạ
Trang 30/51
h trường tiế
weights and
với trường
ng các trọn
hững neuron
∑ FE,G"H
D
G
hàm sigmoid
m là một m
rị kích hoạt
layer): Ngo
ing. Lớp po
làm là đơn g
n hệ neuron
có thể thu
max-pooli
ch hoạt giá
chúng ta có
ạng cảm xúc
1
ếp nhận cụ
d biases) : M
tiếp nhận c
ng số và độ
n ẩn thứ j, k
H7E,I7GJ
d chúng ta
mảng 5 × 5 c
đầu vào tại
oài các lớp t
ooling thườn
giản hóa cá
n ẩn và poo
gọn một v
ing. Trong
á trị lớn nhấ
ó 24×24 nơ
c mặt ngườ
ục bộ
Mỗi một ne
cục bộ. Nhữ
lệch tương
k đầu ra như
sử dụng tro
của trọng s
i vị trí x, y.
tích chập vừ
ng được sử
ác thông tin
oling
vùng 2×2 nơ
max-poolin
ất trong vùn
ơ-ron đầu ra
ời với LBP-C
euron ẩn có
ững gì chún
tự cho mỗi
ư công thức
ong các chư
số chia sẻ. C
.
ừa mô tả, m
ử dụng ngay
n ở đầu ra từ
ơ-ron trong
ng, một đơ
ng đầu vào 2
a từ các lớp
CNN
một
ng ta
i nơ-
c 2.9
(2.9)
ương
Cuối
mạng
y sau
ừ các
g lớp
ơn vị
2×2,
p tích

Nguyễn
chập, sa
thường c
đồ đặc t
pooling
Chúng t
nhất đượ
tin định
xác của
ích lớn l
giúp giả
Bây
tích chập
lớp 7 nơ
v.v…), h
là, lớp n
Sơn Hóa
au khi pool
có nhiều hơ
trưng riêng
sẽ kết hợp
a có thể hiể
ợc tìm thấy
vị chính xá
nó là khôn
là có rất nhi
m số lượng
giờ chúng t
p hoàn chỉn
ơ-ron đầu r
hình 18. Lớ
này nối mọi
ling chúng
ơn một bản
biệt. Vì vậ
như hình 17
Hình
ểu max-poo
ở bất cứ đâ
ác. Trực gi
ng quan trọn
iều tính năn
g các tham s
ta có thể đặ
nh. Nó tươn
ra, tương ứn
ớp cuối cùng
nơ-ron từ l
T
ta có 12×1
đồ đặc trưn
ậy, nếu có b
7.
h 17 - Số lượ
oling như là
âu trong mộ
iác là một k
ng như vị tr
ng gộp ít hơ
số cần thiết
ặt tất cả nhữ
ng tự như k
ng với 7 gi
g của các k
lớp max-po
Hình 18 -
Nhận dạ
Trang 31/51
12 nơ-ron. N
ng. Chúng
ba bản đồ đ
ợng neuron
à một cách
ột khu vực c
khi một đặc
rí thô của n
ơn (fewer p
trong các l
ững ý tưởng
kiến trúc ch
iá trị có thể
kết nối trong
ooled tới mọ
Kích thước
ạng cảm xúc
1
Như đã đề
ta áp dụng
đặc trưng, c
n tương ứn
cho mạng
của ảnh. Sau
c trưng đã đ
nó so với cá
ooled featu
ớp sau.
g lại với nh
húng ta nhìn
ể cho cảm
g mạng là m
ọi nơ-ron củ
c giảm
c mặt ngườ
cập ở trên
max-poolin
các lớp tích
ng
để hỏi xem
au đó nó bỏ
được tìm th
ác đặc trưng
ures), và vì v
hau để tạo th
n vào, nhưn
xúc (happy
một lớp đầy
ủa tầng ra.
ời với LBP-C
n, lớp tích c
ng cho mỗi
h chập và m
m một đặc tr
đi những th
hấy, vị trí c
g khác. Mộ
vậy điều nà
hành một m
ng có thêm
y, disgust, f
y đủ kết nối
CNN
chập
i bản
max-
rưng
hông
chính
ột lợi
ày sẽ
mạng
một
fear,
i. Đó

Trang 32/51
Chương 3: Xây dựng thuật giải
Chúng tôi xây dựng sơ đồ xử lý như sơ đồ 1, để giải quyết bài toán bước đầu tiên
chúng tôi sẽ phải xác định vùng nào trong ảnh có khuôn mặt người để phân loại. Bước
thứ hai chúng tôi sử dụng đặc trưng LBP là dữ liệu đầu vào cho hệ thống phân loại 07
loại cảm xúc trên khuôn mặt: tức giận, ghê tởm, sợ hãi, hạnh phúc, buồn, ngạc nhiên và
bình thường. Bài toán chính của chúng tôi là phân loại cảm xúc trên khuôn mặt người
nên chúng tôi không tập trung vào bài toán phát hiện vùng trong ảnh có khuôn mặt
người.
3.1 Xác định vị trí khuôn mặt
Bước đầu tiên không thể thiếu trong nhận dạng cảm xúc mặt người là phát hiện
khuôn mặt. Nếu bước phát hiện khuôn mặt được thực hiện tốt thì sẽ làm tăng hiệu quả
nhận dạng của hệ thống. Chúng tôi sử dụng thuật toán do Viola-Jones [3] đề xuất với đặc
trưng Haar để xác định vùng trong ảnh có khuôn mặt người, thuật toán 3.1. Thuật toán
này cho kết quả khá cao và thời gian xử lý nhanh. Với dữ liệu khuôn mặt để nhận biết
được cảm xúc thì tư thế khuôn mặt phải được chụp thẳng (frontface) và không có mang
bất kỳ phụ kiện này che khuất các đặc trưng, đây là tiền đề để phương pháp của Viola-
Jones cho kết quả rất cao và nhanh.
Chúng tôi sau khi phát hiện cho vùng khuôn mặt chúng tôi chuẩn hóa kích thước
khuôn mặt để chuẩn bị cho giai đoạn kế tiếp. Để phân loại cảm xúc của khuôn mặt thì
chúng tôi giả thiết không làm mất tính tổng quát là trong mỗi ảnh chỉ có tối đa một
khuôn mặt.
Thuật toán 3.1
Thuật toán 3.1 - Xác định một vùng trong ảnh là khuôn mặt người
Input: ảnh I có kích thước mxn điểm ảnh
Output: vùng khuôn mặt người nếu có (chuẩn hóa kích thước sxs)
1. G = changing2Gray(I) // chuyển ảnh màu I sang ảnh xám G
2. flag = false
3. while (not flag và duyệt hết ảnh) do

Nguyễn
fo
en
en
4. Tách
5. Chuẩ
Ví dụ
Ảnh
phát hiện
Sơn Hóa
or số lượng
giảm
tính ả
for m
if cửa
else
end
end
nd
ndwhile
h vùng khuô
ẩn hóa kích
đầu vào là
n khuôn mặ
Ảnh ban đ
g tháp ảnh d
kích thước
ảnh tích hợp
mỗi bước dịc
for mỗi gi
for
end
tíc
if t
end
end
a sổ phát hiệ
chấp nhận
flag = tru
đánh dấu
ôn mặt được
h thước vùng
ảnh màu v
ặt và chuẩn
Hình 19
đầu
T
do
c theo một tỷ
p theo tỷ lệ
ch chuyển c
giai đoạn tro
r mỗi lọc củ
lọc cửa
d
ch lũy đầu ra
tích lũy khô
break v
và đán
d
ện này vượt
n cửa sổ này
e
cửa sổ này
c phát hiện
g khuôn mặ
với độ phân
hóa kích th
- Phát hiện
Phá
Nhận dạ
Trang 33/51
ỷ lệ
cửa sổ trượt
ong bộ phân
ủa giai đoạn
a sổ phát hi
a của lọc ở
ông vượt qu
vòng lặp
nh dấu cửa s
ợt qua tất cả
y là khuôn
y không phả
nếu có
ặt thành 48x
giải 400 x
hước, hình
n khuôn m
át hiện khu
ạng cảm xúc
1
t do
n loại cascad
n do
iện
giai đoạn n
ua ngưỡng m
sổ này khôn
các ngưỡng
mặt
ải khuôn mặ
x48
400 pixel.
19.
mặt với Viol
uôn mặt
c mặt ngườ
de do
này
mỗi giai đo
ng phải khu
g trên mỗi g
ặt
Sử dụng th
la-Jones
Chu
ời với LBP-C
oạn do
uôn mặt
giai đoạn do
huật toán 3.
uẩn hóa
CNN
o
.1 để

Trang 34/51
3.2 Trích đặc trưng LBP
Chúng tôi xây dựng thuật toán 3.2 để trích đặc trưng LBP từ ảnh kết quả (nếu có) của
thuật toán 3.1 ở trên.
Thuật toán 3.2
Thuật toán 3.2 - Trích xuất đặc trưng LBP
Input: ảnh I có kích thước hxw
Output: đặc trưng LBP
1. G = changing2Gray(I) // chuyển ảnh màu I sang ảnh xám G
2. Khởi tạo mảng lbp_image 2 chiều bằng chiều cao (h) và chiều rộng ảnh (w)
3. for i=1..h do
for j=1..w do
đặt x0 = x[i]
y0 = y[j] // với x0 y0: điểm ảnh trung tâm
đặt lbp = 0
// Xét 3 x 3 điểm lân cận
if ((x[i-1]y[j+1] or x[i]y[j+1] or x[i+1]y[j+1] or x[i+1]y[j]
x[i+1]y[j-1] or x[i]y[j-1] or x[i-1]y[j-1] or x[i-1]y[j] ) > x0 y0) do
lbp = lbp ∪ L1M
else
lbp = lbp ∪ L0M
end
// Chuyển mảng nhị phân lbp thành dạng thập phân lbp_value
lbp_value = 0
for k=0..7 do
lbp_value = lbp_value + lbp[k] * 2k
end
lbp_image[i][j] = lbp_value
end
end
4. return lbp_image

Nguyễn
Ví dụ
Ảnh
xuất đặc
đó thể hi
3.3 Mô
Với 0
ron ở tần
sử dụng
lần lượt
pooling
thứ hai.
output là
phân lớp
21.
Nhằm
giữa 2 tầ
để thực h
Ảnh (
Sơn Hóa
đầu vào là
c trưng LBP
iện với đặc
Hìn
hình CNN
07 loại cảm
ng output v
02 tầng, tầ
là 64 và 12
cho tầng th
. Chúng tôi
à kỹ thuật f
p ảnh khuôn
m giảm tình
ầng đầu tiên
hiện phân l
(xám) khuô
à ảnh xám c
P, hình 20 t
c trưng LBP
nh 20 – Tríc
N với đặc t
m xúc trên k
và dữ liệu đầ
ầng đầu tiên
28. Ở lớp p
hứ hai. Cuối
i sử dụng k
fully-conne
n mặt đầu v
h trạng over
n trước khi
ớp.
ôn mặt
T
có kích thư
thể hiện kh
P, vector đặc
ch xuất đặc
trưng LBP
khuôn mặt
ầu vào đượ
n dùng mặt
pooling, chú
i cùng là 40
kỹ thuật Re
ected, kết h
vào thuộc v
r-fitting của
chuyển gia
Ảnh với
Nhận dạ
Trang 35/51
ước 48 x 48
huôn mặt ng
c trưng thu
c trưng LB
P
nên chúng
c chuẩn hóa
nạ 5x5 cho
úng tôi dùn
096 và 1024
eLU trong
hợp với kỹ
ào loại cảm
a kiến trúc C
ao kết quả c
i LBP cổ đi
ạng cảm xúc
1
8 pixel. Sử
gười được c
được là vec
BP ảnh khu
tôi thiết kế
a với kích t
o tích chập
ng khối 2x2
4 là số nơ-r
các kết nố
thuật softm
m xúc nào tr
CNN, kĩ thu
cho tầng có
điển Hi
c mặt ngườ
ử dụng thuậ
chuyển thàn
ctor 256 chi
uôn mặt ng
ế mô hình C
thước 48x4
với kích th
2 cho tầng đ
ron ở tầng đ
ối giữa các
max để tối ư
rong 07 loại
uật drop-ou
fully-conne
istogram L
ời với LBP-C
ật toán 3.2 t
nh ảnh xám
iều.
gười
CNN có 07
8 nên chúng
hước các bộ
đầu tiên và
đầu tiên và
tầng, còn
ưu cho bài
i cảm xúc,
ut được sử d
ected cuối c
LBP 256 ch
CNN
trích
m sau
7 nơ-
g tôi
ộ lọc
max
tầng
tầng
toán
hình
dụng
cùng
hiều

Nguyễn
Hình
Sơn Hóa
21 – Mô h
hình chúng
T
tôi thiết kế
Nhận dạ
Trang 36/51
ế cho CNN
ạng cảm xúc
1
N phân lớp
c mặt ngườ
07 cảm xú
ời với LBP-C
c mặt ngườ
CNN
ời

Nguyễn
Chương
4.1 Cơ
Chún
dựng thô
4.1.1 Cơ
Cơ s
[9] là cơ
hệ thống
Cơ s
tập các d
người lớ
7500. Nh
người M
một ngư
hành độ
trong mộ
hình ảnh
640x490
bao gồm
được chụ
4.1.2 Cơ
Fer20
tham gia
Sơn Hóa
g 4: Kết q
sở dữ liệu
ng tôi sử d
ông qua kết
ơ sở dữ liệu
sở dữ liệu C
ơ sở dữ liệu
g FACS, hìn
ở dữ liệu C
dãy ảnh tươ
ớn đã được
hững ngườ
Mỹ gốc Phi
ười thí nghi
ộng đơn lẻ v
ột khuôn m
h cho chế đ
0 hoặc 640x
m: biểu hiện
ụp thẳng h
ơ sở dữ liệu
013 [10] là
a cuộc thi th
quả và hướ
u
dụng hai cơ
t quả thực n
u CK+
CK+ (The
ảnh cảm xú
nh 22.
Hình
CK+ được t
ơng ứng với
ghi lại bằn
i tham gia l
và 6% các
iệm để thự
và sự kết h
mặt trung lậ
độ xem trư
x480 pixel
n trên khuôn
hoặc quay m
u FER2013
à cơ sở dữ l
hách thức n
T
ớng phát t
ơ sở dữ liệu
nghiệm.
Extended C
úc mặt đã đ
22 - Ảnh m
thiết kế dàn
i các thay đ
ng hai thiết
là từ 18 đến
c nhóm khá
c hiện một
hợp của các
ập với bất k
ước và chế
với giá trị
n mặt và kh
một góc 30 đ
3
liệu cảm xú
nhận diện cả
Nhận dạ
Trang 37/51
triển
u: CK+ và
Cohn-Kana
được gán nh
mẫu của cơ
nh riêng cho
đổi của các
bị đồng bộ
n 50 tuổi, n
ác. Những n
t loạt 23 m
c hành động
kỳ trường h
độ xem 30
màu 8-bit
hông biểu hi
độ.
úc mặt do w
ảm xúc mặt
ạng cảm xúc
1
FER2013
ada AU-Cod
hãn theo dã
ơ sở dữ liệu
o những hệ
AU. Hành
ộ phần cứng
nữ 69%, 81%
người tham
màn hình kh
g. Mỗi màn
hợp ngoại lệ
0 độ là đượ
màu xám h
iện trên khu
website Kag
t người.
c mặt ngườ
để đánh gi
ded Expres
ãy các AU d
u CK+
ệ thống FAC
vi trên khu
g máy ảnh
% người M
m gia được
huôn mặt; b
n hình bắt đ
ệ được ghi
ợc số hóa th
hoặc 24 bit
uôn mặt. Cá
ggle cung c
ời với LBP-C
iá mô hình
ssion Datab
dành cho nh
CS nên CK
ôn mặt của
Panasonic
Mỹ gốc Âu,
hướng dẫn
bao gồm nh
đầu và kết
nhận. Trìn
hành các m
t. Các cảm
ác khuôn m
cấp cho các
CNN
xây
base)
hững
K+ là
a 210
AG-
13%
n bởi
hững
thúc
nh tự
mảng
xúc
ặt sẽ
c đội

Nguyễn
Dữ li
không đ
cho kết
ngoại cả
Một
ràng mà
quấn khă
Ảnh
trong né
Hạnh ph
Fer20
giá trị từ
dạng chu
cho các
Sơn Hóa
iệu ảnh là t
được hoàn t
quả nhận d
ảnh hay nhữ
trở ngại nữ
à đôi khi bị
ăn, đeo kiến
Hình 2
trong FER
ét mặt ở 1 t
húc, 4 = Buồ
013 được c
ừ 0 đến 6 tư
uỗi. Cột “U
mục đích tư
ập các ảnh
oàn chụp th
dạng. Bên c
ững ảnh lỗi
ữa của tập
che khuất t
ng…, hình
23 - Một số
R2013 cũng
trong 7 loạ
ồn, 5 = Ngạ
cung cấp dư
ương ứng v
Usage”: gồm
ương ứng, h
T
xám với kí
hẳng và ở g
cạnh đó, nề
để tăng tính
ảnh FER20
trở bởi các b
23.
ố ảnh và nh
được gán n
ại cảm xúc:
ạc nhiên, 6
ưới dạng fi
với 7 loại c
m 3 giá trị:
hình 24.
Nhận dạ
Trang 38/51
ích thước 48
giữa ảnh m
ền ảnh cũn
h cạnh tranh
013 là các
biểu cảm kh
hãn gây nh
nhãn từng k
: 0 = Tức g
= Trung lập
ile csv gồm
cảm xúc nêu
: Training, P
ạng cảm xúc
1
8x48 điểm
à được chủ
ng không ph
h cho cuộc
ảnh mặt kh
hác như tay
hầm lẫn tro
khuôn mặt
giận, 1 = G
p/Bình thườ
m 3 cột: Em
u trên. Cột
PrivateTest
c mặt ngườ
ảnh. Khuôn
ủ ý thiết kế
hải thuần k
thi.
hông thể hi
y che cằm, t
ong FER20
dựa trên cả
Ghê tởm, 2 =
ờng.
motion (cảm
“Pixels”: g
t và PublicT
ời với LBP-C
n mặt trong
để tăng độ
khiết mà có
iện cảm xú
trán… Đội
013
ảm xúc thể
= Sợ hãi,
m xúc) chứa
giá trị ảnh d
Test được d
CNN
g ảnh
khó
ó các
úc rõ
nón,
hiện
3 =
a các
dưới
dùng

Trang 39/51
Mỗi dòng trong tập tin csv Fer2013 có độ dài tương ứng với 2304 điểm ảnh; nghĩa là
với mỗi dòng trong tập tin csv Fer2013 tương ứng với một ảnh đã được chuyển sang
dạng thập phân có độ dài 2304 điểm ảnh.
Hình 24 - Cấu trúc csv của cơ sở dữ liệu FER2013
Trong tổng số 35,887 ảnh của cơ sở dữ liệu FER2013 thì tập “Training” chiếm
28,709 ảnh. Tập “PrivateTest” và “PublicTest” lần lượt gồm 3,589 ảnh. Trong đó tỉ lệ
giữa các loại cảm xúc lần lượt như hình 25. Cảm xúc hạnh phúc chiếm tỉ lệ lớn nhất
trong toàn bộ cơ sở dữ liệu. Ngược lại, ghê tởm lại là cảm xúc có tỉ lệ phần trăm thấp
nhất trong FER2013. Đây chính là một trong những khó khăn lớn khi dùng các phương
pháp máy học (như CNN) để giải quyết.

Nguyễn
4.2 Môi
Chún
2018.3 v
CPU: In
GeForce
7 và Cud
4.3 Thi
Để đ
không, c
FER201
Thực
các ảnh
Thực
các ảnh
xác định
Sơn Hóa
Hình 25
i trường th
ng tôi sử d
với thư viện
ntel(R) Core
e GT 730 D
da 9.0 kèm
ết kế thực
đánh giá đượ
chúng tôi th
13. Chúng tô
c nghiệm 1
khuôn mặt
c nghiệm 2
được tính
h vùng khuô
- Biểu đồ p
hực nghiệ
dụng ngôn n
n Tensorflo
e(TM) i5-34
DDR3 2GB
theo CuDN
c nghiệm
ợc các kết q
hiết kế hai
ôi gọi:
1 - Dùng mô
được xác đ
2 - Dùng mô
toán bằng p
ôn mặt bằng
T
phân bố cả
ệm
ngữ lập trìn
ow 1.10 đượ
470 CPU @
RAM – Clo
NN 7.1.
quả của mô
thí nghiệm
ô hình CNN
định vùng k
ô hình CNN
phương phá
g thuật toán
Nhận dạ
Trang 40/51
ảm xúc tron
nh Python
ợc cài đặt t
@ 3.20GHz
ock:1.8GHz
ô hình kết hợ
m để thực ng
N đã được th
khuôn mặt b
N đã được th
áp trích đặc
n 3.1 và gọi
ạng cảm xúc
1
ng cơ sở dữ
2.7.5 với I
trên máy tín
+ RAM: 8
z (384 CUD
ợp LBP và
ghiệm trên
hiết kế (chư
bằng thuật to
hiết kế (chư
c trưng LB
là TN2.
c mặt ngườ
ữ liệu FER
IDE: Pycha
nh để bàn c
8GB DDR3
DA), hệ điề
CNN có hi
02 cơ sở d
ương 3) với
oán 3.1 và g
ương 3) với
BP từ ảnh k
ời với LBP-C
R2013
am Professi
có phần cứn
và card đồ
ều hành Cen
iệu quả hơn
dữ liệu CK+
i ảnh đầu và
gọi là TN1.
i ảnh đầu và
khuôn mặt đ
CNN
ional
ng là
ồ họa
ntOS
n hay
+ và
ào là
.
ào là
được

Trang 41/51
4.4 Kết quả
Chúng tôi thực nghiệm trên 02 cơ sở dữ liệu CK+ và FER2013 để đánh giá mô hình
xây dựng.
Dựa trên kích thước khuôn mặt trong 02 cơ sở dữ liệu CK+ và FER2013, chúng tôi
giới hạn kích thước khuôn mặt nhỏ nhất được phát hiện là 20 x 20 điểm ảnh để phân loại
cảm xúc và kích thước khuôn mặt tìm được (nếu có) sẽ được chuẩn hóa về kích thước 48
x 48 điểm ảnh cho đồng nhất với một kiến trúc CNN đã xây dựng.
Thuật toán tối ưu Adam với tỉ lệ học là 0.0001 được sử dụng cho kiến trúc CNN mà
chúng tôi đã xây dựng ở chương 3.
Bài toán chính của chúng tôi là phân loại 07 loại cảm xúc của khuôn mặt nên chúng
tôi không trình bày và phân tích sâu kết quả của giai đoạn phát hiện và xác định vùng có
khuôn mặt trong ảnh. Tuy nhiên, do hầu hết tất cả khuôn mặt trong hai cơ sở dữ liệu để
là ảnh chụp thẳng khuôn mặt (frontface) và nếu có xoay thì chỉ xoay tối đa 30 độ nên kết
quả việc phát hiện khuôn mặt và xác định vùng khuôn mặt có độ chính xác là 100%.
4.4.1 Cơ sở dữ liệu CK+
Với tập ảnh thu được sau khi trích ảnh cuối cùng và nhãn tương ứng trong dãy ảnh
AU của cơ sở dữ liệu CK+. Chúng tôi huấn luyện và kiểm tra thì độ chính xác như hình
26.

Trang 42/51
Hình 26 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu CK+
Chúng tôi thực nghiệm lần lượt với TN1 và TN2. Hình 26 thể hiện hiệu suất của kiến
trúc CNN với dữ liệu đầu vào là đặc trưng LBP cao hơn ảnh không dùng phương pháp
trích đặc trưng LBP, tuy nhiên độ chính xác không vượt trội hẳn. Cả hai phương pháp
đều đạt hiệu suất gần tương tự khi xét ở bước 400 nhưng do đặc trưng LBP thể hiện rõ
chi tiết hơn nên hiệu suất cao hơn ngay từ ở các bước nhỏ hơn.
Có thể thấy, với cơ sở dữ liệu ảnh số lượng ít (617 ảnh), cùng một mô hình CNN thì
đặc trưng LBP vẫn đạt hiệu quả hơn so với ảnh không dùng phương pháp trích đặc trưng
LBP. Các cảm xúc khó phân biệt cũng được mô hình kết hợp LBP và CNN làm rõ hơn.
Cảm xúc ghê tởm được nhận dạng chính xác đạt 75% trong khi 58% là kết quả của TN1.
Hiệu suất nhận dạng cảm xúc tức giận cũng được mô hình kết hợp LBP và CNN nhận
dạng đúng và vượt trội 22%, biểu đồ 4.1. Bảng 4.1 thể hiện rõ chi tiết độ chính xác khi
thực hiện phân loại cảm xúc bằng CNN giữa ảnh không dùng phương pháp trích đặc
trưng LBP và phương pháp trích đặc trưng LBP. Hai cảm xúc thông thường và sợ hãi thì
kết quả như nhau cho TN1 và TN2. Nhưng trong trường hợp cảm xúc hạnh phúc thì TN1

Trang 43/51
cho kết quả tốt hơn hẳn TN2. Kết quả trung bình tất cả 07 loại cảm xúc thì TN2 vẫn tốt
hơn TN1 và tốt hơn 7%.
Bảng 4.1 - Kết quả phân loại của CNN trên cơ sở dữ liệu CK+
Cảm xúc TN1 TN2
Angry 55 % 77 %
Disgust 58 % 75 %
Fear 20 % 20 %
Happy 100 % 71 %
Sad 0 % 33 %
Surprise 82 % 88 %
Neutral 1 % 1 %
Trung bình 45 % 52 %

Trang 44/51
Biểu đồ 4.1 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu CK+
Biểu đồ 4.1 cho thấy các cảm xúc khó phân biệt được mô hình kết hợp LBP và CNN
làm rõ hơn như cảm xúc tức giận (Angry) và cảm xúc ghê tởm (Disgust).

Trang 45/51
4.4.2 Cơ sở dữ liệu FER2013
Với cơ sở dữ liệu FER2013, chúng tôi cũng thực nghiệm tương tự với TN1 và TN2.
Do dữ liệu của cơ sở dữ liệu FER2013 nhiều hơn hẳn CK+ nên kết quả với TN2 cho thấy
tốt hơn hẳn kết quả của TN1, hình 27. TN2 cho kết quả tốt hơn TN trong 06 loại cảm
xúc, chỉ có loại cảm xúc thông thường thì TN1 tốt hơn TN2 đến 11%. Nhưng kết quả
trung bình 07 loại cảm xúc thì TN2 vẫn tốt hơn đến 11% so với TN1, bảng 4.2.
Hình 27 - So sánh hiệu suất giữa TN1 và TN2 trên cơ sở dữ liệu FER2013

Trang 46/51
Bảng 4.2 - Kết quả phân loại của CNN trên cơ sở dữ liệu FER2013
Cảm xúc TN1 TN2
Angry 43 % 64 %
Disgust 0 % 28 %
Fear 19 % 38 %
Happy 75 % 80 %
Sad 14 % 22 %
Surprise 64 % 68 %
Neutral 62 % 51 %
Trung bình 39 % 50 %

Trang 47/51
Biểu đồ 4.2 - So sánh hiệu suất giữa các cảm xúc trong cơ sở dữ liệu FER2013
Biểu đồ 4.2 cho thấy không chỉ các cảm xúc khó phân biệt (Angry và Disgust) được
mô hình kết hợp LBP và CNN làm rõ hơn mà 04 cảm xúc còn lại cũng được thể hiện
hiệu suất phân vượt trội.
Nếu tập dữ liệu càng lớn thì mô hình phân loại CNN kết hợp với đặc trưng LBP thể
hiện ưu thế vượt trội hơn so với mô hình CNN không kết hợp với đặc trưng LBP. Các
cảm xúc được mô hình CNN kết hợp với đặc trưng LBP xác định đúng và phân biệt ở tỉ
lệ cao. Đặc biệt CNN hay các mô hình học sâu, thì dữ liệu phải lớn thì mới đảm bảo tính
hiệu quả.

Nguyễn
4.4.3. M
Tron
thường –
không h
phân biệ
hình 29.
Sơn Hóa
Một số trườn
ng dữ liệu C
– buồn, sợ
hoàn toàn ch
ệt ngay cả v
.
Hình
ng hợp phâ
CK+, có nh
hãi – buồn
hính xác, hì
với dùng m
h 28 - Một
T
ân loại sai
hiều trường
n, ngạc nhiê
ình 28. Tươ
mắt của chún
số dữ liệu
Nhận dạ
Trang 48/51
g hợp khôn
ên – sợ hãi
ơng tự với d
ng ta để ph
phân loại s
ạng cảm xúc
1
ng thể phân
i, … vì các
dữ liệu FER
hân biệt hay
sai trong d
c mặt ngườ
n biệt cảm x
biểu cảm t
R2013 cũng
y dùng với đ
ữ liệu CK+
ời với LBP-C
xúc giữa th
trên khuôn
không dễ d
đặc trưng L
+
CNN
hông
mặt
dàng
LBP,

Trang 49/51
Hình 29 - Một số dữ liệu phân loại sai trong dữ liệu FER2013
4.5 Đánh giá
Chúng tôi đã xây dựng thành công mô hình kết hợp CNN và đặc trưng LBP để phân
loại 07 loại cảm xúc trên khuôn mặt.
4.5.1 Ưu điểm
Phương pháp kết hợp CNN và đặc trưng LBP để phân loại 07 loại cảm xúc trên
khuôn mặt cho kết quả tốt hơn so với nếu chỉ dùng mô hình CNN mà không kết hợp với
đặc trưng LBP.
4.5.2 Khuyết điểm
Độ chính xác vẫn chưa hoàn toàn tốt. Còn một hai loại cảm xúc chưa cho kết quả tốt
hơn so với mô hình không dùng đặc trưng LBP.

Trang 50/51
4.6 Hướng phát triển
 Kiểm tra chéo (cross-validation) với nhiều cơ sở dữ liệu hơn kể cả ảnh màu để tìm
hiểu và cải thiện độ chính xác.
 Có thể dùng thêm phương pháp k-fold để tăng dữ liệu huấn luyện.
 Nghiên cứu những loại đặc trưng khác thỏa mãn cho bài toán phân loại cảm xúc
trên khuôn mặt.

Trang 51/51
Tài liệu tham khảo
[1] Neha Bhardwaj, Manish Dixit, “A Review: Facial Expression Detection with its
Techniques and Application”, International Journal of Signal Processing, Image
Processing and Pattern Recognition Vol.9, No.6 (2016), pp 149 – 158.
[2] Vaibhavkumar J. Mistry, Mahesh M. Goyani, “A Literature Survey on Facial
Expression Recognition using Global Features”, International Journal of Engineering and
Advanced Technology Vol.2, No.4 (2013), pp 1 – 5.
[3] Jyoti Kumari, R.Rajesh, KM.Pooja, “Facial expression recognition: A survey”,
Second International Symposium on Computer Vision and the Internet, pp 486 – 491.
[4] Archana Rathi, Brijesh N Shah, “A Survey : Facial Expression Recognition”,
International Research Journal of Engineering and Technology Vol.3, No.4 (2016), pp
540 – 545.
[5] Caifeng Shan, Shaogang Gong, Peter W. McOwan, “Facial expression recognition
based on Local Binary Patterns: A comprehensive study”, Image and Vision Computing
27 (2009), pp 803-816.
[6] Xianlin Peng, Zhaoqiang Xia, Lei Li, Xiaoyi Feng, “Towards Facial Expression
Recognition in the Wild: A New Database and Deep Recognition System”, Northwestern
Polytechnical University, pp 1 – 7.
[7] Shima Alizadeh, Azar Fazel, “Convolutional Neural Networks for Facial Expression
Recognition”, Stanford University, pp 1 – 8.
[8] Mundher Al-Shabi, Wooi Ping Cheah, Tee Connie, “Facial Expression Recognition
Using a Hybrid CNN–SIFT Aggregator”, Multi-disciplinary Trends in Artificial
Intelligence. MIWAI 2017, Vol 10607, pp 1 – 12.
[9] http://www.consortium.ri.cmu.edu/ckagree/ (Truy cập ngày: 20/10/2018)
[10] https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-
recognition-challenge/ (Truy cập ngày: 20/10/2018)
[11] Phạm Thế Bảo, Nguyễn Thành Nhựt, Cao Minh Thịnh, Trần Anh Tuấn, Phan Phúc
Doãn, “Tổng quan các phương pháp xác định khuôn mặt người”, Trang 1 - 28.
[12] Phạm Thế Bảo, “Xác Định Khuôn Mặt Người Trong Ảnh Màu Bằng Logic Mờ”,
Luận án Tiến Sĩ, ĐH KHTN, 2009.

LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI

Similar to LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI (20)

More from ssuserc1c2711

More from ssuserc1c2711 (20)

Recently uploaded

Recently uploaded (20)

LUẬN VĂN THẠC SĨ: ỨNG DỤNG LBP-CNN CHO BÀI TOÁN NHẬN DIỆN CẢM XÚC MẶT NGƯỜI