LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO

/ 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ-TIN HỌC
THÀNH PHỐ HỒ CHÍ MINH
LÊ THÁI TÚ TIỀN
HỆ THỐNG ĐIỂM DANH HỌC SINH
THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH
KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO
LUẬN VĂN THẠC SĨ
Ngành: CÔNG NGHỆ THÔNG TIN
Mã số: 60480201
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS. PHẠM THẾ BẢO
TP. HỒ CHÍ MINH – THÁNG 6 NĂM 2019

/ 90
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân được hướng dẫn
bởi PGS.TS. Phạm Thế Bảo. Các số liệu, kết quả trình bày trong luận văn này là
trung thực. Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn
rõ ràng, đầy đủ.
Học viên
Lê Thái Tú Tiền

/ 90
Học viên đã bảo vệ thành công luận văn ngày 04/6/2019, tại Hội đồng đánh giá
luận văn thạc sĩ thành lập theo Quyết định số 115/QĐ-ĐNT ngày 20/5/2019 của
Hiệu trưởng Trường ĐH Ngoại ngữ-Tin học TP.HCM, với sự tham gia của:
ChủtịchHộiđồng: PGS.TS. Trần Văn Lăng ĐH Lạc Hồng (Đồng Nai)
Phản biện 1: TS. Nguyễn Đức Cường ĐHNgoạingữ-TinhọcTP.HCM
Phản biện 2: PGS.TS. Nguyễn Thanh Bình ĐHBáchKhoa(ĐHQGTP.HCM)
Ủy viên: PGS.TS. Lê Hoàng Thái ĐH KHTN (ĐHQGTP.HCM)
Thư ký: Tiến sĩ Trần Minh Thái ĐHNgoạingữ-TinhọcTP.HCM

/ 90
DANH MỤC CÁC CHỮ VIẾT TẮT
TT TỪ VIẾT
TẮT
TỪ ĐẦY ĐỦ NGHĨA
1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo
2 CNN Convolutional Neural Network Mạng nơ-ron tích chập
3 FCNN Full Convolution Neural
Network
Mạng nơ-ron tích chập
đầy đủ
4 HOG Histogram of orientation
gradients
Lược đồ định hướng của
các gradient
5 LCT Long-term correlation tracking Theo vết tương quan dài
hạn
6 MOSSE Minimum output sum of
squared error
Bình phương sai số tổng
đầu ra nhỏ nhất
7 MLP Multilayer Perceptron Mạng thần kinh nhân tạo
truyền thẳng nhiều lớp
8 R-CNN Region proposals + CNN CNN khu vực
9 SVM Support vector machine Máy vectơ hỗ trợ
10 YOLO You only look once Bạn chỉ nhìn một lần

/ 90
DANH MỤC CÁC HÌNH VẼ
TT TÊN NỘI DUNG TRANG
1 Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời
gian thực
15
2 Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn 16
3 Hình 2.1 Cấu trúc của mạng thần kinh nhân tạo 24
4 Hình 2.2 Ma trận trong cửa sổ trượt 26
5 Hình 2.3 Cấu trúc các lớp của CNN 28
6 Hình 2.4 Trường tiếp nhận cục bộ 30
7 Hình 2.5 Nơ-ron trong lớp ẩn 1 30
8 Hình 2.6 Nơ-ron trong lớp ẩn 2 31
9 Hình 2.7 Một sơ đồ đặc trưng 31
10 Hình 2.8 Lớp tổng hợp trong CNN 33
11 Hình 2.9 Sự kết hợp giữa các lớp tích chập và max-pooling 33
12 Hình 2.10 Các lớp tạo thành một CNN cho ra 10 giá trị 34
13 Hình 2.11 Giai đoạn phân vùng ảnh 37
14 Hình 2.12 Giai đoạn xác định đối tượng 38
15 Hình 2.13 Chín hình dạng mẫu của một đối tượng 40
16 Hình 3.1 Mô hình bài toán điểm danh học sinh dùng
camera
51
17 Hình 4.1 Danh sách các video quay các lớp học 68
18 Hình 4.2 Danh sách các frame hình được chọn huấn luyện
từ 30 video
69
19 Hình 4.3 Đối tượng bị vật thể che khuất tại lớp TĐC34A 79
20 Hình 4.4 Phát hiện sai đối tượng lớp TKT33-3N 79

/ 90
21 Hình 4.5 Hình frame thứ 76 của lớp TCB33-3N 80
22 Hình 4.6 Hình frame thứ 91 của lớp TCB33-3N 81
23 Hình 4.7 Hình frame thứ 99 của video M06 (lớp TCB33-
3N)
81
24 Hình 4.8 Hình frame thứ 27 lớp TNT34 82
25 Hình 4.9 Hình frame thứ 45 của lớp TNT34 82
26 Hình 4.10 Hình frame thứ 99 của video M42 (lớp TNT34) 83
27 Hình 4.11 Hình frame thứ 27 của lớp TTP34 83
28 Hình 4.12 Hình frame thứ 99 của lớp TTP34 84

/ 90
DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ
1 Sơ đồ 1.1 Sơ đồ mô tả phát hiện đối tượng chuyển động 16
2 Bảng 4.1 Danh sách 45 video dùng làm dữ liệu 61 – 63
3 Bảng 4.2 Danh sách 45 video phân nhóm theo buổi 63
4 Bảng 4.3 Danh sách 45 video phân nhóm theo phòng 64
5 Bảng 4.4 Danh sách 45 video phân nhóm theo tầng 64
6 Bảng 4.5 Danh sách 45 video phân nhóm theo ánh sáng 64
7 Bảng 4.6 Độ chính xác của bài toán điểm danh phân nhóm
theo buổi
67
8 Biểu đồ 4.1 Độ chính xác của bài toán điểm danh phân nhóm
theo buổi
68
theo phòng
68
theo phòng
69
theo tầng
70
theo tầng
70
theo ánh sáng
71
theo ánh sáng
71
theo lớp học
72
theo lớp học
73

/ 90
MỤC LỤC
LỜI CAM ĐOAN...................................................................................................... 2
DANH MỤC CÁC CHỮ VIẾT TẮT ....................................................................... 4
DANH MỤC CÁC HÌNH VẼ................................................................................... 5
DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ ............................................................... 7
MỤC LỤC................................................................................................................. 8
LỜI CẢM ƠN ......................................................................................................... 10
TỔNG QUAN ....................................................................................... 11
Đặt vấn đề ................................................................................................. 11
Giới thiệu bài toán..................................................................................... 13
Các hướng tiếp cận ................................................................................... 14
1.3.1 Xác định vị trí vùng đầu trong ảnh..................................................... 14
1.3.2 Theo vết chuyển động của đối tượng ................................................. 18
Đề xuất hướng giải quyết.......................................................................... 21
CƠ SỞ LÝ THUYẾT............................................................................ 23
Mạng nơ-ron nhân tạo............................................................................... 23
Mạng nơ-ron tích chập.............................................................................. 26
2.2.1 Tổng quan........................................................................................... 26
2.2.2 Mô hình của CNN .............................................................................. 27
2.2.3 Xây dựng CNN cho phân loại ảnh ..................................................... 29
Phát hiện đối tượng................................................................................... 34
2.3.1 Tổng quan........................................................................................... 34
2.3.2 Phương pháp phát hiện đối tượng ...................................................... 36
Theo vết chuyển động dựa trên tương quan ............................................. 42
2.4.1 Giới thiệu............................................................................................ 42
2.4.2 Những vấn đề liên quan đến thuật toán.............................................. 44
2.4.3 Thuật toán theo vết đối tượng dựa trên đặc trưng tương quan........... 47

/ 90
2.4.4 Tổng kết.............................................................................................. 49
XÂY DỰNG THUẬT TOÁN............................................................... 50
Phát hiện vùng đầu học sinh trong ảnh..................................................... 51
Theo vết chuyển động............................................................................... 57
Tính vị trí tâm trung bình vùng đầu từng học sinh................................... 60
Điểm danh học sinh trong lớp học............................................................ 61
KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN .............................................. 64
Môi trường thực nghiệm........................................................................... 64
Xây dựng dữ liệu....................................................................................... 64
Kết quả...................................................................................................... 69
4.3.1 Kết quả chi tiết.................................................................................... 70
4.3.2 Các trường hợp sai trong bài toán điểm danh học sinh...................... 78
Đánh giá.................................................................................................... 84
4.4.1 Ưu điểm.............................................................................................. 85
4.4.2 Nhược điểm........................................................................................ 85
Hướng phát triển....................................................................................... 86
TÀI LIỆU THAM KHẢO....................................................................................... 88

/ 90
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cám ơn chân thành đến quý thầy cô Trường Đại
học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh, Quý thầy cô đã tham gia
giảng dạy cho lớp Cao học Công nghệ thông tin khóa 1, những người đã nhiệt
tình cung cấp kiến thức, chỉ dạy tận tình những bài học quý báu trong suốt thời
gian tôi học tập tại Trường.
Tôi xin chân thành cám ơn sâu sắc đến PGS.TS. Phạm Thế Bảo, mặc dù rất
bận rộn với vô số công việc trong vai trò Trưởng bộ môn Ứng dụng tin học
Trường Đại học Khoa học tự nhiên cũng như trong công tác giảng dạy nhưng
Thầy đã hướng dẫn rất tận tình, chu đáo, cung cấp nhiều kiến thức chuyên môn
kịp thời và bổ ích trong suốt thời gian tôi thực hiện luận văn này.
Tôi cũng xin cảm ơn Quý thầy cô, anh chị cán bộ, nhân viên thuộc Ban
Khoa học-Hợp tác và Đào tạo sau đại học Trường Đại học Ngoại ngữ-Tin học
Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng tôi hoàn thành
khóa học.
Mặc dù đã cố gắng để hoàn thành tốt luận văn nhưng chắc chắn sẽ không
tránh khỏi thiếu sót, rất mong nhận được sự chỉ bảo của Quý thầy cô.
Thành phố Hồ Chí Minh, tháng năm 2019
Học viên thực hiện
Lê Thái Tú Tiền

/ 90
TỔNG QUAN
Đặt vấn đề
Hiện nay đã có rất nhiều ứng dụng về xử lý video trong việc giám sát đối
tượng như: con người, phương tiện giao thông, hàng hóa, động vật, thực vật… ;
các ứng dụng về việc đếm số lượt xe trên đường, thống kê các loại xe, hoặc
hàng hóa; những ứng dụng về thống kê số người ra vào một cửa hàng, siêu thị,
bệnh viện…[6] đã được nhiều nhóm nghiên cứu thực hiện và triển khai.
Trên thế giới đã có nhiều ứng dụng nhận dạng, quản lý, giám sát hoặc thống
kê rất đa dạng. Tại một số trường cao đẳng và đại học nước ngoài, các lớp học
thường có số lượng sinh viên tham gia đông đến nỗi khó có thể kiểm soát liệu
sinh viên có thực sự tham gia lớp học hay không. Nếu dùng cách điểm danh
truyền thống bằng cách kí vào danh sách thì có khả năng sinh viên sẽ kí hộ lẫn
nhau, điểm danh tên từng người lại mất thời gian [4][17]. Tuy nhiên, công nghệ
nhận dạng khuôn mặt nay đã có thể giải quyết vấn đề này. Để vào lớp và được
điểm danh, sinh viên sẽ phải quét nhận dạng khuôn mặt để khớp với dữ liệu đã
lưu của trường. Vì vậy trừ khi bạn có anh em sinh đôi, nếu không giờ trốn học
của bạn sẽ không còn là điều dễ dàng nữa. Trường Quản trị ESG ở Pari đang
thử nghiệm phần mềm nhận diện khuôn mặt tại hai lớp học trực tuyến để đảm
bảo các sinh viên tham gia không xao lãng trong giờ học. Trường sử dụng phần
mềm có tên là Nestor, webcam trên máy tính cá nhân của mỗi sinh viên sẽ phân
tích chuyển động mắt và biểu hiện khuôn mặt để tìm ra liệu sinh viên đó có
đang tập trung vào các video bài giảng hay không. Sau đó, phần mềm này sẽ tự
động tạo ra các câu đố trắc nghiệm về nội dung bài giảng để kiểm tra sự tập
trung của người học. Công nghệ này cũng vô cùng hữu dụng với giáo viên, để
có thể điều chỉnh bài giảng dựa trên phần nào học viên ít chú ý nhất [11].
Tại Việt Nam đa số các ứng dụng xử lý video thường tập trung vào giám sát
các đối tượng con người trong việc phòng chống tội phạm, phát hiện hành vi

/ 90
khả nghi của đối tượng; hoặc là các ứng dụng thống kê xe qua trạm thu phí,
đếm số lượt ra vào của các loại xe trong một bãi giữ xe, hoặc giám sát, dự báo
và phỏng đoán tình hình kẹt xe tại các giao lộ dựa trên lưu lượng xe đông hoặc
số lượng xe được thống kê của các ứng dụng [7].… Việc thực hiện điểm danh
học sinh tại các trường học hiện chưa được thấy triển khai ở Việt Nam, mặc dù
có rất nhiều trường được trang bị hệ thống camera rất hiện đại với số lượng từ 5
- 10 camera/trường, thậm chí có trường bố trí hơn 30 camera trong phạm vi
toàn trường (các trường THCS trên địa bàn Quận 6, Quận 11, Quận Bình Tân
và nhiều quận khác cũng được trang bị rất nhiều camera như vậy). Tuy nhiên hệ
thống này chủ yếu chỉ để giám thị, giáo viên quan sát, xem lại khi có sự cố,
hoàn toàn chưa có xử lý, thống kê và đếm học sinh một cách tự động.
Do đó việc thực hiện đề tài điểm danh học sinh trong một lớp học là một nhu
cầu theo tôi là cần thiết trong các trường tiểu học, trung học cơ sở, trung học
phổ thông cũng như một số trường trung cấp có nhu cầu giám sát và quản lý
học sinh.
Thực hiện đề tài này sẽ giúp tôi có thêm cơ hội tìm hiểu, học tập và nghiên
cứu thêm nhiều kiến thức về công nghệ thông tin nói chung và kiến thức về xử
lý ảnh nói riêng. Để xây dựng hệ thống điểm danh học sinh thông qua nhận
dạng đầu học sinh kết hợp theo vết chuyển động trong video cần tìm hiểu nhiều
tài liệu và kiến thức liên quan về trí tuệ nhân tạo, mạng nơ-ron, kiến thức về
học máy và nhất là bài toán về nhận dạng và theo vết chuyển động trong video.
Thực hiện đề tài này cũng là cơ hội kết hợp những kiến thức đã được học trong
chương trình đào tạo ứng dụng vào thực tiễn.
Phạm vi nghiên cứu của đề tài bao gồm nghiên cứu nhận dạng đối tượng,
chủ yếu nhận dạng đặt trưng vùng đầu, sau đó theo vết chuyển động để xác định
số lượng đối tượng vùng đầu học sinh có trong phòng học. Một số phương pháp
có thể sử dụng nghiên cứu thực hiện:
- Phát hiện đối tượng chuyển động (sử dụng các phương pháp):

/ 90
+ Optical flow
+ GMM (Gaussian Mixture Model)
+ Trừ ảnh
+ Phương pháp Otsu (phân vùng ảnh)
- Theo vết chuyển động (có thể dùng phương pháp):
+ Camshift
+ Particle filter
Đề tài được thực hiện tại các trường học cấp 2, cấp 3 hoặc các trường Trung
cấp có lớp học bố trí học sinh ngồi theo sơ đồ.
Giới thiệu bài toán
Tại Trường Trung cấp Thủy sản (địa chỉ: 511 An Dương Vương, Phường An
Lạc A, Quận Bình Tân, Tp.HCM) có gần 900 học sinh của 27 lớp thuộc quản lý
của sáu khoa của Trường, trong đó gần 90% học sinh theo học nghề là các đối
tượng học sinh tốt nghiệp THCS (tuổi từ 15 trở lên), các em đa số còn rất nhỏ,
hầu hết phụ huynh đều rất lo lắng cho con em họ có đi học đầy đủ, đúng giờ
hay không, có bỏ học, trốn tiết hay không. Thầy Cô giáo chủ nhiệm, bộ phận
giám thị cũng có nhu cầu điểm danh học sinh từng lớp theo buổi và theo tiết để
biết học sinh có duy trì sĩ số hay không; phát hiện kịp thời các trường hợp nghỉ,
bỏ học. Do đó, ngoài việc giảng dạy thì công tác quản lý các em là một yêu cầu
hết sức cần thiết và rất quan trọng với nhà trường. Ban giám hiệu và Phòng
công tác học sinh giao cho các giám thị phối hợp với giáo viên đứng lớp thường
xuyên điểm danh đầu giờ, giữa giờ và cuối giờ để phát hiện các em đi trễ, bỏ
học hoặc nghỉ học để kịp thời thông báo cho Phụ huynh ngay trong buổi học
hoặc chậm nhất là sau khi kết thúc giờ học.
Với số lượng lớp học và học sinh đông như vậy công việc điểm danh hàng
ngày tốn rất nhiều thời gian và nhân lực của Trường, thậm chí còn ảnh hưởng

/ 90
đến giờ lên lớp của các giáo viên bộ môn vì giám thị phải thường xuyên vào lớp
điểm danh từng em và thống kê ngay lập tức để có số lượng chính xác nhất.
Xuất phát từ thực tế trên, việc lắp đặt camera trong các phòng học để điểm
danh học sinh có mặt trong lớp bằng hệ thống tự động sẽ giúp giảm tải công
việc cho các giám thị, giảm nhân lực cho nhà trường, tăng hiệu quả giám sát
học sinh. Đó là lý do để tôi thực hiện đề tài này.
Đề tài nghiên cứu được thực hiện trên tập dữ liệu là video quay tại các lớp
học của Trường Trung cấp Thủy sản. Những video này được quay bằng các
camera lắp cố định trong những lớp học.
Các hướng tiếp cận
1.3.1 Xác định vị trí vùng đầu trong ảnh
Nhận dạng người và đếm số lượng người trong môi trường thực tế là một
thách thức đối với việc xử lý video. Thực tế theo tìm hiểu thì cũng đã có rất
nhiều các ứng dụng đếm người dùng. Ví dụ như: Tự động đếm hành khách lên
xuống xe buýt, xe lửa, tàu điện hoặc hệ thống giao thông công cộng khác [18].
Việc nhận dạng các học sinh trong một lớp học phức tạp hơn do nhiều yếu tố
như: ánh sáng từng thời điểm trong ngày khác nhau (do mây), không gian lớp
học (quá rộng hoặc quá hẹp), số lượng học sinh quá đông hay các em ngồi
không theo thứ tự cao thấp, tức là học sinh cao ngồi dưới, học sinh thấp ngồi
trên hoặc những học sinh có thân hình to (mập) ngồi trước những học sinh có
dáng nhỏ (gầy). Do đó việc nhận dạng và điểm danh học sinh khó có thể dùng
phương pháp nhận dạng khuôn mặt, nhưng nếu dùng camera để trên cao hướng
xuống lớp học và nhận dạng vùng đầu của các em học sinh thì sẽ khả thi hơn rất
nhiều.
Thông thường việc nhận dạng đầu thường dùng phương pháp ước lượng di
chuyển của người đi bộ dựa trên phân loại các lớp kết hợp với HOG/SVM theo
đề xuất của Dalal và Triggs [20]. Phương pháp phát hiện đầu dựa trên các phép
tính toán rời rạc và các lớp LPB. Nhận dạng vùng đầu tích hợp thời gian thực

/ 90
bằng cách sử dụng mô hình ẩn của Markov cho kết quả khá tốt. Hình 1.1 mô tả
cách thức phát hiện đối tượng theo thời gian thực được xây dựng theo mô hình
phân cấp, phát hiện đối tượng theo từng vùng ảnh liên tục [16].
Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời gian thực [16]
Mô hình này được chia làm hai giai đoạn:
- Giai đoạn đầu tiên bao gồm một lớp HOG/SVM đơn giản sử dụng mô hình
chỉ một đầu ở độ phân giải thấp. Hệ thống dò tìm này tương tự như thiết bị
được Dalal và Trigg đề xuất. Tập dữ liệu bao gồm khoảng 10.000 hình ảnh
được huấn luyện và chú thích thủ công để tạo ra các mẫu ngẫu nhiên tốt nhất.
Từ những mẫu sai về khung ảnh không có người đi bộ, hệ thống sẽ được huấn
luyện lại để hạn chế nhận dạng sai so với giai đoạn huấn luyện ban đầu. Sử
dụng một bộ kiểm tra độc lập để đạt được ngưỡng phát hiện tốt nhất có thể.
- Giai đoạn thứ hai sử dụng một mô hình dựa trên một phần mà mô hình
được đào tạo phát hiện của giai đoạn đầu tiên. Mặc dù người đi bộ có thể thay
đổi rất nhiều về tư thế và ngoại hình, người đứng đầu chỉ thay đổi chút ít về
t
t + 1
Phát hiện
Phân loại định hướng
Ước tính liên tục

/ 90
ngoại hình. Tuy nhiên, kết quả phát hiện lại tốt hơn so với hệ thống phát hiện
đa mô hình.
Phương pháp tính toán entropy H(Ω) của gradient ảnh cho cả hướng và độ
lớn của tập huấn luyện hoàn chỉnh Ω theo công thức (1.1). Trung bình IG(ω)
được tính bằng cách lấy trung bình từng khối theo chiều kim đồng hồ và các
đặc điểm độ lớn ψ (công thức 1.2).
𝑯(𝛀) = - ∑ 𝑷(𝝍) ∗ 𝒍𝒅(𝑷(𝝍))
𝝍 𝝐 𝛀 (1.1)
IG(𝛚) = 𝑯(𝛀) − 𝑷(𝛚)𝑯(𝛀|𝛚) − 𝑷(𝝎
̅)𝑯(𝜴|𝝎
̅) (1.2)
Hình 1.2 cho thấy độ lệch thông tin theo chiều kim đồng hồ của các mẫu
dương so với các mẫu âm và so sánh với các kết quả huấn luyện có được sau
giai đoạn đầu tiên.
Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn [16]
Lưu ý rằng các entropy của các mẫu âm được chọn ngẫu nhiên gần như
được phân bố đồng đều trên ảnh trong khi entropy của mẫu dương cho thấy một
cấu trúc tương đối đầy đủ tương tự như lúc đầu.
Để khắc phục vấn đề này, hệ thống sẽ tập trung vào các vùng thông tin có
liên quan của ảnh, từ đó tạo ra ba cửa sổ có kích thước giống hệt nhau để mật
độ thông tin trên mỗi cửa sổ gần bằng nhau và lớn nhất có thể. Các cửa sổ được

/ 90
sử dụng để tính toán cho quá trình phân loại là tính toán của vector mô tả. Sau
khi gán kích thước và vị trí của các bộ phận, dữ liệu đào tạo tương ứng được
trích xuất cho mọi phần từ tập huấn luyện và đào tạo các mô hình riêng lẻ.
Áp dụng các phương pháp của Felzenszwalb [23] bằng cách tính toán Mi
cho các vị trí góc của các phần trong ảnh, trong đó i = 1, ..., N là các chỉ số
thành phần tương ứng. Để xây dựng lược đồ, bộ dò tìm thành phần được chạy
trên các vị trí khác nhau trong hộp giới hạn của giai đoạn đầu dò tìm. Từ lược
đồ của các điểm phù hợp, sẽ tính toán lược đồ cho trung tâm đầu dự kiến theo
công thức (1.3) trong đó giá trị cho mỗi mục của lược đồ Mi(x, y) là điểm trùng
khớp của hệ thống dò tìm tại vị trí đã dịch (xy, yd) trừ độ lệch biến dạng được
xác định bởi công thức (1.4).
Độ biến dạng được mô hình hóa dưới dạng hình elip có trục được di chuyển
từ điểm phát hiện (xd, yd) bằng cách dịch chuyển giữa các phần vị trí và góc
trung tâm (xci, yci).
𝑴𝒊(𝒙, 𝒚) = 𝒎𝒂𝒙𝒙𝒅,𝒚𝒅
(𝒅𝒊(𝒙𝒅, 𝒚𝒅) − 𝝎𝒊(𝒙
̃, 𝒚
̃)) (1.3)
𝝎𝒊(𝒙
̃, 𝒚
̃) = √𝜶𝒊𝒙
̃𝟐 + 𝜷𝒊𝒚
̃𝟐 (1.4)
𝒅(𝒙, 𝒚) = 𝒅𝑹 + ∑ 𝑴𝒊(𝒙, 𝒚)
𝒊 (1.5)
Trong đó: (𝒙
̃, 𝒚
̃) = (𝒙𝒅 − 𝒙𝒄𝒊
− 𝒙, 𝒚 − 𝒚𝒄𝒊
− 𝒚).
Sau giai đoạn huấn luyện đầu tiên và một phần mô hình huấn luyện với các
tham số (𝛼𝑖, 𝛽𝑖) trong công thức (1.4) được huấn luyện bằng cách chuẩn hóa hồi
quy theo chu kỳ (1.6), (1.7) và (1.8).
𝒆(𝜶, 𝜷) = 𝛀 − 𝒕𝒂𝒏𝒉(𝒅(𝜶, 𝜷)), (1.6)
𝑱(𝜶, 𝜷) = 𝒆𝑻
𝒆 + 𝒄(𝜶𝟐
+ 𝜷𝟐
), (1.7)
(𝜶, 𝜷) = 𝒂𝒓𝒈𝒎𝒊𝒏(𝑱(𝜶, 𝜷)). (1.8)
Trong công thức (1.6) Ω biểu thị vectơ của các nhãn được chú thích bằng
{𝜔, 𝜔
̅} của tất cả dữ liệu huấn luyện trong khi d(α, β) biểu thị vectơ của điểm
phát hiện tính toán cho tất cả các mẫu đào tạo theo công thức (1.5). Tham số c

/ 90
trong công thức (1.7) là trọng số trong hàm tính toán (1.8) và là một tham số
được gán trong quá trình huấn luyện.
1.3.2 Theo vết chuyển động của đối tượng
Trong xử lý ảnh ngoài việc phát hiện ra đối tượng còn có theo vết chuyển
động. Các phương pháp phát hiện chuyển động trong camera đã được nghiên
cứu và phát triển rất nhiều đem lại nhiều thành tựu cho công nghệ xử lý ảnh.
Chúng ta biết kết quả thu nhận từ các camera giám sát hoặc webcam là các
frame ảnh. Frame ảnh thu nhận được từ các camera hoặc webcam sẽ được xử lý
qua các công đoạn sau: Phát hiện đối tượng chuyển động, đánh dấu các đối
tượng vừa phát hiện, phân loại chúng được tiến hành xử lý và được kết quả là
đối tượng đang cần theo vết ở vị trí nào, để tiến hành đánh dấu (tô màu, kẻ
khung) và từ đó liên tục bám sát đối tượng theo một ngưỡng nhất định như sơ
đồ 1.1 [7].
Sơ đồ 1.1 Mô tả phát hiện và theo vết đối tượng chuyển động
Có rất nhiều hướng tiếp cận để giải quyết vấn đề trên. Việc lựa chọn phương
pháp áp dụng phải dựa vào tình huống cụ thể, đối với trường hợp có ảnh nền
không thay đổi việc phát hiện đối tượng chuyển động có thể bằng các phương
pháp trừ nền. Các giải thuật này sẽ được trình bày sau đây. Hướng giải quyết là
xây dựng mô hình nền, sau đó sử dụng mô hình này cùng với frame ảnh hiện tại
để rút ra được các chuyển động xung quanh. Để có thể tiếp cận chúng ta cần
phải xây dựng được mô hình nền. Có nhiều phương pháp xây dựng mô hình
Tiền xử lý ảnh
Pháthiệnđốitượng
Theovếtđốitượng
Chuỗi ảnh
Camera
Táchđốitượng
Xửlýtheoyêu
cầu

/ 90
nền bởi các tác giả: Anurag Mittal dùng adaptive kernel density estimation
được tính bằng [10]. Kết quả tốt tuy nhiên khó khăn về không gian lưu trữ, tính
toán phức tạp, tốc độ không đáp ứng thời gian thực. Haritaoglu dùng giải thuật
W4, Stauffer sử dụng Mixture of Gaussian [15] để xây dựng mô hình nền…
Nhằm phát hiện được các đối tượng chuyển động, xác định xem những đối
tượng này có đúng là những đối tượng cần phát hiện hay không. Đây là các khó
khăn cần khắc phục.
Việc phát hiện đối tượng có thể được thực hiện bằng các phương pháp máy
học. Các phương pháp này có thể kể đến như: mạng nơ-ron, adaptive boosting,
cây quyết định, máy vector hỗ trợ. Điểm chung của các phương pháp này đều
phải trải qua giai đoạn huấn luyện trên một tập dữ liệu. Tập dữ liệu này phải đủ
lớn, bao quát hết được các trạng thái của đối tượng. Sau đó các đặc trưng sẽ
được rút trích ra trên bộ dữ liệu huấn luyện này. Việc lựa chọn đặc trưng sử
dụng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các phương pháp
máy học. Một số đặc trưng thường được sử dụng như: đặc trưng về màu sắc,
đặc trưng về góc cạnh, đặc trưng histogram… Sau khi đã có được đặc trưng,
chúng tôi sẽ đánh nhãn lớp cụ thể cho các đặc trưng đó để sử dụng trong việc
huấn luyện. Trong quá trình huấn luyện, các phương pháp máy học sẽ sinh ra
một hàm để ánh xạ những đặc trưng đầu vào tương ứng với nhãn lớp cụ thể.
Sau khi đã huấn luyện xong thì các phương pháp máy học trên sẽ được dùng để
phân lớp cho những đặc trưng mới. Đặc điểm của phương pháp này là độ chính
xác cao. Tuy nhiên nó gặp phải khó khăn trong việc thu thập dữ liệu huấn luyện
ban đầu, tốn thời gian và chi phí cho quá trình học máy.
Đầu vào của bài toán theo dõi và giám sát đối tượng chuyển động là các
khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động sẽ đưa
ra các đối tượng chuyển động. Các đối tượng được phát hiện sẽ qua quá trình
phân lớp đối tượng để xem thuộc lớp nào, sự vật nào. Và cuối cùng là quá trình
xử lý để theo dõi đối tượng đó là việc tìm ra đường chuyển động của đối tượng,
dự đoán chuyển động, xử lý nhập nhằng trong chuyển động...[1].

/ 90
Khối phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên trong
hệ thống giám sát thông minh bằng hình ảnh. Vì hiệu quả, tính chính xác của
khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo.
Chính vì thế nó ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống
giám sát thông minh.
Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn
hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của
toàn bộ hệ thống. Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ
hệ thống.
Khối xử lý theo vết đối tượng là khối xử lý không thể thiếu trong hệ thống
giám sát thông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến
đầu ra của toàn bộ hệ thống. Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ
đưa lại tính chính xác và độ tin cậy cho hệ thống giám sát.
Việc xử lý của hệ thống giám sát thông minh bằng hình ảnh là việc phân tích
và xử lý hình ảnh video qua việc giải quyết các bài toán sau:
Bài toán 1: Phát hiện các đối tượng chuyển động là bước cơ bản đầu tiên
trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là
việc tách các các đối tượng chuyển động từ những hình ảnh nền của các đối
tượng đó. Phương pháp thường được sử dụng trong bài toán này đó là:
phương pháp trừ ảnh nền, các phương pháp dựa trên thống kê, phương pháp
chênh lệch tạm thời và các phương pháp dựa trên luồng thị giác.
Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối
tượng đã được tìm ra theo các lớp đã được định nghĩa trước như: lớp người,
lớp phương tiện, lớp động vật,… Đây là bước cần thiết để có thể tiếp tục
phân tích các hoạt động của chúng. Hiện tại có hai hướng chính tiếp cận để
giải quyết bài toán này đó là: hướng tiếp cận dựa trên hình dáng của các vết
và hướng tiếp cận dựa trên chuyển động của các đối tượng. Hướng tiếp cận
dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các

/ 90
vết tìm được, trong khi đó hương tiếp cận dựa trên chuyển động của đối
tượng dựa trên các tính chất chuyển động của đối tượng theo thời gian.
Bài toán 3: Theo dõi đối tượng đó là công việc đưa ra một chuỗi các
hành vi của đối tượng chuyển động trong một thời gian từ các khung hình
thu được. Thủ tục này đưa ra các thông tin về đối tượng được theo dõi như
đường đi của đối tượng, tốc độ hay hướng chuyển động của đối tượng. Từ
đó có thể dự đoán được hành động của các đối tượng và mô tả được hành
động của chúng. Đầu vào của quá trình này đó là các đầu ra các quá trình
tìm và phân lớp đối tượng chuyển động.
Các bài toán này không những được nghiên cứu và áp dụng trong các hệ
thống giám sát mà còn được áp dụng trong các lĩnh vực khác như: thực tại ảo,
nén hình ảnh, giao diện người máy, biên tập video và cơ sở dữ liệu đa phương
tiện… là các hướng tiếp cận phát triển công nghệ đa phương tiện trong tương
lai.
Đề xuất hướng giải quyết
Việc điểm danh học sinh hàng ngày ở các trường học thường gặp rất nhiều
khó khăn, tuy nhiều trường đã có những biện pháp, những cách thức cũng như
dùng nhiều công cụ, phương tiện kỹ thuật hỗ trợ, nhưng vẫn gặp không ít khó
khăn và trở ngại:
- Trong các lớp học, thời điểm đầu giờ, khi chưa có giáo viên vào lớp,
học sinh thường di chuyển liên tục nên sẽ rất khó khăn nếu điểm danh vào
thời điểm này.
- Nếu dùng thiết bị quét vân tay, cho học sinh quét vân tay mỗi khi vào
lớp sẽ rất lâu và dễ gây ùn tắc vì từng học sinh quét qua thiết bị sẽ mất nhiều
thời gian. Do đó dùng thiết bị quét vân tay sẽ không hiệu quả về mặt thời
gian.
- Dùng thiết bị camera và kết hợp điểm danh học sinh bằng nhận dạng
khuôn mặt cũng gặp khó khăn vì phải gắn camera trên cao, nên sẽ khó nhận

/ 90
dạng mặt của hết các bạn trong lớp, còn nếu để thấp thì chỉ có thể thấy học
sinh ở dãy bàn đầu tiên.
Do camera thường được gắn ở trên cao, nên đếm đầu học sinh và chiếu lên
sơ đồ lớp để điểm danh là một phương án khả thi nhất trong bài toán điểm danh
này. Để thực hiện việc phát hiện vùng đầu học sinh, đếm số lượng, rồi chiếu lên
sơ đồ để điểm danh chúng tôi cần phải giải quyết bốn bài toán sau:
- Bài toán thứ nhất: Xác định thời điểm bắt đầu của hệ thống điểm danh
học sinh? Thời điểm đầu giờ, học sinh di chuyển nhiều nên sẽ rất khó làm
việc này. Khi giáo viên vào lớp là lúc học sinh ổn định, chính là thời điểm
tốt nhất để xác định vùng đầu của học sinh. Tóm lại, thời điểm tốt nhất để
bắt đầu xác định vùng đầu là lúc có một dãy các frame ảnh mà có ít sự thay
đổi nhất.
- Bài toán thứ hai: Tuy học sinh ngồi một chỗ trong lớp học, nhưng các
em học sinh thường hay quay lên, quay xuống, nghiêng trái, xoay phải, nhất
là vùng đầu của các em thường hay di chuyển nên sẽ rất khó để điểm danh.
Do đó cần phải theo vết chuyển động của vùng đầu để tìm vị trí tâm trung
bình vùng đầu của từng học sinh trong lớp học.
- Bài toán thứ ba: Xác định vị trí tâm trung bình vùng đầu của từng học
sinh trong lớp học. Kết quả có thể là một tập gồm nhiều vị trí khác nhau của
từng học sinh.
- Bài toán thứ tư: Sau khi có được tập hợp dữ liệu là vị trí vùng đầu
trung bình của từng học sinh trong lớp học, chúng ta sẽ chiếu lên sơ đồ lớp
để điểm danh học sinh.

/ 90
CƠ SỞ LÝ THUYẾT
Mạng nơ-ron nhân tạo
Mạng thần kinh nhân tạo mô phỏng mạng thần kinh và cách làm việc của các
nơ-ron thần kinh trong bộ não con người nhằm ứng dụng giải quyết các bài toán
phức tạp do hai nhà nghiên cứu McCulloch và Pitts xây dựng và lần đầu tiên
giới thiệu vào năm 1943. Sau đó, mô hình này được hoàn thiện bởi những nhà
khoa học khác và được ứng dụng nhiều trong các lĩnh vực kỹ thuật. Mạng thần
kinh nhân tạo truyền thẳng nhiều lớp (Multilayer Perceptron – MLP) thường
được sử dụng phổ biến để giải quyết các bài toàn phi tuyến, phức tạp, khi mà
mối quan hệ giữa các quá trình không dễ thiết lập một cách tường minh [5].
Mạng nơ-ron nhân tạo có khả năng “học" và xử lý song song. Nó có thể tính
toán và dự báo giá trị của biến đầu ra với một tập hợp các thông tin của biến
đầu vào được cho trước. Mô hình mạng thần kinh nhân tạo sẽ được “huấn luyện”
để có thể “học” từ những thông tin quá khứ. Từ đó, mạng có thể đưa ra kết quả
dự báo dựa trên những gì đã được học. Quá trình này sẽ được tiến hành bằng
các thuật toán huấn luyện mạng, phổ biến là thuật toán lan truyền ngược. Mạng
thần kinh nhân tạo truyền thẳng nhiều lớp được sắp xếp gồm: lớp đầu vào, các
lớp ẩn và lớp đầu ra. Lớp đầu vào sẽ là nơi nhận các tín hiệu đầu vào. Các tín
hiệu này có thể là một hằng số, dữ liệu thô hoặc cũng có thể là đầu ra của một
mạng nơ-ron khác. Các giá trị này sẽ tác động đến các nơ-ron lớp ẩn thông qua
bộ trọng số 𝑤𝑖𝑗. Tại lớp ẩn, tín hiệu của lớp vào sẽ được xử lý bằng một hàm
kích hoạt, thường là hàm Sigmoid hoặc hàm Tan-hyperbolic sau đó tín hiệu sẽ
được truyền qua lớp ra thông qua bộ trọng số 𝑤𝑗𝑘. Các lớp ẩn liên kết giữa lớp
đầu vào và lớp đầu ra, điều này làm cho mạng thần kinh nhân tạo có khả năng
mô phỏng mối tương quan phi tuyến tốt hơn.

/ 90
Hình 2.1 Cấu trúc của mạng thần kinh nhân tạo
Có hai vấn đề cần học đối với mỗi mạng nơ-ron nhân tạo đó là học tham số và
học cấu trúc. Học tham số là việc thay đổi trọng số của các liên kết giữa các nơ-
ron trong một mạng, còn học cấu trúc là việc điều chỉnh cấu trúc của mạng bao
gồm thay đổi số lớp nơ-ron, số nơ-ron của mỗi lớp và cách liên kết giữa chúng.
Có ba loại phương pháp học: học có giám sát, học tăng cường và học không
có giám sát.
Học có giám sát: mạng được huấn luyện bằng cách cung cấp cho nó các cặp
mẫu đầu vào và các đầu ra mong muốn. Các cặp được cung cấp bởi hệ thống
trên đó mạng hoạt động. Sự khác biệt giữa các đầu ra thực tế so với các đầu ra
mong muốn được thuật toán sử dụng để thích ứng các trọng số trong mạng.
Điều này thường được đưa ra như một bài toán xấp xỉ hàm số - cho dữ liệu
huấn luyện bao gồm các cặp mẫu đầu vào x, và một đích tương ứng t, mục đích
là tìm ra hàm f(x) thoả mãn tất cả các mẫu học đầu vào.
WeightJK
WeightIJ
wjk
wij
yl
yk
y1
wJ0 = K0
w10 = J0
xn
xj
x1
Teta_K0
Teta_J0
0
0
Bias
Bias
TÍN
HIỆU
ĐẦU
VÀO
TÍN
HIỆU
ĐẦU
RA
LỚP ĐẦU VÀO LỚP ẤN LỚP ĐẦU RA
1
i
n
1
m
j
1
l
k

/ 90
Học không có giám sát: không có phản hồi từ môi trường để chỉ ra rằng đầu
ra của mạng là đúng. Mạng sẽ phải khám phá các đặc trưng, các điều chỉnh, các
mối tương quan, hay các lớp trong dữ liệu vào một cách tự động. Trong thực tế,
đối với phần lớn các biến thể của học không có giám sát, các đích trùng với đầu
vào. Nói một cách khác, học không có giám sát luôn thực hiện một công việc
tương tự như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào.
Mô hình mạng thần kinh nhân tạo xác lập mối quan hệ giữa một tập hợp các
biến đầu vào 𝑋𝑖
̅ (I = 1, n) với một hoặc nhiều biến đầu ra 𝑌
̅𝑘(k = 1, l) dựa vào dữ
liệu trong quá khứ. Với các nơ-ron ở lớp đầu vào, mỗi giá trị đầu vào Xi lần
lượt được nhân với các trọng số wij, sau đó được cộng với nhau và cộng với
một độ lệch. Tổng được tạo ra có thể sử dụng hàm kích hoạt f tạo thành nơ-ron
trong lớp ẩn Hj bằng công thức (2.1).
𝑯𝒋 = 𝒇(∑ 𝒙𝒊𝒘𝒊𝒋 + 𝒃𝒊𝒂𝒔
𝒏
𝒊=𝟏 ) (2.1)
Các nơ-ron trong lớp ẩn được tính toán, tiếp tục nhân với các trọng số wjk và
cộng thành tổng net. Sau khi tổng net được tính toán, nó được chuyển thành tín
hiệu đầu ra (giá trị ước lượng) bằng việc áp dụng hàm kích hoạt f trong công thức
(2.2).
𝒀
̂𝒌 = 𝒇(∑ 𝑯𝒋𝒘𝒊𝒋 + 𝒃𝒊𝒂𝒔
𝒎
𝒋=𝟏 )
= 𝒇(∑ 𝒇(∑ 𝒙𝒊𝒘𝒊𝒋
𝒏
𝒊=𝟏 )
𝒎
𝒋=𝟏 𝒘𝒋𝒌 + 𝒃𝒊𝒂𝒔) (2.2)
Ứng với một giá trị quan sát thứ t (t = 1, T), độ lệch giữa tín hiệu đầu ra của
mạng Yk,t và Yk,t được gọi là sai số, giá trị độ lệch ban đầu mặc định là 0. Để
tổng bình phương các sai số này là bé nhất, phải đi tìm bộ trọng số wij và wjk
hay tìm giá trị bé nhất của hàm mục tiêu E(w) thể hiện trong công thức (2.3).
𝑬(𝒘) =
𝟏
𝟐
∑ ∑ (𝒀𝒌,𝒕 + 𝒀
̂𝒌,𝒕)
𝟐
𝒍
𝒌=𝟏
𝑻
𝒕=𝟏 (2.3)
Vì hàm Ew là một hàm phi tuyến nên không thể tìm các trọng số w bằng
phương trình hồi quy tuyến tính mà sẽ được sử dụng thuật toán lan truyền
ngược sai số [2].

/ 90
Mạng nơ-ron tích chập
2.2.1 Tổng quan
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong
những mô hình học sâu tiên tiến có thể xây dựng được những hệ thống thông
minh với độ chính xác cao. Hiện nay các hệ thống xử lý ảnh lớn như Facebook,
Google hay Amazon đã đưa vào sản phẩm của mình những chức năng thông
minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay giao
hàng tự động. CNN được sử dụng nhiều trong các bài toán nhận dạng các đối
tượng trong ảnh. Tìm hiểu về thuật toán này sẽ hiểu được vì sao CNN được sử
dụng rộng rãi cho việc nhận dạng [9].
Tích chập là một cửa sổ trượt trên một ma trận như mô tả trong hình 2.2.
Hình 2.2 Ma trận trong cửa sổ trượt: (a) ảnh ban đầu; (b) Ma trận chuyển đổi
Các các tầng tích chập có các tham số đã được học để tự điều chỉnh lấy ra
những thông tin chính xác nhất mà không cần chọn các đặc tính. Trong hình
ảnh ví dụ trên, ma trận bên trái là một hình ảnh trắng đen được số hóa. Ma trận
có kích thước 5 × 5 và mỗi điểm ảnh có giá trị 1 hoặc 0 là giao điểm của dòng
và cột. Convolution hay tích chập là nhân từng phần tử trong ma trận 3 × 3.
Cửa sổ trượt, còn gọi là bộ lọc hay xác định đặc trưng là một ma trận có kích
thước nhỏ như trong ví dụ trên là 3 × 3. Tích chập là nhân từng phần tử bên
trong ma trận 3 × 3 với ma trận bên trái. Kết quả của tích chập là một ma trận
1 1 1 0 0
0 1 1 1 0
0 0 1x1 1x0 1x1
0 0 1x0 1x1 0x0
0 1 1x1 0x0 0x1
4 3 4
2 4 3
2 3 4
(a) (b)

/ 90
sinh ra từ việc trượt ma trận ban đầu và thực hiện tích chập cùng lúc lên toàn bộ
ma trận ảnh bên trái.
2.2.2 Mô hình của CNN
CNN là một tập hợp các tầng tích chập chồng lên nhau và sử dụng các hàm
kích hoạt phi tuyến như ReLU và tanh để kích hoạt các trọng số trong các phần
tử. Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin
trừu tượng hơn cho các lớp tiếp theo. Trong mô hình mạng truyền thẳng thì mỗi
nơ-ron đầu vào cho mỗi nơ-ron đầu ra trong các lớp tiếp theo. Mô hình này gọi
là mạng kết nối đầy đủ hay còn gọi là mạng toàn vẹn. Còn trong mô hình CNN
thì ngược lại. Các lớp liên kết được với nhau thông qua cơ chế tích chập. Lớp
tiếp theo là kết quả tích chập từ lớp trước đó, nhờ vậy mà ta có được các kết nối
cục bộ. Như vậy mỗi nơ-ron ở lớp kế tiếp sinh ra từ kết quả của bộ lọc áp đặt
lên một vùng ảnh cục bộ của nơ-ron trước đó.
Mỗi một lớp được sử dụng các bộ lọc khác nhau thông thường có hàng trăm
hàng nghìn bộ lọc như vậy và kết hợp kết quả của chúng lại. Ngoài ra có một số
tầng khác dùng để chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin
nhiễu). Trong quá trình huấn luyện CNN tự động học các giá trị qua các lớp lọc
dựa vào cách thức thực hiện. Ví dụ trong tác vụ phân lớp ảnh, CNN sẽ cố gắng
tìm ra thông số tối ưu cho các bộ lọc tương ứng theo thứ tự: điểm ảnh ban đầu
 cạnh  hình dáng  vùng mặt  đặc trưng cấp cao. Lớp cuối cùng được
dùng để phân lớp ảnh [3].

/ 90
Hình 2.3 Cấu trúc các lớp của CNN [3]
ĐẦU VÀO
Ánh xạ đặc trưng
(AXĐT)
AXĐT
AXĐT
Tích chập
ĐẦU
RA
Giảm kích thước
Tích chập
Giảm kích thước
Kết nối đầy đủ
AXĐT

/ 90
Trong mô hình CNN có 2 vấn đề cần quan tâm là tính bất biến và tính kết
hợp. Với cùng một đối tượng, nếu đối tượng này được chiếu theo các góc độ
khác nhau (biến dạng, bị quay, hay bị biến dạng) thì độ chính xác của thuật toán
sẽ bị ảnh hưởng đáng kể. Lớp tổng hợp sẽ cho bạn tính bất biến đối với phép
dịch chuyển, phép quay và phép co giãn. Tính kết hợp cục bộ cho ta các cấp độ
biểu diễn thông tin từ mức độ thấp đến mức độ cao và trừu tượng hơn thông
qua tích chập từ các bộ lọc. Đó là lý do tại sao CNN cho ra mô hình với độ
chính xác rất cao. Cũng giống như cách con người nhận biết các vật thể trong
tự nhiên [24].
2.2.3 Xây dựng CNN cho phân loại ảnh
CNN sử dụng một kiến trúc đặc biệt phù hợp cho bài toán phân loại ảnh. Sử
dụng kiến trúc này làm cho mạng tích chập huấn luyện nhanh hơn. Kết quả là
giúp việc huấn luyện sâu, mạng nhiều tầng, rất phù hợp cho phân loại ảnh.
Ngày nay, mạng tích chập hoặc một số biến thể của nó đượcc sử dụng trong các
mạng nơ-ron để nhận dạng ảnh. Mạng tích chập sử dụng ba ý tưởng cơ bản: các
trường tiếp nhận cục bộ, trọng số chia sẻ và lớp tổng hợp.
Trường tiếp nhận cục bộ: đầu vào của mạng CNN là một ảnh. Ví dụ như ảnh
có kích thước 28 × 28 thì tương ứng đầu vào là một ma trận có 28 × 28 ô và
giá trị mỗi điểm ảnh là một ô trong ma trận. Trong mô hình mạng ANN truyền
thống sẽ kết nối các nơ-ron đầu vào để vào tầng ảnh. Tuy nhiên trong CNN thì
không làm như vậy mà chỉ kết nối trong một vùng nhỏ của các nơ-ron đầu vào
như một bộ lọc có kích thước 5 × 5 tương ứng (28 − 5 + 1) = 24 điểm ảnh đầu
vào. Mỗi một kết nối sẽ học một trọng số và mỗi nơ-ron ẩn sẽ học một độ lệch.
Mỗi một vùng 5 × 5 đấy gọi là một trường tiếp nhận cục bộ, hình 2.4.

/ 90
Hình 2.4 Trường tiếp nhận cục bộ
Một cách tổng quan, ta có thể tóm tắt các bước tạo ra một lớp ẩn bằng cách sau:
- Tạo ra nơ-ron ẩn đầu tiên trong lớp ẩn 1 (hình 2.5).
Hình 2.5 Nơ-ron trong lớp ẩn 1
- Sau đó, trượt trường tiếp nhận cục bộ trên bởi một điểm ảnh bên phải (tức
là bằng một nơ-ron), để kết nối với một nơ-ron ẩn thứ hai, hình 2.6.
Đầu vào của nơ-ron
Nơ-ron ẩn
Đầu vào của Nơ-ron
Lớp ấn đầu tiên

/ 90
Hình 2.6 Nơ-ron trong lớp ẩn 2
Trọng số chia sẻ và độ lệch: mỗi một nơ-ron ẩn có một độ lệch và 5 × 5
trọng số liên kết với trường tiếp nhận cục bộ. Những gì chúng ta vẫn chưa đề
cập đến là chúng ta sẽ sử dụng các trọng số và độ lệch tương tự cho mỗi nơ-ron
ẩn 24 × 24. Nói cách khác, đối với những nơ-ron ẩn thứ j, k, đầu ra sẽ được xác
định theo công thức (2.4).
𝝈(𝒃 + ∑ ∑ 𝒘𝒍,𝒎𝒂𝒋+𝒍,𝒌+𝒎
𝟒
𝒎=𝟎
𝟒
𝒍=𝟎 ) (2.4)
Đối với bài toán nhận dạng ảnh, ma trận lớp đầu vào là sơ đồ đặc trưng,
trọng số xác định các đặc trưng là trọng số chia sẻ và độ lệch xác định một sơ
đồ đặc trưng là độ lệch chia sẻ. Như vậy đơn giản nhất là qua các bước trên bài
toán nhận dạng chỉ cần có một sơ đồ đặc trưng. Tuy nhiên để nhận dạng ảnh
chính xác thì cần phải có nhiều hơn một sơ đồ đặc trưng.
Hình 2.7 Một sơ đồ đặc trưng
Đầu vào của Nơ-ron
Lớp ẩn đầu tiên
28 x 28 nơ-ron đầu vào
Lớp ẩn đầu tiên
của 3 x 24 x 24 nơ-ron đầu vào

/ 90
Trong hình 2.7, có 3 sơ đồ đặc trưng. Mỗi sơ đồ đặc trưng được xác định bởi
một tập 5 × 5 trọng số chia sẻ và một độ lệch chia sẻ duy nhất. Kết quả là các
mạng có thể phát hiện ba loại đặc trưng khác nhau, với mỗi đặc trưng được phát
hiện trên toàn bộ ảnh.
Như vậy, trường tiếp nhận cục bộ thích hợp cho việc phân tách dữ liệu ảnh,
giúp chọn ra những vùng ảnh có giá trị nhất cho việc đánh giá phân lớp.
Một ưu điểm quan trọng của trọng số và độ lệch chia sẻ là nó làm giảm đáng
kể số lượng các tham số liên quan đến một mạng tích chập. Đối với mỗi sơ đồ
đặc trưng chúng ta cần 25 = 5 × 5 trọng số chia sẻ và một độ lệch chia sẻ duy
nhất. Vì vậy, mỗi sơ đồ đặc trưng cần 26 tham số. Nếu bài toán cần có 20 sơ đồ
đặc trưng thì cần 20 × 26 = 520 tham số để xác định lớp tích chập. Bây giờ hãy
làm một phép so sánh, giả sử có lớp đầu tiên kết nối đầy đủ, tức là có
784 = 28 × 28 nơ-ron đầu vào, và số nơ-ron lớp ẩn bằng 30. Như vậy cần
784 × 30 trọng số, cộng thêm 30 độ lệch, tổng số 23.550 tham số. Nói cách
khác, lớp kết nối đầy đủ sẽ cần số lượng tham số nhiều gấp 40 lần so với lớp
tích chập.
Tóm lại, một tầng tích chập bao gồm các sơ đồ đặc trưng khác nhau. Mỗi
một sơ đồ đặc trưng giúp nhận dạng một vài đặc trưng trong bức ảnh. Lợi ích
lớn nhất của trọng số chia sẻ là giảm tối đa số lượng tham số trong CNN.
Ngoài các lớp tích chập vừa mô tả, mạng nơ-ron tích chập cũng chứa các lớp
tổng hợp. Lớp tổng hợp thường được sử dụng ngay sau lớp tích chập. Những gì
các lớp tổng hợp làm là đơn giản hóa các thông tin ở đầu ra từ các lớp tích chập.
Ví dụ, mỗi đơn vị trong lớp tổng hợp có thể thu gọn một vùng 2 × 2 nơ-ron
trong lớp trước. Một thủ tục tổng hợp phổ biến là max-pooling. Trong max-
pooling, một đơn vị tổng hợp chỉ đơn giản là kết quả đầu ra kích hoạt giá trị lớn
nhất trong vùng đầu vào 2 × 2, như hình 2.8.

/ 90
Hình 2.8 Lớp tổng hợp trong CNN
Lưu ý rằng bởi vì có 24 × 24 nơ-ron đầu ra từ các lớp tích chập, sau khi
pooling sẽ có 12 × 12 nơ-ron.
Lớp tích chập thường có nhiều hơn một sơ đồ đặc trưng. Do đó sẽ áp dụng
max-pooling cho mỗi sơ đồ đặc trưng riêng biệt. Vì vậy, nếu có ba sơ đồ đặc
trưng, các lớp tích chập và max-pooling sẽ kết hợp như hình 2.9.
Hình 2.9 Sự kết hợp giữa các lớp tích chập và max-pooling
Có thể hiểu max-pooling như là một cách cho mạng để hỏi xem một đặc
trưng nhất được tìm thấy ở bất cứ đâu trong một khu vực của ảnh. Sau đó nó bỏ
đi những thông tin định vị chính xác. Trực giác là một khi một đặc trưng đã
được tìm thấy, vị trí chính xác của nó là không quan trọng như vị trí thô của nó
so với các đặc trưng khác. Một lợi ích lớn là có rất nhiều tính năng gộp ít hơn,
Nơ-ron lớp ẩn
(Đầu ra của sơ đồ đặc trưng)
Đơn vị max-pooling

/ 90
và vì vậy điều này sẽ giúp giảm số lượng các tham số cần thiết trong các lớp
sau.
Max-pooling không phải là kỹ thuật duy nhất được sử dụng để tổng hợp.
Một phương pháp phổ biến khác được gọi là L2 pooling. Ở đây, thay vì lấy giá
trị kích hoạt tối đa của một vùng 2 × 2 nơ-ron, phương pháp này lấy căn bậc hai
của tổng các bình phương của kích hoạt trong vùng 2 × 2. Trong khi các chi tiết
thì khác nhau, nhưng về trực giác thì tương tự như max-pooling: L2 pooling là
một cách để cô đọng thông tin từ các lớp tích chập. Trong thực tế, cả hai kỹ
thuật đã được sử dụng rộng rãi. Và đôi khi chúng ta có thể sử dụng các loại
pooling khác.
Đặt tất cả chúng lại với nhau để tạo thành một mạng tích chập hoàn chỉnh.
Nó tương tự như kiến trúc khi nhìn vào, nhưng có thêm một lớp 10 nơ-ron đầu
ra, tương ứng với 10 giá trị kết quả, hình 2.10.
Hình 2.10 Các lớp tạo thành một CNN cho ra 10 giá trị
Hai lớp cuối cùng của các kết nối trong mạng là một lớp kết nối đầy đủ. Lớp
này nối tất cả các nơ-ron từ lớp max pooling đến tất cả các nơ-ron của dầu ra.
Phát hiện đối tượng
2.3.1 Tổng quan
Bài toán phát hiện đối tượng thường sử dụng những thuật toán đơn giản, tốc
độ tính toán nhanh, nhưng bù lại độ chính xác không tốt như sử dụng mô hình
học sâu. Phát hiện đối tượng tự động có vai trò quan trọng trong các các hệ
28 × 28 3 × 24 × 24
3 × 12 × 12

/ 90
thống giám sát, nhận dạng và khảo sát. Việc sử dụng thị giác máy tính để phát
hiện các đối tượng là một giải pháp được sử dụng rộng rãi trên toàn thế giới.
Phương pháp này ứng dụng các kỹ thuật xử lý ảnh và các thuật toán máy học để
tìm các đối tượng trong các hình ảnh. Tuy nhiên, việc phát hiện đối tượng dựa
trên thị giác máy tính là một vấn đề khó bởi vì hệ thống phải giải quyết với sự
thay đổi về điều kiện tạo ảnh (ví dụ như sự thay đổi về các điều kiện ánh sáng
và thời tiết) và sự thay đổi của các cảnh và môi trường.
Nhiều phương pháp phát hiện đối tượng khác nhau sử dụng thị giác máy tính
đã được phát triển và ứng dụng rộng rãi trong đời sống thực tiễn [3]. Các
phương pháp này phát hiện đối tượng với ba bước chính:
- Bước thứ nhất là dựa vào các thuộc tính của đối tượng như màu sắc, kết
cấu bề mặt và hình dạng để trích chọn các đặc trưng ảnh.
- Bước thứ hai là sử dụng tập dữ liệu mẫu để xác định các tham số cho
các bộ nhận dạng đối tượng trong ảnh.
- Bước thứ ba là sử dụng bộ nhận dạng để xác định đối tượng trong các
ảnh đầu vào bất kỳ.
Trong hệ thống phát hiện đối tượng thì việc trích chọn đặc trưng ảnh đóng
một vai trò quan trọng. Có hai xu hướng chính trong việc trích chọn đặc trưng:
- Sử dụng các đặc trưng cạnh,
- Sử dụng các đặc trưng màu và kết cấu bề mặt của các vùng ảnh.
Các phương pháp dựa trên các đặc trưng cạnh xác định đối tượng trong ảnh
bằng việc đi tìm các đường bao của đối tượng. Điểm mạnh của các phương
pháp này là bất biến với các điều kiện ánh sáng và sự dịch chuyển của đối
tượng. Tuy nhiên, các phương pháp dựa vào cạnh lại nhạy cảm với các cạnh
nhiễu và không có hiệu quả khi trong ảnh xuất hiện nhiều cạnh nhiễu. Mặt khác,
hiệu quả của các phương pháp này lại phụ thuộc vào việc dò tìm các điểm cạnh.

/ 90
Các phương pháp sử dụng các đặc trưng màu và kết cấu bề mặt của các vùng
ảnh có hiệu quả cao trong việc dò tìm các đối tượng mà chúng có màu sắc hoặc
kết cấu bề mặt rất khác so với các đối tượng nền khác trong ảnh [3]. Điểm yếu
của các phương pháp này là chúng rất nhạy cảm với sự thay đổi của các điều
kiện ánh sáng và thường lỗi trong trường hợp đối tượng bị ảnh hưởng bởi các
vùng rất sáng và các bóng râm [8].
2.3.2 Phương pháp phát hiện đối tượng
Phương pháp được đề xuất sử dụng là dựa vào cạnh, vào màu và kết cấu bề
mặt. Phương pháp đề xuất dựa trên sự kết hợp giữa đặc trưng màu sắc và đặc
trưng hình dạng để xây dựng một mô hình xác suất cho việc phát hiện các mục
tiêu trong ảnh. Có hai bước chính trong phương pháp này:
- Bước thứ nhất là phân mảnh ảnh đầu vào thành các vùng đồng màu
khác nhau.
- Bước thứ hai là xác định mục tiêu trong ảnh từ các vùng đồng màu sử
dụng các đặc trưng màu và hình dạng. Mục tiêu được tìm như là một tập con
các vùng đồng màu kết nối với nhau (các vùng này đều thuộc về một vùng
lớn) sao cho xác suất hậu nghiệm của tập này là lớn nhất.
Các đối tượng cần phát hiện trong các ảnh thu thập được từ camera sẽ bao
gồm nhiều đối tượng nền. Do vậy việc sử dụng các phương pháp dựa vào cạnh
sẽ không hiệu quả. Mặt khác nếu sử dụng các phương pháp dựa vào đặc trưng
màu sắc sẽ rất nhạy cảm với điều kiện ánh sáng. Từ việc phân tích các kết quả
thực nghiệm phân vùng ảnh bằng phương pháp đồ thị trong [22] thì kết quả
thuật toán phân vùng ảnh nhanh, có độ chính xác và tin cậy cao. Hơn nữa, đặc
trưng hình dạng được đề xuất trong [12] là một đặc trưng quan trọng trong việc
xác định đối tượng, nó có nhiều ưu điểm như là bất biến với sự méo hình cục
bộ, sự dịch chuyển và xoay. Thay vì chỉ sử dụng đặc trưng màu, việc kết hợp
đặc trưng hình dạng với đặc trưng màu sắc sẽ tăng đáng kể độ chính xác và độ

/ 90
tin cậy trong việc xác định đối tượng dưới các điều kiện môi trường và ánh
sáng khác nhau. Sử dụng phương pháp xác suất với sự kết hợp giữa đặc trưng
hình dạng với đặc trưng màu sắc trong việc phát hiện đối tượng từ các vùng ảnh
cục bộ.
Đầu tiên, ảnh đầu vào được phân mảnh thành các vùng đồng màu sử dụng
thuật toán trong [22]. Sau đó, đối tượng cần tìm được xác định trong ảnh như là
một tập con các vùng đồng màu kết nối với nhau. Tập con này có xác suất hậu
nghiệm của đặc trưng màu sắc và hình dạng là cực đại. Theo một cách khác,
phương pháp đề xuất phát hiện đối tượng trong ảnh bao gồm có hai giai đoạn
chính:
- Giai đoạn một: phân vùng ảnh. Có nhiều thuật toán phân vùng ảnh khác
nhau như các thuật toán chia và trộn vùng, các thuật toán tăng trưởng vùng,
các thuật toán áp dụng lý thuyết đồ thị, các thuật toán sử dụng các kỹ thuật
máy học, các thuật toán dựa vào cạnh... Tuy nhiên phương pháp hiện được
tính tổng quát hóa trong phân vùng ảnh và có thể áp dụng cho nhiều trường
hợp thực tế là sử dụng thuật toán dựa vào lý thuyết đồ thị được đề xuất trong
[22] để phân mảng ảnh đầu vào thành các vùng đồng nhất về màu sắc. Thuật
toán này có độ chính xác cao và thời gian tính toán nhanh. Thuật toán được
chia làm các giai đoạn như hình 2.11
Hình 2.11 Giai đoạn phân vùng ảnh
Frameảnh
Dữ liệu từ
camera
Tiềnxửlýảnh
Phân ảnh thành các
vùng đồng màu

/ 90
- Giai đoạn hai: xác định đối tượng. Thuật toán này thực hiện bằng cách
rút trích đặc trưng về hình dạng và màu sắc từ các vùng đồng màu của ảnh
ban đầu. Sau đó dùng các mô hình xác xuất để xác định đối tượng cần tìm,
hình 2.12.
Hình 2.12 Giai đoạn xác định đối tượng
Gọi 𝑺 = {𝑺𝟏, 𝑺𝟐, 𝑺𝟑, 𝑺𝟒, … } là tập các vùng đồng nhất về màu sắc trong
ảnh đầu vào. Các vùng đồng màu này có được bằng việc áp dụng thuật toán
phân vùng ảnh. Đối tượng trong ảnh đầu vào được tìm là một tập con 𝑺∗
từ 𝑺.
Tất cả các thành phần 𝑺𝒊 ∈ 𝑺∗
là các thành phần kết nối và đều thuộc về một
vùng ảnh Z. Tập con 𝑺∗
từ 𝑺 được xác định bằng cách sử dụng hai đặc trưng
nổi bật của đối tượng trong ảnh là: màu sắc và hình dạng. Các đặt trưng của
đối tượng được tính toán bằng việc sử dụng các hàm mật độ xác suất trên tập
dữ liệu ảnh mẫu.
Trên tập dữ liệu ảnh mẫu, mỗi ảnh được phân vùng thành các vùng đồng
màu 𝑺𝒊, các vùng thuộc đối tượng được xác định thủ công như là các vùng
𝑺𝒌
𝟎
. Như vậy từ tập dữ liệu mẫu sẽ tạo ra một tập các vùng đồng màu khác
nhau thuộc về đối tượng 𝑺𝟎
= {𝑺𝟏
𝟎
, 𝑺𝟐
𝟎
, 𝑺𝟑
𝟎
, 𝑺𝟒
𝟎
, … }. Đối với mỗi vùng 𝑺𝒌
𝟎
, đặc
trưng màu 𝒄 = (𝒄𝟏, 𝒄𝟐, 𝒄𝟑) của nó là một vector mà mỗi thành phần 𝒄𝒊 (𝒊 =
𝟏, 𝟐, 𝟑) là giá trị trung bình của thành phần màu thứ i của tất cả các điểm ảnh
Vùngđồngmàu
Rút trích đặc
trưng về hình
dạng và màu sắc
Đốitượng
đượctìm
Xác định đối
tượng bằng mô
hình xác xuất

/ 90
trong 𝑺𝒌
𝟎
. Đặt O biểu thị cho lớp đối tượng cần tìm. Hàm mật độ xác suất của
đối tượng đối với màu đặc trưng màu 𝝆(𝒄|𝑶) được tính bằng phương pháp
histogram màu 3D của tất cả các màu 𝒄 của các vùng 𝑺𝒌
𝟎
. Mỗi thành phần
màu được lượng tử hóa thành N bin.
Đặc trưng hình dạng của đối tượng được xác định bằng việc sủ dụng các
bộ đặc tả về hình dạng [12]. Bộ đặc tả hình dạng này bất biến khi đối tượng
bị xoay, dịch chuyển, méo, biến đối theo tỷ lệ. Đặc trưng hình dạng 𝒔 của
một đối tượng bao gồm các đặc tả hình dạng của các điểm ảnh nằm trên
đường bao của đối tượng. Xét một đối tượng có 𝐾 các điểm mẫu
𝝆𝟏, 𝝆𝟐, 𝝆𝟑, … , 𝝆𝒌 trên đường viền. Đặc tả hình dạng của một điểm 𝝆𝒊 là một
histogram của các tọa độ tương đối giữa 𝝆𝒊 và 𝐾 − 1 điểm còn lại trên
đường viền của đối tượng như công thức (2.11).
𝒉𝒊
𝒌
= #{𝒒 ≠ 𝝆𝒊
∶ (𝒒 − 𝝆𝒊
) ∈ 𝒃𝒊𝒏(𝒌)} (2.11)
Các bin là đồng nhất trong không gian log
Đối với hai điểm khác nhau trên cùng một đối tượng thì các đặc tả hình
dạng của chúng sẽ khác nhau. Đối với các đối tượng có hình dạng giống
nhau thì đặc tả hình dạng của hai điểm tương ứng nhau sẽ là giống nhau. Sự
khác nhau giữa hai bộ đặc tả hình dạng của hai điểm 𝜌 và q được tính như
công thức (2.12).
𝑪(𝝆, 𝒒) =
𝟏
𝟐
∑
(𝒉𝝆
𝒊 −𝒉𝒒
𝒊 )
𝟐
𝒉𝝆
𝒊 +𝒉𝒒
𝒊
𝑴
𝒊=𝟏 (2.12)
Trong công thức (2.12), M là số bin của các histogram tọa độ cực.
Gọi 𝑻 = {𝑇1, 𝑇2, 𝑇3, … } là tập các hình dạng mẫu của đối tượng cần tìm.
Trong bài toán này, mỗi đối tượng bao gồm chín hình dạng mẫu. Đối với
mỗi hình dạng mẫu, lấy các điểm mẫu 𝝆 nằm trên đường bao của đối tượng
sao cho hai điểm liền kề nhau cách nhau 𝝉 điểm ảnh. Các bộ đặc tả hình

/ 90
dạng của các điểm này là đặc trưng hình dạng của mỗi hình dạng mẫu. Đối
với mỗi một vùng ảnh Z (nó có thể bao gồm nhiều vùng đồng màu), thì đặc
trưng hình dạng 𝑺𝒛 của Z là các đặc tả hình dạng của các điểm mẫu nằm trên
đường bao ngoài của Z.
Hình 2.13 Chín hình dạng mẫu của một đối tượng [12]
Sự khác nhau về hình dạng giữa một vùng ảnh Z và một hình dạng mẫu T
của đối tượng được tính như công thức (2.13):
𝑫(𝑺𝒛, 𝑻) =
𝟏
|𝑺𝒛|
∑ 𝒎𝒊𝒏𝒒∈𝑻𝑪(𝝆, 𝒒)
𝝆∈𝑺𝒛
(2.13)
Trong công thức (2.13), |𝑺𝒛| biểu thị cho tổng số điểm mẫu trong Z.
Hàm mật độ xác suất về đặc trưng hình dạng của một vùng ảnh Z thuộc về
đối tượng được tính theo công thức (2.14).
𝝆(𝑺𝒛|𝑶) = 𝒆𝒙𝒑[−𝜷 𝒎𝒊𝒏𝑻∈𝑻 𝑫(𝑺𝒛, 𝑻)] (2.14)
Trong công thức (2.14), 𝜷 là tham số tỷ lệ được xác định thông qua tập
dữ liệu mẫu. Công thức (2.14) có nghĩa rằng khi hình dạng của vùng ảnh Z
tương tự một hình dạng mẫu T của đối tượng thì giá trị 𝑫(𝑺𝒛, 𝑻) là nhỏ và
do vậy giái trị 𝝆(𝑺𝒛|𝑶) là cao. Ngược lại 𝝆(𝑺𝒛|𝑶) có giá trị thấp khi hình
dạng của vùng ảnh Z khác với các hình dạng mẫu T của đối tượng.

/ 90
Từ một tập các vùng ảnh đồng màu S, đối tượng cần tìm được xác định
như một tập con 𝑺∗
theo công thức (2.15).
𝑺∗
= 𝒂𝒓𝒈 𝒎𝒂𝒙𝒛∈𝒔𝝆(𝒁|𝑶) (2.15)
Với
𝝆(𝒁|𝑶) = 𝝆(𝑪𝒛|𝑶)𝝆(𝑺𝒛|𝑶) (2.16)
Tập 𝑺∗
trong công thức (2.15) có thể được xác định bằng phương pháp
vét cạn với việc tìm tất cả các tập con S. Tuy nhiên phương pháp này sẽ mất
nhiều thời gian tính toán, độ phức tạp tính toán của nó là 𝑶(𝟐|𝑺|
) với |𝑺| là
tổng số thành phần của S. Dùng thuật toán thêm bớt các vùng trong [19] để
giảm thời gian tính toán. Thuật toán này hiệu quả khi ta thêm một số điều
kiện lọc như: loại bỏ vùng đồng màu lớn (đa số là các vùng nền) bằng việc
thống kê tiết diện đối tượng so với khung hình. Thuật toán này được mô tả
như sau.
Thuật toán 1.1: Tìm đối tượng bằng cách thêm bớt vùng
𝑺′
 {𝑆 ∈ 𝑺|𝝆(𝑪𝑺|𝑶) ≥ 𝝉}
𝑺∗
 𝒂𝒓𝒈𝑆∈𝑺′max 𝝆(𝑪𝑺|𝑶)
Temp  Đúng
WHILE (temp) do
𝑆𝑎  {𝑆𝑖 ∈ {𝑺′
− 𝑺∗}, với 𝑺∗
∪ 𝑆𝑖 là một vùng liên thông}
𝑆+
 𝑎𝑟𝑔𝑚𝑎𝑥𝑆∈𝑺𝒂𝜌({𝑆 ∪ 𝑺∗}|𝑶)
𝑆𝑟  {𝑆𝑖 ∈ 𝑺∗
, 𝑣ớ𝑖 {𝑺∗
− 𝑆𝑖} là một vùng liên thông}
𝑆−
 𝑎𝑟𝑔𝑚𝑎𝑥𝑆∈𝑺𝒓𝜌({𝑺∗
− 𝑆}|𝑶)

/ 90
IF 𝜌({𝑆+
∪ 𝑺∗}|𝑶) ≥ 𝜌({𝑆−
∪ 𝑺∗}|𝑶) and 𝜌({𝑆 ∪ 𝑺∗}|𝑶) >
𝜌(𝑺∗
|𝑶) THEN
𝑆∗
 𝑺∗
∪ 𝑆+
ELSEIF 𝜌({𝑺∗
− 𝑆−}|𝑶) > 𝜌(𝑺∗
|𝑶) then
𝑆∗
 𝑺∗
∪ 𝑆−
ELSE
Temp  Sai
ENDIF
ENDWHILE
Trong thuật toán 2, ở mỗi bước lặp khi thêm hoặc bớt một vùng 𝑆𝑖 vào 𝑺∗
thì
tính kết hợp của tập {𝑺∗
∪ 𝑆𝑖} và {𝑺∗
− 𝑆𝑖} được kiểm tra. Một tập các thành
phần được xem là kết nối nếu như tất cả các thành phần của nó đều thuộc về
một vùng ảnh chung.
Vùng ảnh được tạo ra từ các thành phần 𝑺∗
được xem như là đối tượng cần
tìm nếu điều kiện sau đây được thõa mãn
𝝆(𝑺∗
|𝑶) ≥ 𝝉𝒄 (2.17)
Trong công thức (2.17) tham số 𝝉𝒄 là một ngưỡng được xác định trước
bằng việc học từ tập dữ liệu mẫu.
Theo vết chuyển động dựa trên tương quan
2.4.1 Giới thiệu
Có ít thay đổi giữa hai khung hình liên tiếp (do khoảng thời gian giữa hai
khung hình nhỏ, ít hơn 0.04 giây) và bối cảnh xung quanh đối tượng hầu như
không thay đổi, ngay cả khi đối tượng bị biến dạng nặng nề. Vì thế, điều quan
trọng là mô hình hóa mối quan hệ thời gian của sự xuất hiện vật thể đang được
theo dõi cùng với bối cảnh của chúng [13].

/ 90
Thuật toán được phát triển theo phương pháp “Kernel Ridge Regression”
(kết hợp Ridge Regresion với thủ thuật Kernel) dựa trên những bộ lọc tương
quan để mã hóa mẫu diện mạo bao gồm vật thể đối tượng và bối cảnh xung
quanh của nó. Các mẫu thích ứng được xây dựng bởi các tính năng được đề
xuất có khả năng chống bóp méo, chuyển động nhanh và biến dạng lớn. Thuật
toán mô hình hóa một cách hiệu quả thông tin bối cảnh liên quan đến thời gian,
bằng việc sử dụng những bộ lọc tương quan trong việc theo dõi dài hạn [14].
Điều quan trọng tiếp theo là nâng cấp mô đun phát hiện của việc theo dõi dài
hạn để ước tính sự thay đổi quy mô và phát hiện lại vật thể (tái phát hiện) trong
trường hợp đối tượng theo dõi thất bại khi nó bị biến dạng hay ngoài tầm xảy ra.
Để ước lượng sự thay đổi quy mô hay kích thước, thuật toán huấn luyện một
bộ lọc tương quan khác cho một mục tiêu từ khung đáng tin cậy nhất. Phương
pháp này sử dụng đặc trưng HOG để xây dựng một mô hình dạng kim tự tháp
chứa các thông tin của đối tượng theo nhiều kích thước và tìm kiếm một kích
thước tối ưu một cách toàn diện [19].
Để phát hiện lại vật thể, thuật toán không áp dụng bộ lọc tương quan mà
thay vào đó là huấn luyện một trình phát hiện trực tuyến bằng cách sử dụng
thuật toán phân loại không phân cấp để phát hiện lại các vật thể phát hiện sai.
Thuật toán giải quyết hai vấn để của phương pháp “theo vết đối tượng dựa
trên tương quan”. Vấn đề đầu tiên là tình trạng khó xử giữa tính ổn định và tính
linh động. Nếu như trình phân loại được huấn luyện với những mẫu có tính ổn
định cao hơn thì thuật toán sẽ giải quyết được với các đối tượng có sự biến
dạng và dễ bị mất bằng các mô hình cập nhật những mẫu bị nhiễu. Tuy nhiên,
phương pháp này không hoạt động tốt trong việc theo dõi dài hạn. Mặc khác,
các trình phân loại trực tuyến có tính thích nghi cao dễ dẫn đến việc bị bỏ qua
đối tượng trong trường hợp các bản cập nhật bị nhiễu.
Thuật toán của theo vết tương quan giải quyết hiệu quả vấn đề trên bằng
cách mô hình hóa sự tương quan ngữ cảnh thời gian và hình dạng bên ngoài của

/ 90
vật thể bằng hai mô hình hồi quy dựa trên những bộ lọc tương quan với những
tỷ lệ tích nghi khác nhau.
Trình hồi quy ngữ cảnh thời gian này được dùng để ngăn chặn lại sự biến
dạng và bóp méo của đối tượng cần theo dõi.
Trình hồi quy ngữ cảnh thời gian này được điều chỉnh một cách thận trọng
và được xây dựng dựa trên một mô hình có hình dáng như kim tự tháp dùng
cho việc ước lượng quy mô (kích thước) của đối tượng.
Do đó, phương pháp theo vết tương quan này thích nghi một cách hiệu quả
với việc thay đổi hình dạng và giảm nguy cơ bỏ qua đối tượng.
Một vấn đề khác với bộ phân loại trực tuyến là tính không rõ ràng của mẫu,
mà ở đó những mẫu tiêu cực là cần thiết để huấn luyện cho bộ phân loại và
những nhãn tên nhị phân ít hiệu quả hơn để diễn đạt mối quan hệ không gian
giữa các mẫu. Bằng việc chuyển quá trình tương quan thành một tích trong
miền Fourier, mô hình hồi quy xem xét tất cả dịch chuyển tròn của những đặc
tính đầu vào do đó giảm bớt vấn đề về lấy mẫu.
Đóng góp quan trọng của phương pháp này là giải quyết vấn đề của theo dõi
lâu dài bằng việc phân tích một cách hiệu quả nhiệm vụ theo dõi thành dự đoán
sự chuyển đổi và sự co dãn kích thước của những vật thể mục tiêu kết hợp với
một trình tái phát hiện. Sự dự đoán biến dạng phụ thuộc vào mô hình hồi quy
ngữ cảnh thời gian chống lại sự biến dạng, biến thể chiếu sáng, nền lộn xộn và
chuyển động đột ngột. Được kết hợp với sự biến dạng được dự đoán, một kim
tự tháp mục tiêu được xây dựng để xác định sự thay đổi kích thước bằng việc
sử dụng một mô hình hồi quy mục tiêu.
2.4.2 Những vấn đề liên quan đến thuật toán
Những bộ lọc tương quan được dùng rộng rãi trong nhiều ứng dụng như là
phát hiện vật thể và nhận dạng đối tượng. Bởi vì phép toán được chuyển đổi dễ
dàng thành miền tần số Fourier bởi phép nhân từng phần tử, những bộ lọc
tương quan đã thu hút sự chú ý đáng kể gần đây để theo dõi hình dạng bên
ngoài của đối tượng do hiệu quả tính toán của nó. Những bộ lọc này gồm có:

/ 90
- Bolme và những cộng sự đã đề xuất để tìm hiểu hiểu bộ lọc MOSSE để
theo dõi ngoại thể trên những hình ảnh gam màu xám, mà ở đó, bộ lọc đã được
huấn luyện mã hóa ngoại thể của mục tiêu cùng với những cập nhật, trên mỗi
khung hình. Bằng việc sử dụng những bộ lọc tương quan, trình theo dõi
MOSSE có hiệu quả về mặt tính toán với tốc độ đạt đến vài trăm khung hình
mỗi giây[14].
Heriques và những cộng sự đề xuất sử dụng những bộ lọc tương quan trong
một không gian nhân với phương pháp CSK đạt được tốc độ cao nhất trong lần
đánh giá gần đây. Phương pháp CSK xây dựng trên những đặc trưng tăng
cường độ chiếu sáng và được cải thiện bằng việc sử dụng những đặc trưng
HOG trên thuật toán theo dõi KCF [14].
Danelljan và những cộng sự khám phá ra những thuộc tính màu sắc của đối
tượng và tìm hiểu một bộ lọc tương quan thích nghi bằng việc kết hợp những
đối tượng đa kênh vào một không gian nhân Gausian [14].
Zhang và những cộng sự kết hợp thông tin bối cảnh vào việc học của bộ lọc,
và mô hình hóa sự thay đổi kích thước dựa trên phản hồi tương quan liên tục
[14].
Trình theo dõi DSST học những bộ lọc tương quan nhiều kích thước tương
thích bằng việc sử dụng đặc trưng HOG để xử lý sự thay đổi kích thước của
những đối tượng.
Tuy nhiên, những phương pháp này không giải quyết được những vấn đề rất
quan trọng liên quan đến cập nhật mô hình trực tuyến. Do đó, các trình tương
quan này dễ bị biến mất và ít hiệu quả hơn trong việc xử lý các đối tượng bị
biến dạng và ngoài tầm.
Để giảm thiểu tình trạng khó xử giữa tính ổn định và tính linh động liên
quan đến cập nhật mô hình trực tuyến trong việc theo dõi hình thể, Kalal và
những cộng sự đã phân tích việc theo dõi thành ba yếu tố gồm: theo dõi, học
tập và pháp hiện (Tracking, Learning, Detection - TLD) [21]. Mà ở đó việc theo
dõi và phát hiện tạo điều kiện dễ dàng cho mỗi bên. Những kết quả từ trình theo

/ 90
dõi cung cấp thông tin học tập để cập nhật trình phát hiện và trình phát hiện tái
tạo lại trình theo dõi khi mà nó thất bại. Cơ chế này được cho là hoạt động tốt
cho theo dõi lâu dài.
Zhang và những người khác kết hợp nhiều trình phân loại với những mức độ
thích nghi khác nhau và thiết kế một bộ đo entropy để kết hợp tất cả các đầu ra
theo dõi.
Thuật toán mang lại một số điểm giống nhau với hai phương pháp này cùng
với sự khác nhau đáng kể trong những thành phần theo dõi dựa trên phương
pháp Lucas-Kanade mà không hoàn toàn khai thác thông tin ngữ cảnh thời gian.
Thuận toán sử dụng một mô hình hồi quy hình chóp để nghiên cứu sự tương
quan theo thời gian của ngữ cảnh thay vì một trình phân loại nhị phân (ví dụ
trình phân loại SVM trực tuyến). Để giảm thiểu vấn đề về những mẫu bị nhiễu,
Hare và những cộng sự xem xét sự phân phối không gian của mẫu bên trong
một không gian tìm kiếm và đề xuất để nghiên cứu một đầu ra có cấu trúc giao
để dự đoán vị trí của vật thể, phương pháp này đã được chứng minh là hoạt
động rất tốt. Bởi vì các toán tử tương quan được tính toán trên miền tần số
Fourier và cân nhắc tất cả những vòng tròn dịch chuyển của những đặc trưng
đầu vào, bên cạnh đó mô hình hồi quy giúp xử lý một cách hiệu quả việc lấy
mẫu cơ bản trong việc theo dõi trực tuyến với một bộ phân loại nhị phân trực
tuyến.
Thuật toán theo dõi trực tuyến có thể thích ứng với sự thay đổi đáng kể về
ngoại hình mà không bị bị bỏ qua. Chúng chia nhiệm vụ thành dự đoán sự biến
dạng về hình dáng và kích thước. Sự biến dạng được dự đoán bằng việc sử
dụng sự tương quan của ngoại cảnh theo thời gian và sự dự đoán kích thước
được thưc hiện bằng cách học một bộ lọc phân biệt tương quan. Thuật toán bao
gồm hai thành phần: theo vết chuyển động tương quan; phát hiện trực tuyến.

/ 90
2.4.3 Thuật toán theo vết đối tượng dựa trên đặc trưng tương quan
Thuật toán 2.2: thuật toán theo vết
INPUT: Khởi tạo khung giới hạn mục tiêu x0
OUPUT: Trạng thái vật thể được dự đoán: 𝑋𝑡 = (𝑥𝑡
̂ , 𝑦𝑡
̂ , 𝑠𝑡
̂) , mô
hình hồi quy ngữ cảnh theo thời gian Rc , mô hình quy
hồi ngoại hình mục tiêu Rt, và bộ phát hiện Random
Ferns Drf
WHILE
Cắt cửa sổ tìm kiếm thành khung t, dựa theo (𝑥
̂𝑡−1, 𝑦
̂𝑡−1)
và xuất ra những đặc trưng;
// Dự đoán biến dạng
Tính toán bản đồ tương quan yt: sử dụng Rc và
𝑦
̂ = 𝐹−1
(𝐴 ⨀ 𝐹 (∅(𝑧) ∙ ∅(𝑥
̂))) để dự đoán vị trí mới (xt,
yt);
// Dự đoán thay đổi kích thước
Xây dựng mô kim tử tháp quanh (xt, yt) và tính toán sơ
đồ tương quan yS bằng việc sử dụng Rt và 𝑦
̂ =
𝐹−1
(𝐴 ⨀ 𝐹 (∅(𝑧) ∙ ∅(𝑥
̂)));
Dự đoán kích thước tối ưu 𝑠̂ sử dụng
𝑠̂ = 𝑎𝑟𝑔𝑟𝑚𝑎𝑥(max(𝑦
̂1) , max(𝑦
̂2), … , max(𝑦
̂𝑠))
𝑥𝑡 = (𝑥𝑡, 𝑦𝑡, 𝑠̂)
//Phát hiện lại mục tiêu
IF max(𝑦𝑠̂) < 𝑇𝑟
THEN
Sử dụng bộ phát hiện Drf để thực hiện việc tái phát
hiện và tìm những trạng thái phần tử có thể X;
FOREACH (từng trạng thái 𝑋′𝑖 trong X)
Tính điểm độ tin cậy 𝑌′𝑖 sử dụng
Rt và 𝑦
̂ = 𝐹−1
(𝐴 ⨀ 𝐹 (∅(𝑧) ∙ ∅(𝑥
̂)));
ENDIF
IF max( 𝑌′𝑖) > 𝑇𝑟

/ 90
THEN 𝑥𝑡 = 𝑥′t , WHERE i = argmax𝑖𝑌′𝑖;
ENDIF
// Cập nhật mô hình
Cập nhật Rc sử dụng
𝑥
̂𝑡
= (1− ∝)𝑥
̂𝑡−1
+ ∝ 𝑥𝑡
,
𝐴
̂𝑡
= (1− ∝)𝐴
̂𝑡−1
+ ∝ 𝐴𝑡
,
IF max( 𝑌𝑆
̂) > 𝑇∝
THEN
Cập nhật Rt sử dụng 𝐽𝑠̂ và 𝑥
̂𝑡
= (1− ∝)𝑥
̂𝑡−1
+ ∝ 𝑥𝑡
,
𝐴
̂𝑡
= (1− ∝)𝐴
̂𝑡−1
+ ∝ 𝐴𝑡
,
ENDIF
Cập nhật 𝐷𝑟𝑓
UNTIL kết thúc chuỗi hình ảnh
ENDWHILE
Mỗi vector đặc trưng x được biểu diễn bằng sự kết hợp của nhiều kênh.
Ngoài những đặc trưng HOG với 31 kênh, họ sử dụng sơ đồ đặc trưng của
cường độ trong cửa sổ cục bộ 6 × 6 với 8 kênh. Để cung cấp sức mạnh cho
những biến thể chiếu sáng, họ tính toán biểu đồ cường độ cục bộ trên kênh ánh
sáng và cũng thêm một kênh được chuyển đổi bằng cách áp dụng một phép
chuyển đổi thứ bậc không theo phương trình về kênh độ sáng. Do đó, họ sử
dụng những vector đặc trưng với 47 kênh để huấn luyện bộ hồi quy ngữ cảnh
theo thời gian Rc. Đối với mô hình mục tiêu Rt, họ chỉ sử dụng những đặc trưng
HOG để xây dựng được theo dõi với độ tin cậy cao được thay đổi kích thước
thành 15 x 15 để hình thành một vector đặc trưng của giá trị cường độ.
Chọn tham số Kernel: sử dụng một nhân Gaussian kernel k(x, x’) =
exp(−
|𝑥−𝑥′|2
𝑥2 ), mà nó miêu tả một cái sơ đồ ∅ với k(x, x’) = ∅(𝑥) ∙ ∅(𝑥′) trong
cả hai mô hình hồi quy Rc và Rt. Họ tính toán sự tương quan toàn nhân 𝐴 =
𝐹(𝑎)
𝐹(𝑦)
𝐹(∅(𝑥) ∙ ∅(𝑥)+ ⋋)
và 𝑦
̂ = 𝐹−1
(𝐴 ⨀ 𝐹(𝜃(𝑧) ∙ 𝜃(𝑥
̂))) một cách hiệu quả
trên miền tần số Fourer.

/ 90
2.4.4 Tổng kết
Đây là một thuật toán hiệu quả cho việc theo vết lâu dài. Phương pháp này
học những bộ lọc tương quan khác nhau để ước lượng sự thay đổi về mặt biến
dạng và kích thước của những vật thể mục tiêu một cách hiệu quả. Sự biến
dạng được ước lượng bằng việc mô hình hóa tương quan bối cảnh liên quan
thời gian và kích thước được ước lượng bằng việc tìm kiếm trong mô hình kim
tự tháp một cách toàn diện. Thuật toán đã giúp phát triển một bộ phát hiện trực
tuyến mạnh mẽ sử dụng bộ phân loại Random ferns để tái phát hiện lại mục tiêu
trong trường hợp theo dõi bị lỗi.

/ 90
XÂY DỰNG THUẬT TOÁN
Như đã trình bài ở Chương một, bài toán điểm danh học sinh có thể dùng
các phương pháp điểm danh truyền thống như: bằng phiếu điểm danh hoặc
bằng danh sách lớp, hai phương pháp này sẽ dẫn đến tình trạng học sinh điểm
danh hộ cho bạn của mình, do đó kết quả sẽ không chính xác; nếu dùng công
nghệ nhận dạng khuôn mặt sẽ khó nhận dạng những bạn ngồi phía sau (nhất là
những bạn ở các dãy bàn cuối); còn nếu dùng công cụ quét dấu vân tay điểm
danh từng học sinh thì dễ gây ùn tắc, gây khó khăn và ảnh hưởng đến giờ học
của các lớp. Các phương pháp nêu trên đều gặp không ít những khó khăn và trở
ngại. Chính vì lẽ đó, việc tận dụng những camera đã được gắn trên cao trong
các lớp học kết hợp dùng phương pháp phát hiện và theo vết chuyển động vùng
đầu học sinh sẽ giải quyết được bài toán điểm danh học sinh trong lớp học.
Phương pháp này có ưu điểm là dùng công nghệ nhận dạng đầu, nên có thể
nhận dạng các đối tượng ở cuối phòng học, kể cả những bạn ngồi phía sau các
bạn lớn hơn (vì camera được gắn trên cao), dùng mô hình học sâu để huấn
luyện và cho kết quả điểm danh tự động nên sẽ không mất thời gian, cũng sẽ
không có trình trạng điểm danh hộ, lại cho kết quả nhanh và có độ chính xác
khá cao. Phương pháp này giải quyết được những khó khăn và trở ngại mà các
phương pháp truyền thống không làm được.
Để thực hiện bài toán điểm danh học sinh dùng phương pháp nhận dạng
vùng đầu học sinh kết hợp theo vết chuyển động của vùng đầu học sinh trong
camera, chúng tôi chia bài toán điểm danh này thành bốn bài toán sau.
- Bài toán 1: Phát hiện vùng đầu của học sinh trong một số frame của
video thu được trong lớp học;
- Bài toán 2: Theo vết chuyển động vùng đầu của từng học sinh trong
lớp học;

/ 90
- Bài toán 3: Xác định vị trí tâm trung bình vùng đầu của từng học sinh
trong lớp học;
- Bài toán 4: Chiếu tìm vị trí tâm trung bình vùng đầu của từng học sinh
lên sơ đồ lớp học để điểm danh.
Bài toán điểm danh học sinh sau khi được phân tích thành bốn bài toán nhỏ
được mô tả như sơ đồ 3.1 dưới đây.
Sơ đồ 3.1. Mô hình bài toán điểm danh học sinh dùng camera
Phát hiện vùng đầu học sinh trong ảnh
Trước tiên, chúng ta cần xác định thời điểm bắt đầu của bài toán điểm danh
học sinh? Khi nào thì dùng thuật toán tìm vùng đầu học sinh, tức là dùng frame
nào trong đoạn video được chọn để thực hiện công việc này. Trên thực tế, thời
Pháthiệnđầu
họcsinh
trongnframe
Dùng mô hình học
máy chuyên sâu
phát hiện vùng đầu
được huấn luyện
Theovếtchuyển
độngcácvùng
đầutheomứcđộ
tươngquan
Tínhtâm
trungbình
từngvùngđầu
củatừnghọc
sinh
Chiếutâm
trungbìnhtừng
đầuhọcsinh
lênsơđồlớp
Kết quả điểm
danh học sinh
Dữ liệu từ
camera

/ 90
điểm chưa có giáo viên vào lớp là lúc học sinh di chuyển nhiều, không ngồi cố
định, hoặc ngồi không đúng vị trí của mình, học sinh còn hay đùa giỡn, đổi chổ,
thậm chí còn chạy nhảy trong lớp học. Do đó, nếu bắt đầu lúc này sẽ dễ gây
hỗn loạn dữ liệu, vì mức độ thay đổi giữa các frame ảnh của từng vị trí học sinh
là rất lớn nên sẽ rất khó điểm danh. Thời điểm tốt nhất để bắt đầu của bài toán
phát hiện vùng đầu của học sinh trong lớp học là lúc giáo viên vừa vào lớp. Vì
vậy, chúng tôi xây dựng thuật toán 3.1 để xác định frame bắt đầu dựa vào mức
độ thay đổi của hai frame ảnh gần nhau. Hay nói cách khác, thuật toán này xem
xét mức độ thay đổi (độ chênh lệch) của hai frame ảnh cách nhau một khoảng
thời gian ∆𝑡 mà có ít sự thay đổi nhất.
Thuật toán 3.1: xác định frame đầu tiên của bài toán tìm các vùng đầu
của học sinh lớp học
INPUT:
Những video được quay trong lớp học;
OUTPUT:
Vị trí frame theo yêu cầu: pos;
Bước 1:
max  0;
go  vị trí frame đầu tiên của video;
pos  go;
Bước 2:
Chuyển các frame ảnh về không gian xám;
Bước 3:
num  0;

/ 90
flag  false;
frame1 video[go].timFrame();
Bước 4:
WHILE (video còn lại và !flag);
go  go+t;
4.1:
frame2  video[go].timFrame();
4.2:
IF (max ≤ |𝑓𝑟𝑎𝑚𝑒2 – 𝑓𝑟𝑎𝑚𝑒1|)
THEN
max = |𝑓𝑟𝑎𝑚𝑒2 – 𝑓𝑟𝑎𝑚𝑒1|;
pos = go;
num ++;
ENDIF
4.3:
frame1 frame2;
IF (go đủ lớn và num không đổi);
THEN
flag  true;
ENDIF
ENDWHILE
Bước 5:

LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO

LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO

Recommended

Recommended

More Related Content

Similar to LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO

Similar to LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO (20)

More from ssuserc1c2711

More from ssuserc1c2711 (20)

Recently uploaded

Recently uploaded (20)

LUẬN VĂN THẠC SĨ: HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO