Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nội dung. Mã số KC.01.TN10/11-15 do
Công ty Naiscorp và Viện nghiên cứu MICA - Đại học Bách Khoa hợp tác nghiên cứu
Luận văn: Ước lượng tập điểm tương đồng giữa hai ảnh, HAY
Đề tài khoa học tiềm năng: Nghiên cứu xây dựng hệ thống Quảng cáo ảnh theo nội dung. Mã số KC.01.TN10/11-15
1. ĐỀ TÀI NGHIÊN CỨU KHOA HỌC TIỀM NĂNG
NGHIÊN CỨU, XÂY DỰNG HỆ THỐNG GỢI Ý QUẢNG CÁO
TRONG CÁC DỊCH VỤ CHIA SẺ HÌNH ẢNH TRỰC TUYẾN
Mã số: KC.01.TN10/11-15
Đơn vị chủ trì : Công ty CP Dịch vụ CNTT Naiscorp
Nhóm thực hiện: KS. Nguyễn Khánh Toàn
TS. Lê Thị Lan
SV. Nghiêm Tiến Viễn
09/10/14 1
2. NỘI DUNG
• Thông tin chung về đề tài
• Mục tiêu của đề tài
• Các nội dung nghiên cứu trong đề tài
• Kết quả đạt được
• Kết luận
09/10/14 2
3. Thông tin chung về đề tài
• Công ty Naiscorp - đơn vị chủ trì
– Tạo nền tảng Server/website
– Kết nối các module
– Nghiên cứu định hướng kinh doanh
• Trung Tâm MICA – đơn vị phối hợp
– Nhận dạng đối tượng và khung cảnh trong ảnh
– Cải tiến nâng cao chất lượng module
– Module được nghiên cứu khá độc lập với hệ
thống
09/10/14 3
4. Mục tiêu và nội dung khcn
Ý tưởng của đề tài:
•Google rất thành công với hệ thống Ads Word
– Bản chất là tìm xâu quảng cáo phù hợp với nội
dung dạng text
•Nhóm dự án muốn làm việc tương tự với ảnh
– Nhận dạng đối tượng/ khung cảnh trong ảnh
– Tìm xâu quảng cáo phù hợp với ảnh
– Đưa ảnh kèm với quảng cáo cho khách hàng
09/10/14 4
6. Hoạt động của hệ thống
• Kho ảnh từ 2 nguồn
– Người dùng tự Upanh lên
– Trang web có chứa ảnh
• Lấy ảnh từ kho -> Nhận dạng ảnh -> Tìm ra
đối tượng/ khung cảnh chứa trong ảnh
• Khách hàng quảng cáo
– Gắn 1 đối tượng quảng cáo với 1 xâu quảng cáo
• Nếu trong ảnh có chứa đối tượng/khung cảnh
-> Hiển thị xâu quảng cáo
09/10/14 6
7. Nội dung cần nghiên cứu
• Nghiên cứu xây dựng Cơ sở hạ tầng
– Back–End: Hệ thống database, sao lưu dữ liệu
– Front-End: DNS, Load Balance, Webserver
• Nhận dạng ảnh
– Nhận dạng đối tượng trong ảnh
– Nhận dạng khung cảnh trong ảnh
• Kết nối và vận hành hệ thống
– Thử nghiệm chức năng nhận dạng
– Thử nghiệm chức năng quảng cáo
09/10/14 7
8. Phần 1: Nền tảng cho Quảng Cáo
Nghiên cứu công nghệ Webserver Portal cho phép phục vụ hàng
triệu lượt truy vấn mỗi ngày
Công nghệ lưu trữ phân tán
o Hệ thống file phân tán (Hadoop, GlusterFS, Riak Store,
OpenStack Swift
o Hệ thống caching (Varnish Cache trên RAM, Squid trên SSD,
Nginx Cache trên HDD
09/10/14 8
9. Phần 2. Engine nhận dạng ảnh
Nội dung đăng ký theo thuyết minh đề tài Kết quả đạt được
- Tìm hiểu và đánh giá các kết quả đã đạt
được về nhận dạng đối tượng, khung cảnh
trong ảnh
- Tìm hiểu và phân tích các lớp đối tượng,
khung cảnh trong ảnh
Báo cáo phân tích và đánh giá
Cơ sở dữ liệu ảnh khung ảnh
- 5 khung cảnh (biển, chùa, núi, phố, rừng)
- 500 ảnh/khung cảnh
- Thu thập từ CSDL của Naiscorp và một vài
CSDL chuẩn khác
Cơ sở dữ liệu ảnh đối tượng
-10 lớp đối tượng
- 500 ảnh/đối tượng
- Thu thập từ CSDL của Naiscorp và một vài
CSDL chuẩn khác
Xây dựng groundtruth cho các ảnh trong
CSDL
Nội dung 2.1: Phát hiện và nhận dạng các
đối tượng trong ảnh
Mô đun phát hiện và nhận dạng đối tượng
Nội dung 2.2: Nhận dạng khung cảnh Mô đun nhận dạng khung cảnh
Nội dung 2.3: Thử nghiệm và đánh giá
hiệu quả của engine nhận dạng ảnh
Các kết quả thử nghiệm, đánh giá online và
offline của các mô đun xây dựng
10. Nhận dạng khung cảnh
- Định nghĩa bài toán:
o Đầu vào: 1 ảnh
o Đầu ra: tên của khung cảnh có trong ảnh (ví dụ: biển, núi
v.v.)
Núi
11. Nhận dạng đối tượng trong ảnh
- Định nghĩa bài toán:
o Phát hiện: Xác định sự tồn tại
của đối tượng trong ảnh
o Nhận dạng: Xác định lớp mà
đối tượng thuộc vào
Người
Xe Người Bò
Ngựa
Chó
- Các khó khăn của bài toán
o Thay đổi hướng nhìn
o Thay đổi ánh sáng
o Thay đổi kích thước, diện mạo
Thay đổi hướng nhìn
Thay đổi kích
Thay đổi ánh sáng thước
12. Engine nhận dạng Ảnh đầu
vào
(1)
Nhận dạng đối tượng Nhận dạng khung
cảnh
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
Máy bay
Đồng hồ
Giày dép
Hoa
Kính
Laptop
Người
Ôtô
Thuyền
Xe máy
Biển
Chùa
Đường
phố
Núi
Rừng
Hệ thống nhận dạng đối tượng / Khung cảnh
Vector M
chiều (M là số
lớp khung
Đầu ra của hệ thống
nhận dạng
(2)
Vector N
chiều (N là số
lớp đối tượng)
cảnh)
Không có
đối tượng
(2)
13. Nhận dạng khung cảnh
Ảnh đầu
vào
Trích chọn
đặc trưng
GIST, LDO, Phân
bố màu sắc
Nhận dạng (SVM, KNN)
Kết quả
đầu ra
Cở sở dữ liệu
Tiền xử lý
Trích chọn
đặc trưng
Huấn luyện bộ phân lớp
(SVM, KNN)
Các bộ phân lớp
Pha huấn luyện Pha nhận dạng
14. Nhận dạng khung cảnh
• Mô đun nh ận dạng khung cảnh trong đề tài:
- Nhận dạng 5 khung cảnh (biển, núi, chùa chiền,
đường phố, rừng)
- Thử nghiệm và đánh giá các đặc trưng và
phương pháp nhận dạng khung cảnh
- Color histogram + color moment + SVM
- Local dominant orientation (LDO) + kNN
- GIST + kNN
• Đề xuất sử dụng GIST và kNN
50 100 150 200
200
150
100
50
Dominant Orientation
0.02
0.01
30
180 0
210
60
240
90
270
120
300
150
330
LDO feature
50 100 150 200
200
150
100
50
Dominant Orientation
0.02
0.01
30
180 0
210
60
240
90
270
120
300
150
330
LDO feature
15. Nhận dạng khung cảnh
Cơ sở dữ liệu khung cảnh:
• 2500 ảnh (5 khung cảnh * 500 ảnh/khung cảnh)
Kết quả nhận dạng:
•5 lớp khung cảnh,
•1250 ảnh huấn luyện (250 ảnh huấn luyện/khung cảnh)
•1250 ảnh thử nghiệm (250 ảnh thử nghiệm/khung cảnh )
Tên khung
cảnh
ID Phân
bố màu
LDO GIST
Biển 0 64.2 51 86.8
Chùa 1 68.2 55 93
Núi 2 60.4 48 82.9
Đường phố 3 66.2 59 92.4
Rừng 4 80.1 64 84.7
Trung bình 67.82 55 87.96
Thời gian thực hiện trung bình:
96.5 ms/ảnh (core i5-2520M CPU
@ 3.2 GHz x 2
RAM: 8GB) ~ 10 ảnh/s
Báo cáo chi tiết thử nghiệm đi kèm
16. Nhận dạng đối tượng trong ảnh
Ảnh đầu
vào
Quét cửa sổ
trên ảnh
Trích chọn
đặc trưng
Nhận dạng (Adaboost,
SVM, KNN)
Haar, HoG, Gist
Kết quả
đầu ra
Cở sở dữ liệu
Tiền xử lý
Trích chọn
đặc trưng
Huấn luyện bộ phân lớp
(Adaboost, SVM, KNN)
Các bộ phân lớp
Pha huấn luyện Pha nhận dạng
17. Nhận dạng đối tượng trong ảnh
Đặc trưng Haarlike
M i đ c tr ng Haar-like bao g m hai ỗ ặ ư ồ hoặc ba hình chữ nhật đen và
trắng kề nhau
Đặc trưng HOG:
Lược đồ hướng các vector gradient
Đặc trưng GIST:
Tập đầu ra của các bộ lọc
Gabor
Averaging over a grid
64 x64 for each filter output
18. Nhận dạng đối tượng trong ảnh
Dữ liệu huấn luyện và thử nghiệm
Huấn luyện: 250 ảnh mỗi lớp x 10 lớp = 2500 ảnh
Thử nghiệm: 250 ảnh mỗi lớp x 10 lớp = 2500 ảnh
Ảnh positive của lớp này có thể là ảnh negative của lớp khác
19. Nhận dạng đối tượng trong ảnh
Kết quả thử nghiệm
ST
T
Tên lớp
Haar-
Adaboo
st
HOG
-SVM
Gist -
KNN
1 Điện thoại di
động 0.97 0.67 0.88
2 Đồng hồ 0.98 0.95 0.81
3 Giầy dép 0.34 0.67 0.73
4 Hoa 0.90 0.76 0.75
5 Kính 0.91 0.87 0.98
6 Laptop 0.62 0.78 0.99
7 Người 0.91 0.90 0.77
8 Xe oto 1.00 0.85 0.91
9 Tàu thuyền 1.00 0.78 0.92
10 Xe máy 0.56 0.88 0.96
Trung bình 0.82 0.81 0.87
Th i ờ gian thực hiện trung bình:
88 ms/ảnh (core i5-2520M CPU
@ 3.2 GHz x 2
RAM: 8GB) > 10 ảnh/s
20. Kết quả của đề tài
• Website www.quangcaoanh.com ở
quy mô phòng thí nghiệm
– Cho phép thử nghiệm chức năng nhận
dạng ảnh
– Cho phép thử nghiệm chức năng gắn
quảng cáo trên các ảnh
– Ảnh được lấy từ các website khác
• Cho phép thống kê quảng cáo
09/10/14 20
21. Kết quả của đề tài
o Sản phẩm trung gian:
Phần mềm nhận dạng đối tượng/khung cảnh trong ảnh
o Bài báo khoa học:
02 bài đ c ch p nh n trong h i ngh ượ ấ ậ ộ ị quốc tế (Commantel
2012, Seatuc 2013)
01 bài báo được gửi cho Tạp chí Khoa học và công nghệ các
Trường kỹ thuật đang chờ kết quả phản biện
o Đào tạo:
01 học viên cao học đang được đào tạo trong đề tài
09/10/14 21
26. KẾT LUẬN
• Đ tài ề đã hoàn thành các mục tiêu của
chương trình tiềm năng
• Sản phẩm của đề tài là một hệ thống quảng
cáo dựa vào nội dung ảnh hoàn thiện quy mô
phòng thí nghiệm
• Định hướng quảng cáo dựa trên nội dung là
đúng và đi trước xu hướng công nghệ
• Tiềm năng của thị trường sản phẩm là rất lớn
• Đề tài nên được đầu tư để phát triển thêm
09/10/14 26