1. 1
ĐỀ XUẤT MỘT ỨNG DỤNG DỰ BÁO BIỂU ĐIỂM CHO
ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN BẰNG HỆ LUẬT MỜ
TÓM TẮT
Bài báo này đề xuất một phương pháp dự báo biểu điểm cho đề thi trắc nghiệm
khách quan (TNKQ) bằng hệ luật mờ Standard Additive Model (SAM). Ngày nay đã có
nhiều giải thuật máy học ứng dụng trong nhiều ngành. Tuy nhiên việc ứng dụng các giải
thuật máy học tiên tiến vào ngành Khảo thí & Đảm bảo chất lượng giáo dục (KT&ĐBCL)
vẫn còn nhiều hạn chế. Chúng tôi đã nghiên cứu và ứng dụng thành công SAM vào việc dự
báo biểu điểm cho đề thi TNKQ. Qua thực nghiệm ứng dụng cho kết quả khả quan.
1. ĐẶT VẤN ĐỀ
Từ khi con người phát minh ra máy tính, người ta luôn tìm cách để nó không những
thu nhận và xử lý dữ liệu mà còn đưa ra những dự báo dựa trên những dữ liệu đó. Ngày
nay, khoa học máy tính đã phát triển vượt bậc. Những giải thuật tiên tiến đã giúp máy tính
có khả năng dự báo dữ liệu trong nhiều ngành như: kinh tế, khí tượng thủy văn, y học, tài
chính…
Ở kỳ thi tuyển sinh Cao đẳng Đại học năm 2011, môn Sử có rất nhiều bài thi bị
điểm 0 và trở thành đề tài nóng bỏng của dư luận xã hội. Theo phỏng vấn của Dân Trí với
GS.TS Đỗ Thanh Bình, Chủ nhiệm khoa Lịch sử trường ĐH Sư phạm Hà Nội thì việc này
có nhiều nguyên nhân nhưng chủ yếu là do đề thi và đáp án có vấn đề.
Từ những thực tiễn trên, là những giảng viên, chuyên viên, giảng dạy và tham gia
công tác KT&ĐBCL. Chúng tôi luôn trăn trở tìm kiếm phương thức giúp giảng viên chọn
đề thi phù hợp với năng lực người học. Qua quá trình nghiên cứu, chúng tôi đã ứng dụng
thành công SAM vào dự báo biểu điểm từ cấu trúc độ khó của đề thi và học lực của người
học. Từ đó góp phần cho việc đánh giá kết quả học tập của người học một cách khoa học
hơn.
2. NỘI DUNG NGHIÊN CỨU
2.1. Mô tả SAM
Hình 1: Mô hình hệ luật mờ SAM
Hệ luật mờ là hệ thống m luật mờ dạng R j: IF x = Aj THEN y = Bj; j = 1, m , hoạt
động theo cơ chế song song. Có nhiều cách kết hợp vế trái và phải trong mỗi luật mờ và
kết hợp kết quả của các luật mờ trong hệ luật. Tuy nhiên, vì các đặc tính thuận lợi trong
2. 2
tính toán (tính tích phân để xác định trọng tâm), trong đề tài này chỉ đề cập đến hệ luật mờ
hoạt động theo qui tắc kết hợp SUM-PRODUCT. Do tính kết hợp SUM các luật mờ mà hệ
luật mờ này có tên gọi là SAM (Standard Additive Model). Trong hệ mờ SAM, ứng với
mỗi giá trị vào x=x0, luật thứ j : Rj được kích hoạt và cho kết quả là tập mờ Bj’xác định
theo Bj và mức độ thỏa mãn vế trái aj(x0) dựa trên qui tắc PRODUCT.
Bj’ = aj(x0).Bj (1)
m kết quả ra Bj’ của các luật trong hệ luật được SAM kết hợp theo qui tắc SUM để
cho kết quả chung của toàn hệ thống là tập mờ B.
m m
B = ∑ w j .B'j = ∑ w j .a j ( x 0 ).B j (2)
j=1 j=1
Giá trị B sẽ được khử mờ để nhận được một giá trị rõ duy nhất. Gọi y là kết quả sau
khi khử mờ tập mờ kết quả B của hệ SAM, ta có:
m
∑ w j .a j ( x 0 ).Vj .c j
j=1
y = F( x 0 ) = Centroid( B( x 0 )) = m (3)
∑ w j .a j ( x 0 ).Vj
j=1
2.2. Cơ chế học trong SAM
Học là hoạt động quan trọng của SAM nhằm xây dựng cơ sở tri thức cần thiết dưới
dạng các luật mờ phục vụ cho việc mô phỏng hàm phi tuyến mà hệ đảm nhận. Nhờ cơ chế
học mà SAM có thể khắc phục hạn chế là phải chờ đợi tri thức chuyên gia. Ngoài ra, việc
học còn giúp cho SAM có khả năng tự điều chỉnh các thông số cấu trúc cũng như kiểm tra
tính tối ưu trong cấu trúc luật để từ đó có thể nâng cao độ chính xác trong hoạt động xấp xỉ
của nó. Thông qua việc hiệu chỉnh các thông số: kích thước, trọng tâm các tập mờ, SAM tự
động định vị lại vị trí và kích thước của các khối mờ, nhờ đó quá trình xấp xỉ của SAM
được chính xác hơn. Đối với SAM, một phương pháp học được đánh giá là tốt hay không ở
chổ nó có điều chỉnh nhanh chóng hay không kích thước và vị trí của các khối mờ cũng
như đảm bảo duy trì các khối mờ tại các điểm uốn của hàm f.
Quá trình học của SAM (hay của hệ mờ nói chung) thông thường bao gồm hai bước
chính là học cấu trúc và học tham số. Tuy nhiên, để cho hiệu quả học của hệ được tốt hơn,
chúng ta phối hợp thêm cơ chế học tối ưu hệ luật. Do đó, quá trình học của SAM ở đây bao
gồm các giai đoạn sau:
- Tự phát sinh cấu trúc luật (structure learning): Đây là bước khởi đầu của quá trình
học. Bước này được thực hiện theo cơ chế tự học (unsupervised learning). Bằng
cách thực hiện việc phân cụm mờ trên bộ dữ liệu học, hệ SAM sẽ tự phát hiện ra
các luật mờ cần thiết cho việc xấp xỉ hàm phi tuyến đặc trưng cho bộ số liệu học
đó.
- Điều chỉnh các thông số (parameters learning): Sau khi đã xây dựng được bộ luật
mờ cần thiết, công việc học tiếp theo của SAM là điều chỉnh các thông số của hệ
luật như: trọng số của từng luật, trọng tâm và kích thước của các tập mờ tham gia ở
vế trái và vế phải của các luật. Quá trình này được tiến hành theo cơ chế học có
giám sát (supervised learning). Thông qua việc kiểm tra sai số giữa giá trị kết quả
3. 3
do hệ sinh ra từ bộ dữ liệu học với kết quả mong muốn, hệ sẽ thực hiện điều chỉnh
lại các thông số cho phù hợp. Việc điều chỉnh thông số được tiến hành theo thuật
toán học điều chỉnh sai số nhỏ nhất.
- Tối ưu hóa hệ luật (optimal learning): Giai đoạn học này cho phép SAM có thể phát
hiện và loại bỏ các luật mờ không cần thiết cho hoạt động xấp xỉ của nó. Nhờ cơ
chế này mà SAM có thể gọn nhẹ hơn nhằm tăng đáng kể tốc độ xử lý cũng như
giảm nhiễu. Cơ chế học ở đây cũng gần giống như cơ chế học có giám sát.
2.2.1. Học cấu trúc
* Giải thuật gom cụm mờ trung bình FCM (Fuzzy C Mean)
- Các công thức:
c
∀x ∈ X, uij ∈ [0,1], ∑ u ij = 1 (4)
k =1
ntd
∀i, j = 1, c : 0 < ∑ u ij < n
j=1
1
1−m
ntd 1
∑u ij .x j
m
x j − vi
2
vi = j=1
ntd (5) , u ij = 1 (6)
∑ m
u ij c
1
1− m
j=1 ∑ 2
k =1 x j − v k
( )
Error = max u ij ( t + 1) − u ij ( t ) < ε
ij
(7)
với e > 0 cho trước, "t > t0.
- Mô tả thuật toán:
- Vào: Bộ số liệu học X
- Ra: Bộ vector trọng tâm V và ma trận phụ thuộc U.
b1. t=0, Khởi tạo ngẫu nhiên giá trị U(t) thỏa (4).
b2. Xác định V(t) theo công thức (5).
b3. Tính U(t+1) theo công thức (6).
Xác định error theo công thức (7).
b4. Nếu error > e thì t=t+1, quay lại bước b2.
b5. Kết thúc.
* Giải thuật FCM cải tiến với phân cụm mờ dẫn đầu AFLC (Adaptive Fuzzy
Leader Cluster)
- Công thức:
4. 4
x j − vi
d(x j , v i ) = ntd i
<τ
1 (8)
ntd i
∑ xk − vi
k =1
Với:
- t : giá trị ngưỡng cho trước.
- ntdi : Số bộ dữ liệu học đã xét thuộc về phân lớp i.
- Mô tả thuật toán AFLC:
- Vào:
- Bộ dữ liệu học.
- Giá trị sai biệt phân lớp t
- Ra: Số phân lớp c của bộ dữ liệu.
- Trường hợp 1: xj thuộc về phân lớp vw,
- Dòng w của U được cập nhật theo công thức (6).
- Vector vw được cập nhật theo công thức (5).
Lưu ý: Thay ntd trong các công thức (5) và (6) bằng ntdi.
- Trường hợp 2: Ngược lại,
- c = c+1
- Thêm dòng c vào ma trận U: uck = 0, ∀k≠j; ucj = 1.
- Thêm vector vc = xj vào V.
b1. c = 0
b2. xj là bộ số liệu học tiếp theo.
b3. Tìm phân lớp vw thỏa (8), 1 ≤ w ≤ c
b4. Nếu không có phân cụm nào thỏa (w > c): thực hiện như trường hợp 2.
ngược lại thực hiện như trường hợp 1.
b5. Nếu chưa xét hết dữ liệu học thì quay về b2.
b6. Kết thúc.
Sau khi kết thúc AFLC, ta xác định được số phân cụm c của bộ dữ liệu học. Tiếp
tục thực hiện FCM để điều chỉnh U và V.
2.2.2. Học thông số
- Các công thức:
c j ( t + 1) = c j ( t ) + µ t .ε( x ).p j ( x ) (9)
[ ] p Vx )
Vj ( t + 1) = Vj ( t ) + µ t .ε( x ). c j − F( x ) .
j(
(10)
j
5. 5
[
w j ( t + 1) = w j ( t ) + µ t .ε( x ). c j − F( x ) . ] pw x )
j(
(11)
j
∂
[
a ji ( t + 1) = a ji ( t ) + µ t .ε( x ). c j − F( x ) . ] p ja(x ) . ∂aa j (12)
j ji
- Mô tả thuật toán học thông số (HTS):
-Vào:
- Bộ số liệu học.
- Hệ luật mờ SAM chưa điều chỉnh.
- Sai số cho phép e
-Ra:
- Hệ luật mờ SAM đã được điều chỉnh theo sai số e.
b1. Bắt đầu.
b2. j=0;
b3. Xét giá trị vào kế tiếp xj. Tính yj = F(xj), e = ydj - yj .
b4. Điều chỉnh các trọng số wj của các luật theo công thức (11).
b5. Lặp lại các bước 3,4,5.
b6. Thực hiện các bước 2,..,5 cho các Bj theo công thức (9), (10).
b7. Thực hiện các bước 2,..,5 cho các Aji theo công thức (12).
b8. Tính sai số error = E(t) - E(t-1).
Trong đó E(t) và E(t-1) được xác định theo công thức sau:
E( t ) =
1
2
[
y( t ) − y d ( t )
2
]
b9. Nếu error > e thì quay lại b1.
b10. Kết thúc.
2.2.3. Học tối ưu
- Các công thức:
log n ( m)
Fit (m)=ln ( ̄ 2 )+
σε (13)
n
- m: Số luật (trạng thái 1) được sử dụng trong hệ SAM
- n: Số bộ số liệu học.
n
1 2
- σ 2=
̄ε
n
∑ ( y dj −F ( x j )) (14)
j=1
- Mô tả thuật toán học tối ưu (HTU):
6. 6
b1. Khởi tạo 10 nhiễm sắc thể, có 1 nhiễm sắc thể biễu diễn đầy đủ các luật.
b2. Tính độ thích nghi Fit cho mỗi cá thể theo công thức (13)
b3. Chọn lại 5 cá thể có độ thích nghi cao nhất theo phương pháp chọn lọc xén.
b4. Nhân đôi quần thể để được 10 cá thể. Lai ghép nữa mặt nạ 10 cá thể chọn được
với mặt nạ mới khởi tạo ngẫu nhiên.
b5. Nếu chưa gặp điều kiện dừng thì quay lại b2.
b6. Dừng thuật toán. Chọn một cá thể có độ thích nghi thỏa điều kiện dừng làm kết
quả trả về.
Chuỗi nhị phân tìm được sẽ được dùng làm cơ sở cho việc hủy bỏ các luật không
cần thiết trong hệ SAM.
2.3. XÂY DỰNG ỨNG DỤNG
2.3.1. Bộ số liệu học
Lý thuyết hồi đáp (Items Response Theory - còn gọi là Lý thuyết khảo thí hiện đại.
Lý thuyết này bao gồm nhiều công cụ để đánh giá câu hỏi và đề thi trắc nghiệm. Trong bài
báo này chúng tôi chỉ nghiên cứu công cụ đánh giá độ khó của câu hỏi trắc nghiệm.
Độ khó (P) của 1 câu hỏi trắc nghiệm là tổng số thí sinh trả lời đúng trên tổng số
thí sinh dự thi. Có nhiều cách phân loại P, thông thường P được phân loại như sau:
- P<30% : Câu hỏi rất khó
- 30%<=P<40% : Câu hỏi khó
- 40%<=P<60% : Câu hỏi khó vừa
- 60%<=P<70% : Câu hỏi dễ
- P>=70% : Câu hỏi rất dễ
Từ việc nghiên cứu lý thuyết khảo thí hiện đại, kết hợp phân loại học lực và biểu
điểm người thi. Ta có bảng số liệu học cho SAM như bảng 1
Bảng 1. Bảng số liệu học
Độ khó của đề thi Học lực của người học Biểu điểm
Stt (%) (%) (%)
Khó Vừa KGX TB KGX TB
1 … … … … … …
2 … … … … … …
... … … … … … …
ntd … … … … … …
Trong đó :
- Khó: Rất Khó + Khó; KGX: Khá + Giỏi + Xuất sắc; TB: Trung bình
2.3.2. Qui trình xây dựng ứng dụng
Từ việc ứng dụng SAM, kết hợp với bộ số liệu học như bảng 1, chúng tôi đưa ra
7. 7
qui trình dự báo gồm các bước như sau:
b1. Tập hợp xử lý số liệu học, tạo cơ sở dữ liệu theo bảng 1
b2. Upload dữ liệu học và các thông số ban đầu
b3. Xây dựng thủ tục gom cụm dữ liệu theo thuật toán AFLC
b4. Xây dựng thủ tục tạo các tập mờ hình thang và các luật mờ
b5. Xây dựng thủ tục tối ưu hệ luật theo thuật toán HTU
b6. Xây dựng thủ tục điều chỉnh thông số theo thuật toán HTS
b7. Xây dựng thủ tục dự báo theo công thức 3
Chúng tôi đã tiến hành xây dựng ứng dụng theo qui trình trên, thực nghiệm chạy
chương trình được trình bày ở phần 2.3.4
2.3.3. Giao diện ứng dụng
Hình 2. Giao diện chính của SAM
8. 8
Hình 3. Quá trình và kết quả dự báo
2.3.4. Kết quả chạy thử nghiệm
Khi chạy ứng dụng này trên máy ASUS K40IJ có cấu hình CPU Intel Core 2 Duo
T6670 tốc độ 2.2 GHz, RAM 4GB, Hệ điều hành Fedora 17 phiên bản 64 bit cho tổng thời
gian từ lúc upload dữ liệu cho đến khi ra kết quả dự báo là khoảng 20 phút. Trong đó thời
gian học thông số chiếm nhiều nhất là 15 phút 23 giây.
Kết quả thử nghiệm trên 20 mẫu thử cho trong bảng 2
Bảng 2: Kết quả thực nghiệm
Biểu điểm Biểu điểm
Stt Đề thi Học lực Sai số
mong muốn dự báo
Khó Vừa KGX TB KGX TB KGX TB KGX TB
1 16.29 17.11 54.22 17.99 44.44 45.12 44.44 45.12 0.00 0.00
2 43.03 31.61 51.12 47.63 41.68 10.13 41.68 10.13 0.00 0.00
3 16.87 77.92 14.24 31.28 16.26 52.43 16.26 52.43 0.00 0.00
29.13 55.27 46.33 31.59 14.81 39.92 14.81 39.92
4 0.00 0.00
30.88 14.82 46.72 20.94 20.38 17.24 20.38 17.24
5 0.00 0.00
32.58 27.76 49.95 19.03 42.49 30.81 42.49 30.81
6 0.00 0.00
38.12 12.8 43.54 44.29 40.09 41.74 40.09 41.74
7 0.00 0.00
17.08 24.79 33.64 32.57 31.58 22.08 31.58 22.08
8 0.00 0.00
18.41 47.84 29.42 37.85 56.81 23.84 56.81 23.84
9 0.00 0.00
39.65 37.99 39.18 18.78 21.83 62.36 21.83 62.35
10 0.00 0.01
16.92 14.37 13.59 28.28 18.15 40.02 18.15 40.02
11 0.00 0.00
42.11 45.52 53.4 48.39 24.35 57.76 24.35 57.76
12 0.00 0.00
16.1 60.87 19.16 39.83 22.57 50.25 22.57 50.25
13 0.00 0.00
40.13 14.33 26.24 39.65 28.32 35.28 28.33 35.28
14 0.01 0.00
22.07 21.74 46.48 18.01 51.9 17.55 51.9 17.55
15 0.00 0.00
41.01 36.08 26.38 32.15 26.3 44.52 26.3 44.52
16 0.00 0.00
49.4 22.23 11.11 34.03 24.24 17.95 24.24 17.95
17 0.00 0.00
9. 9
Biểu điểm Biểu điểm
Stt Đề thi Học lực Sai số
mong muốn dự báo
43.39 40.12 47.42 24.06 18.17 15.68 18.17 15.68
18 0.00 0.00
45.2 15.52 34.7 15.98 34.05 24.98 34.05 24.97
19 0.00 0.01
16.85 55.2 35.36 25.81 34.08 29.86 34.08 29.86
20 0.00 0.00
3. KẾT LUẬN
Ứng dụng ra đời góp phần nâng cao mức độ ứng dụng công nghệ thông tin trong
công tác Giáo dục và Đào tạo nói chung và công tác KT&ĐBCL nói riêng. Từ đó giúp việc
đánh giá kết quả học tập của người học được khoa học hơn.
Thông qua SAM, chuyên gia huấn luyện có thể hiểu nhữn gì xảy ra bên trong nó và
tham gia vào quá trình huấn luyện giúp SAM tin gọn và hoạt động hiệu quả hơn những giải
thuật máy học khác. Người ta ví SAM như một "hộp trắng" vì cơ chế học rất thoáng của
nó.
Nhờ các cơ chế học trong sam, ứng dụng cho kết quả dự báo khá sát với thực tế.
Qua 20 mẫu thử cho trong bảng 2, SAM dự báo chỉ sai số ở mức ± 0.1 so với số liệu thực
tế mong muốn.
PROPOSING AN APPLICATION TO PREDICT RESULT’S SPECTRUM FOR
OBJECTIVE TEST BY STANDARD ADDICTIVE MODEL
PGS. TS. Vũ Thanh Nguyên (*), KS. Lê Duy Đồng (**)
nguyenvt@uit.edu.vn; leeduydong@gmail.com
* Trường Đại học Công nghệ Thông tin – Đại học Quốc Gia Tp. HCM
** Trường Cao đẳng Kinh tế - Tài chính Vĩnh Long
ABSTRACTION
This paper proposed an application to predict the point spectrum for objective test
(OB) by Standard Additive Model (SAM). Today there are many machine learning
algorithms applied in many fields. However, the application of advanced machine learning
algorithms in the Testing & Evaluating is still limited. We have researched and successfully
applied SAM to predict the point spectrum for OB. Through the application we recieve
experimental results.
TÀI LIỆU THAM KHẢO
1. Sách, luận văn
[1] PGS.TS Nguyễn Thị Phương Hà (2010), Giáo trình Lý thuyết điều khiển hiện đại,
Trường Đại học Bách Khoa TP. HCM;
[2] Nguyễn Thị Hạnh (2008), Nguyên cứu thực trạng việc đánh giá kết quả học tập của
sinh viên Trường Cao đẳng Sư phạm trung ương – Luận văn thạc sỹ chuyên ngành Quản lý
giáo dục, hướng dẫn TS. Đinh Thị Kim Thoa - ĐHQG Hà Nội;
[3] GS. TSKH Hoàng Kiếm (2005), Giải một bài toán trên máy tính như thế nào tập 2,
Nxb Giáo dục;
[4] GS.TSKH Hoàng Kiếm, PGS.TS Đỗ Phúc, PGS, TS. Đỗ Văn Nhơn (2009), Các hệ cơ
10. 10
sở tri thức, Nxb Đại học Quốc Gia TP.HCM ;
[5] PGS. TS. Vũ Thanh Nguyên (chủ nhiệm), đề tài khoa học Giải quyết một số vấn đề
phân tích dự báo kinh tế ứng dụng trong ngành công nghiệp tại Tp. HCM.
[6] PGS. TS. Vũ Thanh Nguyên (chủ nhiệm), đề tài khoa học “Nghiên cứu phương pháp
đánh giá kết quả dạy và học bằng trắc nghiệm khách quan. Xây dựng thí điểm một hệ
thống khảo thí trực tuyến trên mạng”
[7] Phạm Thị Hoàng Nhung, Hà Quang Thụy (2007), Nghiên cứu, sử dụng mạng nơ-ron
nhân tạo trong dự báo lưu lượng nước đến hồ Hoà Bình trước 10 ngày, Hội thảo Quốc gia
Một số vấn đề chọn lọc về Công nghệ thông tin và Truyền thông, lần thứ X, Đại Lải, Vĩnh
Phúc;
[8] PGS. TS Đỗ Phúc (2005), Khai thác dữ liệu, nhà xuất bản Đại Học Quốc Gia TP HCM;
2. Bài báo
[9] Dương Ngọc Hiếu, Võ Hoàng Tam, Nguyễn Thành Thi – bài báo “Thư viện mã nguồn
mở cho bài toán dự báo”;
[10] Kim Ngân (2011), Điểm thi môn Sử thấp: Do lỗi hệ thống hay do phương pháp giảng
dạy, nguồn http://dantri.com.vn/c25/s25-504319/diem-thi-mon-su-thap-do-loi-he-thong-
hay-phuong-phap-giang-day.htm .
3. Tài liệu Tiếng Anh
[11] Bart Kosko, Neural network and Fuzzy systems a dynamical systems approach to
machine intelligence, University of Southern California.
Tác giả
Lê Duy Đồng