1. 1
L I C M N
u tiên, chúng em xin g i l i c m n n Th y, Cô khoa Công ngh Thông tin
tr ng i h c Khoa h c T nhiên ã t n tình d y d , dìu d t chúng em su t b n n m
i h c.
Chúng em c m n Cô Ph m Th B ch Hu , ng i t n tình h ng d n, giúp ,
ng viên chúng em hoàn thành lu n v n này.
Cu i cùng, chúng con c m n Ba, M và nh ng ng i thân ã khích l , h tr ,
ng viên chúng con trong th i gian h c t p, nghiên c u có c thành qu nh
ngày nay.
Tháng 7 n m 2005
Sinh viên
Ph m Th M Ph ng – T Th Ng c Thanh
2. 2
NH N XÉT C A GIÁO VIÊN H NG D N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………………………………………………....
……………………………………………………………………………………
Ngày…… tháng……n m 2005
Ký tên
3. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 3 - 0112398 – T Th Ng c Thanh
NH N XÉT C A GIÁO VIÊN PH N BI N
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
…………………………………………….………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………
Ngày…… tháng……n m 2005
Ký tên
4. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 4 - 0112398 – T Th Ng c Thanh
M C L C
M U.................................................................................................................................10
Ch ng 1 : T NG QUAN.....................................................................................................11
1.1. "t v#n ................................................................................................................ 11
1.2. Bài toán gi i quy t ................................................................................................... 13
1.3. H ng ti p c n......................................................................................................... 14
Ch ng 2 : C S LÝ THUY T ........................................................................................17
2.1. Chi n l c tìm ki m thông tin c$a các b tìm ki m (Search Engine)..................... 17
2.1.1. M t s search engine thông d!ng:................................................................... 17
2.1.2. Chi n l c tìm ki m ........................................................................................ 32
Nguyên lý ho t ng........................................................................................................ 34
2.2. Semantic Web.......................................................................................................... 34
2.2.1. Khái ni m......................................................................................................... 34
2.2.2. Ki n trúc .......................................................................................................... 36
2.2.3. Các thách th c "t ra cho Semantic web ......................................................... 37
2.2.4. So sánh web và web ng ngh a........................................................................ 41
2.2.5. Các khái ni m liên quan................................................................................... 42
2.2.6. Ontology .......................................................................................................... 44
2.2.7. Rdf ................................................................................................................... 46
2.3. eDoc......................................................................................................................... 55
2.3.1. Tìm hi u eLearning.......................................................................................... 55
2.3.2. Tìm hi u eLib................................................................................................... 61
2.3.3. Tìm hi u eDoc ................................................................................................. 68
2.4. M t s v#n trong x% lí ngôn ng t nhiên: ......................................................... 71
2.4.1. V#n trong vi c x% lí v n b n:...................................................................... 72
2.4.2. V#n x% lí ng ngh a: ................................................................................... 72
2.4.3. Phân lo i v n b n (Text Classification)........................................................... 82
Ch ng 3 : MÔ HÌNH VÀ GI I THU T ..........................................................................84
3.1. Công ngh tìm ki m ng ngh a trên th gi i hi n nay: ........................................... 84
3.2. Các b c xây d ng m t ng d!ng semantic search engine:.................................... 91
3.3.1. Xây d ng ki n trúc Web ng ngh a:................................................................ 92
3.3.2. L p ch& m!c ng ngh a ti m tàng: ................................................................... 93
3.3. Mô hình ngh cho ng d!ng tìm ki m ng ngh a trên l nh v c eDoc................. 96
3.4. Các gi i thu t s% d!ng ........................................................................................... 100
3.4.1. Gi i thu t x% lý tài li u: ................................................................................. 100
3.4.2. Gi i thu t rút trích siêu d li u:..................................................................... 102
3.4.3. Gi i thu t phân lo i l nh v c cho tài li u:...................................................... 104
3.4.4. Gi i thu t x% lí câu truy v#n: ......................................................................... 104
Ch ng 4 : CH NG TRÌNH NG D NG....................................................................105
4.1. Gi i thi u ch ng trình ng d!ng: ........................................................................ 105
4.2. Ki n trúc c$a ng d!ng:......................................................................................... 105
4.3. Mô t ph m vi ng d!ng........................................................................................ 107
4.3.1. Mô t bài toán:............................................................................................... 107
5. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 5 - 0112398 – T Th Ng c Thanh
4.3.2. Xác nh yêu c u: .......................................................................................... 107
4.4. Xây d ng ng d!ng: .............................................................................................. 108
4.4.1. Thi t k d li u:............................................................................................. 108
4.4.2. Thi t k x% lý:................................................................................................ 110
4.5. K t qu ch ng trình ............................................................................................. 112
4.6. Th c nghi m ch ng trình .................................................................................... 114
Ch ng 5 : K T LU N ......................................................................................................118
5.1. ánh giá k t qu nghiên c u ................................................................................. 118
5.1.1. 'u i m ......................................................................................................... 118
5.1.2. Khuy t i m:.................................................................................................. 119
5.2. H ng phát tri n.................................................................................................... 119
TÀI LI U THAM KH O...................................................................................................120
I. Lu n v n, lu n án:...................................................................................................... 120
II. Sách, eBooks:............................................................................................................. 120
III. Website: ................................................................................................................. 122
PH L C..............................................................................................................................124
1. Cú pháp RDF:............................................................................................................ 124
2. RDF Gateway: ........................................................................................................... 129
2.1. Ki n trúc c$a RDF Gateway:............................................................................. 130
2.2. Tính n ng (Features).......................................................................................... 132
3. H th ng nhãn ng ngh a:.......................................................................................... 138
3.1. Nhãn ng ngh a c b n cho danh t :................................................................. 139
3.2. Nhãn ng ngh a c b n cho ng t :................................................................. 141
3.3. Nhãn ng ngh a c b n cho tính t :................................................................... 142
3.4. H th ng nhãn ng ngh a LDOCE .................................................................... 142
4. H c s tri th c ng ngh a t v ng WordNet .......................................................... 144
4.1. H th ng nhãn ng ngh a c$a danh t :.............................................................. 144
4.2. H th ng nhãn ng ngh a c$a ng t :.............................................................. 149
6. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 6 - 0112398 – T Th Ng c Thanh
DANH M C CÁC B NG
B ng 1 : B ng h ng d n nhanh v cách s d ng m t s search engine ph bi n ......... 28
B ng 2: S l c v các c tr ng c a m t s search engine thông d ng trên Internet .. 32
B ng 3 : Các l p trong RDF ............................................................................................ 54
B ng 4:Các thu c tính c a RDF........................................................................................... 55
B ng 5: Danh sách các ngh!a và ràng bu c c a các t" th#c trong câu............................. 77
B ng 6 Mô t c s$ d% li&u cho 'ng d ng.......................................................................... 110
B ng 7 Các module c a ch ng trình................................................................................ 110
B ng 8 Module eDocSearch ................................................................................................ 111
B ng 9 Module eDocSearch ................................................................................................ 111
B ng 10 Các câu truy v(n th nghi&m............................................................................... 115
B ng 11 Th ng kê l!nh v#c khoa h)c máy tính................................................................. 116
B ng 12 Th ng kê l!nh v#c ngh& thu*t. ............................................................................. 116
B ng 13: Nhãn ng% ngh!a c b n cho danh t".................................................................. 140
B ng 14: Nhãn ng% ngh!a c b n cho ng t".................................................................. 142
B ng 15 : Nhãn ng% ngh!a c b n cho tính t"................................................................... 142
B ng 16: H& th ng nhãn ng% ngh!a LDOCE .................................................................... 144
B ng 17:S# phân l p danh t" trong WordNet.................................................................. 148
7. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 7 - 0112398 – T Th Ng c Thanh
DANH M C CÁC HÌNH
Hình 1: Giao di&n c a Google............................................................................................... 18
Hình 2: Giao di&n c a Yahoo................................................................................................ 19
Hình 3: Giao di&n c a Ask Jeeves ........................................................................................ 20
Hình 4: Giao di&n c a AllTheWeb ....................................................................................... 21
Hình 5: Giao di&n c a Teoma ............................................................................................... 22
Hình 6: Giao di&n HotBot ..................................................................................................... 23
Hình 7: Giao di&n c a Altavista............................................................................................ 24
Hình 8: Giao di&n c a Lycos................................................................................................. 25
Hình 9: Ki n trúc t+ng c a Semantic web........................................................................... 36
Hình 10: M t Ontology n gi n......................................................................................... 46
Hình 11: Mô hình d% li&u RDF............................................................................................. 51
Hình 12 : Tiêu chu,n ánh giá tính b o m*t c a eDoc ...................................................... 71
Hình 13 Các quan h& cú pháp và ràng bu c ng% ngh!a ..................................................... 76
Hình 14 Cây quy t -nh trong vi&c ch)n ngh!a phù h p. .................................................. 78
Hình 15: Dòng c s$ tìm ki m Web ................................................................................... 91
Hình 16: Mô hình ngh- cho 'ng d ng tìm ki m ng% ngh!a trên l!nh v#c eDoc .......... 97
Hình 17: Qui trình x lý c a t+ng search engine................................................................ 99
Hình 18: Gi i thu*t x lý tài li&u: ...................................................................................... 100
Hình 19: Gi i thu*t rút trích siêu d% li&u.......................................................................... 103
Hình 20: S . d% li&u quan h& c a 'ng d ng.................................................................. 108
Hình 21: Giao di&n chính c a 'ng d ng............................................................................ 112
Hình 22: Giao di&n k t qu tìm ki m c a 'ng d ng......................................................... 113
Hình 23: Giao di&n qu n lí tài nguyên ............................................................................... 113
Hình 24: Ki n trúc c a RDF Gateway............................................................................... 130
Hình 25: Giao di&n c a RQF Query Analyzer.................................................................. 136
8. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 8 - 0112398 – T Th Ng c Thanh
DANH M C CÁC T/ VI T T0T
eDoc Electronic document
eLib Electronic library
eLearning Electronic learning
www World Wide Web
URI Uniform Resource Identifier
URL Uniform Resource Locator
HTTP Hypertext Transfer Protocol
RDF Resources Descriprion Framework
OIL Ontology Inference Language
OWL Ontology Web Language
XML eXtensible Markup Language
9. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 9 - 0112398 – T Th Ng c Thanh
DANH M C CÁC THU T NG1
Class L p
Property Thu c tính
Metadata Siêu d li u
Subject Ch$ , ch$ ng
Title Tiêu
Namespace Không gian tên
Predicate V ng
Triple B ba (subject, predicate, object)
10. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 10 - 0112398 – T Th Ng c Thanh
M( )U
Hi n nay, h u h t các h th ng tìm ki m trên Internet u i theo h ng truy n
th ng ó là tìm ki m theo t khoá ( key word ). Theo cách tìm ki m này, khi ta gõ vào
t c n tìm, các h th ng tìm ki m s* hi n th các tài li u mà trong nó có ch a t khoá
c n tìm. Do ó, k t qu tr ra là m t danh sách r#t nhi u các tài li u, mà có th các tài
li u này không liên quan gì n n i dung ta c n tìm. Và ôi khi các h th ng này
không a ra h t các tài li u c n thi t, t c là th a tài li u không c n thi t nh ng l i
thi u h+n nh ng tài li u quan tr ng khác.
V#n "t ra là ta ph i xây d ng m t h th ng tìm ki m nh th nào kh c
ph!c hi n tr ng nêu trên ?
gi i quy t v#n này, ta c n xây d ng h th ng tìm ki m sao cho áp ng
y $ thông tin mà ng i dùng mong mu n, ngh a là ph i xây d ng h th ng tìm
ki m theo ng ngh a d a trên thông tin ng i dùng a vào.
T nh n th c trên chúng em quy t nh ch n tài: Tìm ki m ng% ngh!a 'ng
d ng trên l!nh v#c eDoc (nh ng tài li u i n t% ti ng Anh) v i m!c ích tìm hi u và
xây d ng m t công c! tìm ki m theo ng ngh a có th tìm ki m thông tin chính xác
và y $, có th h n ch c ph n nào v#n tìm ki m theo t khoá c$a các
search engine hi n t i.
Các i t ng nghiên c u liên quan n tài: eDoc, Semantic Web, RDF,
OWL, Metadata,….
Trong ph m vi tài, vì th i gian th c hi n ng n, nên chúng em ch& th% nghi m
ch ng trình tìm ki m trong m t s l nh v c: Khoa h c máy tính (Computer Science),
Ngh thu t (Art). Hai l nh v c này có v, nh không liên h v i nhau nh ng th c t
v n có nh ng tr ng h p c n ph i phân bi t, ví d! nh tài li u v “ngh thu t l p
trình” (“Art of programming”) thì ph i phân tài li u v l nh v c khoa h c máy tính
ch không ph i ngh thu t …. Tóm l i, ng d!ng mà chúng em xây d ng ch& tìm ki m
thông tin trong các l nh v c nêu trên. Tuy nhiên, ng d!ng có th d- dàng m r ng ra
nhi u l nh v c còn l i.
11. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 11 - 0112398 – T Th Ng c Thanh
Ch ng 1 : T NG QUAN
1.1. t v(n
Nhu c u tìm ki m, n m b t thông tin là m t nhu c u không th thi u trong i
s ng c$a m i ng i. Khi vi c s% d!ng World Wide Web ã tr nên ph. bi n r ng
kh p, thì công vi c c$a các search engine c/ng tr thành m t ph n s ng còn và có l i
ích cho Web. Các công c! tìm ki m tr thành nh ng công c! công c ng cho m i
ng i dùng c$a Internet; Google và Yahoo, c/ng tr thành nh ng cái tên quen thu c.
Các công c! tìm ki m hi n nay d a trên m t trong hai d ng c$a công ngh tìm
ki m Web: tìm ki m do con ng i t ch& ng d n và tìm ki m t ng.
Công c! tìm ki m do con ng i ch& ng d n s% d!ng m t c s d li u c$a
các t khoá, các khái ni m, và các tham chi u. Nh ng công c! tìm ki m theo t khoá
tr v m t dãy các trang, nh ng ph ng pháp n gi n này th ng d n n hàng lo t
các k t qu không liên quan và không xác th c. Ho t ng c$a m t công c! tìm ki m
d a trên n i dung là: s* m s l ng các t truy v#n ( các t khoá) so v i các t hi n
di n trong m i trang c ch a trong ch& m!c c$a nó. Sau ó, công c! tìm ki m này s*
s p x p các trang. Ti p c n ph c t p h n b0ng cách a các v trí c$a t khoá vào m t
m c quan tr ng c! th . Ví d!, các t khoá xu#t hi n trong th, title c$a trang web thì
quan tr ng h n trong ph n body. Các ki u khác c$a công c! tìm ki m do ng i dùng
ch& ng d n, nh Yahoo, s% d!ng các l c 1 ch$ giúp ch& h ng tìm ki m và
tr v các k t qu có liên quan h n. Nh ng l c 1 ch$ này do con ng i t o ra.
B i lí do này, chúng ta ph i t n chi phí t o ra và duy trì trong các t mang “ý ngh a
th i gian” (thay .i theo th i gian), và r1i thì không c c p nh t th ng xuyên nh
các h th ng t ng.
Cách ti p c n tìm theo t khoá v n còn m t s h n ch , i u này ã làm gi m
i tính úng n c$a các search engine. Ví d! nh các t 1ng âm khác ngh a (ch+ng
h n: bank (ngân hàng), bank (b sông), …) ho"c các t có các bi n th khác nhau do
có các ti n t và h u t nh student và students; small, smaller, smallest; …. Ngoài ra,
các search engine không tr v các tài li u có các t 1ng ngh a v i các t trong câu
12. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 12 - 0112398 – T Th Ng c Thanh
truy v#n mà ng i dùng nh p vào. Key word không $ bi u di-n chính xác nhu
c u c$a ng i dùng c/ng nh n i dung các trang web, h n ch này làm cho các search
engine tr v nh ng tài li u không liên quan n v#n mà ng i dùng quan tâm. B i
vì t*p h p các t" khóa là d ng bi u di-n s l c nh#t c$a n i dung, và do ó, cách
bi u di-n này là m t d ng góc nhìn lu n lý (logical view) c$a n i dung mang m'c
thông tin th(p nh(t, ó chính là lý do c b n khi n cho các Search Engine hi n nay
có t2 l& s trang web h%u ích trên t ng s trang web tr v th(p.
Google v i 400 tri u tài li u thu v m i ngày và trên 8 t& trang web c l p ch&
m!c, và là công c! tìm ki m thông d!ng nh#t c s% d!ng ngày nay, nh ng th m chí
v i Google v n còn có nhi u v#n . Ví d!, b0ng cách nào b n tìm ki m ch& v i m t
l ng ít d li u mà b n c n trong m t bi n k t qu không liên quan c a ra?
Khi công ngh trí tu nhân t o (Artificial Intelligence_AI) phát tri n m nh, thì
v#n "t ra là làm th nào a ra nh ng ph ng pháp tìm ki m t t h n mà có th
th c s tin c y vào nh ng k t qu tìm ki m ó. ó là xu h ng c$a nh ng công c! tìm
ki m d a vào ng ngh a và các agent tìm ki m theo ng ngh a. M t công c! tìm ki m
ng ngh a tìm ki m các tài li u có ngh a t ng t nhau ch không ch& nh ng t ng
t ng t nhau. Web tr thành m t m ng ng ngh a, ph i cung c#p nhi u siêu d
li u v n i dung c$a nó, thông qua vi c s% d!ng các th, RDF (Resource Description
Framework) và OWL (Ontology Web Language), các th, này s* giúp th c hi n a
Web vào trong m ng ng ngh a. Trong m ng ng ngh a, ý ngh a c$a n i dung c
th hi n t t h n, và nh ng liên k t logic c th c hi n gi a nh ng thông tin liên quan
nhau.
Công c! tìm ki m ng ngh a, chúng ta c p ây, có hai u i m l n so v i
các công c! tìm ki m truy n th ng:
1. Nó ch#p nh n các truy v#n c phát bi u ngôn ng t nhiên.
2. K t qu là tìm ki m m t m u thông tin; không ph i là m t danh sách các tài
li u có th (ho"c không) ch a thông tin yêu c u.
Th t v y công c! tìm ki m ng ngh a b t u v i l ng thông tin quá t i. Nó
ti p nh n m t s các tác v! không c ai a thích trong vi c tìm ki m thông tin hi n
13. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 13 - 0112398 – T Th Ng c Thanh
nay: m ra m i tài li u c$a danh sách k t qu và quét nó m t cách th$ công l#y
thông tin. Theo cách ó, các công c! tìm ki m ng ngh a có kh n ng cách m ng hoá,
h ng n vi c tìm ki m thông tin i n t% m t cách t ng: nó thay .i mô hình tìm
ki m t vi c thu h i tài li u n vi c tr l i câu h i.
1.2. Bài toán gi i quy t
Theo th ng kê trong n m 2001: “Các nhân viên t n trung bình 8 gi m t tu n,
hay 16% gi công hàng tu n c$a h , tìm ki m và s% d!ng n i dung thông tin bên
ngoài. Chi phí l ng ch& riêng cho công ty c$a M là 107 t& ôla m t n m. Vi c tìm
ki m ng ngh a là m t c h i y ý ngh a cho các công ty giúp cho nhân viên c$a h
có kh n ng h n và hi u qu h n trong vi c "t thông tin bên ngoài vào công vi c c$a
h .” Không c n nói nhi u thêm n a. S quá t i thông tin là m t v#n l n trong xã
h i thông tin.
Nh ng khám phá t ng t c/ng c tìm th#y trong nhi u nghiên c u, làm n.i
b t v#n : ph i a ra gi i pháp trong vi c c i ti n x% lí tìm ki m thông tin. Ngo i tr
nh ng ích l i to l n mà các công c! tìm ki m mang l i cho chúng ta nh ng n m g n
ây b0ng vi c làm cho có th truy c p n hàng tri u các tài li u, b#t ch#p v trí v t lí
và ngôn ng , thì chúng v n có m t s h n ch c b n. Ví d!, chúng không “hi u” các
t con ng i gõ vào và do ó t t i m t s l ng kh.ng l1 c$a các k t qu sai. H n
n a, chúng ho t ng hi u qu khi h2i v nh ng s ki n, ch+ng h n nh “Kerry” và
“vua c$a Tây Ban Nha”. Tuy nhiên, chúng th c hi n nhi u k t qu không t t n u câu
truy v#n nói v s liên h gi a các khái ni m ch+ng h n nh “Nh ng qu c gia nào ã
tham gia trong chi n tranh Iraq?” và “t.ng th ng n c Pháp theo chính ng nào?”
Có ba v#n c n c c i ti n c i thi n các k t qu c$a công c! tìm ki m là:
(i) Công c! tìm ki m c n cho phép nh ng truy v#n ph c t p h n (ví
d! trong ngôn ng t nhiên),
(ii) Công c! tìm ki m c n “hi u” nh ng gì con ng i h2i, và
(iii) Công c! tìm ki m ph i cung c#p câu tr l i cho truy v#n (có th
sao l u l i nh ng liên k t n các tài li u mà cho ra câu tr l i).
14. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 14 - 0112398 – T Th Ng c Thanh
1.3. H ng ti p c*n
Có hai ti p c n c i thi n các k t qu tìm ki m thông qua ph ng pháp ng
ngh a:
1. Ki n trúc c$a Semantic Web.
2. L p ch& m!c cho ng ngh a ti m tàng (Latent Semantic Indexing).
Tuy nhiên, h u h t các công c! tìm ki m d a trên ng ngh a ph i ch u nh ng
v#n th c thi b i qui mô c$a m ng ng ngh a r#t l n. Nh0m m!c ích làm cho tìm
ki m ng ngh a tr nên hi u qu trong vi c tìm ki m các k t qu mong mu n, m ng
này ph i ch a m t l ng l n các thông tin liên quan. Cùng lúc ó, m t m ng r ng l n
t o ra nh ng khó kh n trong vi c x% lí nhi u ng d n có th có cho m t gi i pháp
liên quan.
Chúng ta s% d!ng khía c nh s c bén c$a công ngh Web ng ngh a – k t h p
ch"t ch* s ph i h p c$a các công ngh tiên ti n – làm cho mô hình có th chuy n
nhanh trong vi c tìm ki m thông tin.
• Công ngh& x lí ngôn ng% t# nhiên cho phép ng i dùng h2i nh ng
câu h2i mà h mu n, h n là ph i nêu lên nh ng t khoá có liên quan
trong câu h2i c$a h .
• Các Ontology -nh ngh!a l!nh v#c quan tâm. Chúng c xem nh là
“b não” c$a công c! tìm ki m, b i vì nó c g ng hi u nh ng câu truy
v#n c$a ng i dùng trong các t c$a ontology này. Theo cách này chú ý
r0ng công c! tìm ki m ng ngh a c$a chúng ta không ph i là có m!c
ích thông th ng nh Google, mà nó có ý nh áp d!ng i v i m t
l nh v c hay khu v c c! th (ví d! v l nh v c pháp lí, v n hoá, th thao
v.v…).
• Phân tích tri th'c. Công ngh này chuy n d li u không có c#u trúc
sang thông tin có c#u trúc. Nó rút trích thông tin t các v n b n t do,
15. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 15 - 0112398 – T Th Ng c Thanh
các v n b n bán c#u trúc và c#u trúc phát sinh ra ontology v i tri th c
th t s .
• Truy c*p tri th'c thông minh. Các câu tr l i cho các truy v#n t
c do vi c truy v#n ontology c a ra t ng, và c bi u di-n
trong nh ng d ng khác nhau:
o “D li u” c$a th c th chính c h2i n (ví d! trong l nh v c
xã h i, d li u c$a m t ngh s ).
o nh h ng ng ngh a. Nh ng t c$a các câu tr l i c t
ng siêu liên k t n các khái ni m ontology con, cho phép nh
h ng b0ng “ý ngh a”.
o Các th thông minh và liên k t thông minh. Các câu tr l i luôn
c sao l u b i các ngu1n và các tài li u chúng d a vào. Khi
nh ng tài li u ó c tra c u, thì ph n m m gán th, và liên k t
s* t ng nh n ra các t ch a ý ngh a l nh v c và liên k t chúng
n ontology, hay thêm vào các th, thông minh v i nh ng ho t
ng c nh ngh a trong ontology.
o S “t ng t ng” thông minh. Thông th ng, các câu tr l i
phát sinh ra nhi u các khái ni m liên quan và các m i quan h .
Ph m m m “t ng t ng” thông minh cho phép m t khái ni m i
xuyên qua tri th c này.
Có m t v#n mà công c! tìm ki m ng ngh a c nh ngh a ây v n ch a
th hoàn t#t so v i nh ng công c! tìm ki m v i m!c ích thông th ng (không có ng
ngh a) nh Google ó là: ph m vi. Trong Google b n có th tìm ki m v i b#t k3 t
khoá nào trong b#t k3 l nh v c nào. N u các t khoá xu#t hi n trong m t s tài li u
trên Web, Google s* tìm th#y nó. M t công c! tìm ki m ng ngh a c n m t s tri th c
nâng cao: nó c n bi t ý ngh a, c bi u di-n trong m t ontology. Th c t là các
ontology – trong tr ng thái thi hành hi n t i – v n còn làm b0ng th$ công, h n ch
chúng trong nh ng m!c ích thông th ng. Do ó, các công c! tìm ki m ng ngh a là
nh ng công c! quan tr ng cho nh ng l nh v c c! th . Trong tr ng h p này, m!c ích
16. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 16 - 0112398 – T Th Ng c Thanh
c$a các công c! tìm ki m ng ngh a là b. sung cho các công c! tìm ki m thông
th ng, h n là c nh tranh nh nh ng i th$ .
17. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 17 - 0112398 – T Th Ng c Thanh
Ch ng 2 : C S LÝ THUY T
2.1. Chi n l c tìm ki m thông tin c a các b tìm ki m (Search Engine)
2.1.1. M t s search engine thông d ng:
Sau ây là danh sách m t s search engine. T i sao chúng c xem là nh ng
search engine “l n”? ó là b i vì chúng c bi t n nhi u và s% d!ng t t. i v i
các chuyên gia web, các công c! tìm ki m l n là danh sách nh ng n i quan tr ng nh#t
b i chúng phát sinh ra m t l ng r#t l n các trang web ti m tàng. i v i nh ng
ng i tìm ki m, các công c! tìm ki m ph. bi n th ng tr ra các k t qu áng tin c y
h n. Nh ng search engine này r#t có th c duy trì t t và nâng c#p khi c n thi t,
gi th cân b0ng v i t c phát tri n c$a web.
Nh ng search engine sau là t#t c nh ng l a ch n t t nh#t b t u khi tìm ki m
thông tin:
18. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 18 - 0112398 – T Th Ng c Thanh
2.1.1.1. Google: http://www.google.com/
Hình 1: Giao di&n c a Google
Nguyên thu4, Google là m t án c$a tr ng i h c Stanford c th c hi n
b i hai sinh viên Larry Page và Sergey Brin g i là BackRub. n n m 1998, thì .i
tên thành Google, và 1 án này ã tr thành công ty riêng Google "t t i khuôn viên
tr ng i h c. Nó v n còn c l u gi cho n ngày nay.
Google là công c! tìm ki m n.i ti ng, t t nh#t trong các l a ch n tìm ki m
thông tin trên web. D ch v! d a vào crawler, spider cung c#p trang web v i thông tin
a ra toàn di n cùng v i m c liên quan t t. ây là công c! t t nh#t hi n nay trong
vi c tìm ki m b#t c th gì b n mu n.
Tuy nhiên, Google cung c#p ch n l a tìm ki m ch$ y u v các trang web.
S% d!ng h p tìm ki m trên trang ch$ Google, b n có th d- dàng nh v các nh qua
19. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 19 - 0112398 – T Th Ng c Thanh
web, nh ng ngh c "t trong các nhóm th o lu n Usenet, nh v thông tin tin
t c hay th c hi n tìm ki m s n ph5m.
2.1.1.2. Yahoo: http://www.yahoo.com/
Hình 2: Giao di&n c a Yahoo
a ra n m 1994, Yahoo là “th m!c” c/ nh#t c$a web, m t n i mà các nhà
biên t p t. ch c các trang web trong các danh m!c. Tuy nhiên, vào tháng 10 n m
2002, Yahoo chuy n sang l p danh sách d a vào crawler cho nh ng k t qu chính c$a
nó. Công c! này s% d!ng công ngh t Google cho n tháng 2 n m 2004. Hi n nay,
Yahoo s% d!ng công ngh tìm ki m riêng c$a mình.
Yahoo Directory v n t1n t i. B n s* ch& ra các liên k t “danh m!c” phía d i
m t s các trang web li t kê trong k t qu tr v c$a m t tìm ki m t khoá. Khi c
20. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 20 - 0112398 – T Th Ng c Thanh
xu#t, nh ng trang web này d n b n n m t danh sách các trang web ã c xem
xét và phê chu5n b i m t nhà biên t p.
Công ngh AltaVista và AllTheWeb c ph i h p v i k thu t Inktomi, m t
công c! tìm ki m d a trên crawler, t o nên m t Yahoo crawler hi n nay.
2.1.1.3. Ask Jeeves: http://www.askjeeves.com/
Hình 3: Giao di&n c a Ask Jeeves
Ask Jeeves b t u n.i ti ng t n m 1998 và 1999, c bi t nh là m t công
c! tìm ki m “ngôn ng t nhiên” cho phép ta tìm ki m b0ng cách h2i nh ng câu h2i
và tr v k t qu v i nh ng gì có v là tr l i úng v m i th .
Th c s , công ngh không ph i là nh ng gì làm cho Ask Jeeves th c thi t t.
Bên c nh các b i c nh, công c! này t i m t th i i m có kho ng 100 trình so n th o
21. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 21 - 0112398 – T Th Ng c Thanh
giám sát các log tìm ki m. Sau ó chúng vào trong web và nh v nh ng site mà
chúng cho là t t nh#t t ng x ng v i các truy v#n ph. bi n nh#t.
2.1.1.4. AllTheWeb: http://www.alltheweb.com/
Hình 4: Giao di&n c a AllTheWeb
c Yahoo cung c#p ngu1n, có th th#y AllTheWeb là m t “tìm ki m thu n
tuý” (“pure search”) nh nhàng h n, tu3 bi n h n và d- ch u h n là khi th c hi n
Yahoo. Tiêu i m là trong tìm ki m web, ngo i tr tin t c, tìm ki m hình nh, video,
MP3 và FPT c/ng c a ra.
22. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 22 - 0112398 – T Th Ng c Thanh
2.1.1.5. Teoma: http://www.teoma.com/
Hình 5: Giao di&n c a Teoma
Teoma là m t công c! tìm ki m d a trên crawler c s h u b i Ask Jeeves.
Nó có s l ng trang web c ch& m!c nh2 h n Google và Yahoo. N m 2000,
Teoma ra i cùng v i thành công c$a mình: a ra c nh ng th liên quan. Tính
n ng “Refine” c$a công c! này xu#t ra nh ng ch$ kh o sát sau khi b n th c
hi n m t tìm ki m.
Teoma c Ask Jeeves mua vào tháng 9 n m 2001 và c/ng cung c#p m t s
k t qu cho web site này.
23. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 23 - 0112398 – T Th Ng c Thanh
2.1.1.6. HotBot: http://www.hotbot.com/
Hình 6: Giao di&n HotBot
HotBot h tr truy c p d- dàng n 3 trang web search engine d a vào crawler
l n: Yahoo, Google, và Teoma. Không nh m t meta search engine, nó không th pha
tr n các k t qu t t#t c các crawler này v i nhau. Do ó, nó là m t cách nhanh, d-
dàng l#y các “ý ki n” tìm ki m web khác nhau trong m t n i.
24. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 24 - 0112398 – T Th Ng c Thanh
2.1.1.7. AltaVista: http://www.altavista.com/
Hình 7: Giao di&n c a Altavista
AltaVista c a ra vào tháng 9 n m 1995 và c xem nh là “Google”
trong m t vài n m, nó cung c#p nh ng k t qu liên quan và ã có m t nhóm ng i
dùng yêu thích công c! tìm ki m này. Nh ng t sau n m 1998, ng i ta không còn a
chu ng AltaVista n a, b i vì s m i m, c$a các danh sách AltaVista và tin t c c
a ra c$a crawler trong trang web này không c c p nh t th ng xuyên.
Ngày nay, AltaVista m t l n n a t p trung vào tìm ki m. Các k t qu n t
Yahoo, và cho phép n các trang web tìm hình nh, MP3/Audio, Video, các danh
sách danh m!c con ng i và các k t qu tin t c. N u mu n m t c m giác nh nhàng
h n Yahoo nh ng v n có các k t qu c$a Yahoo, AltaVista là m t ch n l a t t.
25. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 25 - 0112398 – T Th Ng c Thanh
2.1.1.8. Lycos: http://www.lycos.com/
Hình 8: Giao di&n c a Lycos
Lycos là m t trong nh ng công c! tìm ki m c/ nh#t trên web, c a ra n m
1994. c mô t nh là nh ng c.ng truy c p web ( web portal ) hay nh ng trung tâm
truy c p, là n i mà ng i dùng i vào l#y thông tin cho m i l nh v c, k c tán g u,
g i th i n t%,…
26. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 26 - 0112398 – T Th Ng c Thanh
Search
Engine
Google AlltheWeb AltaVista Teoma
Database google.com alltheweb.com altavista.com teoma.com
Kích th c(#
trang )
Kho ng 8 t& (1
t& không ánh
ch& m!c trên
toàn v n b n)
Kho ng 3 t&,
ch& m!c trên
toàn v n b n.
Kho ng 1 t& Kho ng 1 t&
a ph ng
ti n
(multimedia)
H tr H tr H tr Không h tr
Toán t%
M"c nh AND AND AND AND
Lo i tr - - - -
C!m t Dùng d#u “ “ Dùng d#u “ ” Dùng d#u “ ” Dùng d#u “ “
Rút g n Không h tr
Dùng ký t *
thay th
cho các ký t
trong d#u “ “
Không h tr Dùng ký t * Không h tr
Boolean OR (ch& dùng
cho danh t
riêng )
AND, OR,
ANDNOT,
RANK, ()
AND, OR,
ANDNOT,
NEAR, ()
OR (ch& dùng cho tên
riêng)
27. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 27 - 0112398 – T Th Ng c Thanh
Stop words Thông th ng
b2 qua các t
thông d!ng
+ n u mu n
tìm và ph i "t
trong c"p d#u
“ “
Dùng d#u “ “
trong search
c b n
B2 qua trong
search nâng
cao
Thông th ng b2 qua
các t thông d!ng
+ n u mu n tìm
Danh t
riêng
Không h tr Không h tr H tr Không h tr
Gi i h n
field c n tìm
intitle:
inurl:
allintitle:
Allinurl:
filetype:
Link:site:
Trong search
nâng cao :
cache:info:
Normal.title:
url.all:
Link.all:
Link.extension
:
Title:
domain:
Link:
image:
Text:
url:
host:
Anchor:
applet:
intitle:
inurl:
site:
geoloc:
lang:
last:
afterfate:
Các "c tính
"c bi t
~ tìm t 1ng
ngh a
Gi i h n b i
ngôn ng
Nhi u ki u file
: pdf, doc,…
Caches : trang
web khi ánh
ch& m!c
Duy t qua các
URL
Trong tìm
nâng cao :
gi i h n b i
ngày, domain,
a ch& iP
Gi i h n b i
ngày, v trí,
ngôn ng
Trong tìm
nâng cao : s%
d!ng sortby
l c và s p x p
k t qu .
Dùng refine t i u
k t qu .
Resource có c
các trang và liên k t
t p trung trên ch$
c n tìm.
28. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 28 - 0112398 – T Th Ng c Thanh
'u i m
'u i m
chính
R#t t t v i
nh ng trang
có ph. bi n
cao.
Các trang tin
t c g n ây
T t nh
Google.
Không có
stopword.
Dùng nhi u
toán t%
Boolean trong
tìm ki m.
Trong tìm
nâng cao h
tr hi n th k t
qu theo
ph. bi n c$a
t .
Tính ph. bi n t t,
d a vào s l ng
trang web cùng ch$
v i các trang ang
xét. Th ng t k t
qu áng khích l .
Search
Engine
Google AlltheWeb AltaVista Teoma
B ng 1 : B ng h ng d n nhanh v cách s d ng m t s search engine ph bi n
Search
engine
C s$ d% li&u Toán t L#a ch)n tìm
ki m
Linh tinh
Google
http://www.g
oogle.com
H tr tìm
ki m nâng
cao
H th ng th
m!c ch$
(Subject
Toàn v n b n
c$a các trang
web, .pdf,
.doc, .xls, .ps,
.wpd
(4.3B, + 1B
m t ph n c$a
ch& m!c
URLs)
AND (m"c
nh)
OR (danh t
riêng)
+ cho các stop
word thông
d!ng, cho các
URL ho"c các
trang c! th (ví
Dùng * rút
g n.
Dùng “” tìm c!m
t .
Fields : intitle:,
inurl:, link:, site:
Tìm trên h
th ng danh m!c
các ch$ trong
Ki m l i chính
t .
L u tr các trang
ã l p ch& m!c.
T t cho tìm các
trang hay b l i
404.
Phiên d ch n 5
ngôn ng .
29. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 29 - 0112398 – T Th Ng c Thanh
Directory)
H th ng th
m!c m
(Open
Directory)
Tin t c : c p
nh t th ng
xuyên (4500
ngu1n ).
Các d ng file
nh
Nhóm :
Usenet t
1981 n nay
d! +edu)
- lo i tr
th m!c web.
Tìm các trang
web t ng t .
~ tìm t 1ng
ngh a.
AlltheWeb
http://allthew
eb.com
H tr tìm
ki m nâng
cao
Toàn b v n
b n các trang
web, .pdf,
Flash,
(3.1B toàn b
ch& m!c
URLs)
Tin t c : c p
nh t th ng
xuyên (3000
ngu1n)
Tranh nh
Video
Audio
FPT
AND (m"c
nh)
OR, ph i "t
các t trong
d#u “ “.
ANDNOT,
RANK
- lo i b2
Không rút g n.
Dùng d#u “ “ cho
c!m t .
Field intitle:inurl:
link:site:
Trong tìm nâng
cao :
gi i h n theo
ngày, ngôn ng ,
domain, file
format, a ch&
iP.
Ki m l i chính
t .
Tìm nâng cao :
tranh nh, video.
H tr s% d!ng
k thu t
“clusters” t i
u câu truy v#n.
AltaVista
http://altavist
a.com
Toàn b v n
b n các trang
web (kho ng
AND (m"c
nh)
Trong tìm nâng
D#u * rút g n.
D#u “” cho c!m
t .
Ki m l i chính
t .
Phiên d ch : 8
30. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 30 - 0112398 – T Th Ng c Thanh
H tr tìm
ki m nâng
cao
H th ng th
m!c ch$
(Subject
Directory )
H th ng th
m!c m
(Open
Directory)
1B) và file
.pdf.
Tin t c (3000
ngu1n), nh,
MP3/Audio,
Video.
cao ho"c danh
t riêng trong
tìm c b n :
AND, OR,
ANDNOT,
NEAR, d#u ()
l1ng nhau.
- cho lo i tr .
Tìm nâng cao :
gi i h n ngày,
ngôn ng .
ngôn ng c$a
Châu Âu & các
ngôn ng c$a
Châu Á.
AltaVistaPrima :
t i u câu h2i.
Teoma
http://teoma.c
om
H tr tìm
ki m nâng
cao
Toàn b v n
b n trang web
(kho ng 1B)
AND (m"c
nh)
OR (danh t
riêng)
+ ho"c “” cho
stopword
- lo i b2
Không rút g n.
Dùng d#u “ “ cho
c!m t .
Field intitle:inurl:
site:geoloc:lang:l
ast:
afterdate:befored
ate:
betweendate:
Trong tìm nâng
cao :
gi i h n theo
ngày, ngôn ng ,
domain, file
format, a ch&
iP.
Ki m l i chính
t .
Gom nhóm k t
qu Refine t i
u câu h2i.
Resource có
các trang ho"c
liên k t t p trung
vào ch$ .
31. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 31 - 0112398 – T Th Ng c Thanh
AskJeeves
www.ask.co
m
Nh n k t qu
t CSDL c$a
Teoma.
Tìm s n ph5m
:
PriceGrabber.
com,
Tìm tranh nh
:
Picsearch.co
m
Tìm tin t c :
Moreover.co
m.
Gi ng Teoma.
i v i nh ng
câu h2i n
gi n, xu#t hi n
c%a s. i
tho i.
Gi ng Teoma.
Click vào
Remove Frame
th#y URLs
c$a các trang.
Ki m l i chính
t .
AskJeeves for
Kids
www.ajkids.c
om
Tr l i t t các
câu h2i n
gi n.
Games cho
tr, em,
Tin t c theo
t ng nhóm
tu.i.
H2i b0ng ngôn
ng t nhiên.
Không s% d!ng
các toán t%
Boolean.
Click vào No
frames th#y
URL c$a trang
k t qu .
D n n các
trang ph!c v!
h c t p : t i n,
v t lý, khoa h c,
b n 1, l ch
s%,…
Yahoo
http://dir.yaho
o.com
Xem xét các
trang web
(kho ng 13K)
AND (m"c
nh)
OR
C!m t : “”
Rút g n : *
Fields t: title,
u:URL
Nhi u d ch v!
trong Yahoo:
Tin t c : t ng
gi .
Th thao :t& s ,..
B n 1, th i ti t,
32. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 32 - 0112398 – T Th Ng c Thanh
mua s m.
B ng 2: S l c v các c tr ng c a m t s search engine thông d ng trên
Internet
2.1.2. Chi n l c tìm ki m
T “search engine” th ng c s% d!ng r ng rãi mô t các công c! tìm
ki m d a trên crawler và các th m!c do con ng i cung c#p. ây là hai lo i c$a các
search engine t p h p các danh sách c$a chúng trong nh ng cách khác nhau hoàn
toàn.
Search engine d a vào crawler g1m 3 ph n:
B thu th*p thông tin – Robot
Robot là m t ch ng trình t ng duy t qua các c#u trúc siêu liên k t thu
th p tài li u và m t cách quy nó nh n v t#t c các tài li u có liên k t v i tài li u
này.
Robot c bi t n d i nhi u tên g i khác nhau : spider, web wanderer ho"c
web worm, crawler… Nh ng tên g i này ôi khi gây nh m l n, nh t ‘ spider ’, ‘
wanderer ’ làm ng i ta ngh r0ng robot t nó di chuy n và t ‘ worm ’ làm ng i ta
liên t ng n virus. V b n ch#t robot ch& là m t ch ng trình duy t và thu th p
thông tin t các site theo úng giao th c web. Nh ng trình duy t thông th ng không
c xem là robot do thi u tính ch$ ng, chúng ch& duy t web khi có s tác ng c$a
con ng i.
B l*p ch3 m c – Index
H th ng l p ch& m!c hay còn g i là h th ng phân tích và x% lý d li u, th c
hi n vi c phân tích, trích ch n nh ng thông tin c n thi t (th ng là các t n , t
ghép , c!m t quan tr ng) t nh ng d li u mà robot thu th p c và t. ch c thành
33. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 33 - 0112398 – T Th Ng c Thanh
c s d li u riêng có th tìm ki m trên ó m t cách nhanh chóng, hi u qu . H
th ng ch& m!c là danh sách các t khoá, ch& rõ các t khoá nào xu#t hi n trang nào,
a ch& nào.
B tìm ki m thông tin – Search Engine
Search engine là c!m t dùng ch& toàn b h th ng bao g1m b thu th p
thông tin, b l p ch& m!c và b tìm ki m thông tin. Các b này ho t ng liên t!c t
lúc kh i ng h th ng, chúng ph! thu c l n nhau v m"t d li u nh ng c l p v i
nhau v m"t ho t ng.
Search engine t ng tác v i user thông qua giao di n web, có nhi m v! ti p
nh n và tr v nh ng tài li u tho yêu c u c$a user.
Nói nôm na, tìm ki m t là tìm ki m các trang mà nh ng t trong câu truy v#n
(query) xu#t hi n nhi u nh#t, ngo i tr stopword (các t quá thông d!ng nh m o t a,
an, the,…). M t t trong câu truy v#n càng xu#t hi n nhi u trong m t trang thì trang
ó càng c ch n tr v cho ng i dùng. Và m t trang ch a t#t c các t trong câu
truy v#n thì t t h n là m t trang không ch a m t ho"c m t s t . Ngày nay, h u h t
các search engine u h tr ch c n ng tìm c b n và nâng cao, tìm t n, t ghép,
c!m t , danh t riêng, hay gi i h n ph m vi tìm ki m nh trên m!c, tiêu , o n
v n b n gi i thi u v trang web,…..
Ngoài chi n l c tìm chính xác theo t khoá, các search engine còn c g ng
‘hi u’ ý ngh a th c s c$a câu h2i thông qua nh ng câu ch do ng i dùng cung c#p.
i u này c th hi n qua ch c n ng s%a l i chính t , tìm c nh ng hình th c bi n
.i khác nhau c$a m t t . Ví d! : search engine s* tìm nh ng t nh speaker,
speaking, spoke khi ng i dùng nh p vào t speak.
34. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 34 - 0112398 – T Th Ng c Thanh
Nguyên lý ho4t ng
Search engine i u khi n robot i thu th p thông tin trên m ng thông qua các
siêu liên k t ( hyperlink ). Khi robot phát hi n ra m t site m i, nó g i tài li u (web
page) v cho server chính t o c s d li u ch& m!c ph!c v! cho nhu c u tìm ki m
thông tin.
B i vì thông tin trên m ng luôn thay .i nên robot ph i liên t!c c p nh t các
site c/. M t c p nh t ph! thu c vào t ng h th ng search engine. Khi search engine
nh n câu truy v#n t user, nó s* ti n hành phân tích, tìm trong c s d li u ch& m!c
và tr v nh ng tài li u tho yêu c u.
2.2. Semantic Web
2.2.1. Khái ni&m
“Web ng ngh a” là m t d ng m r ng c$a web hi n nay, mà cho phép ta truy
tìm, chia s,, ph i h p, s% d!ng l i và rút trích thông tin m t cách chính xác, d- dàng.”(
Tim – Berners Lee, XML – 2000 ).
Web ng ngh a là m t m ng l i thông tin c liên k t theo cách mà máy tính
có th d- dàng x% lý c trên quy mô toàn c u. Chúng ta có th xem web ng ngh a
nh là m t c s d li u toàn c u c liên k t v i nhau.
Web ng ngh a c phát tri n b i Tim – Berners Lee, nhà phát minh c$a
WWW, URIs, HTTP, và HTML. Hi n nay có m t nhóm nghiên c u t i t p oàn
WWW ang c i ti n, m r ng và tiêu chu5n hoá h th ng ng ngh a.
D li u trong t p tin HTML th ng h u ích trong m t s tr ng h p. Ph n l n
d li u trên web là d ng HTML nên khó s% d!ng trên quy mô l n, b i vì nó không có
m t h th ng toàn c u xu#t b n d li u.
Do ó, Web ng ngh a c xem nh là m t gi i pháp k thu t.
Web ng ngh a c xây d ng ch$ y u trên cú pháp s% d!ng URIs bi u di-n
d li u, th ng th#y là c#u trúc d a trên b ba (subject, predicate, object), ví d!: nhi u
b ba c$a d li u URI có th c c#t gi trong c s d li u, ho"c thay th l n nhau
35. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 35 - 0112398 – T Th Ng c Thanh
trên word wide web b0ng cách s% d!ng m t t p các cú pháp "c bi t c pháp tri n
chuyên bi t ph!c v! cho nhi m v! ó. Cú pháp này c g i là cú pháp RDF.
Web ng ngh a yêu c u d li u không nh ng máy có th c c mà còn
mong mu n máy có th hi u c. Trích d n câu nói c$a Tim – Berners Lee:
“The semantic web goal is to be a unifying system which will (like the web for
human communication) be as un-restraining as possible so that the complexity of
reality can be described”.
T m d ch là: “M!c ích c$a web ng ngh a là m t h th ng h p nh#t (gi ng
nh web dành cho s giao ti p c$a ng i) càng không b c n tr càng t t mà
ph c t p c$a th c t có th c mô t ”.
V i web ng ngh a, nó s* d- dàng nh n bi t toàn b ph m vi c$a các công c!
và ng d!ng khó gi i quy t trong khuôn kh. c$a web hi n t i.
Hai công ngh quan tr ng cho vi c phát tri n semantic web là: eXtensible
Markup Language (XML) và Resource Description Frameword (RDF). XML cho
phép m i ng i có th t o ra các tag (th, ) c$a riêng mình. Còn RDF thì trình bày ng
ngh a, RDF s% d!ng t p các triple mô t các khái ni m c s .
URI ( Uniform Resource Identifier):
M t URI n gi n dùng nh n bi t m t trang web: gi ng nh các chu i b t
u v i “http” hay “ftp” mà b n th ng th#y trên word wide web. B#t k3 ai c/ng có
th t o ra m t URI và quy n s h u chúng c u4 quy n m t cách rõ ràng, chính vì
v y chúng t o nên c s quan ni m xây d ng web toàn c u. Th c ra, word wide
web có th xem nh là: b#t k3 th gì mà có URI c coi nh là “on the web”.
Các URIs là các chu i ký t có th nh n bi t các tài nguyên trên web. Thông
qua vi c s% d!ng URIs, chúng ta có th s% d!ng cùng cách "t tên n gi n tham
chi u n các tài nguyên d i các nghi th c (protocol) khác nhau nh là: HTTP, FTP,
GOPHER, EMAIL, ….
URLs ( Uniform Resource Locator): là m t d ng c s% d!ng r ng rãi c$a
URIs, c s% d!ng r#t ph. bi n trên web, là các a ch& c$a các tài nguyên. M"c dù
th ng c bi t n nh là các URLs, nh ng URIs c/ng có th c tham chi u n
36. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 36 - 0112398 – T Th Ng c Thanh
các khái ni m trong semantic web. Ví d!, gi s% b n có m t quy n sách có tên là
“Machine Learning”, thì URI c$a nó s* nh sau:
http://www.cs.bris.ac.uk/home/pw2538/book/title#machinelearning
L u ý là m i th trên web u có m t URI duy nh#t.
2.2.2. Ki n trúc
Web ng ngh a c xây d ng theo mô hình ki n trúc phân t ng g1m có 7
t ng, các t ng nh sau:
Hình 9: Ki n trúc t+ng c a Semantic web.
T ng Unicode + URI:
Nh0m b o m vi c s% d!ng t p ký t qu c t và cung c#p ph ng ti n nh
danh các i t ng trong Web ng ngh a.
T ng XML + NS + L c 1 XML:
Cùng v i các nh ngh a v namespace và schema b o m r0ng ta có th tích
h p các nh ngh a web ng ngh a v i các chu5n d a trên XML khác.
T ng RDF + L c 1 RDF:
Dùng siêu d li u mô t tài li u trên Web máy có th hi u c chúng.
37. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 37 - 0112398 – T Th Ng c Thanh
T ng Ontology:
L c 1 RDF cung c#p các công c! nh ngh a nh ng t v ng, c#u trúc và
các ràng bu c trong vi c mô t cho siêu d li u v các tài nguyên Web. Nh ng l c
1 RDF ch a th t s y $ cho vi c mô hình hoá và h tr suy lu n trên Semantic
Web. Ngôn ng Ontology OIL c ra là m t d ng m r ng c$a l c 1 RDF. Nó
cho phép th hi n ng ngh a hình th c, giúp h tr suy di-n t ng.
T ng Logic:
T ng logic c xem nh là m t c s lu t trên Semantic Web. B n ch#t c$a c
s lu t này có d ng nh m t h chuyên gia. T ng này s* h tr các d ch v! nh : phân
lo i v n b n, rút trích d li u.
T ng Proof:
Trong khi t ng logic giúp h tr suy lu n d a vào c s lu t thì t ng Proof c
dùng ch ng minh các suy di-n c$a h th ng b0ng cách liên k t các d ki n.
T ng Trust:
Trong Web ng ngh a các thông tin c s% d!ng chung nh m t c s d li u
toàn c u, nên c n ph i có m t cái gì ó b o m t. ó là nguyên nhân c$a s ra i
c$a ch ký i n t%, nó giúp cho thông tin trên Web áng tin c y h n. Trust engine là
m t h th ng ang c xây d ng d a trên n n t ng c$a ch ký i n t%. Các k thu t
xây d ng chúng còn ang trong giai o n nghiên c u và th% nghi m.
2.2.3. Các thách th'c t ra cho Semantic web
2.2.3.1. Thách th'c 1: Tính s5n có c a n i dung (The availability
of content)
N i dung c$a web ng ngh a là n i dung web c chú thích theo các ontology
"c bi t, các ontology này nh ngh a ng ngh a c$a các t ho"c các khái ni m xu#t
hi n trong cùng m t n i dung. M t s m r ng n gi n i v i HTML là c dùng
chú thích các trang web v i thông tin v ontology. Vi c t o n i dung semantic web
là m t thách th c l n, b i vì “c s h t ng” c$a semantic web v n còn ang c xây
38. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 38 - 0112398 – T Th Ng c Thanh
d ng (ch a hoàn ch&nh – RDF, OIL, DAML+OIL,…), hi n t i có r#t ít n i dung web
ng ngh a có s6n.
2.2.3.2. Thách th'c 2: Các ontology s5n có, phát tri6n và ti n hoá
Các ontology là chìa khóa i v i semantic web b i vì chúng là nh ng b
chuyên ch ng ngh a c ch a trong semantic web, có ngh a là chúng cung c#p m t
t p t v ng và ng ngh a chú thích. Có 3 v#n chính c n c gi i quy t i v i
thách th c này, hai v#n u có liên quan n các v#n v vi c phát tri n các
ontology truy n th ng mà cho n t n bây gi các v#n này v n ch a c gi i
quy t, và v#n th ba còn l i có liên quan nhi u n khung c nh m i c$a semantic
web:
V#n th nh#t là vi c xây d ng các ontology h t nhân (kernel) c s%
d!ng b i t#t c các domain. Nh ng kh i u t1n t i i v i vi c xây d ng m t s
kernel ontology này là chúng ph i c ng d!ng trong nh ng domain khác nhau.
V#n th hai là cung c#p s h tr mang tính ch#t gi i pháp và công ngh i
v i h u h t các ho t ng c$a ti n trình phát tri n ontology, bao g1m:
a. S thu th p tri th c, mô hình khái ni m và mã hoá ontology trong các
ngôn ng semantic web (RDFS, OIL, DAML+OIL), và các ngôn ng
m i – các ngôn ng m i này có th s* c a ra trong nh ng n m s p
t i [Maedche, Staab – 2001] .
b. S s p x p và ánh x ontology, s tích h p ontology, các công c!
chuy n .i ontology, và các công c! xây d ng ontology, n u các
ontology t1n t i s p c s% d!ng l i [Fensel et al, 2001], [Noy, Musen
2000].
c. Các công c! ki m tra tính b n v ng cho các ontology c s% d!ng l i
[Gomez-Perez 1996].
V#n th ba là s ti n hoá c$a các ontology và m i quan h c$a chúng i v i
các d li u ã c chú thích. Các công c! qu n lý c#u hình là c n thi t cho s i u
khi n các phiên b n c$a m i ontology c/ng nh s ph! thu c l n nhau gi a chúng và
39. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 39 - 0112398 – T Th Ng c Thanh
các chú thích. T#t c các v#n này có th là không quan tr ng l m, nh ng c n thi t
ph i gi i quy t tr c khi m t semantic web th c s ra i.
2.2.3.3. Thách th'c 3: Scalability of semantic web content
M t khi chúng ta ã có n i dung c$a semantic web, chúng ta s* ph i quan tâm
n vi c ph i qu n lý nó nh th nào, có ngh a là cách t. ch c nó nh th nào, n i l u
tr nó và cách tìm c n i dung úng n. Có 2 v#n chính trong thách th c
này:
a. V#n th nh#t có liên quan n vi c l u tr và t. ch c c$a các trang
web ng ngh a (semantic web pages). Semantic web “c s ” bao g1m
các trang c chú thích d a trên ontology, c#u trúc liên k t c$a các
trang này ph n ánh c#u trúc c$a WWW, có ngh a là các trang liên k t
v i nh ng trang khác thông qua các hyperlink. Theo cách liên k t này
(hyperlink) thì không khai thác c y $ ng ngh a c$a các trang
web ng ngh a. Chi n l c semantic indexes c xu#t gom
nhóm n i dung c$a semantic web d a trên các ch$ c! th . Semantic
indexes s* c phát sinh t ng b0ng cách s% d!ng thông tin c$a
ontology và các tài li u ã c chú thích.
b. V#n th hai có liên quan n vi c d- dàng tìm ki m thông tin trên
semantic web, nói cách khác là có liên quan n vi c ph i h p gi a các
semantic indexes.
2.2.3.4. Thách th'c 4: a ngôn ng%
Vi c h c d a trên s phân tán c$a ngôn ng thông qua n i dung c$a WWW ch&
ra r0ng th m chí n u ti ng Anh là ngôn ng u th h n i v i các tài li u, m t s tài
nguyên c vi t b0ng ngôn ng khác c/ng r#t quan tr ng: Ti ng Anh 68,4%; Ti ng
Nh t 5,9%; Ti ng c 5,8%; Ti ng Trung Qu c 3,9%; Ti ng Pháp 3,0%; Ti ng Tây
Ban Nha 2,4%; Ti ng Nga 1,9%; Ti ng Italia 1,6%; Ti ng B1 ào Nha 1,4%; Ti ng
Hàn 1,3%; Các ngôn ng khác 4,6% [www.vilaweb.com]. Tính a d ng c$a ngôn ng
còn quan tr ng h n nhi u i v i các tài nguyên WWW. a ngôn ng óng vai trò
40. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 40 - 0112398 – T Th Ng c Thanh
ngày càng l n i v i các c#p sau: c#p ontology, c#p chú thích, và c#p
giao di n ng i dùng.
( c#p ontology, nh ng ng i thi t k ontology có th mu n s% d!ng ngôn
ng a ph ng c$a mình cho vi c phát tri n ontology mà trong ó các chú thích s*
c g n vào. B i vì không ph i t#t c ng i s% d!ng u là nh ng ng i xây d ng
ontology, nên c#p này có u tiên th#p nh#t. S t1n t i cu a ngôn ng và các tài
nguyên ngôn ng h c, nh là WordNet [wordnet], EuroWordnet [eurowordnet],…có
th c xem xét t& m& h tr v#n a ngôn ng c#p này.
( c#p chú thích (annotation), chú thích c$a n i dung có th c th c hi n
trong nhi u ngôn ng khác nhau. B i vì nhi u ng i dùng ( "c bi t là các nhà cung
c#p n i dung) s* thích chú thích n i dung h n là phát tri n các ontology, s h tr phù
h p là c n thi t ph i cho các nhà cung c#p ( n i dung ) chú thích n i dung b0ng
ngôn ng a ph ng c$a h . có th phát sinh n i dung web ng ngh a b0ng t#t c
kh n ng, chúng ta không th yêu c u chú thích n i dung t ti ng Pháp sang ti ng c
c và ng c l i.
Cu i cùng c#p giao di n ng i dùng, hàng t& ng i mu n truy xu#t vào n i
dung thích h p b0ng ngôn ng a ph ng c$a h b#t ch#p ngôn ng ngu1n – ngôn
ng mà trong ó các chú thích c trình bày. M"c dù hi n t i, a s n i dung u
c vi t b0ng ti ng Anh, chúng ta hy v ng r0ng s* có nhi u n i dung h n c vi t
b0ng nhi u ngôn ng khác. B#t k3 h ng ti p c n nào c$a semantic web c/ng nên bao
g1m các ti n ích truy xu#t thông tin trong nhi u ngôn ng . Các công ngh qu c t hoá
và a ph ng hoá nên c xem xét c5n th n i v i vi c truy xu#t thông tin cá nhân
d a trên ngôn ng a ph ng c$a ng i dùng.
2.2.3.5. Thách th'c 5: Visualization – s# m 7ng t ng
V i s gia t ng thông tin v t b c, s m ng t ng (hình dung) c$a tr c giác
v thông tin s* tr nên r#t quan tr ng, b i vì ng i dùng s* yêu c u s d- dàng
nh n bi t s phù h p c$a n i dung cho m!c ích c$a h ngày càng gia t ng. Thêm vào
ó vi c s% d!ng semantic indexes và các routers cho vi c l u tr , t. ch c và tìm ki m
41. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 41 - 0112398 – T Th Ng c Thanh
thông tin, v sau này s* yêu c u m t b c quan tr ng trong s m ng t ng. Các
công ngh nên cho phép i v i các công ngh 3 chi u và s m ng t ng m i
m ng t ng ra n i dung c$a semantic web trong b#t k3 m t ngôn ng web hi n t i
nào (RDFS, OIL, DAML + OIL). Thông qua công ngh hi n th 1 ho th i gian th c
3D tho áng và vi c khai thác các m i quan h ng ngh a, m t giao di n ba chi u
m i có th c phát sinh m t cách t ng. Theo cách này, nhi u thông tin h n có
th c trình bày trong m t không gian nh2 h n, và ng i dùng có th t ng tác v i
các site m t cách th c t và ti n l i [Van Harmelen et al 2001].
2.2.3.6. Thách th'c 6: S# chu,n hoá các ngôn ng% semantic web
Semantic web là m t l nh v c ang n.i b t và WWW Consortium s* a ra các
gi i thi u v các ngôn ng và công ngh s* c s% d!ng. v n lên n m c ngh
thu t trong semantic web, và các công c! ph n l n ph! thu c vào ngôn ng semantic
web mà chúng c h tr , thì nhu c u chu5n hoá ngôn ng semantic web là m t òi
h2i c n thi t.
2.2.4. So sánh web và web ng% ngh!a
i m gi ng nhau gi a Web và Web ng ngh a: c 2 u dùng nh ng liên k t
(link) URI, nh ng Web ng ngh a s% d!ng các link này r#t nhi u, vi c s% d!ng link
làm gia t ng tính chính xác c$a thông tin.
S khác nhau c b n gi a Web và Web ng ngh a:
Web ng% ngh!a Web
Web ng ngh a là m t không gian
thông tin trong ó thông tin c bi u
di-n thông qua m t ngôn ng mà máy
và ng i u có th hi u c.
Web là m t không gian thông tin ch a
ng thông tin ch& h ng vào vi c bi u
di-n trong m t ngôn ng t nhiên mà
ch& có ng i m i hi u c.
Web ng ngh a là m t d li u liên k t
v i nhau m t cách ng ngh a và hình
th c.
Web là m t t p h p thông tin liên k t
v i nhau m t cách không hình th c.
42. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 42 - 0112398 – T Th Ng c Thanh
2.2.5. Các khái ni&m liên quan
2.2.5.1. Metadata
Metadata là thông tin có c#u trúc mô t , gi i thích, nh v ho"c m"t khác
làm cho d- dàng truy v#n, s% d!ng, qu n lý m t tài nguyên thông tin. Metadata th ng
c g i là d li u v d li u (t i n d li u), ho"c là thông tin v thông tin.
Metadata là thông tin v thông tin, metadata c s% d!ng r ng rãi trong
th gi i th c cho m!c ích tìm ki m. Ví d!, b n mu n m n m t vài quy n sách
m t th vi n nào ó thông qua máy tính. Th ng thì th vi n s* cung c#p m t h
th ng tra c u, h th ng này cho phép b n li t kê sách theo tên tác gi (author), theo
t a sách (title), theo ch$ (subject), v.v…. Danh sách li t kê này ch a nhi u thông
tin quan tr ng nh : tên tác gi , t a sách, ISBN, và thông tin quan tr ng nh#t là n i c#t
gi sách. B n c n vài thông tin (trong tr ng h p này là n i c#t gi sách) mà b n
mu n bi t và b n s% d!ng metadata (trong tr ng h p này là: tên tác gi , t a sách, và
ch$ ) l#y c sách.
Có 3 ki u metadata:
a. Descriptive metadata: mô t m t tài nguyên cho nh ng m!c ích nh là
khám phá ho"c là nh n di n. Nó có th bao g1m các ph n t% nh là:
titles, astract, author, và keywords.
b. Structural metadata: ví d!: cho bi t các i t ng ph c h p liên k t v i
nhau nh th nào, các trang (pages) c s p x p thành các ch ng nh
th nào.
c. Administrative metadata: cung c#p thông tin giúp cho vi c qu n lý m t
tài nguyên, nh là nó c t o ra khi nào và nh th nào, ki u file, và
các thông tin k thu t khác, và nh ng ai có th truy c p n nó.
2.2.5.2. Namespace
Chúng ta có th m r ng t p t v ng c$a chúng ta thông qua các
namespace – là các nhóm c$a tên các ph n t% và tên các thu c tính. Gi s%, n u b n
mu n g p (include) m t ký hi u (symbol) c mã hoá trong m t ngôn ng ánh d#u
43. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 43 - 0112398 – T Th Ng c Thanh
nào ó trong m t tài li u XML, thì b n có th khai báo m t namespace ( không gian
tên) mà symbol ó thu c v . Thêm vào ó, chúng ta có th tránh c tình hu ng hai
i t ng XML trong các không gian tên khác nhau v i cùng m t tên mà có ý ngh a
khác nhau thông qua các "c tr ng c$a các namespace. Gi i pháp là gán m t ti n t
nh n bi t namespace mà m i ph n t% ho"c các thu c tính thu c v . Cú pháp c$a
namespace nh sau:
ns-prefix:local-name
Trong ó ns-prefix là tên c$a namespace, và local-name là tên c$a ph n
t% ho"c thu c tính.
Ví d! v namespace:
Tài li u XML d i ây là m t th vi n sách. Chúng ta b t u b0ng ph n
t% g c có tên th, là <libarary>, bên trong th, g c ch a các ph n t% sách <book> và t a
sách <title> nh sau:
<library>
<book>
<title>
Earthquakes for lunch
</title>
</book>
</library>
Không gian tên c c b (local namespace):
Chúng ta có th "t thu c tính xmlns ph n t% g c hay b#t k3 th, nào khác.
Khi thu c tính này không n0m trong th, g c thì ta g i ó là không gian tên c!c b .
Ví d!: Xem o n xml d i ây:
<minhkhai: library
xmlns: minhkhai= http://www.minhkhai.com.vn/spec>
44. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 44 - 0112398 – T Th Ng c Thanh
<minhkhai:book>
<minhkhai:title>
Earthquakes for lunch.
</minhkhai:title>
</minhkhai:book>
<amazon:book
xmlns:amazon=http://www.amazon.com.lib>
<amazon:title>
Earthquakes for lunch.
</amazon:title>
</amazon:book>
Trong ví d! này thì namespace: xmlns:amazon=http://www.amazon.com.lib
c g i là không gian tên c!c b .
2.2.6. Ontology
Thu t ng “ontology” c vay m n t tri t h c. Ý ngh a u tiên c$a nó là
“the branch of metaphysics that deals with the nature of being” [The American
Heritage® Dictionary of the English Language: Fourth Edition (2000)].
Ontology là m t công ngh quan tr ng mang tính ch#t x ng s ng, vì nó cung
c#p m t "c tính quan tr ng: ontology giao ti p c gi a ng ngh a hình th c mà
máy tính có th hi u c v i ng ngh a c$a th gi i th c mà con ng i có th hi u
c.
Nh ng Ontology c phát tri n trong trí tu nhân t o tri th c d- dàng chia
s, và s% d!ng l i. K t u th p niên 90 c$a th k4 XX, Ontology ã tr thành m t
tài nghiên c u ph. bi n i v i các t. ch c nghiên c u trí tu nhân t o, bao g1m
nh ng k s v tri th c (Knowledge), x% lý ngôn ng t nhiên và trình bày tri th c.
Ontology không ch& làm cho tri th c có th s% d!ng l i d- dàng h n, nó còn là
n n t ng c$a vi c t o ra các chu5n b i vì nó làm rõ các khái ni m bên c nh m t thu t
ng ho"c m t mô hình. Yêu c u trên th c t không ph i ch& dành cho m t khái ni m
45. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 45 - 0112398 – T Th Ng c Thanh
duy nh#t, mà là i v i m t s t ng tác m h1 gi a các khái ni m ph c t p và chi ti t
( có th c trình bày trong nhi u ngôn ng khác nhau).
G n ây, khái ni m Ontology ã tr nên ph. bi n h n nhi u trong các l nh v c
nh s tích h p thông minh, nh ng h th ng thông tin h p tác, ph!c h1i thông tin,
giao d ch th ng m i i n t%, và qu n lý tri th c. M!c ích c$a Ontology là h ng
n tri th c mi n, nên s phát tri n c$a nó th ng là m t quá trình x% lý kéo theo
nhi u y u t khác.
T lúc ra i n nay, Ontology ã có r#t nhi u nh ngh a. Tuy nhiên, "c
i m c t l i c$a Ontology v n là: “M t ontology là m t s ch& nh t ng minh, hình
th c và chia s v m t khái ni m dùng chung”. Trong ó:
M t khái ni m tham chi u n m t mô hình tr u t ng c$a m t
vài hi n t ng nào ó trong th gi i th c mà xác nh nh ng khái
ni m có liên quan v hi n t ng ó.
T ng minh là nh ng khái ni m và nh ng ràng bu c trên nó c
s% d!ng m t cách rõ ràng.
Hình th c tham chi u n công vi c mà ontology ph i th c hi n
máy tính có th hi u c.
Chia s ph n ánh r0ng m t ontology gi tri th c 1ng nh#t, ngh a
là nó không b h n ch b i m t cá nhân hay m t nhóm riêng l,
nào.
Hi n nay có nhi u ontology l n nh : CYC, WordNet, ….
Ví d! v ontology:
46. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 46 - 0112398 – T Th Ng c Thanh
Hình 10: M t Ontology n gi n
2.2.7. Rdf
2.2.7.1 Khái ni&m :
RDF là t vi t t t c$a Resource Description Framework. RDF c c% b i
W3C cho m t mô hình và ngôn ng siêu d li u (metadata) chu5n. RDF là m t b
khung cho vi c mô t các tài nguyên trên web.
RDF cung c#p mô hình d li u và cú pháp các ph n c l p nhau có th
chuy n .i cho nhau và s% d!ng c RDF.
2.2.7.2 C(u trúc :
RDF là khung s n (framework) cho vi c x% lý metadata, và nó mô t các m i
quan h gi a các tài nguyên thông qua các thu c tính và các giá tr . RDF c xây
d ng d a trên các lu t nh sau:
47. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 47 - 0112398 – T Th Ng c Thanh
Resource: M i th c mô t b0ng bi u th c RDF c g i là m t
resource ( tài nguyên). M i tài nguyên có m t URI và nó có th là toàn b trang web
ho"c là m t ph n c$a trang web.
Property: “Property là m t khía c nh, "c tr ng, thu c tính ho"c quan h
riêng bi t c dùng mô t m t tài nguyên” – trích trong W3C, Resource
Description Framework (RDF) Model and Syntax Specification. Chú ý là m t
property c/ng có th là m t resource b i vì nó có nh ng tính ch#t riêng c$a nó.
Statements: M t statements c dùng k t h p m t resource, m t
property và m t value c$a nó. Ba ph n riêng bi t này c bi t nh là “subject”,
“predicate”, và “object”. Ví d!, “The Author of
http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là m t statement.
Chú ý r0ng value c$a câu này có th là m t chu i ký t mà c/ng có th là m t
resource.
Ví d v RDF:
M t statement ( phát bi u ) có th c xem nh là m t 1 th trong RDF.
Phát bi u nh sau:
“The Author of http://www.cs.bris.ac.uk/home/pw2538/index.html is
Peng Wang”
Câu trên c phân tích thành 3 ph n:
Subject ( Resource ) http://www.cs.bris.ac.uk/home/pw2538/index.html
Predicate (Property) Author
Object (Literal) Peng Wang
c bi u di-n d i d ng 1 th nh sau:
48. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 48 - 0112398 – T Th Ng c Thanh
Chi u c$a m/i tên luôn h ng t subject n object c$a phát bi u ( statement).
Và 1 th có th c theo cách sau: “<subject> HAS <predicate> <object>”, ví d!:
“http://www.cs.bris.ac.uk/home/pw2538/index.html has author Peng Wang”.
N u chúng ta gán m t URI cho thu c tính author, thì s* có :
http://www.cs.bris.ac.uk/home/pw2538/terms/author
trình bày ng n g n, chúng ta a ra m t s ti n t ( prefix) tránh ph i
vi t l i toàn b a ch& URI tham chi u n. Có m t s ti n t g n li n v i các URI
c s% d!ng r ng rãi sau:
Ti n t rdf: là không gian tên cho URI:
http://www.w3.org/1999/02/22-rdf-syntax-ns#
Ti n t rdfs: là không gian tên cho URI:
http://www.w3.org/2000/01/rdf-schema#
Ti n t daml: là không gian tên cho URI:
http://www.daml.org/2001/03/daml+oil#
Ti n t xsd: là không gian tên cho URI:
http://www.w3.org/2001/XMLSchema#
Trong ví d! này, chúng ta dùng không gian tên là pwterms i di n cho a
ch& URI mà ta tham chi u n: http://www.cs.bris.ac.uk/home/pw2538/terms
Khi ó cú pháp RDF cho câu phát bi u: “The Author of
http://www.cs.bris.ac.uk/home/pw2538/index.html is Peng Wang” là:
1
2
3
4
5
6
7
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:pwterms=" http://www.cs.bris.ac.uk/home/pw2538/terms">
<rdf:Description
rdf:about="http://www.cs.bris.ac.uk/home/pw2538/index.html">
<pwterms:author>Peng Wang</pwterms:author>
</rdf:Description>
</rdf:RDF>
49. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 49 - 0112398 – T Th Ng c Thanh
M t câu phát bi u khác: “M t ng i có mã s sinh viên là pw2538 có tên là
Peng Wang và có a ch& email là pw2538@bristol.ac.uk . Ng i này là tác gi c$a tài
nguyên http://www.cs.bris.ac.uk/home/pw2538/index.html”
Có 1 th nh sau:
Có cú pháp RDF:
50. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 50 - 0112398 – T Th Ng c Thanh
Mô hình d% li&u RDF (RDF Data Model):
RDF cung c#p m t mô hình cho vi c mô t các tài nguyên. Tài nguyên có các
tính ch#t (property) – thu c tính ho"c là "c tr ng. RDF nh ngh a tài nguyên nh là
m t i t ng b#t k3 có th nh n bi t duy nh#t b0ng m t URI. Các property c k t
h p v i các tài nguyên c nh n bi t b i các property – types, và các property –
types này có các values t ng ng. Property – types mô t m i quan h c$a các values
c k t h p v i các tài nguyên. Trong RDF, các values có th c xem nh là
nguyên t% trong t nhiên ( chu i text, s , v.v…) ho"c là các lo i tài nguyên khác.
B n ch#t c t lõi c$a RDF là m t mô hình c l p cú pháp cho vi c trình bày các
tài nguyên và s mô t t ng ng c$a chúng.
51. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 51 - 0112398 – T Th Ng c Thanh
Hình 11: Mô hình d% li&u RDF
Mô hình d li u RDF là m t 1 th có gán nhãn nh h ng, trong ó các nút là các tài
nguyên (nh ng th c th v i URI) ho"c nh ng ký t , và các c nh là nh ng thu c tính. Nh ã
gi i thi u, m t phát bi u RDF là m t b ba (Ch$ ng , V ng , B. ng ). Trong ó, tài nguyên
là Ch$ ng c$a m t phát bi u có thu c tính mà giá tr c$a nó là B. ng c$a m t phát bi u.
M t B. ng có th là tài nguyên ho"c có th là m t giá tr ký t . M t phát bi u có th c
i di n nh m t 1 th , b0ng cách v* m t cung t m t nút (Ch$ ng ) n nút khác (B. ng ).
RDF là m t cách thành l p cho vi c x% lý siêu d li u, nó cung c#p
interoperability (thao tác gi a các ph n) gi a các ng d!ng mà chuy n .i thông tin
máy có th hi u c trên web. RDF nh#n m nh các ti n ích có th x% lý t ng
các tài nguyên web.
2.2.7.3 RDF Schema – m t ngôn ng% mô t t" v#ng
Ngôn ng c nh ngh a trong "c t này (specification) g1m m t t p h p
các tài nguyên mà có th c s% d!ng mô t các thu c tính c$a các tài nguyên
RDF khác ( bao g1m c các thu c tính) – nh ngh a t p t v ng RDF c$a ng d!ng
xác nh. T p t v ng này ch$ y u c nh ngh a trong m t không gian tên c
g i là “rdfs”, và c nh n bi t b i tham chi u URI: http://www.w3.org/2000/01/rdf-
52. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 52 - 0112398 – T Th Ng c Thanh
schema#. "c t này c/ng s% d!ng ti n t “rdf” tham chi u n không
gian tên RDF chính: http://www.w3.org/1999/02/22-rdf-syntax-ns#.
H th ng class và property trong RDF Schema c/ng t ng t nh các h th ng
ki u c$a các ngôn ng h ng i t ng nh Java. Tuy nhiên, RDF khác v i các h
th ng khác ch thay vì nh ngh a m t class trong quan h c$a các thu c tính mà th
hi n c$a nó có th có, RDF Schema s* nh ngh a các thu c tính trong quan h c$a các
l p c$a tài nguyên mà chúng ng d!ng. ây là nhi m v! c$a rdfs:domain và
rdfs:range c mô t trong "c t này. Ví d!, chúng ta có th nh ngh a thu c tính
eg:author, có mi n là eg:Document và gi i h n là eg:Person, nh ng trái l i m t h
th ng h ng i t ng kinh i n có th nh ngh a m t cách "c tr ng m t class
eg:Book v i m t thu c tính c g i là eg:author c$a ki u eg:Person.
T" v#ng Domain and Range
"c t này gi i thi u t p t v ng RDF cho vi c mô t cách s% d!ng y $ ng
ngh a c$a các property và các class trong d li u RDF. Ví d!, m t l c 1 RDF có th
mô t gi i h n trên các ki u c$a các value thích h p v i m t s thu c tính.
RDF Schema cung c#p c ch (k thu t) cho vi c mô t thông tin này, nh ng không
th nói trong tr ng h p nào thì ng d!ng nên s% d!ng nó và s% d!ng nh th nào.
Các ng d!ng khác nhau s* s% d!ng thông tin này theo nhi u cách khác nhau. Ví d!,
các công c! ki m tra d li u có th s% d!ng thông tin này tìm ra các l i trong
dataset, m t trình so n th o giao ti p gi a ng i và máy có th ngh nh ng giá tr
thích h p, và m t ng d!ng suy lu n có th s% d!ng nó suy lu n r1i a ra thông tin
m i t d li u ban u.
L c 1 RDF (RDF Schema) có th mô t các m i quan h gi a các t v ng t
nhi u l c 1 c phát tri n c l p nhau. B i vì tham chi u URI c s% d!ng
nh n bi t các class và property trên web, nên nó có th t o ra các thu c tính (property)
m i có domain và range mà giá tr c$a nó c nh ngh a trong m t namespace khác.
"c t này không c g ng li t kê t#t c các hình th c có th có c$a vi c mô
t t v ng mà nó c s% d!ng trình bày ng ngh a c$a các class và property c$a
53. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 53 - 0112398 – T Th Ng c Thanh
RDF. Thay vào ó, chi n l c mô t t v ng RDF th a nh n r0ng có nhi u k thu t
mà thông qua ó ng ngh a c$a các class và property c cho bi t, và xu#t b n
m t s quy c cho vi c s% d!ng RDF/XML mô t các "c tr ng c$a các class và
property cu RDF.
L c 1 t t h n ho"c là các ngôn ng “ontology” nh là DAML+OIL, W3C,
các ngôn ng suy lu n d a trên lu t, và các ch$ ngh a hình th c khác, m i lo i s* góp
ph n cho kh n ng c$a chúng ta n m b t c s t.ng h p y $ ng ngh a v d
li u trên web. Các nhà thi t k t v ng RDF có th t o và phát tri n các ng d!ng web
ng ngh a b0ng cách s% d!ng ti n ích The basic RDF Schema 1.0, trong khi trình bày
các ngôn ng mô t t v ng t t h n – cách này c/ng s% d!ng h ng ti p c n này.
S l c v RDF Schema
B ng này trình bày m t cách t.ng quát v t p t v ng c s c$a RDF
Tên l p Ghi chú
rdfs:Resource The class resource, everything.
rdfs:Literal
This represents the set of atomic values, eg.
textual strings.
rdfs:XMLLiteral The class of XML literals.
rdfs:Class The concept of Class
rdf:Property The concept of a property.
rdfs:Datatype The class of datatypes.
rdf:Statement The class of RDF statements.
rdf:Bag An unordered collection.
rdf:Seq An ordered collection.
rdf:Alt A collection of alternatives.
54. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 54 - 0112398 – T Th Ng c Thanh
rdfs:Container This represents the set Containers.
rdfs:ContainerMembershipProperty
The container membership properties, rdf:1,
rdf:2, ..., all of which are sub-properties of
'member'.
rdf:List The class of RDF Lists
B ng 3 : Các l p trong RDF
Property name comment domain range
rdf:type Indicates membership of a class rdfs:Resource rdfs:Class
rdfs:subClassOf Indicates membership of a class rdfs:Class rdfs:Class
rdfs:subPropertyOf
Indicates specialization of
properties
rdf:Property
rdf:Propert
y
rdfs:domain A domain class for a property type rdf:Property rdfs:Class
rdfs:range A range class for a property type rdf:Property rdfs:Class
rdfs:label
Provides a human-readable
version of a resource name.
rdfs:Resource rdfs:Literal
rdfs:comment Use this for descriptions rdfs:Resource rdfs:Literal
rdfs:member a member of a container rdfs:Container
not
specified
rdf:first
The first item in an RDF list. Also
often called the head.
rdf:List
not
specified
rdf:rest
The rest of an RDF list after the
first item. Also often called the
tail.
rdf:List rdf:List
55. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 55 - 0112398 – T Th Ng c Thanh
rdfs:seeAlso
A resource that provides
information about the subject
resource
rdfs:Resource
rdfs:Resour
ce
rdfs:isDefinedBy
Indicates the namespace of a
resource
rdfs:Resource
rdfs:Resour
ce
rdf:value
Identifies the principal value
(usually a string) of a property
when the property value is a
structured resource
rdfs:Resource
not
specified
rdf:subject The subject of an RDF statement. rdf:Statement
rdfs:Resour
ce
rdf:predicate the predicate of an RDF statement. rdf:Statement
rdf:Propert
y
rdf:object The object of an RDF statement. rdf:Statement
not
specified
B ng 4:Các thu c tính c$a RDF
(Mô t các t v ng c$a RDF c trình bày trong ph n Ph! l!c [1].)
2.3. eDoc
2.3.1. Tìm hi6u eLearning
2.3.1.1. Khái ni&m
eLearning hay còn g i là Online Learning, chu5n cho t#t c các hình th c c$a
vi c h c.
56. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 56 - 0112398 – T Th Ng c Thanh
Online learning liên quan n vi c s% d!ng các công ngh m ng ( nh là:
Internet hay là m ng th ng m i – bussiness network) cho vi c phân phát, h tr ,
ánh giá vi c d y h c chính qui và không chính qui.
“H c” x y ra âu và nh th nào? (: các tài nguyên và các tài li u tr c tuy n,
các th vi n i n t%, các tài li u; và các khoá h c, các bu.i th o lu n, chats, email, h i
ngh , và các ng d!ng chia s, tri th c. M t chú ý quan tr ng là online learning không
nh#t thi t ph i di-n ra tr c tuy n (online). S% d!ng công ngh cho vi c h c th ng là
m t y u t ph! i v i l p h c và các c h i h c tr c ti p ( face – to – face ).
M t s nguyên nhân s% d!ng online learning:
a. Vi c truy c p c c i thi n và tính linh ng: M i ng i có th ng
nh p vào b#t k3 m t máy tính nào, t i nhà ho"c n i làm vi c, vào b#t
k3 lúc nào k c ngày l n êm, l#y bài h c ho"c tham kh o n các
tài li u h c.
b. Phân ph i nhanh h n và ti t ki m chi phí: i v i các t. ch c c n truy n
t thông tin quan tr ng mà thông tin này nhanh chóng tr nên l i th i (
ví d!, phiên b n m i nh#t c$a m t s n ph5m), thì hình th c online h u
nh là r, h n và nhanh h n nhi u so v i vi c ng i truy n t ph i bay
qua nhi u qu c gia g"p g nh ng h c viên l p h c v i hàng ti ng
1ng h1.
c. C i ti n vi c i u hành và chu5n hoá: Trong môi tr ng th ng m i
qu c t ngày nay, nhi u t. ch c m r ng trên ph m vi toàn c u. S khác
nhau v ki n th c và k n ng c$a các cá nhân d y có th s* làm cho ch#t
l ng h c c$a các h c viên nh ng n i khác nhau s* khác nhau: ví d!
nh ng ng i h c New Delphi s* có ch#t l ng hu#n luy n khác v i
nh ng ng i New York. Online learning cung c#p thông tin nh#t quán,
ph. bi n i v i các i t ng kh p n i.
Làm n.i b t thông tin truy n t và s c ng tác: Thông qua nh ng ph n m m
nào ó s* cho phép nh ng ng i h c c giao ti p v i nhau, c ng tác v i nhau qua
các d án, và chia s, tài li u mà không c n ph i g"p m"t tr c ti p.
57. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 57 - 0112398 – T Th Ng c Thanh
2.3.1.2. Các chu,n c a eLearning
Ngành công nghi p eLearning ti p t!c c m r ng m i ngày, và các chu5n
c n thi t t o n i dung bài h c ngày càng tr nên ph c t p.
Tr c khi m t “qui c” c$a eLearning tr thành “standards” (chu5n), nó c
g i là “specification” ( "c t ). Specification c duy t b i m t t. ch c – t. ch c
này c m i ng i công nh n, nh là IEEE ch+ng h n.
M t s chu5n c$a eLearning:
a. T p ph n t siêu d li u Dublin Core
T p ph n t% siêu d li u Dublin Core ( The Dublin Core metada element
set) là chu5n cho s mô t tài nguyên thông tin xuyên domain (b ng qua nhi u
domain). ( ây, tài nguyên thông tin c nh ngh a là b#t k3 th gì mà có th
nh n bi t c. i v i các ng d!ng Dublin Core, m t tài nguyên s* là m t tài
li u i n t% (electronic document).
Siêu d li u Dublin Core c dùng cho vi c tìm ki m và ch& m!c cho
các siêu d li u d a trên Web. T p siêu d li u này cung c#p t v ng ng ngh a
nh : “Description”, “Creator” và “Date” cho vi c mô t nh ng "c tr ng thông
tin quan tr ng c$a các tài nguyên Internet.
T p siêu d li u Dublin Core cung c#p 15 t v ng:
• Title: Tên c gán cho tài nguyên.
• Creator: Th c th có trách nhi m t o ra tài nguyên. Ví d! nh :
cá nhân, t. ch c hay m t d ch v! nào ó.
• Subject: Ch$ n i dung c$a tài nguyên.
• Description: Mô t n i dung c$a tài nguyên.
• Publisher: Th c th có nhi m v! t o ra tài nguyên.
• Contributor: Th c th có óng góp vào n i dung c$a tài nguyên.
• Date: Ngày tài nguyên c t o.
• Type: Th lo i n i dung c$a tài nguyên.
• Format: D ng l u tr v t lý c$a tài nguyên.
58. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 58 - 0112398 – T Th Ng c Thanh
• Identifier: M t tham chi u c! th n tài nguyên trong m t ng
c nh cho phép.
• Source: Tham chi u n m t tài nguyên mà tài nguyên c
d n xu#t.
• Language: Ngôn ng s% d!ng b i n i dung c$a tài nguyên.
• Relation: Tham chi u n m t tài nguyên liên quan
• Coverage: M r ng n i dung c$a tài nguyên
• Right: Thông tin v quy n s h u tài nguyên.
b. LOM (Learning Object Metadata)
LOM là m t chu5n v eLearning hi n t i c phát tri n b i t. ch c
IEEE. T. ch c chu5n hoá công ngh h c (Learning Technology Standards
Committee) c$a IEEE ã phát tri n chu5n LOM nh0m giúp cho vi c s% d!ng và
s% d!ng l i c$a các tài nguyên h c c h tr công ngh nh là vi c hu#n
luy n d a trên máy tính, và vi c h c t xa.
Trong m t h th ng eLearning, i t ng h c là nh ng gì có th c s%
d!ng, k th a hay tham kh o trong vi c h tr công ngh h c. Hi n t i m t s
i t ng ang c ti p t!c phát tri n nh0m áp ng nhu c u h c thay .i
nhanh chóng. Vi c thi u thông tin hay siêu d li u v i t ng h c t o ra
nhi u c n tr , h n ch cho kh n ng qu n lý, khám phá và s% d!ng i t ng
h c.
LOM gi i quy t v#n trên b0ng cách nh ngh a m t c#u trúc cho vi c
mô t m t i t ng h c. LOM ch& ra cú pháp và ng ngh a c$a các siêu d
li u i t ng h c, nh ngh a các thu c tính nh0m mô t y $ và tho áng
các i t ng h c.
M!c ích c$a LOM:
Cho phép ng i h c hay ng i h ng d n tìm ki m, ánh giá i
t ng h c.
59. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 59 - 0112398 – T Th Ng c Thanh
Cho phép chia s, và trao .i các i t ng h c qua b#t k3 công ngh
có h tr h th ng h c.
Cho phép phát tri n các i t ng h c theo các n v có kh n ng
k t h p hay phân rã theo m t ph ng pháp phù h p.
Cho phép các agent máy tính linh ng là t ng trong vi c t. ch c
các bài h c cung c#p n ng i h c.
Nó hoàn toàn d a trên chu5n và quan tâm n các i t ng h c
trong môi tr ng m và phân tán.
Cho phép các công ngh m i k t h p v i các i t ng h c.
Cung c#p cho các nhà nghiên c u chu5n h tr và s u t p d li u liên
quan n hi u qu c$a các i t ng h c.
LOM nh ngh a m t t p t i thi u các thu c tính (attributes) qu n lý,
nh v , và ánh giá các i t ng h c. Các thu c tính c gom nhóm thành 8
ph m trù:
• General: ch a ng thông tin v toàn b i t ng.
• Lifecycle: ch a ng siêu d li u v s ti n hoá c$a các i
t ng.
• Technical: v i s mô t c$a các "c tr ng và yêu c u k thu t.
• Educational: ch a ng các thu c tính v giáo d!c ho"c s ph m.
• Rights: mô t quy n s h u và các i u ki n s% d!ng
• Relation: nh n bi t các i t ng có liên quan v i nhau.
• Annotation: ch a ng các chú thích và ngày, tác gi c$a các chú
thích này.
• Classification: nh n bi t các b nh n di n h th ng phân lo i
khác cho i t ng.
Bên trong m i ph m trù là m t t p các ph n t% d li u có th t , mà giá
tr c$a chúng là các metadata. Ví d!: Các ph n t% siêu d li u liên quan n
vi c h c c tìm th#y trong ph m trù Education là Typical Age Range,
Difficulty, Typical Learning Time, và Interactivity Level.
60. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 60 - 0112398 – T Th Ng c Thanh
c. vCard
vCard là chu5n c gi i thi u và phát tri n b i IMC (Internet Mail
Consortium). Các thông tin cá nhân thông th ng r#t ph c t p và có nhi u lo i
khác nhau. Hi n t i có m t s chu5n xu#t các c#u trúc cho vi c trao .i
thông tin cá nhân PDI (Personal Data Interchange). M!c ích c$a chu5n này là
nh0m gi i quy t nhu c u s u t p và trao .i thông tin cá nhân qua nhi u kênh
thông tin khác nhau nh i n tho i, th i n t% hay i tho i tr c ti p.
Chu5n vCard phù h p cho vi c trao .i d li u cá nhân gi a các ng
d!ng và h th ng. nh d ng c$a vCard hoàn toàn c l p v i ph ng pháp
dùng truy n t i nó. Vi c truy n t i này có th là trao .i m t h th ng t p
tin, m ng chuy n m ch công c ng, m ng dây d n hay m ng không dây. vCard
nh m n vi c trao .i thông tin cá nhân. Trong môi tr ng th ng m i ngày
nay, thông tin này th ng c trao .i trên các th, th ng m i và vCard nh
ngh a nh ng thông tin này d a trên các i t ng th, th ng m i i n t%.
d. SCORM (Shareable Content Object Reference Model)
SCORM nh ngh a mô hình k t h p gi a n i dung và môi tr ng th c
thi cho các i t ng h c. ây là m t mô hình tham chi u n m t t p các k
thu t liên quan vi c thi t k nh0m áp ng yêu c u n i dung h c d a trên Web,
nh ng yêu c u này bao g1m kh n ng tái s% d!ng, truy xu#t, kh n ng t ng
tác c$a các i t ng h c.
e. IMS ( Instructional Management Systems)
IMS ang c phát tri n và xúc ti n tr thành chu5n m cho các ho t
ng eLearning nh s% d!ng, s p x p các n i dung giáo d!c và m r ng các
khái ni m t.ng quát nh : thi t k ng i h c, theo dõi và báo cáo quá trình
ng i h c nh0m th c hi n vi c trao .i thông tin gi a các h th ng h c khác
nhau.
61. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 61 - 0112398 – T Th Ng c Thanh
M!c ích c$a IMS:
• nh ngh a các chu5n k thu t nh0m nâng cao kh n ng t ng tác
gi a ng d!ng và d ch v! trong môi tr ng h c phân tán hi n nay.
• H tr vi c sát nh p "c t c$a IMS vào trong các s n ph5m và d ch
v! trên toàn th gi i. S ch#p nh n "c t r ng rãi s* cho phép phân
ph i môi tr ng và n i dung h c t nhi u tác gi l i v i nhau.
2.3.2. Tìm hi6u eLib
Elib (electronic library hay cò g i là digital library) là m t th vi n 5n. T
‘electronic library’ ng! ý là m t s u t p c$a các tài nguyên thông tin i n t% c n i
m ng cùng k thu t liên k t và c s h t ng qu n tr . B n có th truy c p nó t b#t c
máy PC hay laptop có n i m ng nào t b#t c n i nào trên th gi i b#t c th i i m
nào.
Elib l u tr và ch& m!c hàng v n sách, báo, t p chí v $ các ch$ trên th
gi i, ch+ng h n nh v t lí, thiên v n, sinh hoá, công ngh sinh h c, hoá h c và công
trình xây d ng hoá ch#t, các thi t b xây d ng, công trình xây d ng môi tr ng, khoa
h c th c ph5m, và an toàn s c kho, và v sinh .v.v… c/ng nh các tài li u v thông
tin ti u s%, lí l ch cá nhân, ngh nghi p, các t. ch c, h i liên hi p, và du l ch v.v….
Th vi n i n t% này c s% d!ng ph. bi n nh#t trong các tr ng i h c và nh ng
trung tâm nghiên c u khoa h c. T#t nhiên, i t ng s% d!ng nó chính là nh ng sinh
viên, nghiên c u sinh và các nhà khoa h c.
Nh ng ch ng trình Electronic library c xây d ng d a trên nh ng chu5n
th ng nh#t do các h i 1ng, t. ch c l n trên th gi i l p ra. M t s t. ch c nh chu5n
l n trên gi i nh W3C (World Wide Web Consortium), ISO (International
Organization for Standardization), NISO (National Information Standards
Organization ),… . Có nhi u chu5n cho nhi u khía c nh khác nhau c$a vi c l u tr và
truy c p thông tin i n t%, bao g1m các chu5n v thu h1i thông tin (Information
Retrieval Standard), thao tác gi a các ph n (Interoperability), nh d ng tài nguyên,
62. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 62 - 0112398 – T Th Ng c Thanh
nh n d ng tài nguyên, mô t tài nguyên,… Sau ây là m t s chu5n s% d!ng trong
eLib liên quan n v#n truy c p thông tin i n t%:
Chu,n v thu h.i thông tin:
Ki u chu5n này cho phép thông tin gi a các h th ng khác nhau, làm cho thu n
ti n trong vi c khám phá và truy c p thông tin i n t%. Ví d! nh chu5n thu h1i thông
tin ISO 23950 (t ng ng v i ANSI Z39.50) nh ngh a m t h ng chu5n cho hai
máy tính liên l c và chia s, thông tin v i nhau. Nó ã c thi t k h tr khám
phá tài nguyên và thu h1i tài nguyên c$a nh ng tài li u “full-text”, d li u m!c l!c,
các hình nh và multimedia. Chu5n này d a trên ki n trúc client-server và c l p v i
các h th ng c! th , hoàn toàn i u hành trên Internet.
Z39.50:
Z39.50 là m t trong m t nhóm các chu5n c s n xu#t làm cho d- dàng k t
n i các h th ng máy tính. Chu5n này ch& ra các nh d ng và th$ t!c chi ph i vi c
trao .i các thông i p gi a client và server, cho phép ng i dùng có th tìm ki m các
c s d li u t xa, nh n di n các dòng d li u có nh rõ các chu5n, và thu h1i m t
vài hay t#t c các dòng c nh n di n và có liên quan, c! th v i vi c tìm ki m và
thu h1i thông tin trong c s d li u. M t trong nh ng thu n l i l n trong vi c s% d!ng
Z39.50 là nó cho phép truy c p nh nhau n m t s l ng l n ngu1n thông tin thay
.i khác nhau.
Z39.50 th a nh n r0ng vi c thu h1i thông tin g1m hai thành ph n chính – ch n
thông tin d a trên nh ng tiêu chu5n và thu h1i thông tin ó, và nó cung c#p m t ngôn
ng chung cho c hai hành ng ó. Z39.50 chu5n hoá cách x% s mà trong ó client
và server thông tin v i nhau và ho t ng ngay khi có nh ng khác bi t gi a các h
th ng máy tính, các công c! tìm ki m và các c s d li u.
EDI (Electronic Data Interchange)
EDI c bi t n nh m t chu5n công ngh thông tin qu c gia. ( EDI, d li u
mà theo truy n th ng c chuy n vào trong các tài li u gi#y thì c truy n hay
c thông tin m t cách i n t% tùy vào các lu t và các nh d ng c thi t l p. D
63. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 63 - 0112398 – T Th Ng c Thanh
li u liên i v i m i ki u c$a tài li u ch c n ng, ví d! nh b ng mua bán hay hoá n,
c v n chuy n l n nhau nh là m t thông i p i n t%. D li u ã nh d ng có th
c v n chuy n t ng i t o ra n ng i nh n thông qua thông tin liên l c b0ng cáp
hay v n chuy n v t lí vào trong thi t b l u tr i n t%.
EDI a n m t chu i các thông i p gi a hai n i, ví d! ng i mua và ng i
bán, m i ng i có th xem nh là ng i t o ra hay ng i nh n. Các thông i p t
ng i mua n ng i bán s* bao g1m, ví d! nh d li u c n thi t cho yêu c u i v i
s trích d n (request for quotation_ RFQ), các biên lai mua bán, các thông báo vi c
v n chuy n tàu thuy n, và các hoá n. Vi c th c thi c$a EDI yêu c u vi n s% d!ng
c$a m t h các chu5n liên k t v i nhau. H chu5n này ph i bao g1m các chu5n cho
các ki u thông i p (c/ng c g i là các “nhóm giao d ch” _ “transaction set”), và
cho vi c v n chuy n th , các y u t d li u, và các chu i c$a các y u t d li u c
s p x p g i là các segment d li u. M t chu5n thông i p hay chu5n transaction set
nh ngh a chu i các segment d li u mà t o thành thông i p và transaction set ó.
Th m!c segment d li u li t kê t#t c các segment d li u, và nh ngh a nh danh
và chu i c$a các y u t d li u t o nên nó. T i n y u t d li u cung c#p các chu5n
c$a t#t c các y u t d li u. Vi c v n chuy n th cung c#p thông tin i u khi n v các
thông i p thêm vào cho các h th ng v n chuy n và ti p nh n. Vi c chu5n hoá c$a
các nh d ng thông i p, và c$a các segment d li u và y u t d li u trong các thông
i p ó, làm cho có th thu th p, tháo r i và x% lí các thông i p b0ng máy tính v i
các k t qu có th có th oán tr c.
ILL (Internet Loan Library)
Nghi th c ILL (ISO 10160/1) c phát tri n gi nhi u giao d ch c liên
k t bao g1m các ho t ng yêu c u tài li u g1m nhi u ng i tham gia. V khái ni m
thì nó t ng ng v i EDI và bao g1m vi c cung c#p cho nh ngh a các data
element c yêu c u, nh ngh a m t nhóm các thông i p và các m i quan h c$a
nó, và m t cú pháp cho vi c l p c#u trúc thông i p.
64. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 64 - 0112398 – T Th Ng c Thanh
Nghi th c ILL có v, nh có nhi u cung c#p các d ch v! yêu c u, "c bi t khi
chúng tr nên phân tán nhi u h n. S truy n thông t h th ng này sang h th ng khác
c$a các thông i p có c#u trúc cho phép m t ph m vi r ng l n các thi hành c t
ng, và các th$ t!c b0ng tay hay ph i h p cho vi c theo v t, g i v ,… c t ng.
Công d!ng c$a nó trong các d ch v! t ng tác i v i yêu c u các tài li u c n nghiên
c u xa h n n a.
Chu,n mã hoá tài nguyên:
Nh ng chu5n này nh ngh a các ki u hi n th khác nhau c$a thông tin i n t%.
Bao g1m các chu5n:
o nh d ng mô t trang (ví d! postscript, PDF)
o nh d ng 1 h a (ví d! TIFF, GIF, JPEG)
o Thông tin c#u trúc (SGML, HTML, XML)
o nh d ng hình nh ng và audio.
o Nén (ví d!: gzip, jar, tar, zip).
Chu,n nh*n d4ng tài nguyên:
G1m m t s chu5n sau:
DOI (Digital Object Identifier)
Digital Object Identifier là m t h th ng c phát tri n b i Bowker và CNRI
(Corporation for National Research Initiative) US, theo m t yêu c u v các xu#t
cho công ngh nh n d ng n i dung k thu t s c a ra b i Association of
American Publishers. H th ng DOI có ba thành ph n: ph n nh danh, th m!c và c
s d li u. H th ng này cho phép các b nh d ng qui nh nh ng m c khác nhau,
và cho các h th ng khác (ví d! SICI, ISSN) c thêm vào.
H th ng DOI có th c nh ngh a nh là “m t b nh n d ng duy nh#t có
th gi i quy t c và nhi u m ng c$a d li u tr ng thái ki u k t h p trong m t c s
qu n lí thông tin”. Di-n t nh ng ph n c$a nh ngh a nh sau:
65. tài: Tìm ki m ng ngh a ng d!ng trên l nh v c eDoc
0112274 – Ph m Th M Ph ng - 65 - 0112398 – T Th Ng c Thanh
a. M t “b nh n d ng duy nh#t”: nhi m v! c$a DOI là duy nh#t i v i
m t m ng c$a "c tính tri th c. nh ngh a c$a m ng này c ch& rõ
b i m t s m ng chính c$a thông tin v nó (siêu d li u) mà thu c vào
th lo i c! th : dù th c th là m t bài báo hay m t video clip, ví d! nh
v y. nh danh này là m t chu i không rõ ràng; nó không ch a b#t c tri
th c cú pháp v th c th này.
b. “có th gi i quy t c”; v i “d li u tr ng thái k t h p”: i sâu vào
thông qua h th ng Internet t b nh n d ng ó n m t hay nhi u m ng
c$a d li u k t h p. Nh ng m ng này bi u di-u tr ng thái hi n t i (giá
tr ) c$a m t s ki u d li u (ví d! nh m t URL). Nh ng m ng này c$a
d li u có th hi n th , hay d n n, các d ch v! s% d!ng DOI nh là m t
i m th c th .
c. “m t c s qu n lí thông tin”: m t khi m t m ng d li u thu c do s
phân tích, thì siêu d li u v th c th c nh danh có th thi hành v i
siêu d li u t nh ng ngu1n khác (ví d! v ng c nh) xây d ng các
d ch v! và các giao d ch t ng. Kh n ng thi hành này c hoàn t#t
thông qua vi c qu n lí siêu d li u trong m t h ng c i u khi n,
phù h p v i m t ki n trúc thi hành mà làm cho DOI có th a ra nh ng
ng d!ng m t b nh n d ng liên t!c n gi n.
SICI
Chu5n SICI là chu5n ANSI/NISO Z39.56-1996 nh ngh a nh ng lu t l v mã
dùng nh n d ng duy nh#t chu i các item (ví d! nh các s báo) và m i thành ph n (ví
d! nh bài báo) ch a trong m t chu i. SICI là t vi t t t c$a Serial Item and
Contribution Identifier và c s% d!ng trong chu5n này ch& mã c$a chính nó.
Chu5n này c nh ngh a cho vi c s% d!ng v i chu i các xu#t b n trong t#t
c các nh d ng. i v i m!c ích c$a chu5n này, m t chu i c nh ngh a nh là
m t xu#t b n phát hành trong nh ng ph n liên t!c nh ng kho ng tr ng u "n hay