More Related Content
Similar to Tailieu.vncty.com ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung (20)
More from Trần Đức Anh (20)
Tailieu.vncty.com ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
- 1. bé gi¸o dôc vµ ®µo t¹o
tr−êng ®¹i häc b¸ch khoa hµ néi
D−¬ng thÞ hiÒn thanh
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt
di truyÒn trong khai ph¸ d÷ liÖu
vµ thö nghiÖm øng dông
LuËn v¨n th¹c sü c«ng nghÖ th«ng tin
Hµ néi – 2008
- 2. 1
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Môc lôc
Môc lôc....................................................................................................................... 1
Danh môc c¸c tõ viÕt t¾t ............................................................................................. 3
Danh môc c¸c b¶ng .................................................................................................... 4
Danh môc c¸c h×nh vÏ vµ ®å thÞ ................................................................................. 5
Lêi nãi ®Çu ................................................................................................................. 6
Ch−¬ng 1. khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong csdl ..................8
1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL .......8
1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc? ......................................................................8
1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ............................9
1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU.....................................10
1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu .....................................................................10
1.2.3. Khai ph¸ d÷ liÖu ..........................................................................................12
1.2.4. Minh ho¹ vµ ®¸nh gi¸..................................................................................12
1.2.5. §−a kÕt qu¶ vµo thùc tÕ...............................................................................13
1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu ..........................................................................13
1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .....................................................13
1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu..........................................................17
1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn ..........................................19
1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü
thuËt khai ph¸ d÷ liÖu .......................................................................................24
KÕt luËn ch−¬ng 1 ....................................................................................................27
Ch−¬ng 2. kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i
thuËt di truyÒn ......................................................................................................21
2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu ..............................................................28
2.1.1. Kh¸i niÖm m¹ng n¬ron ...............................................................................28
2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc ....................................................29
2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o .......................................30
2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron ..............................................................33
2.1.5. Häc vµ lan truyÒn trong m¹ng.....................................................................36
2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron .............................................................................40
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 3. 2
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU ..............................................42
2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn .....................................................................42
2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn...............................45
2.2.3. C¸c to¸n tö di truyÒn ...................................................................................46
2.2.4. C¬ së to¸n häc cña gi¶i thuËt di truyÒn.......................................................52
2.2.5. Nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn .......................................................54
KÕt luËn ch−¬ng 2 ....................................................................................................56
Ch−¬ng 3. tÝch hîp gi¶i thuËt di truyÒn víi gi¶i thuËt huÊn luyÖn
m¹ng n¬ron truyÒn th¼ng nhiÒu líp ..........................................................50
3.1. §Æt vÊn ®Ò ................................................................................................................57
3.2. m¹ng n¬ron truyÒn th¼ng nhiÒu líp víi gi¶i thuËt lan truyÒn
ng−îc sai sè vµ mét sè c¶i tiÕn ..........................................................................57
3.2.1. KiÕn tróc cña m¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................57
3.2.2. C¬ chÕ häc cña m¹ng n¬ ron truyÒn th¼ng nhiÒu líp..................................59
3.2.3. ThuËt to¸n lan truyÒn ng−îc sai sè .............................................................60
3.2.2. Mét sè c¶i tiÕn cña gi¶i thuËt BP ................................................................71
3.3. KÕt hîp gi¶i thuËt di truyÒn víi gi¶i thuËt BP ..........................................73
3.3.1. Gi¶i thuËt GA trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp ........73
3.3.2. GhÐp nèi víi gi¶i thuËt lan truyÒn ng−îc sai sè..........................................75
KÕt luËn ch−¬ng 3 ....................................................................................................76
Ch−¬ng 4. øng dông trong bµi to¸n dù b¸o d÷ liÖu .....................................71
4.1. giíi thiÖu bµi to¸n ................................................................................................78
4.2. m« h×nh ho¸ bµi to¸n, thiÕt kÕ d÷ liÖu vµ gi¶i thuËt..............................80
4.2.1. M« h×nh ho¸ bµi to¸n ..................................................................................80
4.2.2. ThiÕt kÕ d÷ liÖu ...........................................................................................81
4.2.3. ThiÕt kÕ gi¶i thuËt .......................................................................................82
4.3. ch−¬ng tr×nh dù b¸o d÷ liÖu .............................................................................93
KÕt luËn ch−¬ng 4 ....................................................................................................98
KÕt luËn .......................................................................................................... 99
Tµi liÖu tham kh¶o........................................................................................ .100
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 4. 3
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Danh môc c¸c tõ viÕt t¾t
STT
Tõ viÕt t¾t
NghÜa tiÕng viÖt
tiÕng anh
1
ANN
M¹ng n¬ron nh©n t¹o Artficial Neural Network
2
BNN
M¹ng n¬ron sinh häc Biological Neural Network
3
BP
Gi¶i thuËt lan truyÒn
Back-Propagation of error
ng−îc cña sai sè
4
Csdl
C¬ së d÷ liÖu
Data Base
5
dm
Khai ph¸ d÷ liÖu
Data Mining
6
GA
Gi¶i thuËt di truyÒn
Genetic Algorithm
7
Kdd
Ph¸t hiÖn tri thøc Knowledge
trong CSDL
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Database
Discover
in
- 5. 4
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Danh môc c¸c b¶ng
B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis.................................... 20
B¶ng 2.1: VÝ dô dïng phÐp t¸i t¹o............................................................................ 48
B¶ng 2.2: Qu¸ tr×nh t¸i t¹o ....................................................................................... 51
B¶ng 2.3: Qu¸ tr×nh lai ghÐp..................................................................................... 51
B¶ng 3.1: C¸c hµm kÝch ho¹t.................................................................................... 69
B¶ng 4.1: Sè liÖu thö nghiÖm cña bµi to¸n dù b¸o ....................................................79
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 6. 5
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Danh môc c¸c h×nh vÏ vµ ®å thÞ
H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL .................................................. 10
H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .................................................. 14
H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu........................................................................ 15
H×nh 1.4: KÕt qu¶ cña ph©n côm .............................................................................. 18
H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis................................................................... 20
H×nh 2.1: CÊu t¹o cña n¬ron..................................................................................... 29
H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron.................................................................. 30
H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o ............................................................. 31
H×nh 2.4: Hµm Sigmoidal......................................................................................... 33
H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................................... 35
H×nh 2.6: M¹ng håi quy ........................................................................................... 35
H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t ................................................................. 37
H×nh 2.8: S¬ ®å häc t¨ng c−êng ............................................................................... 38
H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t ........................................................................ 38
H×nh 3.1: M¹ng n¬ron truyÒn th¼ng 2 líp................................................................ 58
H×nh 3.2: S¬ ®å hiÖu chØnh c¸c träng sè cña gi¶i thuËt BP ...................................... 59
H×nh 3.3: S¬ ®å m· ho¸ c¸c träng sè cña m¹ng n¬ron............................................. 74
H×nh 3.4: S¬ ®å cña gi¶i thuËt lai ............................................................................. 76
H×nh 4.1: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1 ............................................................... 84
H×nh 4.2: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.1 ............................................................ 86
H×nh 4.3: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.2 ............................................................ 89
H×nh 4.4: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 2 ............................................................... 91
H×nh 4.5: Mµn h×nh chÝnh cña ch−¬ng tr×nh dù b¸o................................................. 93
H×nh 4.6: D÷ liÖu tÖp huÊn luyÖn ............................................................................. 94
H×nh 4.7: Mµn h×nh nhËp tham sè cho m¹ng n¬ron................................................. 94
H×nh 4.8: Mµn h×nh nhËp tham sè cho gi¶i thuËt GA .............................................. 95
H×nh 4.9: T×m kiÕm b»ng gi¶i thuËt GA................................................................... 95
H×nh 4.10: HuÊn luyÖn b»ng gi¶i thuËt BP............................................................... 96
H×nh 4.11: Mµn h×nh dù b¸o .................................................................................... 98
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 7. 6
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Lêi nãi ®Çu
Trong nh÷ng n¨m gÇn ®©y, vai trß cña m¸y tÝnh trong viÖc l−u tr÷ vµ xö lý
th«ng tin ngµy cµng trë nªn quan träng. Bªn c¹nh ®ã, c¸c thiÕt bÞ thu thËp d÷ liÖu tù
®éng còng ph¸t triÓn m¹nh gãp phÇn t¹o ra nh÷ng kho d÷ liÖu khæng lå. D÷ liÖu
®−îc thu thËp vµ l−u tr÷ ngµy cµng nhiÒu nh−ng ng−êi ra quyÕt ®Þnh l¹i cÇn cã
nh÷ng th«ng tin bæ Ých, nh÷ng “tri thøc” rót ra tõ nh÷ng nguån d÷ liÖu h¬n lµ chÝnh
d÷ liÖu ®ã cho viÖc ra quyÕt ®Þnh cña m×nh.
Víi nh÷ng yªu cÇu ®ã, c¸c m« h×nh CSDL truyÒn thèng vµ ng«n ng÷ thao t¸c
d÷ liÖu kh«ng cßn thÝch hîp n÷a. §Ó cã ®−îc tri thøc tõ CSDL, ng−êi ta ®· ph¸t triÓn
c¸c lÜnh vùc nghiªn cøu vÒ tæ chøc c¸c kho d÷ liÖu vµ kho th«ng tin, c¸c hÖ trî gióp
ra quyÕt ®Þnh, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL.
Trong sè ®ã, khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc ®· trë thµnh mét lÜnh vùc nghiªn
cøu rÊt s«i ®éng.
LuËn v¨n tËp trung nghiªn cøu kü thuËt sö dông m¹ng n¬ron vµ gi¶i thuËt di
truyÒn trong khai ph¸ d÷ liÖu, ®Æc biÖt lµ gi¶i ph¸p tÝch hîp gi¶i thuËt di truyÒn víi
gi¶i thuËt huÊn luyÖn m¹ng n¬ron. Trªn c¬ së ®ã, luËn v¨n x©y dùng ch−¬ng tr×nh
dù b¸o d÷ liÖu sö dông m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GABP.
LuËn v¨n ®−îc tr×nh bÇy gåm 4 ch−¬ng víi néi dung chÝnh nh− sau :
Ch−¬ng 1: Tr×nh bÇy mét c¸ch tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri
thøc trong CSDL. Trong ®ã ®Ò cËp ®Õn c¸c kh¸i nÖm, qu¸ tr×nh ph¸t hiÖn tri thøc,
nhiÖm vô chÝnh vµ c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh− nh÷ng vÊn ®Ò th¸ch
thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ.
Ch−¬ng 2: Nghiªn cøu kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i
thuËt di truyÒn, cô thÓ lµ nh÷ng vÊn ®Ò vÒ lùa chän cÊu tróc m¹ng vµ c¸c tham sè,
x©y dùng gi¶i thuËt häc vµ lan truyÒn trong m¹ng n¬ron, còng nh− c¸ch biÓu diÔn lêi
gi¶i, c¸c to¸n tö di truyÒn c¬ b¶n vµ nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn. §ång
thêi, ch−¬ng 2 còng ®−a ra nh÷ng ®¸nh gi¸ vÒ hiÖu qu¶ cña kü thuËt sö dông m¹ng
n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu, qua ®ã cã thÓ ®Þnh h−íng cho
viÖc lùa chän ph−¬ng ph¸p khai ph¸ thÝch hîp cho c¸c vÊn ®Ò thùc tÕ.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 8. 7
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Ch−¬ng 3 : Giíi thiÖu kiÕn tróc m¹ng n¬ron truyÒn th¼ng nhiÒu líp, gi¶i
thuËt BP, c¸c vÊn ®Ò vÒ sö dông gi¶i thuËt BP vµ tr×nh bÇy gi¶i ph¸p tÝch hîp gi¶i
thuËt GA víi gi¶i thuËt BP trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp.
Ch−¬ng 4 : Giíi thiÖu bµi to¸n øng dông dù b¸o lò trªn s«ng, tõ ®ã m« h×nh
ho¸ bµi to¸n, thiÕt kÕ thuËt to¸n, d÷ liÖu vµ cµi ®Æt ch−¬ng tr×nh thö nghiÖm víi c«ng
cô m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GA-BP.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 9. 8
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Ch−¬ng 1:
khai ph¸ d÷ liÖu vµ
ph¸t hiÖn tri thøc trong CSDL
1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong
C¬ Së D÷ LiÖu
1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc?
H¬n hai thËp niªn trë l¹i ®©y, l−îng th«ng tin ®−îc l−u tr÷ trªn c¸c thiÕt bÞ
®iÖn tö kh«ng ngõng t¨ng lªn. ViÖc tÝch luü d÷ liÖu diÔn ra víi mét tèc ®é bïng næ.
Ng−êi ta −íc ®o¸n r»ng l−îng th«ng tin trªn toµn cÇu t¨ng gÊp ®«i sau kho¶ng hai
n¨m vµ theo ®ã kÝch th−íc c¬ së d÷ liÖu (CSDL) còng t¨ng lªn mét c¸ch nhanh
chãng, c¶ vÒ sè b¶n ghi cña CSDL lÉn sè tr−êng, thuéc tÝnh trong b¶n ghi.
L−îng d÷ liÖu khæng lå nµy thùc sù lµ nguån tµi nguyªn rÊt gi¸ trÞ v× th«ng
tin chÝnh lµ yÕu tè then chèt trong mäi ho¹t ®éng. Tuy nhiªn, d÷ liÖu sÏ kh«ng cã
®Çy ®ñ ý nghÜa nÕu kh«ng ph¸t hiÖn ra nh÷ng tri thøc tiÒm Èn cã gi¸ trÞ trong ®ã.
Nh÷ng tri thøc nµy th−êng rÊt nhá so víi l−îng d÷ liÖu, do ®ã ph¸t hiÖn ra chóng lµ
mét vÊn ®Ò kh¸ khã kh¨n.
ViÖc x©y dùng c¸c hÖ thèng cã kh¶ n¨ng ph¸t hiÖn ®−îc c¸c mÈu tri thøc cã
gi¸ trÞ trong khèi d÷ liÖu ®å sé nh− vËy gäi lµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
(Knowledge Discover in Database_KDD). C¸c kü thuËt xö lý c¬ b¶n chÝnh lµ kü
thuËt khai ph¸ d÷ liÖu (Data Mining_DM). ViÖc ph©n tÝch d÷ liÖu mét c¸ch tù ®éng
vµ mang tÝnh dù b¸o cña KDD cã −u thÕ h¬n h¼n so víi c¸c ph−¬ng ph¸p ph©n tÝch
th«ng th−êng, dùa trªn nh÷ng sù kiÖn trong qu¸ khø cña c¸c hÖ hç trî ra quyÕt ®Þnh
truyÒn thèng tr−íc ®©y.
Víi tÊt c¶ nh÷ng −u thÕ ®ã, KDD ®· chøng tá ®−îc tÝnh h÷u dông cña nã
trong m«i tr−êng ®Çy tÝnh c¹nh tranh ngµy nay. KDD ®· vµ ®ang trë thµnh mét
h−íng nghiªn cøu chÝnh cña lÜnh vùc khoa häc m¸y tÝnh vµ c«ng nghÖ tri thøc.
Ph¹m vi øng dông cña KDD ban ®Çu chØ lµ trong lÜnh vùc th−¬ng m¹i vµ tµi chÝnh.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 10. 9
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Cho ®Õn nay, KDD ®· ®−îc øng dông réng r·i trong c¸c lÜnh vùc kh¸c nh− viÔn
th«ng, gi¸o dôc, ®iÒu trÞ y häc, … Cã thÓ nãi, KDD lµ mét sù cè g¾ng ®Ó gi¶i quyÕt
vÊn ®Ò nan gi¶i cña kû nguyªn th«ng tin sè: vÊn ®Ò trµn d÷ liÖu.
1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
Kh¸i niÖm “ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu” ®−îc ®−a ra lÇn ®Çu tiªn
vµo n¨m 1989, trong ®ã nhÊn m¹nh r»ng tri thøc lµ s¶n phÈm cuèi cïng cña qu¸
tr×nh khai ph¸ d÷ liÖu. Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ®−îc ®Þnh nghÜa nh− lµ
qu¸ tr×nh ch¾t läc tri thøc tõ mét l−îng lín d÷ liÖu. Nãi c¸ch kh¸c, cã thÓ quan niÖm
KDD lµ mét ¸nh x¹ d÷ liÖu tõ møc thÊp thµnh c¸c d¹ng c« ®äng h¬n, tãm t¾t vµ h÷u
Ých h¬n. Mét vÝ dô trùc quan th−êng ®−îc dïng lµ viÖc khai th¸c vµng tõ ®¸ vµ c¸t,
ng−êi khai th¸c muèn ch¾t läc vµng tõ ®¸ vµ c¸t trong ®iÒu kiÖn l−îng ®¸ vµ c¸t rÊt
lín.
ThuËt ng÷ “data mining” ¸m chØ viÖc t×m kiÕm mét tËp hîp nhá tri thøc,
th«ng tin cã gi¸ trÞ tõ mét l−îng lín c¸c d÷ liÖu th« [7]. Nã bao hµm mét lo¹t c¸c kü
thuËt nh»m ph¸t hiÖn ra nh÷ng th«ng tin cã gi¸ trÞ tiÒm Èn trong c¸c CSDL lín.
NhiÒu thuËt ng÷ hiÖn ®−îc dïng còng cã nghÜa t−¬ng tù víi tõ data mining nh−
knowledge mining (khai ph¸ tri thøc), knowledge extraction (ch¾t läc tri thøc),
data/patern analysis (Ph©n tÝch d÷ liÖu/mÉu), data archaeology (kh¶o cæ d÷ liÖu),
data dredging (n¹o vÐt d÷ liÖu).
Nh− vËy, nÕu quan niÖm tri thøc lµ mèi quan hÖ gi÷a c¸c phÇn tö d÷ liÖu th×
ph¸t hiÖn tri thøc chØ qu¸ tr×nh chiÕt suÊt tri thøc tõ c¬ së d÷ liÖu, trong ®ã tr¶i qua
nhiÒu giai ®o¹n kh¸c nhau. Khai ph¸ d÷ liÖu sö dông c¸c gi¶i thuËt ®Æc biÖt ®Ó chiÕt
xuÊt ra c¸c mÉu, c¸c m« h×nh tõ d÷ liÖu vµ chØ lµ mét giai ®o¹n trong qu¸ tr×nh ph¸t
hiÖn tri thøc trong CSDL.
Ph¸t hiÖn tri thøc trong CSDL vµ khai ph¸ d÷ liÖu lµ mét kü thuËt míi xuÊt
hiÖn vµ cã tèc ®é ph¸t triÓn rÊt nhanh. Ngoµi ra nã cßn lµ mét lÜnh vùc ®a ngµnh,
liªn quan ®Õn nhiÒu lÜnh vùc kh¸c nh−: lý thuyÕt thuËt to¸n, Data Warehouse,
OLAP, tÝnh to¸n song song, … nh−ng chñ yÕu dùa trªn nÒn t¶ng cña x¸c suÊt thèng
kª, c¬ së d÷ liÖu vµ häc m¸y.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 11. 10
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU
H×nh 1.1 m« t¶ 5 giai ®o¹n trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu.
MÆc dï cã 5 giai ®o¹n, song ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu lµ mét qu¸ tr×nh
t−¬ng t¸c vµ lÆp ®i lÆp l¹i thµnh mét chu tr×nh liªn tôc theo kiÓu xo¸y tr«n èc, trong
®ã lÇn lÆp sau hoµn chØnh h¬n lÇn lÆp tr−íc. Ngoµi ra, giai ®o¹n sau l¹i dùa trªn kÕt
qu¶ cña giai ®o¹n tr−íc theo kiÓu th¸c n−íc [7, 4].
5. §−a kÕt qu¶ vµo thùc tÕ
4. Minh ho¹ vµ ®¸nh gi¸ tri
thøc ®−îc ph¸t hiÖn
3. Khai ph¸ d÷ liÖu – TrÝch ra
c¸c mÉu/ c¸c m« h×nh
2. Thu thËp vµ tiÒn xö lý d÷
li
1. HiÓu vµ x¸c ®Þnh vÊn ®Ò
H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL
Sau ®©y sÏ tr×nh bÇy cô thÓ h¬n tõng giai ®o¹n cña qu¸ tr×nh nµy:
1.2.1. X¸c ®Þnh vÊn ®Ò
Qu¸ tr×nh nµy mang tÝnh ®Þnh tÝnh víi môc ®Ých x¸c ®Þnh ®−îc lÜnh vùc yªu
cÇu ph¸t hiÖn tri thøc vµ x©y dùng bµi to¸n tæng thÓ. Trong thùc tÕ, c¸c c¬ së d÷ liÖu
®−îc chuyªn m«n ho¸ vµ ph©n chia theo c¸c lÜnh vùc kh¸c nhau. Víi mçi tri thøc
ph¸t hiÖn ®−îc, cã thÓ cã gi¸ trÞ cho lÜnh vùc nµy nh−ng l¹i kh«ng mang l¹i nhiÒu ý
nghÜa ®èi víi mét lÜnh vùc kh¸c. V× vËy, viÖc x¸c ®Þnh bµi to¸n gióp ®Þnh h−íng cho
giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu.
1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu
Trong qu¸ tr×nh thu thËp d÷ liÖu cho bµi to¸n, c¸c c¬ së d÷ liÖu thu ®−îc
th−êng chøa rÊt nhiÒu thuéc tÝnh nh−ng l¹i kh«ng ®Çy ®ñ, kh«ng thuÇn nhÊt, cã
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 12. 11
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
nhiÒu lçi vµ cã c¸c gi¸ trÞ ®Æc biÖt. Nguyªn nh©n cã thÓ lµ do ý kiÕn ph¸t biÓu cña
c¸c chuyªn gia kh«ng thèng nhÊt, do c¸c sai sè khi ®o ®¹c d÷ liÖu,… V× vËy, giai
®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu trë nªn rÊt quan träng trong qu¸ tr×nh ph¸t hiÖn tri
thøc tõ c¬ së d÷ liÖu. Giai ®o¹n nµy th−êng chiÕm tõ 70% ®Õn 80% gi¸ thµnh cña
toµn bé bµi to¸n.
Giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu ®−îc chia thµnh c¸c c«ng ®o¹n nh−:
lùa chän d÷ liÖu, lµm s¹ch d÷ liÖu, lµm giµu d÷ liÖu, m· ho¸ d÷ liÖu. C¸c c«ng ®o¹n
®−îc thùc hiÖn theo tr×nh tù nh»m ®−a ra mét c¬ së d÷ liÖu thÝch hîp cho c¸c giai
®o¹n sau. Tuy nhiªn, tuú tõng d÷ liÖu cô thÓ mµ qu¸ tr×nh trªn ®−îc ®iÒu chØnh cho
phï hîp
1.2.2.1. Chän läc d÷ liÖu
§©y lµ b−íc chän läc c¸c d÷ liÖu liªn quan trong c¸c nguån d÷ liÖu kh¸c
nhau. C¸c th«ng tin ®−îc chän ra lµ nh÷ng th«ng tin cã nhiÒu liªn quan ®Õn lÜnh vùc
cÇn ph¸t hiÖn tri thøc ®· x¸c ®Þnh trong giai ®o¹n x¸c ®Þnh vÊn ®Ò.
1.2.2.2. Lµm s¹ch d÷ liÖu
D÷ liÖu thùc tÕ, ®Æc biÖt lµ nh÷ng d÷ liÖu ®−îc lÊy tõ nhiÒu nguån kh¸c nhau
th−êng kh«ng ®ång nhÊt. Do ®ã, cÇn cã biÖn ph¸p xö lý ®Ó thèng nhÊt c¸c d÷ liÖu
thu ®−îc phôc vô cho khai ph¸. Giai ®o¹n lµm s¹ch d÷ liÖu th−êng bao gåm c¸c
phÐp xö lý nh−: ®iÒu hoµ d÷ liÖu, xö lý c¸c gi¸ trÞ khuyÕt, xö lý nhiÔu vµ c¸c ngo¹i
lÖ,...
1.2.2.3. Lµm giµu d÷ liÖu
ViÖc thu thËp d÷ liÖu ®«i khi kh«ng ®¶m b¶o tÝnh ®Çy ®ñ cña d÷ liÖu. Mét sè
th«ng tin rÊt quan träng cã thÓ thiÕu hoÆc kh«ng ®Çy ®ñ. ViÖc lµm giµu d÷ liÖu chÝnh
lµ t×m c¸ch bæ sung c¸c th«ng tin cã ý nghÜa vµ quan träng cho qu¸ tr×nh khai ph¸ d÷
liÖu sau nµy. Qu¸ tr×nh lµm giµu d÷ liÖu còng bao gåm viÖc tÝch hîp vµ chuyÓn ®æi
d÷ liÖu. C¸c d÷ liÖu tõ nhiÒu nguån kh¸c nhau ®−îc tÝch hîp thµnh mét kho thèng
nhÊt. C¸c khu«n d¹ng kh¸c nhau cña d÷ liÖu còng ®−îc quy ®æi, tÝnh to¸n l¹i ®Ó ®−a
vÒ mét kiÓu thèng nhÊt, tiÖn cho qu¸ tr×nh ph©n tÝch. §«i khi, mét sè thuéc tÝnh míi
còng cã thÓ ®−îc x©y dùng dùa trªn c¸c thuéc tÝnh cò.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 13. 12
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
1.2.2.4. M∙ ho¸
§©y lµ giai ®o¹n m· ho¸ c¸c ph−¬ng ph¸p dïng ®Ó chän läc, lµm s¹ch, lµm
giµu d÷ liÖu thµnh c¸c thñ tôc, ch−¬ng tr×nh hay c¸c tiÖn Ých nh»m tù ®éng ho¸ viÖc
kÕt xuÊt, biÕn ®æi vµ di chuyÓn d÷ liÖu. C¸c hÖ thèng con ®ã cã thÓ ®−îc thùc thi
®Þnh kú ®Ó lµm t−¬i d÷ liÖu phôc vô cho viÖc ph©n tÝch.
1.2.3. Khai ph¸ d÷ liÖu
Giai ®o¹n khai ph¸ d÷ liÖu ®−îc b¾t ®Çu sau khi d÷ liÖu ®· ®−îc thu thËp vµ
xö lý. Trong giai ®o¹n nµy, c«ng viÖc chñ yÕu lµ x¸c ®Þnh ®−îc bµi to¸n khai ph¸ d÷
liÖu, tiÕn hµnh lùa chän c¸c ph−¬ng ph¸p khai ph¸ thÝch hîp víi d÷ liÖu cã ®−îc vµ
t¸ch ra c¸c tri thøc cÇn thiÕt.
Th«ng th−êng, c¸c bµi to¸n khai ph¸ d÷ liÖu bao gåm: c¸c bµi to¸n mang tÝnh
chÊt m« t¶, ®−a ra nh÷ng tÝnh chÊt chung nhÊt cña d÷ liÖu, c¸c bµi to¸n khai ph¸, dù
b¸o, bao gåm c¶ viÖc thùc hiÖn c¸c suy diÔn dùa trªn d÷ liÖu hiÖn cã. Tuú theo tõng
bµi to¸n x¸c ®Þnh ®−îc mµ ta lùa chän c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu cho phï
hîp.
1.2.4. Minh ho¹ vµ ®¸nh gi¸
C¸c tri thøc ph¸t hiÖn ®−îc tõ c¬ së d÷ liÖu cÇn ®−îc tæng hîp vµ biÓu diÔn
d−íi d¹ng gÇn gòi víi ng−êi sö dông nh− ®å thÞ, c©y, b¶ng biÓu, hay c¸c luËt, c¸c
b¸o c¸o,... phôc vô cho c¸c môc ®Ých hç trî quyÕt ®Þnh kh¸c nhau.
Do nhiÒu ph−¬ng ph¸p khai ph¸ cã thÓ ®−îc ¸p dông nªn c¸c kÕt qu¶ cã thÓ
cã nhiÒu møc ®é tèt xÊu kh¸c nhau vµ viÖc ®¸nh gi¸ c¸c kÕt qu¶ thu ®−îc lµ rÊt cÇn
thiÕt. Th«ng th−êng, c¸c kÕt qu¶ sÏ ®−îc tæng hîp, so s¸nh b»ng c¸c biÓu ®å vµ ®−îc
kiÓm nghiÖm, tinh läc. §Ó ®¸nh gi¸ tri thøc, ng−êi ta th−êng dùa vµo c¸c tiªu chÝ
nhÊt ®Þnh nh−:
- Tri thøc ph¶i ®ñ ®é ®¸ng quan t©m: thÓ hiÖn ë tÝnh h÷u dông (useful), tÝnh
míi l¹ (novel) cña tri thøc vµ qu¸ tr×nh trÝch rót kh«ng tÇm th−êng.
- Tri thøc ph¶i ®ñ ®é tin cËy.
§©y lµ c«ng viÖc cña c¸c nhµ chuyªn gia, c¸c nhµ ph©n tÝch vµ ra quyÕt ®Þnh.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 14. 13
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
1.2.5. §−a kÕt qu¶ vµo thùc tÕ
C¸c kÕt qu¶ cña qu¸ tr×nh ph¸t hiÖn tri thøc cã thÓ ®−îc ®−a vµo øng dông
trong c¸c lÜnh vùc kh¸c nhau. Do c¸c kÕt qu¶ cã thÓ lµ c¸c dù b¸o hoÆc c¸c m« t¶
nªn cã thÓ ®−a vµo c¸c hÖ thèng hç trî ra quyÕt ®Þnh nh»m tù ®éng ho¸ qu¸ tr×nh
nµy.
Nh− vËy, qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu th−êng ®−îc thùc hiÖn
theo n¨m b−íc nªu trªn. Tuy nhiªn, trong qu¸ tr×nh khai th¸c, cã thÓ thùc hiÖn
nh÷ng c¶i tiÕn, n©ng cÊp cho phï hîp víi tõng øng dông cô thÓ. Trong sè c¸c b−íc,
tiÒn xö lý d÷ liÖu vµ khai ph¸ d÷ liÖu hai b−íc rÊt quan träng, chiÕm phÇn lín c«ng
søc vµ gi¸ thµnh cña toµn bé bµi to¸n. ViÖc lùa chän c¸c ph−¬ng ph¸p thùc hiÖn cô
thÓ cho qu¸ tr×nh tiÒn xö lý vµ khai ph¸ d÷ liÖu phô thuéc rÊt nhiÒu vµo ®Æc ®iÓm d÷
liÖu vµ yªu cÇu cña bµi to¸n. Sau ®©y, ta sÏ xem xÐt cô thÓ h¬n qu¸ tr×nh khai ph¸ d÷
liÖu.
1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu
Ta ®· biÕt, qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu giai ®o¹n
kh¸c nhau mµ khai ph¸ d÷ liÖu chØ lµ mét giai ®o¹n trong qu¸ tr×nh ®ã. Tuy nhiªn,
®©y l¹i lµ giai ®o¹n ®ãng vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh
cña KDD.
1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu
Khai ph¸ d÷ liÖu lµ mét b−íc quan träng trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ
sè l−îng lín d÷ liÖu ®· l−u tr÷ trong c¸c CSDL, kho d÷ liÖu hoÆc c¸c n¬i l−u tr÷
kh¸c. B−íc nµy cã thÓ t−¬ng t¸c lÉn nhau gi÷a ng−êi sö dông hoÆc c¬ së tri thøc.
C¸c mÉu ®¸ng quan t©m ®−îc ®−a ®Õn cho ng−êi sö dông hoÆc l−u tr÷ nh− lµ tri thøc
míi trong c¬ së tri thøc.
KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu cã thÓ cã c¸c thµnh phÇn chÝnh sau:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 15. 14
Ng−êi sö
dông
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Ng−êi sö
dông
Giao diÖn ng−êi dïng
§¸nh gi¸ mÉu
C¬ së tri thøc
M« t¬ khai ph¸ d÷ liÖu
(Data mining engine)
CSDL hay kho d÷ liÖu
phôc vô
Lµm s¹ch d÷ liÖu
Läc d÷ liÖu
CSDL
Kho d÷ liÖu
H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu
- CSDL, kho d÷ liÖu hay c¸c kho l−u tr÷ kh¸c: lµ mét hoÆc mét tËp c¸c CSDL,
kho d÷ liÖu, ... C¸c kü thuËt lµm s¹ch d÷ liÖu, tÝch hîp, läc d÷ liÖu cã thÓ thùc
hiÖn trªn d÷ liÖu.
- CSDL hay kho d÷ liÖu phôc vô: lµ nh÷ng d÷ liÖu cã liªn quan ®−îc läc vµ lµm
s¹ch tõ kho d÷ liÖu trªn c¬ së yªu cÇu khai ph¸ d÷ liÖu cña ng−êi dïng.
- C¬ së tri thøc: lµ lÜnh vùc tri thøc ®−îc sö dông ®Ó h−íng dÉn viÖc t×m hî¨c
®¸nh gi¸ c¸c mÉu kÕt qu¶ t×m ®−îc.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 16. 15
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
- M« t¬ khai ph¸ d÷ liÖu: bao gåm tËp c¸c modul chøc n¨ng ®Ó thùc hiÖn c¸c
nhiÖm vô nh− m« t¶ ®Æc ®iÓm, kÕt hîp, ph©n líp, ph©n côm d÷ liÖu, ...
- Modul ®¸nh gi¸ mÉu: thµnh phÇn nµy sö dông c¸c ®é ®o vµ t−¬ng t¸c víi c¸c
modul khai ph¸ d÷ liÖu ®Ó tËp trung t×m c¸c mÉu ®¸ng quan t©m.
- Giao diÖn ng−êi dïng: cho phÐp ng−êi dïng t−¬ng t¸c víi hÖ thèng trªn c¬ së
nh÷ng truy vÊn hay t¸c vô, cung cÊp c¸c th«ng tin cho viÖc t×m kiÕm.
1.3.2. Qu¸ tr×nh khai ph¸ d÷ liÖu vµ gi¶i thuËt khai ph¸ d÷ liÖu
1.3.2.1. Qu¸ tr×nh khai ph¸ d÷ liÖu
C¸c gi¶i thuËt khai ph¸ d÷ liÖu th−êng ®−îc m« t¶ nh− nh÷ng ch−¬ng tr×nh
ho¹t ®éng trùc tiÕp trªn tÖp d÷ liÖu. Qu¸ tr×nh khai ph¸ d÷ liÖu ®−îc thÓ hiÖn bëi m«
h×nh sau:
Thèng kª vµ
tãm t¾t
Gi¶i thuËt
khai ph¸
Thu thËp vµ tiÒn
xö lý d÷ liÖu
X¸c ®Þnh d÷ liÖu
liªn quan
MÉu
D÷ liÖu trùc
tiÕp
X¸c ®Þnh nhiÖm
vô
H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu
- X¸c ®Þnh nhiÖm vô: X¸c ®Þnh chÝnh x¸c vÊn ®Ò cÇn ®−îc gi¶i quyÕt
- X¸c ®Þnh d÷ liÖu liªn quan: Trªn c¬ së vÊn ®Ò cÇn ®−îc gi¶i quyÕt, x¸c ®Þnh
c¸c nguån d÷ liÖu liªn quan ®Ó cã thÓ x©y dùng gi¶i ph¸p.
- Thu thËp vµ tiÒn xö lü d÷ liÖu: Thu thËp c¸c d÷ liÖu cã liªn quan vµ xö lý
chóng ®−a vÒ d¹ng sao cho gi¶i thuËt khai ph¸ d÷ liÖu cã thÓ hiÓu ®−îc. ë ®©y
cã thÓ gÆp mét sè vÊn ®Ò nh−: d÷ liÖu ph¶i ®−îc sao ra nhiÒu b¶n (nÕu ®−îc
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 17. 16
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
chiÕt xuÊt vµo c¸c tÖp), qu¶n lý c¸c tÖp d÷ liÖu, ph¶i lÆp ®i lÆp l¹i nhiÒu lÇn
toµn bé qu¸ tr×nh (nÕu m« h×nh d÷ liÖu thay ®æi), ...
- Thèng kª vµ tãm t¾t d÷ liÖu, ®ång thêi kÕt hîp víi c¸c d÷ liÖu trùc tiÕp ®Ó lµm
®Çu vµo cho b−íc thùc hiÖn gi¶i thuËt khai ph¸ d÷ liÖu.
- Chän thuËt to¸n khai ph¸ d÷ liÖu thÝch hîp vµ thùc hiÖn viÖc khai ph¸ d÷ liÖu
®Ó t×m ®−îc c¸c mÉu cã ý nghÜa. Víi c¸c nhiÖm vô kh¸c nhau cña khai ph¸
d÷ liÖu, d¹ng cña c¸c mÉu chiÕt xuÊt ®−îc còng kh¸c nhau. MÉu chiÕt xuÊt
®−îc cã thÓ lµ mét m« t¶ xu h−íng, cã thÓ lµ d−íi d¹ng v¨n b¶n, mét ®å thÞ
m« t¶ c¸c mèi quan hÖ trong m« h×nh,...
1.3.2.2. C¸c thµnh phÇn cña gi¶i thuËt khai ph¸ d÷ liÖu
Gi¶i thuËt khai ph¸ d÷ liÖu gåm ba thµnh phÇn chÝnh:
• BiÓu diÔn m« h×nh: M« h×nh ®−îc biÓu diÔn b»ng mét ng«n ng÷ L ®Ó m« t¶
c¸c mÉu cã thÓ khai th¸c ®−îc. NÕu m« h×nh m« t¶ qu¸ h¹n chÕ th× sÏ kh«ng thÓ häc
®−îc hoÆc sÏ kh«ng cã c¸c mÉu t¹o ra ®−îc mét m« h×nh chÝnh x¸c cho d÷ liÖu. Tuy
nhiªn, kh¶ n¨ng m« t¶ cña m« h×nh cµng lín th× cµng t¨ng møc ®é nguy hiÓm do bÞ
häc qu¸ vµ lµm gi¶m kh¶ n¨ng dù ®o¸n cña c¸c d÷ liÖu ch−a biÕt. Do ®ã, viÖc quan
träng lµ ng−êi ph©n tÝch d÷ liÖu vµ thiÕt kÕ gi¶i thuËt cÇn ph¶i hiÓu ®Çy ®ñ c¸c gi¶
thiÕt m« t¶ vµ cÇn ph¶i diÔn t¶ ®−îc c¸c gi¶ thiÕt m« t¶ nµo ®−îc t¹o ra tõ luËt nµo.
• §¸nh gi¸ m« h×nh: §¸nh gi¸ xem mét mÉu cã ®¸p øng ®−îc c¸c tiªu chuÈn
cña qu¸ tr×nh ph¸t hiÖn tri thøc hay kh«ng. ViÖc ®¸nh gi¸ ®é chÝnh x¸c dù ®o¸n
®−îc thùc hiÖn dùa trªn ®¸nh gi¸ chÐo (cross validation). §¸nh gi¸ chÊt l−îng liªn
quan ®Õn ®é chÝnh x¸c dù ®o¸n, ®é míi, kh¶ n¨ng sö dông, kh¶ n¨ng hiÓu ®−îc cña
m« h×nh. Cã thÓ sö dông chuÈn thèng kª vµ chuÈn logic ®Ó ®¸nh gi¸ m« h×nh.
• Ph−¬ng ph¸p t×m kiÕm: Ph−¬ng ph¸p t×m kiÕm gåm hai thµnh phÇn: t×m kiÕm
tham sè vµ t×m kiÕm m« h×nh.
- Trong t×m kiÕm tham sè, gi¶i thuËt cÇn t×m kiÕm c¸c tham sè ®Ó tèi −u ho¸
c¸c tiªu chuÈn ®¸nh gi¸ m« h×nh víi c¸c d÷ liÖu quan s¸t ®−îc vµ mét miªu t¶
m« h×nh ®· ®Þnh tr−íc.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 18. 17
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
- T×m kiÕm m« h×nh thùc hiÖn gièng nh− mét vßng lÆp qua ph−¬ng ph¸p t×m
kiÕm tham sè, miªu t¶ m« h×nh bÞ thay ®æi t¹o nªn mét hä c¸c m« h×nh. Víi
mçi mét miªu t¶ m« h×nh, ph−¬ng ph¸p t×m kiÕm tham sè ®−îc thùc hiÖn ®Ó
®¸nh gi¸ chÊt l−îng m« h×nh. C¸c ph−¬ng ph¸p t×m kiÕm m« h×nh th−êng sö
dông c¸c ph−¬ng ph¸p t×m kiÕm heuristic v× kÝch th−íc cña kh«ng gian t×m
kiÕm c¸c m« h×nh th−êng ng¨n c¶n c¸c kü thuËt t×m kiÕm tæng thÓ.
1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu
§èi víi khai ph¸ d÷ liÖu, cã hai bµi to¸n chÝnh lµ:
- Bµi to¸n m« t¶ (description): §−a ra m« h×nh biÓu thÞ nh÷ng tÝnh chÊt chung
nhÊt cña d÷ liÖu mÉu.
- Bµi to¸n khai ph¸ dù b¸o (prediction): Suy diÔn dùa trªn d÷ liÖu mÉu hiÖn cã
®Ó ®−a ra mét kÕt qu¶ nµo ®ã.
Nh− vËy, cã thÓ coi môc ®Ých chÝnh cña khai ph¸ d÷ liÖu lµ m« t¶ vµ dù b¸o. C¸c
mÉu ®−îc ph¸t hiÖn nh»m vµo hai môc ®Ých nµy. Bµi to¸n dù b¸o liªn quan ®Õn viÖc
sö dông c¸c biÕn hoÆc c¸c tr−êng trong CSDL ®Ó chiÕt xuÊt ra c¸c mÉu, trªn c¬ së
®ã dù ®o¸n c¸c gi¸ trÞ ch−a biÕt hoÆc c¸c gi¸ trÞ t−¬ng lai cña c¸c biÕn ®¸ng quan
t©m. Bµi to¸n m« t¶ tËp trung vµo viÖc t×m kiÕm c¸c mÉu m« t¶ d÷ liÖu cã thÓ hiÓu
®−îc cho c¸c øng dông thùc tÕ.
§Ó ®¹t ®−îc hai môc ®Ých nµy, nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu bao gåm
c¸c vÊn ®Ò sau:
• Ph©n líp (clasification): Ph©n líp t−¬ng øng víi viÖc x¸c lËp mét ¸nh x¹ (hay
ph©n lo¹i) mét tËp d÷ liÖu vµo mét trong sè c¸c líp ®· x¸c ®Þnh.
• Håi quy (Regression): Håi quy t−¬ng øng víi viÖc x¸c lËp ¸nh x¹ tõ mét tËp
d÷ liÖu vµo mét biÕn dù ®o¸n cã gi¸ trÞ thùc.
• Ph©n côm (Clustering): Ph©n côm nh»m ghÐp nhãm c¸c ®èi t−îng d÷ liÖu.
C¸c ®èi t−îng d÷ liÖu ®−îc coi lµ gièng nhau, nÕu chóng thuéc cïng mét côm vµ
kh¸c nhau nÕu chóng thuéc c¸c côm kh¸c nhau. C¸c côm cã thÓ t¸ch rêi nhau hoÆc
ph©n cÊp hoÆc gèi lªn nhau. NghÜa lµ mét ®èi t−îng d÷ liÖu cã thÓ võa thuéc côm
nµy, võa thuéc côm kia. Qu¸ tr×nh nhãm c¸c ®èi t−îng thµnh c¸c côm ®−îc gäi lµ
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 19. 18
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
ph©n côm hay ph©n nhãm. Mét vÝ dô øng dông cña khai ph¸ d÷ liÖu cã nhiÖm vô
ph©n côm lµ ph¸t hiÖn tËp nh÷ng kh¸ch hµng cã hµnh vi gièng nhau trong c¬ së d÷
liÖu tiÕp thÞ.
Côm 3
Côm 1
Côm 2
H×nh 1.4: KÕt qu¶ cña ph©n côm
H×nh 1.4 m« t¶ c¸c mÉu cña qu¸ tr×nh khai ph¸ d÷ liÖu víi nhiÖm vô ph©n
côm. C¸c mÉu lµ nhãm kh¸ch hµng ®−îc xÕp vµo ba nhãm gèi lªn nhau. Nh÷ng
kh¸ch hµng ë c¶ hai côm chøng tá kh¸ch hµng ®ã cã thÓ thuéc hai tr¹ng th¸i.
• Tãm t¾t (summarization): liªn quan ®Õn c¸c ph−¬ng ph¸p t×m kiÕm mét m« t¶
tãm t¾t cho mét tËp con d÷ liÖu.
• M« h×nh ho¸ sù phô thuéc (Dependency Modeling): Bao gåm viÖc t×m kiÕm
mét m« h×nh m« t¶ sù phô thuéc gi÷a c¸c biÕn. C¸c m« h×nh phô thuéc tån t¹i d−íi
hai møc:
- Møc cÊu tróc, lµ m« h×nh x¸c ®Þnh c¸c biÕn nµo lµ phô thuéc côc bé víi
nhau (th−êng ë d¹ng ®å ho¹).
- Møc ®Þnh l−îng lµ m« h×nh x¸c ®Þnh ®é lín cña sù phô thuéc theo mét
th−íc ®o nµo ®ã.
• Ph¸t hiÖn thay ®æi vµ sai lÖch (Change and Deviation detection): X¸c ®Þnh
nh÷ng thay ®æi ®¸ng kÓ nhÊt trong d÷ liÖu tõ c¸c gi¸ trÞ chuÈn ®o ®−îc tr−íc ®ã.
Râ rµng, nh÷ng nhiÖm vô kh¸c nhau kÓ trªn yªu cÇu vÒ sè l−îng vµ c¸c d¹ng
th«ng tin rÊt kh¸c nhau. Do ®ã, tuú theo tõng nhiÖm vô cô thÓ, sÏ cã nh÷ng ¶nh
h−ëng ®Õn viÖc thiÕt kÕ vµ lùa chän gi¶i thuËt khai ph¸ d÷ liÖu.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 20. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
19
1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn
1.3.4.1. Ph−¬ng ph¸p quy n¹p
Cã hai kü thuËt chÝnh ®Ó thùc hiÖn lµ suy diÔn vµ quy n¹p.
• Suy diÔn: nh»m rót ra th«ng tin lµ kÕt qu¶ logic cña c¸c th«ng tin trong
CSDL. Ph−¬ng ph¸p suy diÔn dùa trªn nh÷ng sù kiÖn chÝnh x¸c ®Ó suy ra c¸c tri
thøc míi tõ c¸c th«ng tin cò. MÉu chiÕt xuÊt theo kü thuËt nµy th−êng lµ c¸c luËt
suy diÔn.
• Quy n¹p: Ph−¬ng ph¸p quy n¹p suy ra th«ng tin ®−îc sinh ra tõ c¬ së d÷ liÖu,
cã nghÜa lµ nã tù t×m kiÕm, t¹o mÉu vµ sinh ra tri thøc chø kh«ng ph¶i b¾t ®Çu víi
c¸c tri thøc ®· biÕt tr−íc. C¸c th«ng tin do ph−¬ng ph¸p nµy mang l¹i lµ nh÷ng
th«ng tin hay tri thøc cÊp cao diÔn t¶ vÒ c¸c ®èi t−îng trong CSDL. Ph−¬ng ph¸p
nµy liªn quan ®Õn viÖc t×m kiÕm c¸c mÉu trong CSDL.
Ph−¬ng ph¸p quy n¹p th−êng ®−îc nãi ®Õn trong kü thuËt c©y quyÕt ®Þnh vµ
t¹o luËt.
1.3.4.2. C©y quyÕt ®Þnh vµ t¹o luËt
• C©y quyÕt ®Þnh: lµ mét d¹ng m« t¶ tri thøc ®¬n gi¶n nh»m ph©n c¸c ®èi t−äng
d÷ liÖu thµnh mét sè líp nhÊt ®Þnh. C¸c nót cña c©y ®−îc g¸n nh·n lµ tªn c¸c thuéc
tÝnh, c¸c cung ®−îc g¾n gi¸ trÞ cã thÓ cña c¸c thuéc tÝnh, c¸c l¸ miªu t¶ c¸c líp kh¸c
nhau. C¸c ®èi t−îng ®−îc ph©n líp theo c¸c ®−êng ®i trªn c©y, qua c¸c cung t−¬ng
øng víi gi¸ trÞ cña thuéc tÝnh cña ®èi t−îng tíi l¸.
VÝ dô: B¶ng d÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis:
Ngµy
Quang c¶nh
NhiÖt ®é
§é Èm
Giã
Ch¬i tennis
D1
N¾ng
Nãng
Cao
Yªó
Kh«ng
D2
N¾ng
Nãng
Cao
M¹nh
Kh«ng
D3
©m u
Nãng
Cao
Yªó
Cã
D4
M−a
Êm ¸p
Cao
Yªó
Cã
D5
M−a
L¹nh
B×nh th−êng
Yªó
Cã
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 21. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
20
D6
M−a
L¹nh
B×nh th−êng
M¹nh
Kh«ng
D7
©m u
L¹nh
B×nh th−êng
M¹nh
Cã
D8
N¾ng
Êm ¸p
Cao
Yªó
Kh«ng
D9
N¾ng
L¹nh
B×nh th−êng
Yªó
Cã
D10
M−a
Êm ¸p
B×nh th−êng
Yªó
Cã
D11
N¾ng
Êm ¸p
B×nh th−êng
M¹nh
Cã
D12
©m u
Êm ¸p
Cao
M¹nh
Cã
D13
©m u
Nãng
B×nh th−êng
Yªó
Cã
D14
M−a
Êm ¸p
Cao
M¹nh
Kh«ng
B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis
Tõ b¶ng d÷ liÖu trªn, ng−êi ta x©y dùng ®−îc c©y quyÕt ®Þnh trî gióp quyÕt ®Þnh
®i hay kh«ng ®i ch¬i tennis nh− sau:
Quang c¶nh
N¾ng
§é Èm
Cao
Kh«ng
M−a
©m u
Giã
Cã
B×nh th−êng
M¹nh
Cã
Kh«ng
YÕu
Cã
H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis
• T¹o luËt: C¸c luËt ®−îc t¹o ra nh»m suy diÔn mét sè mÉu d÷ liÖu cã ý nghÜa
vÒ mÆt thèng kª. C¸c luËt cã d¹ng “NÕu P th× Q”, víi P lµ mÖnh ®Ò ®óng víi mét
phÇn d÷ liÖu cã trong CSDL, Q lµ mÖnh ®Ò dù ®o¸n.
C©y quyÕt ®Þnh vµ luËt cã −u ®iÓm lµ h×nh thøc m« t¶ ®¬n gi¶n, m« h×nh biÓu
diÔn kh¸ dÔ hiÓu ®èi víi ng−êi sö dông. Tuy nhiªn, m« t¶ c©y vµ luËt chØ cã thÓ biÓu
diÔn ®−îc mét sè chøc n¨ng, v× vËy chóng giíi h¹n vÒ ®é chÝnh x¸c cña m« h×nh.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 22. 21
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
1.3.4.3. Ph¸t hiÖn luËt kÕt hîp
Ph−¬ng ph¸p nµy nh»m ph¸t hiÖn c¸c luËt kÕt hîp gi÷a c¸c thµnh phÇn d÷
liÖu trong CSDL. §Çu ra cña thuËt to¸n khai ph¸ d÷ liÖu lµ mét tËp luËt kÕt mµ mçi
luËt cã d¹ng: X => Y (nÕu cã X th× cã Y). KÌm theo mçi luËt t×m ®−îc lµ c¸c tham
sè ®é hç trî vµ ®é tin cËy cña luËt. §é hç trî vµ ®é tin cËy lµ hai ®é ®o chØ sù ®¸ng
quan t©m, ph¶n ¸nh sù h÷u Ých vµ sù ch¾c ch¾n cña luËt, chóng ®−îc tÝnh theo c«ng
thøc:
§é hç trî (Support) = Sè b¶n ghi chøa X / Tæng sè b¶n ghi.
§é tin cËy (Confidence) = Sè b¶n ghi chøa c¶ X vµ Y / Sè b¶n ghi chøa X
VÝ dô: Ph©n tÝch CSDL b¸n hµng, ng−êi ta nhËn ®−îc th«ng tin vÒ nh÷ng kh¸ch
hµng mua m¸y tÝnh ®ång thêi còng cã khuynh h−íng mua phÇn mÒm qu¶n lý tµi
chÝnh trong cïng mét lÇn mua ®−îc m« t¶ trong luËt kÕt hîp nh− sau:
“M¸y tÝnh => PhÇn mÒm qu¶n lý”
[§é hç trî: 2%, ®é tin cËy: 60%]
LuËt trªn thÓ hiÖn cã 2% trªn tæng sè c¸c kh¸ch hµng ®· mua m¸y tÝnh, trong
sè nh÷ng kh¸ch hµng mua m¸y tÝnh, 60% còng mua phÇn mÒm qu¶n lý.
Ph¸t hiÖn c¸c luËt kÕt hîp lµ ph¶i t×m tÊt c¶ c¸c luËt tho¶ m·n ng−ìng ®é tin
cËy vµ ®é hç trî cho tr−íc. ThuËt to¸n t×m c¸c luËt kÕt hîp tr−íc tiªn ph¶i ®i t×m c¸c
tËp môc th−êng xuyªn, sau ®ã tõ c¸c tËp môc th−êng xuyªn t¹o nªn luËt kÕt hîp.
1.3.4.4. Ph©n nhãm vµ ph©n ®o¹n
Kü thuËt ph©n nhãm vµ ph©n ®o¹n lµ nh÷ng kü thuËt ph©n chia d÷ liÖu sao
cho mçi phÇn hoÆc mçi nhãm sÏ gièng nhau theo mét tiªu chuÈn nµo ®ã. Mèi quan
hÖ thµnh viªn cña c¸c nhãm cã thÓ dùa trªn møc ®é gièng nhau cña c¸c thµnh viªn
vµ tõ ®ã x©y dùng nªn c¸c luËt rµng buéc gi÷a c¸c thµnh viªn trong nhãm. Mét kü
thuËt ph©n nhãm kh¸c lµ x©y dùng c¸c hµm ®¸nh gi¸ c¸c thuéc tÝnh cña c¸c thµnh
phÇn nh− lµ hµm cña c¸c tham sè cña c¸c thµnh phÇn. Ph−¬ng ph¸p nµy ®−îc gäi lµ
ph−¬ng ph¸p ph©n ho¹ch tèi −u (optimal partitioning).
MÉu ®Çu ra cña qu¸ tr×nh khai ph¸ d÷ liÖu dïng kü thuËt nµy lµ c¸c tËp mÉu
chøa c¸c d÷ liÖu cã chung nh÷ng tÝnh chÊt nµo ®ã ®−îc ph©n t¸ch tõ CSDL. Khi c¸c
mÉu ®−îc thiÕt lËp, chóng cã thÓ ®−îc sö dông ®Ó t¸i t¹o c¸c tËp d÷ liÖu ë d¹ng dÔ
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 23. 22
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
hiÓu h¬n, ®ång thêi còng cung cÊp c¸c nhãm d÷ liÖu cho c¸c ho¹t ®éng còng nh−
c«ng viÖc ph©n tÝch. §èi víi CSDL lín, viÖc lÊy ra c¸c nhãm nµy lµ rÊt quan träng.
1.3.4.5. C¸c ph−¬ng ph¸p dùa trªn mÉu
Sö dông c¸c mÉu miªu t¶ tõ CSDL ®Ó t¹o nªn mét m« h×nh dù ®o¸n c¸c mÉu
míi b»ng c¸ch rót ra c¸c thuéc tÝnh t−¬ng tù nh− c¸c mÉu ®· biÕt trong m« h×nh.
C¸c kü thuËt ®−îc sö dông bao gåm ph©n líp theo k l¸ng giÒng gÇn nhÊt (K_nearest
neighbour), c¸c gi¶i thuËt håi quy vµ c¸c hÖ thèng suy diÔn dùa trªn t×nh huèng
(case based reasoning).
1.3.4.6. M« h×nh phô thuéc dùa trªn ®å thÞ x¸c suÊt
C¸c m« h×nh ®å thÞ x¸c ®Þnh sù phô thuéc x¸c suÊt gi÷a c¸c sù kiÖn th«ng
qua mèi liªn hÖ trùc tiÕp theo c¸c cung cña ®å thÞ. ë d¹ng ®¬n gi¶n nhÊt, m« h×nh
x¸c ®Þnh nh÷ng biÕn nµo phô thuéc nhau mét c¸ch trùc tiÕp. M« h×nh phô thuéc dùa
trªn ®å thÞ x¸c suÊt th−êng ®−îc sö dông víi c¸c biÕn cã gi¸ trÞ rêi r¹c hoÆc ph©n
lo¹i. Tuy nhiªn, c¸c m« h×nh nµy còng ®−îc më réng cho mét sè tr−êng hîp ®Æc biÖt
nh− mËt ®é Gaussian hoÆc cho c¸c biÕn cã gi¸ trÞ thùc.
1.3.4.7. M« h×nh häc quan hÖ
MÉu chiÕt suÊt ®−îc b»ng c¸c luËt suy diÔn vµ c©y quyÕt ®Þnh g¾n chÆt víi
mÖnh ®Ò logic, cßn m« h×nh häc quan hÖ (cßn gäi lµ lËp tr×nh logic quy n¹p) sö dông
ng«n ng÷ mÉu theo thø tù logic tr−íc (first – order logic) kh¸ linh ho¹t. M« h×nh nµy
cã thÓ dÔ dµng t×m ra c«ng thøc X=Y. Cho ®Õn nay, hÇu hÕt c¸c nghiªn cøu vÒ c¸c
ph−¬ng ph¸p ®¸nh gi¸ m« h×nh häc quan hÖ ®Òu theo logic trong tù nhiªn.
1.3.4.8. Khai ph¸ d÷ liÖu v¨n b¶n (Text Mining)
Khai ph¸ d÷ liÖu v¨n b¶n phï hîp víi viÖc t×m kiÕm, ph©n tÝch vµ ph©n lîp
c¸c d÷ liÖu v¨n b¶n kh«ng ®Þnh d¹ng. C¸c lÜnh vùc øng dông cña khai ph¸ d÷ liÖu
v¨n b¶n nh− nghiªn cøu thÞ tr−êng, thu nhËp, t×nh b¸o, .... Ph−¬ng ph¸p nµy ®−îc sö
dông ®Ó ph©n tÝch c©u tr¶ lêi cho c¸c c©u hái më trong kh¶o s¸t thÞ tr−êng, t×m kiÕm
c¸c tµi liÖu phøc t¹p.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 24. 23
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
1.3.4.9. M¹ng n¬ron
M¹ng n¬ron lµ c¸ch tiÕp cËn tÝnh to¸n míi liªn quan ®Õn viÖc ph¸t triÓn c¸c
cÊu tróc to¸n häc víi kh¶ n¨ng häc. M¹ng n¬ron lµ kÕt qu¶ cña viÖc nghiªn cøu m«
h×nh häc cña hÖ thÇn kinh con ng−êi. M¹ng cã thÓ ®−a ra ý nghÜa tõ c¸c d÷ liÖu phøc
t¹p hoÆc kh«ng chÝnh x¸c vµ cã thÓ ®−îc sö dông ®Ó chiÕt suÊt c¸c mÉu vµ ph¸t hiÖn
ra c¸c xu h−íng phøc t¹p mµ con ng−êi còng nh− c¸c kü thuËt m¸y tÝnh kh¸c kh«ng
thÓ ph¸t hiÖn ®−îc.
Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng
n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n trong viÖc ¸p dông vµ triÓn
khai nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè nh÷ng −u ®iÓm ®ã lµ
kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ ¸p dông ®−îc cho
rÊt nhiÒu bµi to¸n kh¸c nhau ®¸p øng ®−îc nhiÖm vô ®Æt ra cña khai ph¸ d÷ liÖu nh−
ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô thuéc vµo thêi gian, ....
1.3.4.10. Gi¶i thuËt di truyÒn
Gi¶i thuËt di truyÒn chÝnh lµ sù m« pháng l¹i qu¸ tr×nh tiÕn ho¸ di truyÒn
trong tù nhiªn. Mét c¸ch chÝnh x¸c th× ®ã lµ gi¶i thuËt chØ ra tËp c¸c c¸ thÓ ®−îc
h×nh thµnh, −íc l−îng vµ biÕn ®æi nh− thÕ nµo. Cô thÓ lµ c¸c vÊn ®Ò nh− lµm thÕ nµo
®Ó lùa chän c¸c c¸ thÓ t¸i t¹o vµ c¸c c¸ thÓ nµo sÏ bÞ lo¹i bá, qu¸ tr×nh lai ghÐp vµ
®ét biÕn sÏ diÔn ra nh− thÕ nµo? Gi¶i thuËt còng m« pháng l¹i yÕu tè gien trong
nhiÔm s¾c thÓ sinh häc trªn m¸y tÝnh ®Ó cã thÓ gi¶i quyÕt ®−îc c¸c bµi to¸n thùc tÕ
kh¸c nhau.
Gi¶i thuËt di truyÒn lµ mét gi¶i thuËt tèi −u ho¸, ®−îc sö dông réng r·i trong
viÖc tèi −u ho¸ c¸c kü thuËt khai ph¸ d÷ liÖu trong ®ã cã kü thuËt m¹ng n¬ron. Sù
liªn hÖ cña gi¶i thuËt di truyÒn víi c¸c gi¶i thuËt khai ph¸ lµ ë chç viÖc tèi −u ho¸ rÊt
cÇn thiÕt cho qu¸ tr×nh khai ph¸ d÷ liÖu, vÝ dô nh− trong c¸c kü thuËt c©y quyÕt ®Þnh,
t¹o luËt, ....
VÊn ®Ò lùa chän ph−¬ng ph¸p:
Qua phÇn tr×nh bÇy trªn, ta nhËn thÊy cã rÊt nhiÒu ph−¬ng ph¸p khai ph¸ d÷
liÖu. Mçi ph−¬ng ph¸p cã nh÷ng ®Æc ®iÓm riªng phï hîp víi mét líp c¸c bµi to¸n,
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 25. 24
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
víi c¸c d¹ng d÷ liÖu vµ miÒn d÷ liÖu nhÊt ®Þnh. HiÖn ng−êi ta vÉn ch−a ®−a ra ®−îc
mét tiªu chuÈn nµo trong viÖc quyÕt ®Þnh sö dông ph−¬ng ph¸p khai ph¸ nµo trong
tr−êng hîp nµo th× hiÖu qu¶.
HÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu ®Òu cßn míi mÎ víi lÜnh vùc kinh
doanh. H¬n n÷a, l¹i cã rÊt nhiÒu kü thuËt, mçi kü thuËt ®−îc sö dông cho nhiÒu bµi
to¸n kh¸c nhau. V× vËy, tr¶ lêi cho c©u hái “Dïng kü thuËt nµo?” lµ mét vÊn ®Ò
kh«ng ®¬n gi¶n. Mçi kü thuËt ®Òu cã ®iÓm m¹nh vµ ®iÓm yÕu nhÊt ®Þnh, nªn vÊn ®Ò
®èi víi ng−êi sö dông lµ ph¶i lùa chän vµ ¸p dông c¸c kü thuËt mét c¸ch thËt ®¬n
gi¶n, dÔ sö dông ®Ó kh«ng c¶m thÊy nh÷ng phøc t¹p vèn cã cña kü thuËt ®ã.
1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü
thuËt khai ph¸ d÷ liÖu
1.3.5.1. ¦u thÕ cña khai ph¸ d÷ liÖu so víi c¸c ph−¬ng ph¸p c¬ b¶n
Khai ph¸ d÷ liÖu lµ lÜnh vùc liªn quan tíi rÊt nhiÒu ngµnh häc kh¸c nh−: hÖ
CSDL, thèng kª, hiÓn thÞ trùc quan ho¸,... H¬n n÷a, tuú vµo c¸ch tiÕp cËn, khai ph¸
d÷ liÖu cßn cã thÓ ¸p dông mét sè kü thuËt nh− m¹ng n¬ron, lü thuyÕt tËp th« hoÆc
tËp mê, biÓu diÔn tri thøc,... Tuy nhiªn, khai ph¸ d÷ liÖu cã mét sè −u ®iÓm râ rÖt so
víi c¸c ph−¬ng ph¸p c¬ b¶n kh¸c, cô thÓ nh− sau:
• So víi ph−¬ng ph¸p häc m¸y, khai ph¸ d÷ liÖu cã lîi thÕ h¬n ë chç nã cã thÓ
sö dông c¸c CSDL chøa nhiÔu, d÷ liÖu kh«ng ®Çy ®ñ hoÆc biÕn ®æi liªn tôc. Trong
khi ph−¬ng ph¸p häc m¸y chñ yÕu ®−îc ¸p dông trong nh÷ng CSDL ®Çy ®ñ, Ýt biÕn
®éng vµ tËp d÷ liÖu kh«ng qu¸ lín.
• Ph−¬ng ph¸p hÖ chuyªn gia: ph−¬ng ph¸p nµy kh¸c víi khai ph¸ d÷ liÖu ë chç
c¸c vÝ dô cña chuyªn gia th−êng ë møc chÊt l−îng cao h¬n nhiÒu so víi d÷ liÖu
trong CSDL vµ chóng chØ bao hµm c¸c tr−êng hîp quan träng. H¬n n÷a, c¸c chuyªn
gia sÏ x¸c nhËn gi¸ trÞ vµ tÝnh h÷u Ých cña c¸c mÉu ph¸t hiÖn ®−îc vµ nh− thÕ ®ßi hái
ph¶i cã sù tham gia cña con ng−êi trong viÖc ph¸t hiÖn tri thøc.
• Ph−¬ng ph¸p thèng kª lµ mét trong nh÷ng nÒn t¶ng lý thuyÕt cña khai ph¸ d÷
liÖu, nh−ng khi so s¸nh chóng víi nhau, cã thÓ thÊy ph−¬ng ph¸p thèng kª cßn cã
mét sè ®iÓm yÕu mµ khai ph¸ d÷ liÖu ®· kh¾c phôc ®−îc:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 26. 25
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
- C¸c ph−¬ng ph¸p thèng kª chuÈn kh«ng phï hîp víi c¸c kiÓu d÷ liÖu cã cÊu
tróc trong rÊt nhiÒu c¸c CSDL.
- C¸c ph−¬ng ph¸p thèng kª ho¹t ®éng hoµn toµn theo d÷ liÖu, nã kh«ng sö
dông tri thøc s½n cã vÒ lÜnh vùc.
- KÕt qu¶ ph©n tÝch cña thèng kª cã thÓ sÏ rÊt nhiÒu vµ khã cã thÓ lµm râ ®−îc.
- Ph−¬ng ph¸p thèng kª cÇn cã sù h−íng dÉn cña ng−êi dïng ®Ó x¸c ®Þnh ph©n
tÝch d÷ liÖu nh− thÕ nµo vµ ë ®©u.
1.3.5.2. Nh÷ng vÊn ®Ò khã kh¨n th¸ch thøc
MÆc dï khai ph¸ d÷ liÖu lµ mét kü thuËt khai ph¸ tri thøc hiÖu qu¶, nh−ng
còng béc lé nhiÒu khã kh¨n. Nh÷ng khã kh¨n ®ã chÝnh lµ nh÷ng th¸ch thøc lín
trong qu¸ tr×nh nghiªn cøu vµ øng dông c¸c kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ.
C¸c vÊn ®Ò vÒ c¬ së d÷ liÖu:
§Çu vµo cña hÖ thèng ph¸t hiÖn tri thøc chñ yÕu lµ c¸c d÷ liÖu th« trong
CSDL. Nh÷ng vÊn ®Ò ph¸t sinh trong qu¸ tr×nh khai ph¸ d÷ liÖu chÝnh tõ c¸c nguyªn
nh©n lµ d÷ liÖu trong thùc tÕ th−êng ®éng, kh«ng ®Çy ®ñ, lín vµ bÞ nhiÔu. Trong mét
sè tr−êng hîp, ng−êi ta kh«ng biÕt d÷ liÖu cã chøa th«ng tin cÇn thiÕt cho viÖc khai
th¸c hay kh«ng vµ lµm thÕ nµo ®Ó gi¶i quyÕt sù d− thõa nh÷ng th«ng tin kh«ng thÝch
hîp.
• VÊn ®Ò d÷ liÖu lín: C¸c CSDL th«ng th−êng lµ rÊt lín, víi hµng tr¨m tr−êng
vµ b¶ng cã hµng triÖu b¶n ghi. Khi ®ã kÝch th−íc l−u tr÷ còng rÊt lín, hµng
gigabytes thËm chÝ terabytes. Do ®ã, lµm t¨ng kh«ng gian t×m kiÕm, t¨ng qu¸ tr×nh
suy diÔn, ®ång thêi còng lµm t¨ng kh¶ n¨ng gi¶i thuËt khai ph¸ d÷ liÖu t×m ®−îc c¸c
mÉu gi¶. Ph−¬ng ph¸p kh¾c phôc vÊn ®Ò nµy hiÖn nay lµ ®−a ra mét ng−ìng cho
CSDL, lÊy mÉu, c¸c ph−¬ng ph¸p xÊp xØ, xö lý song song, gi¶m kÝch th−íc t¸c ®éng
cña bµi to¸n vµ sö dông c¸c tri thøc ®· biÕt tr−íc ®Ó x¸c ®Þnh c¸c biÕn kh«ng phï
hîp.
• VÊn ®Ò d÷ liÖu ®éng: HÇu hÕt c¸c CSDL cã néi dung thay ®æi liªn tôc theo thêi
gian vµ viÖc khai ph¸ d÷ liÖu bÞ ¶nh h−ëng bëi thêi ®iÓm quan s¸t. ViÖc thay ®æi d÷
liÖu nhanh chãng cã thÓ lµm cho c¸c mÉu khai ph¸ ®−îc tr−íc ®ã mÊt gi¸ trÞ. H¬n
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 27. 26
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
n÷a, c¸c biÕn trong CSDL cña øng dông cã thÓ bÞ thay ®æi, bÞ xo¸ hoÆc t¨ng lªn theo
thêi gian. VÊn ®Ò nµy ®−îc gi¶i quyÕt b»ng gi¶i ph¸p t¨ng tr−ëng ®Ó n©ng cÊp c¸c
mÉu vµ coi nh÷ng thay ®æi nh− lµ c¬ héi ®Ó khai th¸c b»ng c¸ch sö dông nã ®Ó t×m
kiÕm c¸c mÉu bÞ thay ®æi.
• VÊn ®Ò c¸c tr−êng kh«ng phï hîp: Mét ®Æc ®iÓm quan träng kh¸c lµ tÝnh
kh«ng thÝch hîp cña d÷ liÖu, nghÜa lµ d÷ liÖu trë thµnh kh«ng thÝch hîp víi môc tiªu
träng t©m hiÖn t¹i cña viÖc khai ph¸. Mét khÝa c¹nh kh¸c ®«i khi còng liªn quan ®Õn
®é phï hîp lµ tÝnh øng dông cña mét thuéc tÝnh ®èi víi mét tËp con cña CSDL.
• VÊn ®Ò c¸c tr−êng hay c¸c gi¸ trÞ bÞ thiÕu: Mét quan s¸t kh«ng ®Çy ®ñ cña
CSDL cã thÓ lµm cho d÷ liÖu cã gi¸ trÞ bÞ xem nh− lµ cã lçi. ViÖc quan s¸t CSDL
ph¶i ph¸t hiÖn ®−îc toµn bé c¸c thuéc tÝnh cã thÓ dïng ®Ó khai ph¸ d÷ liÖu trong bµi
to¸n. Gi¶ sö ta cã c¸c thuéc tÝnh ®Ó ph©n biÖt c¸c t×nh huèng ®¸ng quan t©m, nÕu
chóng kh«ng thÓ hiÖn ®−îc ®iÒu ®ã th× cã nghÜa lµ ®· cã lçi trong d÷ liÖu. §©y còng
lµ vÊn ®Ò th−êng x¶y ra trong CSDL kinh doanh, c¸c thuéc tÝnh quan träng cã thÓ bÞ
thiÕu d÷ liÖu, kh«ng s½n sµng cho viÖc khai ph¸ d÷ liÖu.
• §é nhiÔu vµ kh«ng ch¾c ch¾n: §é nhiÔu cña d÷ liÖu (®é chÝnh x¸c, dung sai,
...) còng lµ mét nh©n tè ¶nh h−ëng ®Õn qu¸ tr×nh khai ph¸ d÷ liÖu.
• Mèi quan hÖ phøc t¹p gi÷a c¸c tr−êng: c¸c thuéc tÝnh hoÆc c¸c gi¸ trÞ d÷ liÖu
cã cÊu tróc ph©n cÊp, c¸c mèi quan hÖ gi÷a c¸c thuéc tÝnh ®Ó diÔn t¶ tri thøc vÒ néi
dung cña CSDL dÉn tíi c¸c gi¶i thuËt ph¶i cã kh¶ n¨ng khai ph¸ mét c¸ch hiÖu qu¶
c¸c d÷ liÖu nµy.
Mét sè vÊn ®Ò kh¸c:
• Qu¸ phï hîp: Khi mét thuËt to¸n t×m kiÕm c¸c tham sè tèt nhÊt cho mét m«
h×nh nµo ®ã sö dông mét tËp d÷ liÖu h÷u h¹n, cã thÓ x¶y ra t×nh tr¹ng “qu¸ ®é”,
nghÜa lµ chØ phï hîp víi mét tËp d÷ liÖu mµ kh«ng cã kh¶ n¨ng ®¸p øng víi c¸c d÷
liÖu l¹. §iÒu ®ã lµm cho m« h×nh ho¹t ®éng rÊt kÐm víi c¸c d÷ liÖu thö. Cã thÓ kh¾c
phôc b»ng c¸ch ®¸nh gi¸ chÐo, thùc hiÖn theo nguyªn t¾c nµo ®ã hoÆc sö dông c¸c
biÖn ph¸p thèng kª kh¸c.
• Kh¶ n¨ng biÓu ®¹t mÉu: trong rÊt nhiÒu øng dông, ®iÒu quan träng lµ nh÷ng
mÉu khai th¸c ®−îc ph¶i cµng dÔ hiÓu ®èi víi con ng−êi cµng tèt. V× vËy, c¸c gi¶i
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 28. 27
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
ph¸p th−êng lµ diÔn t¶ d−íi d¹ng ®å ho¹, x©y dùng cÊu tróc luËt víi c¸c ®å thÞ cã
h−íng, biÓu diÔn b»ng ng«n ng÷ tù nhiªn vµ c¸c kü thuËt kh¸c nh»m biÓu diÔn tri
thøc vµ d÷ liÖu.
• T−¬ng t¸c víi ng−êi sö dông vµ c¸c tri thøc s½n cã: rÊt nhiÒu c«ng cô vµ
ph−¬ng ph¸p khai ph¸ d÷ liÖu kh«ng thùc sù t−¬ng t¸c víi ng−êi dïng vµ kh«ng dÔ
dµng kÕt hîp cïng víi c¸c tri thøc ®· biÕt tr−íc ®ã. ViÖc sö dông tri thøc miÒn lµ rÊt
quan träng trong khai ph¸ d÷ liÖu. §· cã nhiÒu biÖn ph¸p nh»m kh¾c phôc vÊn ®Ò
nµy nh− sö dông CSDL suy diÔn ®Ó ph¸t hiÖn tri thøc, sau ®ã sö dông nh÷ng tri thøc
ph¸t hiÖn ®−îc ®Ó h−íng dÉn cho viÖc t×m kiÕm khai ph¸ d÷ liÖu hoÆc sö dông sù
ph©n bè x¸c suÊt d÷ liÖu tr−íc ®ã nh− mét d¹ng m· ho¸ d÷ liÖu cã s½n.
KÕt luËn ch−¬ng 1
Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL lµ qu¸ t×nh rót ra nh÷ng tri thøc cã
Ých, tiÒm tµng trong CSDL. Qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu
giai ®o¹n kh¸c nhau trong ®ã, khai ph¸ d÷ liÖu lµ giai ®o¹n quan träng nhÊt, ®ãng
vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh cña KDD. NhiÖm vô
cña khai ph¸ d÷ liÖu lµ kh¸m ph¸ c¸c mÉu cã Ých tõ nguån d÷ liÖu, trong ®ã, d÷ liÖu
cã thÓ ®−îc l−u tr÷ trong c¸c CSDL, kho d÷ liÖu. Ch−¬ng nµy còng tr×nh bµy c¸c
nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh−
c¸c vÊn ®Ò th¸ch thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo
thùc tÕ.
Trong c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu ®· giíi thiÖu, m¹ng n¬ron vµ gi¶i
thuËt di truyÒn lµ c¸c kü thuËt khai ph¸ ®ang ®−îc quan t©m nghiªn cøu m¹nh mÏ.
Ch−¬ng sau sÏ tr×nh bÇy chi tiÕt h¬n vÒ kü thuËt khai ph¸ d÷ liÖu dïng m¹ng n¬ron
vµ gi¶i thuËt di truyÒn.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 29. 28
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Ch−¬ng 2:
Kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng
n¬ron vµ gi¶i thuËt di truyÒn
2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu
Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng
n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n cho qu¸ tr×nh ¸p dông vµ
triÓn khai, nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè c¸c −u ®iÓm ph¶i
kÓ ®Õn lµ m¹ng cã kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ
¸p dông cho rÊt nhiÒu lo¹i bµi to¸n kh¸c nhau, ®¸p øng ®−îc c¸c nhiÖm vô ®Æt ra cña
khai ph¸ d÷ liÖu nh− ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô
thuéc thêi gian,....
2.1.1. Kh¸i niÖm m¹ng n¬ron
M¹ng n¬ron nh©n t¹o (Artficial Neural Network - ANN) lµ hÖ thèng ®−îc
x©y dùng m« pháng theo c¸c chøc n¨ng cña mét m¹ng n¬ron sinh häc nãi chung,
hay m¹ng n¬ron sinh häc cña con ng−êi nãi riªng. Trong luËn v¨n nµy, khi nãi ®Õn
m¹ng n¬ron cã nghÜa lµ m¹ng n¬ron nh©n t¹o, bëi v× trong thùc tÕ, m¹ng n¬ron sinh
häc (Biological Neural Network - BNN) cã cÊu t¹o phøc t¹p h¬n nhiÒu so víi m¹ng
n¬ron nh©n t¹o mµ ta ®Ò cËp ®Õn. Thùc chÊt, m¹ng n¬ron nh©n t¹o lµ c¸c m« h×nh
to¸n häc mµ con ng−êi x©y dùng nªn. Cho ®Õn nay, ch−a cã mét ®Þnh nghÜa tæng
qu¸t nµo vÒ m¹ng n¬ron, song phÇn lín nh÷ng nhµ nghiªn cøu trong lÜnh vùc nµy
®Òu thèng nhÊt víi kh¸i niÖm:
M¹ng n¬ron lµ mét hÖ thèng gåm nhiÒu phÇn tö xö lý ®¬n gi¶n gäi lµ c¸c
n¬ron ®−îc liªn kÕt víi nhau vµ cïng ho¹t ®éng song song. TÝnh n¨ng ho¹t ®éng cña
m¹ng phô thuéc vµo cÊu tróc m¹ng, träng sè liªn kÕt gi÷a c¸c n¬ron vµ qu¸ tr×nh xö
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 30. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
29
lý bªn trong c¸c n¬ron. Ngoµi chøc n¨ng xö lý, hÖ thèng cßn cã kh¶ n¨ng häc sè
liÖu vµ tæng qu¸t ho¸ tõ c¸c sè liÖu ®· häc.
Chóng ta sÏ lÇn l−ît ph©n tÝch m« h×nh n¬ron sinh häc, sau ®ã lµ m« h×nh
n¬ron nh©n t¹o ®Ó dÔ dµng thÊy ®−îc sù t−¬ng quan nµy, ®ång thêi hiÓu râ h¬n vÒ
m¹ng n¬ron nh©n t¹o.
2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc
HÖ thÇn kinh con ng−êi cã kho¶ng 1010 tÕ bµo thÇn kinh ®−îc gäi lµ c¸c n¬
ron, mçi n¬ron cã thÓ liªn kÕt víi 104 n¬ron kh¸c th«ng qua c¸c khíp nèi [12].
Khíp nèi (Synaspe)
Khíp nèi (Synaspe)
Trôc (Axon)
Nh©n
(Soma)
H×nh 2.1: CÊu t¹o cña n¬ron
Mçi n¬ ron gåm cã ba phÇn: th©n n¬ ron cã nhiÖm vô tiÕp nhËn hay ph¸t ra
c¸c xung thÇn kinh, bªn trong cã nh©n (Soma), hÖ thèng d©y thÇn kinh vµo
(dendrites- cßn gäi lµ c¸c nh¸nh thô gi¸c) vµ mét ®Çu d©y thÇn kinh ra (sîi trôc axon
– nh¸nh trùc gi¸c) ®Ó dÉn truyÒn c¸c xung thÇn kinh. C¸c ®Çu d©y thÇn kinh vµo
nhËn tÝn hiÖu tõ c¸c n¬ron kh¸c, nh©n n¬ron sÏ sinh ra tÝn hiÖu ë ®Çu ra cña n¬ron vµ
truyÒn tíi c¸c n¬ron kh¸c ®−îc nèi víi ®Çu ra qua trôc.
§é lín cña c¸c tÝn hiÖu vµo cã thÓ bÞ thay ®æi khi ®−îc truyÒn qua c¸c khíp
thÇn kinh cã trªn c¸c nh¸nh thÇn kinh vµo. Tû lÖ biÕn ®æi tÝn hiÖu ë khíp thÇn kinh
®−îc gäi lµ ®é khuyÕch ®¹i khíp vµ ®−îc gäi lµ c¸c träng sè trong c¸c n¬ ron nh©n
t¹o.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 31. 30
s
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
TÝn hiÖu vµo tõ n¬ron l©n cËn
víi c−êng ®é s
Khíp thÇn kinh víi ®é khuÕch ®¹i
khíp w
w
p = ws
TÝn hiÖu p tíi n¬ron sau khi ®i
qua khíp thÇn kinh
H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron
Theo c¸c nghiªn cøu vÒ sinh häc, chøc n¨ng cña hÖ thÇn kinh kh«ng phô
thuéc nhiÒu vµo vai trß cña tõng n¬ ron ®¬n lÎ mµ phô thuéc vµo c¸ch mµ toµn bé
c¸c n¬ ron ®−îc nèi víi nhau, gäi lµ m¹ng n¬ ron sinh häc [12].
TÊt c¶ c¸c ®Æc ®iÓm trªn ®Òu ®−îc vËn dông mét c¸ch triÖt ®Ó trong viÖc x©y
dùng mét m¹ng nh©n t¹o nh»m t¹o ra mét m¹ng n¬ron gièng víi m¹ng n¬ron sinh
häc nhÊt.
2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o
2.1.3.1. N¬ron nh©n t¹o
Gièng nh− n¬ron sinh häc, mçi n¬ron nh©n t¹o ®−îc nèi víi c¸c n¬ron kh¸c
vµ nhËn tÝn hiÖu tõ chóng víi c¸c träng sè liªn kÕt.
Mét n¬ron nh©n t¹o ph¶n ¸nh c¸c tÝnh chÊt c¬ b¶n cña n¬ron sinh häc ®−îc
m« pháng trong h×nh 2.3.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 32. 31
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
§é lÖch
Bias bk
wk1
x1
Hµm truyÒn
(Activation function)
TÝn hiÖu vµo
(Input signal)
wk2
x2
f (.)
∑
…
TÝn hiÖu ra
(Output)
wkn
xn
H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o
+ §Çu vµo cña n¬ron gåm n tÝn hiÖu x = (x1, x2, …, xn), ®Çu ra lµ tÝn hiÖu y =
(y1, y2, …, ym).
+ Mét tËp c¸c khíp nèi vµ träng sè t−¬ng øng wki, tÝn hiÖu vµo xi cña khíp
nèi thø i cña n¬ron k ®−îc nh©n víi träng sè wki.
+ Mét bé céng ∑ thùc hiÖn trªn c¸c träng sè cña c¸c khíp nèi th−êng ®−îc
gäi lµ bé kÕt hîp tuyÕn tÝnh.
+ Mét hµm chuÈn khèng chÕ gi¸ trÞ ®Çu ra cña m¹ng n¬ron ®−îc gäi lµ hµm
truyÒn hay hµm kÝch ho¹t. Th«ng th−êng,tÝn hiÖu ®Çu ra cña mét n¬ron trong
kho¶ng [0, 1] hoÆc [-1, 1].
Tr¹ng th¸i bªn trong cña n¬ron ®−îc x¸c ®Þnh qua bé tæng c¸c ®Çu vµo cã
träng sè w (i=1, 2, .., n). §Çu ra y ®−îc x¸c ®Þnh qua hµm phi tuyÕn f
Nh− vËy, m« h×nh to¸n häc cña n¬ron nh©n t¹o k tÝnh to¸n t¹i thêi ®iÓm t nh−
sau:
net (t ) = ∑i =1 wki xi (t ) + bk y k (t ) = f
n
Trong ®ã:
(∑
n
i =1
wki xi (t ) + bk
)
lµ tÝn hiÖu tæng hîp ®Çu vµo,
bk lµ ®é lÖch bias.
§Çu ra th−êng ®−îc ký hiÖu lµ out = y(t)=f(net)
TÝn hiÖu vµo ®−îc xö lý nhê hµm kÝch ho¹t (activation function) hay cßn gäi
lµ hµm truyÒn (trasfer function) ®Ó t¹o tÝn hiÖu ra, tÝn hiÖu ra sÏ ®−îc truyÒn ®i nÕu
kh¸c 0. Tãm l¹i, cã thÓ xem n¬ron lµ mét hµm phi tuyÕn nhiÒu ®Çu vµo vµ mét ®Çu
ra.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 33. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
32
2.1.3.2. Hµm truyÒn trong n¬ron
CÊu tróc cña m¹ng n¬ron chñ yÕu ®−îc ®Æc tr−ng bëi lo¹i cña c¸c n¬ron vµ
mèi liªn hÖ xö lý th«ng tin gi÷a chóng. VÒ cÊu tróc cña n¬ron, chñ yÕu ng−êi ta
quan t©m tíi c¸ch tæng hîp c¸c tÝn hiÖu vµo, ng−ìng t¹i mçi n¬ron vµ c¸c hµm
truyÒn.
Hµm truyÒn x¸c ®Þnh møc ®é liªn kÕt bªn trong c¸c n¬ron. Hµm truyÒn cã
nhiÖm vô t¹o møc ®é kÝch thÝch cña n¬ron, tõ ®ã sÏ lµm h−ng phÊn hoÆc øc chÕ c¸c
n¬ron kh¸c trong m¹ng.
Trong lý thuyÕt m¹ng n¬ron, phÐp tæng hîp tÝn hiÖu ®Çu vµo cña n¬ron i cã m
tÝn hiÖu ®Çu vµo xj th−êng ®−îc ký hiÖu:
net i = ∑ j =1 wij x j ; wij = (wi1, wi2, …, wim)
m
TÝn hiÖu ra t¹i n¬ron i th−êng ký hiÖu lµ outi hoÆc fi, ®−îc tÝnh theo c«ng thøc sau
víi f lµ hµm truyÒn:
outi(t) =f (neti(t))
Cã nhiÒu hµm truyÒn kh¸c nhau ®−îc sö dông trong tõng tr−êng hîp cô thÓ,
c¸c hµm truyÒn nãi chung nªn tho¶ m·n c¸c tÝnh chÊt sau:
♦ BÞ chÆn: f ( x) ≤ M , ∀x
♦ §¬n ®iÖu t¨ng: f ( x1 ) > f ( x 2 ), ∀x1 > x 2
♦ Kh¶ vi liªn tôc: f(x) cã ®¹o hµm f’(x) vµ f’(x) lµ hµm liªn tôc
Trong thùc tÕ, khi xÐt c¸c n¬ron, chóng chØ cã thÓ cã hai tr¹ng th¸i lµ bÞ kÝch
ho¹t hoÆc kh«ng bÞ kÝch ho¹t. NghÜa lµ tÝn hiÖu ra mét cña n¬ron cÇn ph¶i ®¶m b¶o
sao cho cã thÓ nhËn biÕt ®−îc n¬ron ®ã cã bÞ kÝch ho¹t hay kh«ng. V× lý do ®ã, hµm
truyÒn ph¶i tho¶ m·n ®iÒu kiÖn tÝn hiÖu ra cuèi cïng cña n¬ron ph¶i liªn tôc vµ n»m
trong mét giíi h¹n x¸c ®Þnh (cã thÓ lµ gi÷a 0 vµ 1). Cã mét sè d¹ng hµm truyÒn
th−êng ®−îc sö dông sau:
⎧1, if ( x ≥ θ )
⎩0, if ( x < θ )
Hµm ranh giíi cøng (Hard – limiter): f ( x) = ⎨
⎧1, if ( x ≥ θ )
⎩− 1, if ( x < θ )
Hµm ranh giíi cøng ®èi xøng: f ( x) = ⎨
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 34. 33
Hµm Gauss:
f ( x) = e − x
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
2
Hµm Sigmoidal hay hµm logicstic (cßn gäi lµ hµm ch÷ S): f ( x) =
1
1 + e−x
f(x)
1.0
0.5
x
H×nh 2.4: Hµm Sigmoidal
Hµm Sigmoidal lµ hµm th−êng ®−îc sö dông nhiÒu nhÊt trong c¸c lo¹i m¹ng
n¬ron, bëi gi¸ trÞ cña hµm lµ liªn tôc trong kho¶ng (0,1). TÝn hiÖu ra cña hµm cã hai
tr¹ng th¸i æn ®Þnh vµ mét vïng chuyÓn ®æi. N¬ron cã hµm kÝch ho¹t sigmoidal sÏ
sinh gi¸ trÞ thùc bÊt kú gi÷a gi¸ trÞ lín nhÊt 1.0 vµ gi¸ trÞ nhá nhÊt 0. Output d¹ng
sigmoidal cã gi¸ trÞ > 0.8 ®−îc coi nh− output kÝch ho¹t. NÕu cã gi¸ trÞ < 0.2 coi nh−
gi¸ trÞ kh«ng kÝch ho¹t. C¸c gi¸ trÞ output n»m trong kho¶ng 0.2 ®Õn 0.8 lµ trong
vïng chuyÓn ®æi. Khi Net cã gi¸ trÞ ©m lín, hµm sÏ tr¶ l¹i gi¸ trÞ 0, khi Net cã gi¸ trÞ
d−¬ng lín, hµm sÏ tr¶ l¹i gi¸ trÞ 1, ®ã lµ c¸c gi¸ trÞ th−êng ®−îc dïng ®Ó biÓu diÔn
c¸c kÕt qu¶ ®óng, sai.
Hµm sigmoidal cã thÓ dïng ®Ó ph¸t hiÖn c¸c ®Æc tr−ng cña d÷ liÖu vµ dïng
cho môc ®Ých ph©n líp d÷ liÖu.
2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron
Khi xÐt m¹ng n¬ron sinh häc ng−êi ta nhËn thÊy: c¸c tÝn hiÖu do c¸c n¬ron
t¹o ra rÊt gièng nhau vµ hÇu nh− kh«ng thÓ ph©n biÖt ®−îc cho dï ®ã lµ n¬ron cña
lo¹i sinh vËt nµo. Râ rµng c−êng ®é tÝn hiÖu ®−îc t¹o ra bëi c¸c n¬ron cã thÓ kh¸c
nhau phô thuéc vµo c−êng ®é kÝch thÝch nh−ng bÒ ngoµi cña c¸c tÝn hiÖu l¹i rÊt
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 35. 34
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
gièng nhau. §iÒu ®ã chøng tá r»ng viÖc thùc hiÖn chøc n¨ng cña bé n·o kh«ng phô
thuéc qu¸ nhiÒu vµo vai trß cña mét n¬ron ®¬n lÎ mµ phô thuéc vµo toµn bé hÖ
thèng n¬ron. NghÜa lµ phô thuéc vµo c¸ch liªn kÕt gi÷a c¸c n¬ron, hay cã thÓ nãi
viÖc thùc hiÖn c¸c chøc n¨ng phô thuéc vµo cÊu tróc cña m¹ng n¬ron.
Trong m« h×nh m¹ng n¬ron nh©n t¹o, c¸c n¬ron ®−îc nèi víi nhau bëi c¸c
liªn kÕt n¬ron, mçi liªn kÕt cã mét träng sè ®Æc tr−ng cho ®Æc tÝnh kÝch ho¹t hay øc
chÕ gi÷a c¸c n¬ron. §ång thêi, c¸c n¬ron ®−îc nhãm l¹i víi nhau theo cÊu tróc ph©n
líp, bao gåm: líp vµo (input layer), líp ra (output layer) vµ líp Èn (hidden layer).
Líp vµo: C¸c nót trong líp vµo gäi lµ c¸c nót vµo, chóng m· ho¸ mÉu ®−îc
®−a vµo m¹ng xö lý. C¸c n¬ron vµo kh«ng xö lý th«ng tin, chØ ph©n t¸n th«ng tin
cho nót kh¸c (trªn biÓu ®å chóng ®−îc vÏ kh¸c c¸c nót Èn vµ c¸c nót ra ®Ó ph©n biÖt
gi÷a c¸c nót cã xö lý vµ kh«ng xö lý th«ng tin)
Líp Èn: C¸c n¬ron trong líp Èn gäi lµ c¸c nót Èn v× chóng kh«ng thÓ quan
s¸t ®−îc trùc tiÕp. Chóng t¹o thµnh c¸c m« h×nh to¸n häc phi tuyÕn cho m¹ng.
Líp ra: C¸c n¬ron trong líp nµy gäi lµ c¸c nót ra, chóng cã nhiÖm vô ®−a
th«ng tin ra thÝch nghi mÉu m· ng−êi sö dông cÇn.
Mét m¹ng ®−îc gäi lµ kÕt nèi ®Çy ®ñ nÕu tÊt c¶ c¸c nót cña mét líp ®−îc nèi
víi tÊt c¶ c¸c nót cña líp kÒ liÒn nã. Cã nhiÒu lo¹i kÕt nãi kh¸c nhau:
KÕt nèi liªn líp lµ kÕt nèi gi÷a c¸c nót trong c¸c líp kh¸c nhau
KÕt nèi trong líp lµ kÕt nèi gi÷a c¸c nót trong cïng mét líp.
Tù kÕt nèi lµ kÕt nèi tõ mét nót tíi chÝnh nã.
KÕt nãi siªu líp lµ kÕt nèi gi÷a c¸c líp c¸ch nhau (kh«ng kÒ nhau).
Mét kÕt nèi bËc cao lµ mét kÕt nèi víi nhiÒu nót ®Çu vµo. Sè c¸c nót ®Çu vµo
x¸c ®Þnh bËc kÕt nèi vµ bËc kÕt nèi cña m¹ng lµ bËc cña kÕt nèi bËc cao nhÊt.
2.1.4.1. Ph©n lo¹i m¹ng n¬ron
Mét c¸ch h×nh thøc, cã thÓ biÓu diÔn m¹ng n¬ron nh− mét ®å thÞ cã h−íng G
= (N, A). Trong ®ã tËp ®Ønh N biÒu diÔn c¸c phÇn tö xö lý, tËp c¸c cung A biÓu diÔn
liªn kÕt gi÷a c¸c phÇn tö xö lý, chiÒu cña cung chØ h−íng cña tÝn hiÖu xö lý.
Ph©n lo¹i theo kiÓu liªn kÕt n¬ron:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 36. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
35
M¹ng n¬ron truyÒn th¼ng (feed – forward Neural Network): Trong m¹ng,
c¸c liªn kÕt n¬ron chØ ®i theo mét h−íng tõ líp vµo ®Õn líp ra, kh«ng t¹o thµnh chu
tr×nh víi c¸c ®Ønh lµ c¸c n¬ron, c¸c cung lµ c¸c liªn kÕt gi÷a chóng [10].
x0
bias
h0
x1
bias
y1
h1
x2
y2
h2
…
…
xl
w
Líp vµo
(1 )
ji
hm
Líp Èn
…
yn
w
(2)
kj
Líp ra
H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp (Feed-Forward Neural Network)
M¹ng håi quy: cho phÐp c¸c liªn kÕt n¬ron t¹o thµnh chu tr×nh, cã th«ng
tin ®−îc xö lý theo hai chiÒu. V× c¸c th«ng tin ra cña c¸c n¬ron ®−îc truyÒn l¹i cho
c¸c n¬ron ®· gãp phÇn kÝch ho¹t chóng nªn m¹ng håi quy cßn cã kh¶ n¨ng l−u gi÷
tr¹ng th¸i trong cña nã d−íi d¹ng c¸c ng−ìng kÝch ho¹t ngoµi c¸c träng sè liªn kÕt
n¬ron [10].
h0
x0
y0
h1
x1
…
xl
Líp vµo
y1
…
…
yn
hm
Líp Èn
Líp ra
H×nh 2.6: M¹ng håi quy (Recurrent Neural Network)
M¹ng kÕt nèi ®èi xøng vµ kh«ng ®èi xøng: M¹ng kÕt nèi ®èi xøng lµ m¹ng
tho¶ m·n nÕu cã mét ®−êng nèi tõ nót i ®Õn nót j th× còng cã mét ®−êng nèi tõ nót j
®Õn nót i vµ träng sè t−¬ng øng víi hai ®−êng nèi nµy lµ b»ng nhau: wji = wij . M¹ng
kh«ng tho¶ m·n ®iÒu kiÖn trªn lµ kÕt nèi kh«ng ®èi xøng.
Ph©n lo¹i theo sè líp:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 37. 36
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
M¹ng chØ gåm mét líp vµo vµ mét líp ra gäi lµ m¹ng ®¬n líp hay m¹ng mét
líp. M¹ng cã tõ mét líp Èn trë lªn ®−îc gäi lµ m¹ng ®a líp hay m¹ng nhiÒu líp.
Mét m¹ng ®a líp ®−îc gäi lµ m¹ng n líp víi n lµ tæng sè líp Èn vµ líp ra.
Trong m« h×nh m¹ng ®a líp, ®Çu ra cña c¸c phÇn tö tÝnh to¸n t¹i mét líp lµ
®Çu vµo cña líp tiÕp theo. Kh«ng cho phÐp c¸c liªn kÕt gi÷a c¸c n¬ron trong cïng
mét líp, còng kh«ng cho phÐp c¸c liªn kÕt n¬ron nh¶y qua mét líp trë lªn.
2.1.5. Häc vµ lan truyÒn trong m¹ng
2.1.5.1. Häc vµ tæng qu¸t ho¸
M¹ng n¬ron thùc hiÖn hai chøc n¨ng quan träng lµ häc vµ tæng qu¸t ho¸. Häc
lµ qu¸ tr×nh hiÖu chØnh c¸c tham sè vµ c¸c träng sè liªn kÕt trong m¹ng ®Ó tèi thiÓu
ho¸ sai sè víi vect¬ ®Çu vµo cho tr−íc. Qu¸ tr×nh häc dõng khi m¹ng tho¶ m·n mét
tiªu chuÈn dõng nµo ®ã, ch¼ng h¹n khi c¸c träng sè cña m¹ng t¹o ra lçi ®ñ nhá gi÷a
®Çu ra mong ®îi vµ kÕt qu¶ ®Çu ra cña m¹ng víi ®Çu vµo cho tr−íc.
Tæng qu¸ ho¸ lµ qu¸ tr×nh ®−a vµo mét vector ®Çu vµo míi vµ s¶n sinh ra
quyÕt ®Þnh dùa trªn vector ®Çu ra tÝnh ®−îc tõ m¹ng.
Bµi to¸n häc cã thÓ ®−îc m« t¶ nh− sau: Cho tËp mÉu (Xi, Yi) víi Xi vµ Yi lµ
hai vÐc t¬ trong kh«ng gian mét hoÆc nhiÒu chiÒu, cÇn x¸c ®Þnh bé träng sè W0 trªn
kh«ng gian tham sè ®Ò computer (Xi, W0) = Yi.
Qu¸ tr×nh häc ®−îc thùc hiÖn theo hai b−íc: X¸c ®Þnh hµm gi¸ trÞ trªn c¸c
tham sè vµ tèi thiÓu ho¸ tham sè trong kh«ng gian cña c¸c tham sè.
Häc chia thµnh hai lo¹i: häc tham sè vµ häc cÊu tróc.
- Häc tham sè: Lµ qu¸ tr×nh x¸c ®Þnh mét tËp hîp tham sè W0 lµ c¸c träng sè
tèt nhÊt víi mét cÊu tróc m¹ng cè ®Þnh. §Ó lµm ®−îc ®iÒu nµy cÇn x©y dùng mét
hµm gi¸ dùa trªn tËp d÷ liÖu Ttrain vµ tËp träng sè W. Hµm gi¸ cã thÓ lµ mét hµm kh¶
vi bÊt kú cã tÝnh chÊt ®¹t ®Õn cùc tiÓu khi c¸c ®Çu ra Oi ®óng b»ng ®Çu ra lý t−ëng Yi
cña tËp mÉu. Cã thÓ x©y dùng hµm gi¸ d−íi d¹ng Ln – norm nh− sau:
E=
1
∑ (y i − Oi )p víi 1 ≤ p ≤ ∞
p i
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 38. 37
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Víi bé tham sè nµy, cã thÓ ¸p dông mét gi¶i thuËt t×m kiÕm nµo ®ã trªn
kh«ng gian Rm cña tËp träng sè. NÕu thu ®−îc kÕt qu¶ tèt víi mét cùc tiÓu toµn côc,
ta sÏ cã mét bé tham sè tèt nhÊt cho m¹ng.
- Häc cÊu tróc: Víi häc tham sè ta gi¶ ®Þnh r»ng m¹ng cã mét cÊu tróc cè
®Þnh. ViÖc häc cÊu tróc cña m¹ng truyÒn th¼ng g¾n víi yªu cÇu t×m ra sè líp cña
m¹ng L vµ sè n¬ron trªn mçi líp nj. Tuy nhiªn, víi c¸c m¹ng håi quy cßn ph¶i x¸c
®Þnh thªm c¸c tham sè ng−ìng θ cña c¸c n¬ron trong m¹ng. Mét c¸ch tæng qu¸t lµ
ph¶i x¸c ®Þnh bé tham sè P = (L, n1,…nl, θ1,…, θk).
C¸c kü thuËt häc cña m¹ng N¬ ron chØ ra c¸ch chØnh söa c¸c träng sè liªn kÕt
m¹ng khi mét mÉu häc ®−îc ®−a vµo m¹ng. Sau ®©y sÏ tr×nh bÇy cô thÓ vÒ c¸c kü
thuËt häc [3]:
a. Häc cã gi¸m s¸t
Víi ph−¬ng ph¸p häc cã gi¸m s¸t hay häc cã thÇy (supervised learning),
m¹ng ®−îc cung cÊp mét tËp mÉu häc {(Xs, Ys)} theo nghÜa Xs lµ c¸c tÝn hiÖu vµo,
th× kÕt qu¶ ra ®óng cña hÖ ph¶i lµ YS. ë mçi lÇn häc, vÐc t¬ tÝn hiÖu vµo Xs ®−îc ®−a
vµo m¹ng, sau ®ã so s¸nh sù sai kh¸c gi÷a c¸c kÕt qu¶ ra ®óng Ys víi kÕt qu¶ tÝnh
to¸n qua m¹ng outs. Sai sè nµy sÏ ®−îc dïng ®Ó hiÖu chØnh l¹i c¸c träng sè liªn kÕt
trong m¹ng. Qóa tr×nh cø tiÕp tôc cho ®Õn khi tho¶ m·n mét tiªu chuÈn nµo ®ã. Cã
hai c¸ch sö dông tËp mÉu häc: hoÆc dïng c¸c mÉu lÇn l−ît, hÕt mÉu nµy ®Õn mÉu
kh¸c, hoÆc sö dông ®ång thêi tÊt c¶ c¸c mÉu.
ANN
w
Xs
§Çu vµo
Sai sè
§Çu ra thùc tÕ
TÝnh sai sè
§Çu ra mong muèn Ys
H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 39. 38
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
b. Häc t¨ng c−êng
Ta thÊy trong kü thuËt häc cã gi¸m s¸t, c¸c vect¬ ®Çu ra ®−îc biÕt mét c¸ch
chÝnh x¸c, nh−ng trong mét sè tr−êng hîp cã Ýt th«ng tin, ch¼ng h¹n chØ cã thÓ nãi
lµ m¹ng sinh Output qu¸ lín hoÆc chØ ®óng kho¶ng 40%. Khi ®ã chØ cã mét tÝn hiÖu
®¸nh gi¸ lµ “True” hoÆc “False” quay l¹i m¹ng, c¸c thñ tôc häc ®ã gäi lµ thñ tôc häc
t¨ng c−êng.
ANN
w
Xs
§Çu vµo
TÝn hiÖu
®¸nh gi¸
§Çu ra thùc tÕ
T¹o tÝn hiÖu
®¸nh gi¸
TÝn hiÖu t¨ng c−êng
H×nh 2.8: S¬ ®å häc t¨ng c−êng
c. Häc kh«ng gi¸m s¸t
Trong ph−¬ng ph¸p häc kh«ng gi¸m s¸t (unsepervised learning), ®Çu ra mong
muèn cña m¹ng kh«ng ®−îc cho tr−íc vµ m¹ng ®−îc trang bÞ kh¶ n¨ng tù tæ chøc.
M¹ng kh«ng sö dông mèi quan hÖ líp cña c¸c mÉu häc mµ dïng th«ng tin kÕt hîp
víi nhãm c¸c n¬ron ®Ó thay ®æi c¸c tham sè côc bé sao cho hîp nhÊt. HÖ thèng häc
kh«ng gi¸m s¸t ph©n chia c¸c mÉu vµo c¸c nhãm hoÆc c¸c líp quyÕt ®Þnh b»ng c¸ch
chän c¸c n¬ron “chiÕn th¾ng” vµ thay ®æi c¸c träng sè t−¬ng øng cña chóng. Th«ng
th−êng, viÖc häc kh«ng gi¸m s¸t dïng nhiÒu tham sè h¬n kü thuËt häc cã gi¸m s¸t.
ANN
w
Xs
§Çu vµo
H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
§Çu ra thùc tÕ
- 40. 39
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Nh− vËy, gi¶i thuËt häc lµ gi¶i thuËt xuÊt ph¸t tõ mét tËp mÉu, qua qu¸ tr×nh
huÊn luyÖn ®Ó t×m ra bé träng sè liªn kÕt gi÷a c¸c n¬ron, cã thÓ m« t¶ tæng qu¸t nh−
sau:
§Çu vµo: Mét tËp mÉu gåm n phÇn tö.
§Çu ra: CÊu tróc m¹ng vµ bé träng sè c¸c liªn kÕt n¬ron
Gi¶i thuËt:
1. Khëi t¹o träng sè cña m¹ng, ®Æt i =1;
2. §−a mÉu i vµo líp vµo cña m¹ng;
3. Sö dông thuËt to¸n lan truyÒn, nhËn ®−îc gi¸ trÞ c¸c nót ra.
NÕu gi¸ trÞ ®Çu ra cña m¹ng ®¹t yªu cÇu hoÆc tho¶ m·n tiªu chuÈn
dõng th× kÕt thóc.
4. Söa ®æi träng sè b»ng luËt häc cña m¹ng;
5. NÕu i = n th× ®Æt l¹i i = 1, nÕu kh«ng th× t¨ng i lªn 1: i=i+1
Quay l¹i b−íc 2.
Cã nhiÒu tiªu chuÈn dõng qu¸ tr×nh häc, ch¼ng h¹n:
- ChuÈn lçi E nhá h¬n mét ng−ìng cho tr−íc: E < θ.
- C¸c träng sè cña m¹ng kh«ng thay ®æi nhiÒu sau khi hiÖu chØnh:
new
old
wij − wij p θ .
- ViÖc lÆp bÞ b·o hoµ, tøc lµ sè lÇn lÆp v−ît qu¸ mét ng−ìng N cho tr−íc.
2.1.5.2. Lan truyÒn trong m¹ng
M¹ng n¬ron lan truyÒn th«ng tin tõ líp vµo ®Õn líp ra. Khi viÖc lan truyÒn
kÕt thóc, th«ng tin t¹i líp ra chÝnh lµ kÕt qu¶ cña qu¸ tr×nh lan truyÒn.
Gi¶i thuËt lan truyÒn ®−îc m« t¶ nh− sau:
§Çu vµo: Mét tËp tÝn hiÖu vµo
§Çu ra: KÕt qu¶ ra t−¬ng øng víi tËp tÝn hiÖu vµo
Gi¶i thuËt:
1. §−a tËp tÝn hiÖu vµo vµo líp vµo cña m¹ng.
2. TÝnh møc tÝch cùc cña c¸c nót trong m¹ng.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 41. 40
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
3. Víi m¹ng truyÒn th¼ng: NÕu møc tÝch cùc cña nót ra ®· biÕt th× kÕt
thóc.
Víi m¹ng ph¶n håi: NÕu møc tÝch cùc cña nót ra b»ng hoÆc xÊp xØ
b»ng h»ng sè th× kÕt thóc.
NÕu kh«ng th× quay l¹i b−íc 2.
2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron
M¹ng n¬ron lµ mét c«ng cô h÷u hiÖu trong c¸c m« h×nh tÝnh to¸n th«ng minh
víi mét sè ®Æc ®iÓm chÝnh sau:
- Cho phÐp x©y dùng mét mét m« h×nh tÝnh to¸n cã kh¶ n¨ng häc d÷ liÖu cao:
ChØ cÇn ®−a vµo cho m¹ng mét tËp d÷ liÖu trong qu¸ tr×nh häc lµ m¹ng cã thÓ ph¸t
hiÖn nh÷ng rµng buéc d÷ liÖu vµ ¸p dông nh÷ng rµng buéc nµy trong qu¸ tr×nh sö
dông mµ kh«ng cÇn cã thªm c¸c tri thøc vÒ miÒn øng dông. Kh¶ n¨ng nµy cho phÐp
x©y dùng m« h×nh d÷ liÖu kh¸ dÔ dµng.
- Xö lý c¸c qu¸ tr×nh phi tuyÕn: M¹ng cã kh¶ n¨ng xÊp xØ nh÷ng ¸nh x¹ phi
tuyÕn tuú ý nªn cã thÓ gi¶i ®−îc nh÷ng bµi to¸n phi tuyÕn phøc t¹p. Nã cã thÓ thùc
hiÖn nhiÒu phÐp läc n»m ngoµi kh¶ n¨ng cña nh÷ng bé läc tuyÕn tÝnh th«ng th−êng.
§Æc tr−ng nµy rÊt quan träng, vÝ dô trong xÊp xØ m¹ng, miÔn nhiÔu (chÊp nhËn
nhiÔu) vµ cã kh¶ n¨ng ph©n líp.
- Kh¶ n¨ng cña c¸c qu¸ tr×nh xö song song vµ ph©n t¸n: Cã thÓ ®−a vµo m¹ng
mét l−îng lín c¸c n¬ron liªn kÕt víi nhau theo nh÷ng l−îc ®å víi c¸c kiÕn tróc kh¸c
nhau. M¹ng cã cÊu tróc song song lín, cã kh¶ n¨ng t¨ng tèc ®é tÝnh to¸n vµ hy väng
sÏ ®¸p øng ®−îc yªu cÇu cña nh÷ng hÖ thèng cÇn cã ®é chÝnh x¸c cao h¬n nh÷ng hÖ
thèng truyÒn thèng.
- M¹ng n¬ron cã kh¶ n¨ng dung thø lçi cao: Cè g¾ng b¾t ch−íc kh¶ n¨ng
dung thø lçi cña n·o theo nghÜa hÖ thèng cã thÓ tiÕp tôc lµm viÖc vµ ®iÒu chØnh khi
nhËn tÝn hiÖu vµo cã mét phÇn th«ng tin bÞ sai lÖch hoÆc bÞ thiÕu.
- Kh¶ n¨ng thÝch nghi vµ tù tæ chøc: vÒ ®Æc tr−ng nµy, ng−êi ta ®Ò cËp tíi kh¶
n¨ng xö lý thÝch nghi vµ ®iÒu chØnh bÒn v÷ng dùa vµo c¸c thuËt to¸n thÝch nghi vµ
c¸c quy t¾c tù tæ chøc.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 42. 41
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
- H¬n n÷a, mÆc dï cã rÊt nhiÒu kü thuËt vµ gi¶i thuËt ®−îc sö dông trong khai
ph¸ d÷ liÖu, mét sè kü thuËt cßn ®−îc kÕt hîp ®Ó sö dông cã hiÖu qu¶, song m¹ng
n¬ron vÉn cã nh÷ng −u ®iÓm ®¸ng chó ý nh−:
o
Tù ®éng t×m kiÕm tÊt c¶ c¸c mèi quan hÖ cã thÓ gi÷a c¸c nh©n tè
chÝnh.
o
M« h×nh ho¸ tù ®éng c¸c bµi to¸n phøc t¹p mµ kh«ng cÇn biÕt tr−íc
møc ®é phøc t¹p.
o
Cã kh¶ n¨ng chiÕt xuÊt ra nh÷ng th«ng tin nhanh h¬n rÊt nhiÒu so víi
nhiÒu c«ng cô kh¸c.
Víi c¸c ®Æc ®iÓm trªn ta thÊy: M¹ng n¬ron cho phÐp dÔ dµng x©y dùng c¸c
m« h×nh thÝch nghi mµ trong ®ã sù thay ®æi liªn tôc vÒ quy luËt d÷ liÖu cã thÓ dÔ
dµng ®−îc cËp nhËt trong qu¸ tr×nh häc l¹i cña m¹ng. Tuy nhiªn, m¹ng n¬ron kh«ng
ph¶i mét c«ng cô v¹n n¨ng, nã cã mét sè nh−îc ®iÓm:
- M¹ng chØ cã thÓ lµm viÖc víi nh÷ng d÷ liÖu sè.
- §Ó m¹ng ®¹t hiÖu qu¶ cÇn cã mét bé d÷ liÖu mÉu ®ñ lín cho qu¸ tr×nh häc.
- M¹ng chØ cã tÝnh chÊt néi suy. Kh¶ n¨ng ngo¹i suy rÊt kÐm.
- M¹ng kh«ng ®−a ra ®−îc c¬ chÕ gi¶i thÝch.
- §«i khi m¹ng ch−a ®¶m b¶o ®é héi tô cÇn thiÕt cho qu¸ tr×nh sö dông.
Nh− vËy, mét m¹ng n¬ron nh©n t¹o khi ®em vµo sö dông tr−íc tiªn ph¶i cho
m¹ng häc c¸c mÉu häc. Bé träng sè ban ®Çu cña m¹ng th−êng ®−îc khëi t¹o ngÉu
nhiªn. Qu¸ tr×nh häc sÏ dÇn dÇn thay ®æi bé träng sè nµy ®Ó cùc tiÓu ho¸ sai sè. Tuy
nhiªn, víi bé träng sè khëi t¹o ngÉu nhiªn, m¹ng th−êng bÞ r¬i vµo c¸c gi¸ trÞ cùc
tiÓu ®Þa ph−¬ng vµ qu¸ tr×nh hiÖu chØnh träng sè nµy th−êng kh«ng mang l¹i kÕt qu¶
mong muèn, tøc lµ kh«ng lµm gi¶m ®¸ng kÓ sai sè hoÆc thËm chÝ cã lóc cßn lµm
t¨ng sai sè. Mét ph−¬ng ph¸p tr¸nh ®−îc tr−êng hîp cùc trÞ ®Þa ph−¬ng lµ kÕt hîp
gi¶i thuËt di truyÒn víi m¹ng n¬ron. Gi¶i thuËt di truyÒn sÏ t×m kiÕm mét c¸ch toµn
côc c¸c bé träng sè tèt nhÊt cho m¹ng n¬ron vµ cho kÕt qu¶ lµ vïng l©n cËn víi ®iÓm
cùc trÞ toµn côc. Sau ®ã, mét vµi bé träng sè tèt nhÊt sÏ ®−îc dïng lµm c¸c gi¸ trÞ
träng sè khëi t¹o cho m¹ng n¬ron vµ kÕt qu¶ sÏ lµ cùc trÞ toµn côc.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 43. 42
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU
Gi¶i thuËt di truyÒn (Genetic Algorithm - GA) lµ mét ph−¬ng ph¸p t×m kiÕm
cùc trÞ tæng thÓ, kü thuËt tèi −u tæng thÓ cã tÇm quan träng rÊt lín ®èi víi nhiÒu vÊn
®Ò kh¸c nhau trong khoa häc vµ kü thuËt. Trong khai ph¸ d÷ liÖu, gi¶i thuËt di
truyÒn th−êng ®−îc sö dông trªn nÒn cña c¸c kü thuËt kh¸c nh− m¹ng n¬ron hay
ph©n líp theo k l¸ng giÒng gÇn nhÊt. MÆc dï vËy, gi¶i thuËt di truyÒn lµ mét kü
thuËt rÊt cÇn thiÕt v× hÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu tãm l¹i ®Òu lµ vÊn ®Ò tèi
−u ho¸. §èi víi m¹ng n¬ron, ®ã lµ vÊn ®Ò t×m kiÕm c¸c träng sè cho mét cÊu tróc
m¹ng tèi −u. §èi víi k l¸ng giÒng gÇn nhÊt, ®ã lµ vÊn ®Ò t×m c¸c träng sè quan träng
tèi −u ®Ó ¸p dông cho mçi yÕu tè dù ®o¸n. §èi víi c©y quyÕt ®Þnh, ®ã lµ bµi to¸n t×m
kiÕm c¸c yÕu tè dù ®o¸n tèt nhÊt vµ c¸c gi¸ trÞ ®Ó ph©n t¸ch trong viÖc tèi −u ho¸
c©y. Gi¶i thuËt di truyÒn ®−îc ®¸nh gi¸ b»ng hµm thÝch nghi ®Ó x¸c ®Þnh c¸c m«
h×nh dù ®o¸n tèi −u cho viÖc khai ph¸ d÷ liÖu.
2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn
ý t−ëng cña gi¶i thuËt di truyÒn lµ m« pháng theo c¬ chÕ cña qu¸ tr×nh chän
läc vµ di truyÒn trong tù nhiªn. Tõ tËp c¸c lêi gi¶i cã thÓ ban ®Çu, th«ng qua nhiÒu
b−íc tiÕn ho¸ ®Ó h×nh thµnh c¸c tËp míi víi nh÷ng lêi gi¶i tèt h¬n, cuèi cïng sÏ t×m
®−îc lêi gi¶i gÇn tèi −u nhÊt [1, 6].
GA sö dông c¸c thuËt ng÷ lÊy tõ di truyÒn häc:
- Mét tËp hîp c¸c lêi gi¶i ®−îc gäi lµ mét Líp hay QuÇn thÓ (population).
- Mçi lêi gi¶i ®−îc biÓu diÔn bëi mét NhiÔm s¾c thÓ hay C¸ thÓ
(chromosome).
- NhiÔm s¾c thÓ ®−îc t¹o thµnh tõ c¸c gien
Mét qu¸ tr×nh tiÕn ho¸ ®−îc thùc hiÖn trªn mét quÇn thÓ t−¬ng ®−¬ng víi sù
t×m kiÕm trªn kh«ng gian c¸c lêi gi¶i cã thÓ cña bµi to¸n. Qu¸ tr×nh t×m kiÕm nµy
lu«n ®ßi hái sù c©n b»ng gi÷a hai môc tiªu: Khai th¸c lêi gi¶i tèt nhÊt vµ xem xÐt
toµn bé kh«ng gian t×m kiÕm.
GA thùc hiÖn t×m kiÕm theo nhiÒu h−íng b»ng c¸ch duy tr× tËp hîp c¸c lêi
gi¶i cã thÓ vµ khuyÕn khÝch sù h×nh thµnh vµ trao ®æi th«ng tin gi÷a c¸c h−íng.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 44. 43
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
TËp lêi gi¶i ph¶i tr¶i qua nhiÒu b−íc tiÕn ho¸, t¹i mçi thÕ hÖ, mét tËp míi c¸c
c¸ thÓ ®−îc t¹o ra cã chøa c¸c phÇn cña nh÷ng c¸ thÓ thÝch nghi nhÊt trong thÕ hÖ
cò. §ång thêi gi¶i thuËt di truyÒn khai th¸c mét c¸ch cã hiÖu qu¶ th«ng tin tr−íc ®ã
®Ó suy xÐt trªn ®iÓm t×m kiÕm míi víi mong muèn cã ®−îc sù c¶i thiÖn qua tõng thÕ
hÖ. Nh− vËy, c¸c ®Æc tr−ng ®−îc ®¸nh gi¸ tèt sÏ cã c¬ héi ph¸t triÓn vµ c¸c tÝnh chÊt
tåi (kh«ng thÝch nghi víi m«i tr−êng) sÏ cã xu h−íng biÕn mÊt.
Gi¶i thuËt di truyÒn tæng qu¸t ®−îc m« t¶ nh− sau:
PROCEDURE GeneticAlgorithm;
BEGIN
T:=0;
Khëi t¹o líp P(t);
§¸nh gi¸ líp P(t);
While not (§iÒu_kiÖn_kÕt_thóc) do
Begin
t:=t+1;
Chän läc P(t) tõ P(t-1);
KÕt hîp c¸c c¸ thÓ cña P(t);
§¸nh gi¸ líp P(t);
end;
END;
Trong ®ã:
- TËp hîp c¸c lêi gi¶i ban ®Çu ®−îc khëi t¹o ngÉu nhiªn.
- Trong vßng lÆp thø t, GA x¸c ®Þnh tËp c¸c nhiÔm s¾c thÓ P(t)={x1t, x2t, …,
xnt} b»ng c¸ch chän lùa c¸c nhiÔm s¾c thÓ thÝch nghi h¬n tõ P(t-1). Mçi nhiÔm s¾c
thÓ xit ®−îc ®¸nh gi¸ ®Ó x¸c ®Þnh ®é thÝch nghi cña nã vµ mét sè thµnh viªn cña P(t)
l¹i ®−îc t¸i s¶n xuÊt nhê c¸c to¸n tö Lai ghÐp vµ §ét biÕn.
Khi ¸p dông GA ®Ó quyÕt mét bµi to¸n cô thÓ, ph¶i lµm râ c¸c vÊn ®Ò sau:
1. Chän c¸ch biÓu diÔn di truyÒn nµo ®èi víi nh÷ng lêi gi¶i cã thÓ cña bµi
to¸n?
2. T¹o tËp lêi gi¶i ban ®Çu nh− thÕ nµo?
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 45. 44
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
3. X¸c ®Þnh hµm ®¸nh gi¸ ®Ó ®¸nh gi¸ møc ®é thÝch nghi cña c¸c c¸ thÓ.
4. X¸c ®Þnh c¸c to¸n tö di truyÒn ®Ó s¶n sinh con ch¸u.
5. X¸c ®Þnh gi¸ trÞ c¸c tham sè mµ GA sö dông nh− kÝch th−íc tËp lêi gi¶i,
x¸c suÊt ¸p dông c¸c to¸n tö di truyÒn,…
Nh− vËy GA lµ mét gi¶i thuËt lÆp nh»m gi¶i quyÕt c¸c bµi to¸n t×m kiÕm, nã
kh¸c víi c¸c thñ tôc tèi −u th«ng th−êng ë nh÷ng ®iÓm c¬ b¶n sau:
- Gi¶i thuËt di truyÒn lµm viÖc víi bé m· cña tËp th«ng sè chø kh«ng lµm
viÖc trùc tiÕp víi gi¸ trÞ cña c¸c th«ng sè.
- Gi¶i thuËt di truyÒn t×m kiÕm song song trªn mét quÇn thÓ chø kh«ng t×m
kiÕm tõ mét ®iÓm, mÆt kh¸c nhê ¸p dông c¸c to¸n tö di truyÒn, nã sÏ trao ®æi th«ng
tin gi÷a c¸c ®iÓm, nh− vËy sÏ gi¶m bít kh¶ n¨ng kÕt thóc t¹i mét cùc tiÓu côc bé mµ
kh«ng t×m thÊy cùc tiÓu toµn côc.
- Gi¶i thuËt di truyÒn chØ sö dông th«ng tin cña hµm môc tiªu ®Ó ®¸nh gi¸ qu¸
tr×nh t×m kiÕm chø kh«ng ®ßi hái c¸c th«ng tin bæ trî kh¸c.
- C¸c luËt chuyÓn ®æi cña gi¶i thuËt di truyÒn mang tÝnh x¸c suÊt chø kh«ng
mang tÝnh tiÒn ®Þnh.
C¸c th«ng sè cña bµi to¸n ®−îc m· ho¸ thµnh c¸c chuçi. C¸ch ®¬n gi¶n nhÊt
lµ chóng ta dïng chuçi bit ®Ó m· ho¸ c¸c th«ng sè. Mçi th«ng sè ®−îc m· ho¸ b»ng
mét chuçi bÝt cã ®é dµi nµo ®ã, sau ®ã nèi chóng l¹i víi nhau, ta sÏ cã mét chuçi m·
ho¸ cho tËp c¸c th«ng sè. §Ó tÝnh to¸n gi¸ trÞ hµm môc tiªu t−¬ng øng víi mçi chuçi
th«ng sè, ta ph¶i gi¶i m· bé th«ng sè nµy theo mét quy t¾c nµo ®ã. Gi¶i thuËt di
truyÒn t×m kiÕm song song trªn mét tËp c¸c chuçi, do ®ã gi¶m thiÓu ®−îc kh¶ n¨ng
bá qua c¸c cùc trÞ toµn côc vµ dõng l¹i ë cùc trÞ ®Þa ph−¬ng. §iÒu nµy gi¶i thÝch v×
sao gi¶i thuËt di truyÒn mang tÝnh toµn côc.
HiÖn nay gi¶i thuËt di truyÒn ®−îc ¸p dông ngµy cµng nhiÒu trong kinh
doanh, khoa häc vµ kü thuËt v× tÝnh chÊt kh«ng qu¸ phøc t¹p mµ hiÖu qu¶ cña nã.
H¬n n÷a, gi¶i thuËt di truyÒn kh«ng ®ßi hái kh¾t khe ®èi víi kh«ng gian t×m kiÕm
nh− gi¶ ®Þnh vÒ sù liªn tôc, sù cã ®¹o hµm,.... B»ng lý thuyÕt vµ thùc nghiÖm, gi¶i
thuËt di truyÒn ®· ®−îc chøng minh lµ gi¶i thuËt t×m kiÕm toµn côc m¹nh trong c¸c
kh«ng gian lêi gi¶i phøc t¹p.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 46. 45
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn
BiÓu diÔn lêi gi¶i lµ vÊn ®Ò ®Çu tiªn ®−îc quan t©m tíi khi b¾t tay vµo gi¶i
quyÕt mét bµi to¸n b»ng GA. ViÖc lùa chän c¸ch biÓu diÔn lêi gi¶i nh− thÕ nµo phô
thuéc vµo tõng líp bµi to¸n thËm chÝ vµo tõng bµi to¸n cô thÓ.
GA kinh ®iÓn dïng chuçi nhÞ ph©n cã chiÒu dµi x¸c ®Þnh ®Ó biÓu diÔn lêi
gi¶i. Tuy nhiªn, thùc tÕ cho thÊy c¸ch biÓu diÔn nµy khã ¸p dông trùc tiÕp cho c¸c
bµi to¸n tèi −u cì lín cã nhiÒu rµng buéc. V× lý do ®ã, GA c¶i tiÕn hay cßn gäi lµ
Ch−¬ng tr×nh tiÕn ho¸ ®· t×m kiÕm c¸c c¸ch biÓu diÔn thÝch nghi vµ tù nhiªn h¬n
víi c¸c bµi to¸n thùc tÕ nh−: BiÓu diÔn theo trËt tù, biÓu diÔn theo gi¸ trÞ thùc, biÓu
diÔn b»ng c¸c cÊu tróc c©y, ma trËn, … PhÇn nµy sÏ tr×nh bÇy tæng quan vÒ c¸c c¸ch
biÓu diÔn ®ã.
2.2.2.1. BiÓu diÔn nhÞ ph©n (Binary encoding)
Trong biÓu diÔn nhÞ ph©n, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c bit 0 hoÆc 1.
Ch¼ng h¹n:
NST A: 101100101100101011100101
NST B: 111111100000110000011111
VÝ dô: Bµi to¸n “XÕp ba l«” ®−îc ph¸t biÓu: “Cho mét tËp c¸c ®å vËt, mçi ®å
vËt cã gi¸ trÞ vµ kÝch th−íc x¸c ®Þnh, cho biÕt søc chøa cña ba l«. H·y chän c¸ch xÕp
c¸c ®å vËt vµo ba l« sao cho tæng gi¸ trÞ cña c¸c ®å vËt lµ cao nhÊt”.
BiÓu diÔn mçi lêi gi¶i cña bµi to¸n trªn b»ng mét chuçi nhÞ ph©n, ë ®ã mçi
bit 0 hoÆc 1 øng víi mét ®å vËt kh«ng ®−îc chän hoÆc ®−îc chän.
Víi c¸ch biÓu diÔn ®ã, bµi to¸n ®−îc ph¸t biÓu l¹i nh− sau: “ Cho mét tËp c¸c
khèi l−¬ng W[i], tËp c¸c gi¸ trÞ P[i] vµ søc chøa C. T×m mét vect¬ nhÞ ph©n x=<x1,
x2, …, xn> tho¶ m·n:
∑
n
i =1
x[i ]-W [i ] ≤ C
víi P(x) =
∑
n
i =1
x[i ]-W [i ] lµ cùc ®¹i.
2.2.2.2. BiÓu diÔn ho¸n vÞ (Permutation encoding)
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
- 47. 46
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông
Sö dông trong bµi to¸n mµ thø tù c¸c thµnh phÇn cña lêi gi¶i quyÕt ®Þnh møc
®é phï hîp cña lêi gi¶i, ®iÓn h×nh nh− bµi to¸n “ Ng−êi du lÞch”.
Víi c¸ch biÓu diÔn thø tù, c¸ch s¾p xÕp cña c¸c gien kh¸c nhau cho ta c¸c
nhiÔm s¾c thÓ kh¸c nhau, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c sè nguyªn diÔn t¶
quan hÖ tiÕp nèi. Lêi gi¶i ®−îc biÓu diÔn b»ng mét vect¬ sè nguyªn v=( i1, i2, …, in )
víi v lµ mét ho¸n vÞ cña tËp thø tù.
VÝ dô:
NST A: ( 1 5 3 2 6 4 7 9 8 )
NST B: ( 8 5 6 7 2 3 1 4 9 )
2.2.2.3. BiÓu diÔn gi¸ trÞ (Value encoding)
Th−êng dïng trong c¸c bµi to¸n mµ c¸ch biÓu diÔn chuçi nhÞ ph©n lµ khã
thùc hiÖn nh− miÒn x¸c ®Þnh cña c¸c thµnh phÇn lêi gi¶i kh¸ lín víi ®é chÝnh x¸c
yªu cÇu cao, miÒn x¸c ®Þnh kh«ng râ rµng, hay c¸c bµi to¸n mµ viÖc biÓu diÔn nhÞ
ph©n lµ “ kh«ng tù nhiªn”.
Trong biÓu diÔn gi¸ trÞ, mçi c¸ thÓ lµ mét chuçi c¸c gi¸ trÞ liªn quan ®Õn bµi
to¸n, c¸c gi¸ trÞ cã thÓ lµ sè thùc, sè nguyªn, ký tù hay c¸c ®èi t−îng phøc t¹p kh¸c.
VÝ dô:
NST A: (0.1229 2.9234 3.0012, 0.3567, 4.3828)
NST B (AJUHNEOLDOGSGLLIKUFSEJHJH)
2.2.2.4. BiÓu diÔn d¹ng c©y (Tree encoding)
C¸ch biÓu diÔn lêi gi¶i dïng cÊu tróc c©y ®−îc dïng chñ yÕu trong c¸c
ch−¬ng tr×nh tiÕn ho¸, trong biÓu diÔn biÓu thøc, hay lËp c¸c ch−¬ng tr×nh di truyÒn
häc. Víi c¸ch biÓu diÔn nµy, mçi c¸ thÓ lµ mét c©y c¸c ®èi t−îng.
2.2.3. C¸c to¸n tö di truyÒn
C¸c c¸ thÓ trong gi¶i thuËt di truyÒn lµ c¸c chuçi bit ®−îc t¹o bëi viÖc c¾t d¸n
c¸c chuçi bit con. Mçi chuçi bit ®¹i diÖn cho mét tËp th«ng sè trong kh«ng gian t×m
kiÕm, nªn ®−îc coi lµ lêi gi¶i tiÒm n¨ng cña bµi to¸n tèi −u. Tõ mçi chuçi bit ta gi¶i
m· ®Ó tÝnh l¹i tËp thèng sè, sau ®ã tÝnh ®−îc gi¸ trÞ hµm môc tiªu. Tõ ®ã, gi¸ trÞ hµm
môc tiªu ®−îc biÕn ®æi thµnh gi¸ trÞ do ®é phï hîp cña tõng chuçi.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006