SlideShare a Scribd company logo
1 of 102
Download to read offline
bé gi¸o dôc vµ ®µo t¹o
tr−êng ®¹i häc b¸ch khoa hµ néi

D−¬ng thÞ hiÒn thanh

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt
di truyÒn trong khai ph¸ d÷ liÖu
vµ thö nghiÖm øng dông

LuËn v¨n th¹c sü c«ng nghÖ th«ng tin

Hµ néi – 2008
1

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Môc lôc
Môc lôc....................................................................................................................... 1
Danh môc c¸c tõ viÕt t¾t ............................................................................................. 3
Danh môc c¸c b¶ng .................................................................................................... 4
Danh môc c¸c h×nh vÏ vµ ®å thÞ ................................................................................. 5
Lêi nãi ®Çu ................................................................................................................. 6
Ch−¬ng 1. khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong csdl ..................8
1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL .......8
1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc? ......................................................................8
1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ............................9
1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU.....................................10

1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu .....................................................................10
1.2.3. Khai ph¸ d÷ liÖu ..........................................................................................12
1.2.4. Minh ho¹ vµ ®¸nh gi¸..................................................................................12
1.2.5. §−a kÕt qu¶ vµo thùc tÕ...............................................................................13
1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu ..........................................................................13

1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .....................................................13
1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu..........................................................17
1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn ..........................................19
1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü
thuËt khai ph¸ d÷ liÖu .......................................................................................24
KÕt luËn ch−¬ng 1 ....................................................................................................27

Ch−¬ng 2. kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i
thuËt di truyÒn ......................................................................................................21

2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu ..............................................................28

2.1.1. Kh¸i niÖm m¹ng n¬ron ...............................................................................28
2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc ....................................................29
2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o .......................................30
2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron ..............................................................33
2.1.5. Häc vµ lan truyÒn trong m¹ng.....................................................................36
2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron .............................................................................40
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
2

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU ..............................................42

2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn .....................................................................42
2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn...............................45
2.2.3. C¸c to¸n tö di truyÒn ...................................................................................46
2.2.4. C¬ së to¸n häc cña gi¶i thuËt di truyÒn.......................................................52
2.2.5. Nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn .......................................................54
KÕt luËn ch−¬ng 2 ....................................................................................................56

Ch−¬ng 3. tÝch hîp gi¶i thuËt di truyÒn víi gi¶i thuËt huÊn luyÖn
m¹ng n¬ron truyÒn th¼ng nhiÒu líp ..........................................................50

3.1. §Æt vÊn ®Ò ................................................................................................................57
3.2. m¹ng n¬ron truyÒn th¼ng nhiÒu líp víi gi¶i thuËt lan truyÒn
ng−îc sai sè vµ mét sè c¶i tiÕn ..........................................................................57

3.2.1. KiÕn tróc cña m¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................57
3.2.2. C¬ chÕ häc cña m¹ng n¬ ron truyÒn th¼ng nhiÒu líp..................................59
3.2.3. ThuËt to¸n lan truyÒn ng−îc sai sè .............................................................60
3.2.2. Mét sè c¶i tiÕn cña gi¶i thuËt BP ................................................................71
3.3. KÕt hîp gi¶i thuËt di truyÒn víi gi¶i thuËt BP ..........................................73
3.3.1. Gi¶i thuËt GA trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp ........73
3.3.2. GhÐp nèi víi gi¶i thuËt lan truyÒn ng−îc sai sè..........................................75
KÕt luËn ch−¬ng 3 ....................................................................................................76

Ch−¬ng 4. øng dông trong bµi to¸n dù b¸o d÷ liÖu .....................................71
4.1. giíi thiÖu bµi to¸n ................................................................................................78
4.2. m« h×nh ho¸ bµi to¸n, thiÕt kÕ d÷ liÖu vµ gi¶i thuËt..............................80
4.2.1. M« h×nh ho¸ bµi to¸n ..................................................................................80
4.2.2. ThiÕt kÕ d÷ liÖu ...........................................................................................81
4.2.3. ThiÕt kÕ gi¶i thuËt .......................................................................................82
4.3. ch−¬ng tr×nh dù b¸o d÷ liÖu .............................................................................93
KÕt luËn ch−¬ng 4 ....................................................................................................98

KÕt luËn .......................................................................................................... 99
Tµi liÖu tham kh¶o........................................................................................ .100

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
3

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Danh môc c¸c tõ viÕt t¾t

STT

Tõ viÕt t¾t

NghÜa tiÕng viÖt

tiÕng anh

1

ANN

M¹ng n¬ron nh©n t¹o Artficial Neural Network

2

BNN

M¹ng n¬ron sinh häc Biological Neural Network

3

BP

Gi¶i thuËt lan truyÒn

Back-Propagation of error

ng−îc cña sai sè

4

Csdl

C¬ së d÷ liÖu

Data Base

5

dm

Khai ph¸ d÷ liÖu

Data Mining

6

GA

Gi¶i thuËt di truyÒn

Genetic Algorithm

7

Kdd

Ph¸t hiÖn tri thøc Knowledge
trong CSDL

D−¬ng ThÞ HiÒn Thanh – CNTT 2006

Database

Discover

in
4

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Danh môc c¸c b¶ng
B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis.................................... 20
B¶ng 2.1: VÝ dô dïng phÐp t¸i t¹o............................................................................ 48
B¶ng 2.2: Qu¸ tr×nh t¸i t¹o ....................................................................................... 51
B¶ng 2.3: Qu¸ tr×nh lai ghÐp..................................................................................... 51
B¶ng 3.1: C¸c hµm kÝch ho¹t.................................................................................... 69
B¶ng 4.1: Sè liÖu thö nghiÖm cña bµi to¸n dù b¸o ....................................................79

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
5

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Danh môc c¸c h×nh vÏ vµ ®å thÞ
H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL .................................................. 10
H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .................................................. 14
H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu........................................................................ 15
H×nh 1.4: KÕt qu¶ cña ph©n côm .............................................................................. 18
H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis................................................................... 20
H×nh 2.1: CÊu t¹o cña n¬ron..................................................................................... 29
H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron.................................................................. 30
H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o ............................................................. 31
H×nh 2.4: Hµm Sigmoidal......................................................................................... 33
H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................................... 35
H×nh 2.6: M¹ng håi quy ........................................................................................... 35
H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t ................................................................. 37
H×nh 2.8: S¬ ®å häc t¨ng c−êng ............................................................................... 38
H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t ........................................................................ 38
H×nh 3.1: M¹ng n¬ron truyÒn th¼ng 2 líp................................................................ 58
H×nh 3.2: S¬ ®å hiÖu chØnh c¸c träng sè cña gi¶i thuËt BP ...................................... 59
H×nh 3.3: S¬ ®å m· ho¸ c¸c träng sè cña m¹ng n¬ron............................................. 74
H×nh 3.4: S¬ ®å cña gi¶i thuËt lai ............................................................................. 76
H×nh 4.1: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1 ............................................................... 84
H×nh 4.2: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.1 ............................................................ 86
H×nh 4.3: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.2 ............................................................ 89
H×nh 4.4: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 2 ............................................................... 91
H×nh 4.5: Mµn h×nh chÝnh cña ch−¬ng tr×nh dù b¸o................................................. 93
H×nh 4.6: D÷ liÖu tÖp huÊn luyÖn ............................................................................. 94
H×nh 4.7: Mµn h×nh nhËp tham sè cho m¹ng n¬ron................................................. 94
H×nh 4.8: Mµn h×nh nhËp tham sè cho gi¶i thuËt GA .............................................. 95
H×nh 4.9: T×m kiÕm b»ng gi¶i thuËt GA................................................................... 95
H×nh 4.10: HuÊn luyÖn b»ng gi¶i thuËt BP............................................................... 96
H×nh 4.11: Mµn h×nh dù b¸o .................................................................................... 98
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
6

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Lêi nãi ®Çu
Trong nh÷ng n¨m gÇn ®©y, vai trß cña m¸y tÝnh trong viÖc l−u tr÷ vµ xö lý
th«ng tin ngµy cµng trë nªn quan träng. Bªn c¹nh ®ã, c¸c thiÕt bÞ thu thËp d÷ liÖu tù
®éng còng ph¸t triÓn m¹nh gãp phÇn t¹o ra nh÷ng kho d÷ liÖu khæng lå. D÷ liÖu
®−îc thu thËp vµ l−u tr÷ ngµy cµng nhiÒu nh−ng ng−êi ra quyÕt ®Þnh l¹i cÇn cã
nh÷ng th«ng tin bæ Ých, nh÷ng “tri thøc” rót ra tõ nh÷ng nguån d÷ liÖu h¬n lµ chÝnh
d÷ liÖu ®ã cho viÖc ra quyÕt ®Þnh cña m×nh.
Víi nh÷ng yªu cÇu ®ã, c¸c m« h×nh CSDL truyÒn thèng vµ ng«n ng÷ thao t¸c
d÷ liÖu kh«ng cßn thÝch hîp n÷a. §Ó cã ®−îc tri thøc tõ CSDL, ng−êi ta ®· ph¸t triÓn
c¸c lÜnh vùc nghiªn cøu vÒ tæ chøc c¸c kho d÷ liÖu vµ kho th«ng tin, c¸c hÖ trî gióp
ra quyÕt ®Þnh, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL.
Trong sè ®ã, khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc ®· trë thµnh mét lÜnh vùc nghiªn
cøu rÊt s«i ®éng.
LuËn v¨n tËp trung nghiªn cøu kü thuËt sö dông m¹ng n¬ron vµ gi¶i thuËt di
truyÒn trong khai ph¸ d÷ liÖu, ®Æc biÖt lµ gi¶i ph¸p tÝch hîp gi¶i thuËt di truyÒn víi
gi¶i thuËt huÊn luyÖn m¹ng n¬ron. Trªn c¬ së ®ã, luËn v¨n x©y dùng ch−¬ng tr×nh
dù b¸o d÷ liÖu sö dông m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GABP.
LuËn v¨n ®−îc tr×nh bÇy gåm 4 ch−¬ng víi néi dung chÝnh nh− sau :
Ch−¬ng 1: Tr×nh bÇy mét c¸ch tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri
thøc trong CSDL. Trong ®ã ®Ò cËp ®Õn c¸c kh¸i nÖm, qu¸ tr×nh ph¸t hiÖn tri thøc,
nhiÖm vô chÝnh vµ c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh− nh÷ng vÊn ®Ò th¸ch
thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ.
Ch−¬ng 2: Nghiªn cøu kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i
thuËt di truyÒn, cô thÓ lµ nh÷ng vÊn ®Ò vÒ lùa chän cÊu tróc m¹ng vµ c¸c tham sè,
x©y dùng gi¶i thuËt häc vµ lan truyÒn trong m¹ng n¬ron, còng nh− c¸ch biÓu diÔn lêi
gi¶i, c¸c to¸n tö di truyÒn c¬ b¶n vµ nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn. §ång
thêi, ch−¬ng 2 còng ®−a ra nh÷ng ®¸nh gi¸ vÒ hiÖu qu¶ cña kü thuËt sö dông m¹ng
n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu, qua ®ã cã thÓ ®Þnh h−íng cho
viÖc lùa chän ph−¬ng ph¸p khai ph¸ thÝch hîp cho c¸c vÊn ®Ò thùc tÕ.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
7

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Ch−¬ng 3 : Giíi thiÖu kiÕn tróc m¹ng n¬ron truyÒn th¼ng nhiÒu líp, gi¶i
thuËt BP, c¸c vÊn ®Ò vÒ sö dông gi¶i thuËt BP vµ tr×nh bÇy gi¶i ph¸p tÝch hîp gi¶i
thuËt GA víi gi¶i thuËt BP trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp.
Ch−¬ng 4 : Giíi thiÖu bµi to¸n øng dông dù b¸o lò trªn s«ng, tõ ®ã m« h×nh
ho¸ bµi to¸n, thiÕt kÕ thuËt to¸n, d÷ liÖu vµ cµi ®Æt ch−¬ng tr×nh thö nghiÖm víi c«ng
cô m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GA-BP.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
8

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Ch−¬ng 1:

khai ph¸ d÷ liÖu vµ
ph¸t hiÖn tri thøc trong CSDL
1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong
C¬ Së D÷ LiÖu

1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc?
H¬n hai thËp niªn trë l¹i ®©y, l−îng th«ng tin ®−îc l−u tr÷ trªn c¸c thiÕt bÞ
®iÖn tö kh«ng ngõng t¨ng lªn. ViÖc tÝch luü d÷ liÖu diÔn ra víi mét tèc ®é bïng næ.
Ng−êi ta −íc ®o¸n r»ng l−îng th«ng tin trªn toµn cÇu t¨ng gÊp ®«i sau kho¶ng hai
n¨m vµ theo ®ã kÝch th−íc c¬ së d÷ liÖu (CSDL) còng t¨ng lªn mét c¸ch nhanh
chãng, c¶ vÒ sè b¶n ghi cña CSDL lÉn sè tr−êng, thuéc tÝnh trong b¶n ghi.
L−îng d÷ liÖu khæng lå nµy thùc sù lµ nguån tµi nguyªn rÊt gi¸ trÞ v× th«ng
tin chÝnh lµ yÕu tè then chèt trong mäi ho¹t ®éng. Tuy nhiªn, d÷ liÖu sÏ kh«ng cã
®Çy ®ñ ý nghÜa nÕu kh«ng ph¸t hiÖn ra nh÷ng tri thøc tiÒm Èn cã gi¸ trÞ trong ®ã.
Nh÷ng tri thøc nµy th−êng rÊt nhá so víi l−îng d÷ liÖu, do ®ã ph¸t hiÖn ra chóng lµ
mét vÊn ®Ò kh¸ khã kh¨n.
ViÖc x©y dùng c¸c hÖ thèng cã kh¶ n¨ng ph¸t hiÖn ®−îc c¸c mÈu tri thøc cã
gi¸ trÞ trong khèi d÷ liÖu ®å sé nh− vËy gäi lµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
(Knowledge Discover in Database_KDD). C¸c kü thuËt xö lý c¬ b¶n chÝnh lµ kü
thuËt khai ph¸ d÷ liÖu (Data Mining_DM). ViÖc ph©n tÝch d÷ liÖu mét c¸ch tù ®éng
vµ mang tÝnh dù b¸o cña KDD cã −u thÕ h¬n h¼n so víi c¸c ph−¬ng ph¸p ph©n tÝch
th«ng th−êng, dùa trªn nh÷ng sù kiÖn trong qu¸ khø cña c¸c hÖ hç trî ra quyÕt ®Þnh
truyÒn thèng tr−íc ®©y.
Víi tÊt c¶ nh÷ng −u thÕ ®ã, KDD ®· chøng tá ®−îc tÝnh h÷u dông cña nã
trong m«i tr−êng ®Çy tÝnh c¹nh tranh ngµy nay. KDD ®· vµ ®ang trë thµnh mét
h−íng nghiªn cøu chÝnh cña lÜnh vùc khoa häc m¸y tÝnh vµ c«ng nghÖ tri thøc.
Ph¹m vi øng dông cña KDD ban ®Çu chØ lµ trong lÜnh vùc th−¬ng m¹i vµ tµi chÝnh.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
9

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Cho ®Õn nay, KDD ®· ®−îc øng dông réng r·i trong c¸c lÜnh vùc kh¸c nh− viÔn
th«ng, gi¸o dôc, ®iÒu trÞ y häc, … Cã thÓ nãi, KDD lµ mét sù cè g¾ng ®Ó gi¶i quyÕt
vÊn ®Ò nan gi¶i cña kû nguyªn th«ng tin sè: vÊn ®Ò trµn d÷ liÖu.
1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu
Kh¸i niÖm “ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu” ®−îc ®−a ra lÇn ®Çu tiªn
vµo n¨m 1989, trong ®ã nhÊn m¹nh r»ng tri thøc lµ s¶n phÈm cuèi cïng cña qu¸
tr×nh khai ph¸ d÷ liÖu. Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ®−îc ®Þnh nghÜa nh− lµ
qu¸ tr×nh ch¾t läc tri thøc tõ mét l−îng lín d÷ liÖu. Nãi c¸ch kh¸c, cã thÓ quan niÖm
KDD lµ mét ¸nh x¹ d÷ liÖu tõ møc thÊp thµnh c¸c d¹ng c« ®äng h¬n, tãm t¾t vµ h÷u
Ých h¬n. Mét vÝ dô trùc quan th−êng ®−îc dïng lµ viÖc khai th¸c vµng tõ ®¸ vµ c¸t,
ng−êi khai th¸c muèn ch¾t läc vµng tõ ®¸ vµ c¸t trong ®iÒu kiÖn l−îng ®¸ vµ c¸t rÊt
lín.
ThuËt ng÷ “data mining” ¸m chØ viÖc t×m kiÕm mét tËp hîp nhá tri thøc,
th«ng tin cã gi¸ trÞ tõ mét l−îng lín c¸c d÷ liÖu th« [7]. Nã bao hµm mét lo¹t c¸c kü
thuËt nh»m ph¸t hiÖn ra nh÷ng th«ng tin cã gi¸ trÞ tiÒm Èn trong c¸c CSDL lín.
NhiÒu thuËt ng÷ hiÖn ®−îc dïng còng cã nghÜa t−¬ng tù víi tõ data mining nh−
knowledge mining (khai ph¸ tri thøc), knowledge extraction (ch¾t läc tri thøc),
data/patern analysis (Ph©n tÝch d÷ liÖu/mÉu), data archaeology (kh¶o cæ d÷ liÖu),
data dredging (n¹o vÐt d÷ liÖu).
Nh− vËy, nÕu quan niÖm tri thøc lµ mèi quan hÖ gi÷a c¸c phÇn tö d÷ liÖu th×
ph¸t hiÖn tri thøc chØ qu¸ tr×nh chiÕt suÊt tri thøc tõ c¬ së d÷ liÖu, trong ®ã tr¶i qua
nhiÒu giai ®o¹n kh¸c nhau. Khai ph¸ d÷ liÖu sö dông c¸c gi¶i thuËt ®Æc biÖt ®Ó chiÕt
xuÊt ra c¸c mÉu, c¸c m« h×nh tõ d÷ liÖu vµ chØ lµ mét giai ®o¹n trong qu¸ tr×nh ph¸t
hiÖn tri thøc trong CSDL.
Ph¸t hiÖn tri thøc trong CSDL vµ khai ph¸ d÷ liÖu lµ mét kü thuËt míi xuÊt
hiÖn vµ cã tèc ®é ph¸t triÓn rÊt nhanh. Ngoµi ra nã cßn lµ mét lÜnh vùc ®a ngµnh,
liªn quan ®Õn nhiÒu lÜnh vùc kh¸c nh−: lý thuyÕt thuËt to¸n, Data Warehouse,
OLAP, tÝnh to¸n song song, … nh−ng chñ yÕu dùa trªn nÒn t¶ng cña x¸c suÊt thèng
kª, c¬ së d÷ liÖu vµ häc m¸y.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
10

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU

H×nh 1.1 m« t¶ 5 giai ®o¹n trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu.
MÆc dï cã 5 giai ®o¹n, song ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu lµ mét qu¸ tr×nh
t−¬ng t¸c vµ lÆp ®i lÆp l¹i thµnh mét chu tr×nh liªn tôc theo kiÓu xo¸y tr«n èc, trong
®ã lÇn lÆp sau hoµn chØnh h¬n lÇn lÆp tr−íc. Ngoµi ra, giai ®o¹n sau l¹i dùa trªn kÕt
qu¶ cña giai ®o¹n tr−íc theo kiÓu th¸c n−íc [7, 4].
5. §−a kÕt qu¶ vµo thùc tÕ
4. Minh ho¹ vµ ®¸nh gi¸ tri
thøc ®−îc ph¸t hiÖn
3. Khai ph¸ d÷ liÖu – TrÝch ra
c¸c mÉu/ c¸c m« h×nh
2. Thu thËp vµ tiÒn xö lý d÷
li
1. HiÓu vµ x¸c ®Þnh vÊn ®Ò

H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL
Sau ®©y sÏ tr×nh bÇy cô thÓ h¬n tõng giai ®o¹n cña qu¸ tr×nh nµy:
1.2.1. X¸c ®Þnh vÊn ®Ò
Qu¸ tr×nh nµy mang tÝnh ®Þnh tÝnh víi môc ®Ých x¸c ®Þnh ®−îc lÜnh vùc yªu
cÇu ph¸t hiÖn tri thøc vµ x©y dùng bµi to¸n tæng thÓ. Trong thùc tÕ, c¸c c¬ së d÷ liÖu
®−îc chuyªn m«n ho¸ vµ ph©n chia theo c¸c lÜnh vùc kh¸c nhau. Víi mçi tri thøc
ph¸t hiÖn ®−îc, cã thÓ cã gi¸ trÞ cho lÜnh vùc nµy nh−ng l¹i kh«ng mang l¹i nhiÒu ý
nghÜa ®èi víi mét lÜnh vùc kh¸c. V× vËy, viÖc x¸c ®Þnh bµi to¸n gióp ®Þnh h−íng cho
giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu.
1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu
Trong qu¸ tr×nh thu thËp d÷ liÖu cho bµi to¸n, c¸c c¬ së d÷ liÖu thu ®−îc
th−êng chøa rÊt nhiÒu thuéc tÝnh nh−ng l¹i kh«ng ®Çy ®ñ, kh«ng thuÇn nhÊt, cã
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
11

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

nhiÒu lçi vµ cã c¸c gi¸ trÞ ®Æc biÖt. Nguyªn nh©n cã thÓ lµ do ý kiÕn ph¸t biÓu cña
c¸c chuyªn gia kh«ng thèng nhÊt, do c¸c sai sè khi ®o ®¹c d÷ liÖu,… V× vËy, giai
®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu trë nªn rÊt quan träng trong qu¸ tr×nh ph¸t hiÖn tri
thøc tõ c¬ së d÷ liÖu. Giai ®o¹n nµy th−êng chiÕm tõ 70% ®Õn 80% gi¸ thµnh cña
toµn bé bµi to¸n.
Giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu ®−îc chia thµnh c¸c c«ng ®o¹n nh−:
lùa chän d÷ liÖu, lµm s¹ch d÷ liÖu, lµm giµu d÷ liÖu, m· ho¸ d÷ liÖu. C¸c c«ng ®o¹n
®−îc thùc hiÖn theo tr×nh tù nh»m ®−a ra mét c¬ së d÷ liÖu thÝch hîp cho c¸c giai
®o¹n sau. Tuy nhiªn, tuú tõng d÷ liÖu cô thÓ mµ qu¸ tr×nh trªn ®−îc ®iÒu chØnh cho
phï hîp
1.2.2.1. Chän läc d÷ liÖu
§©y lµ b−íc chän läc c¸c d÷ liÖu liªn quan trong c¸c nguån d÷ liÖu kh¸c
nhau. C¸c th«ng tin ®−îc chän ra lµ nh÷ng th«ng tin cã nhiÒu liªn quan ®Õn lÜnh vùc
cÇn ph¸t hiÖn tri thøc ®· x¸c ®Þnh trong giai ®o¹n x¸c ®Þnh vÊn ®Ò.
1.2.2.2. Lµm s¹ch d÷ liÖu
D÷ liÖu thùc tÕ, ®Æc biÖt lµ nh÷ng d÷ liÖu ®−îc lÊy tõ nhiÒu nguån kh¸c nhau
th−êng kh«ng ®ång nhÊt. Do ®ã, cÇn cã biÖn ph¸p xö lý ®Ó thèng nhÊt c¸c d÷ liÖu
thu ®−îc phôc vô cho khai ph¸. Giai ®o¹n lµm s¹ch d÷ liÖu th−êng bao gåm c¸c
phÐp xö lý nh−: ®iÒu hoµ d÷ liÖu, xö lý c¸c gi¸ trÞ khuyÕt, xö lý nhiÔu vµ c¸c ngo¹i
lÖ,...
1.2.2.3. Lµm giµu d÷ liÖu
ViÖc thu thËp d÷ liÖu ®«i khi kh«ng ®¶m b¶o tÝnh ®Çy ®ñ cña d÷ liÖu. Mét sè
th«ng tin rÊt quan träng cã thÓ thiÕu hoÆc kh«ng ®Çy ®ñ. ViÖc lµm giµu d÷ liÖu chÝnh
lµ t×m c¸ch bæ sung c¸c th«ng tin cã ý nghÜa vµ quan träng cho qu¸ tr×nh khai ph¸ d÷
liÖu sau nµy. Qu¸ tr×nh lµm giµu d÷ liÖu còng bao gåm viÖc tÝch hîp vµ chuyÓn ®æi
d÷ liÖu. C¸c d÷ liÖu tõ nhiÒu nguån kh¸c nhau ®−îc tÝch hîp thµnh mét kho thèng
nhÊt. C¸c khu«n d¹ng kh¸c nhau cña d÷ liÖu còng ®−îc quy ®æi, tÝnh to¸n l¹i ®Ó ®−a
vÒ mét kiÓu thèng nhÊt, tiÖn cho qu¸ tr×nh ph©n tÝch. §«i khi, mét sè thuéc tÝnh míi
còng cã thÓ ®−îc x©y dùng dùa trªn c¸c thuéc tÝnh cò.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
12

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

1.2.2.4. M∙ ho¸
§©y lµ giai ®o¹n m· ho¸ c¸c ph−¬ng ph¸p dïng ®Ó chän läc, lµm s¹ch, lµm
giµu d÷ liÖu thµnh c¸c thñ tôc, ch−¬ng tr×nh hay c¸c tiÖn Ých nh»m tù ®éng ho¸ viÖc
kÕt xuÊt, biÕn ®æi vµ di chuyÓn d÷ liÖu. C¸c hÖ thèng con ®ã cã thÓ ®−îc thùc thi
®Þnh kú ®Ó lµm t−¬i d÷ liÖu phôc vô cho viÖc ph©n tÝch.
1.2.3. Khai ph¸ d÷ liÖu
Giai ®o¹n khai ph¸ d÷ liÖu ®−îc b¾t ®Çu sau khi d÷ liÖu ®· ®−îc thu thËp vµ
xö lý. Trong giai ®o¹n nµy, c«ng viÖc chñ yÕu lµ x¸c ®Þnh ®−îc bµi to¸n khai ph¸ d÷
liÖu, tiÕn hµnh lùa chän c¸c ph−¬ng ph¸p khai ph¸ thÝch hîp víi d÷ liÖu cã ®−îc vµ
t¸ch ra c¸c tri thøc cÇn thiÕt.
Th«ng th−êng, c¸c bµi to¸n khai ph¸ d÷ liÖu bao gåm: c¸c bµi to¸n mang tÝnh
chÊt m« t¶, ®−a ra nh÷ng tÝnh chÊt chung nhÊt cña d÷ liÖu, c¸c bµi to¸n khai ph¸, dù
b¸o, bao gåm c¶ viÖc thùc hiÖn c¸c suy diÔn dùa trªn d÷ liÖu hiÖn cã. Tuú theo tõng
bµi to¸n x¸c ®Þnh ®−îc mµ ta lùa chän c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu cho phï
hîp.
1.2.4. Minh ho¹ vµ ®¸nh gi¸
C¸c tri thøc ph¸t hiÖn ®−îc tõ c¬ së d÷ liÖu cÇn ®−îc tæng hîp vµ biÓu diÔn
d−íi d¹ng gÇn gòi víi ng−êi sö dông nh− ®å thÞ, c©y, b¶ng biÓu, hay c¸c luËt, c¸c
b¸o c¸o,... phôc vô cho c¸c môc ®Ých hç trî quyÕt ®Þnh kh¸c nhau.
Do nhiÒu ph−¬ng ph¸p khai ph¸ cã thÓ ®−îc ¸p dông nªn c¸c kÕt qu¶ cã thÓ
cã nhiÒu møc ®é tèt xÊu kh¸c nhau vµ viÖc ®¸nh gi¸ c¸c kÕt qu¶ thu ®−îc lµ rÊt cÇn
thiÕt. Th«ng th−êng, c¸c kÕt qu¶ sÏ ®−îc tæng hîp, so s¸nh b»ng c¸c biÓu ®å vµ ®−îc
kiÓm nghiÖm, tinh läc. §Ó ®¸nh gi¸ tri thøc, ng−êi ta th−êng dùa vµo c¸c tiªu chÝ
nhÊt ®Þnh nh−:
- Tri thøc ph¶i ®ñ ®é ®¸ng quan t©m: thÓ hiÖn ë tÝnh h÷u dông (useful), tÝnh
míi l¹ (novel) cña tri thøc vµ qu¸ tr×nh trÝch rót kh«ng tÇm th−êng.
- Tri thøc ph¶i ®ñ ®é tin cËy.
§©y lµ c«ng viÖc cña c¸c nhµ chuyªn gia, c¸c nhµ ph©n tÝch vµ ra quyÕt ®Þnh.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
13

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

1.2.5. §−a kÕt qu¶ vµo thùc tÕ
C¸c kÕt qu¶ cña qu¸ tr×nh ph¸t hiÖn tri thøc cã thÓ ®−îc ®−a vµo øng dông
trong c¸c lÜnh vùc kh¸c nhau. Do c¸c kÕt qu¶ cã thÓ lµ c¸c dù b¸o hoÆc c¸c m« t¶
nªn cã thÓ ®−a vµo c¸c hÖ thèng hç trî ra quyÕt ®Þnh nh»m tù ®éng ho¸ qu¸ tr×nh
nµy.
Nh− vËy, qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu th−êng ®−îc thùc hiÖn
theo n¨m b−íc nªu trªn. Tuy nhiªn, trong qu¸ tr×nh khai th¸c, cã thÓ thùc hiÖn
nh÷ng c¶i tiÕn, n©ng cÊp cho phï hîp víi tõng øng dông cô thÓ. Trong sè c¸c b−íc,
tiÒn xö lý d÷ liÖu vµ khai ph¸ d÷ liÖu hai b−íc rÊt quan träng, chiÕm phÇn lín c«ng
søc vµ gi¸ thµnh cña toµn bé bµi to¸n. ViÖc lùa chän c¸c ph−¬ng ph¸p thùc hiÖn cô
thÓ cho qu¸ tr×nh tiÒn xö lý vµ khai ph¸ d÷ liÖu phô thuéc rÊt nhiÒu vµo ®Æc ®iÓm d÷
liÖu vµ yªu cÇu cña bµi to¸n. Sau ®©y, ta sÏ xem xÐt cô thÓ h¬n qu¸ tr×nh khai ph¸ d÷
liÖu.
1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu

Ta ®· biÕt, qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu giai ®o¹n
kh¸c nhau mµ khai ph¸ d÷ liÖu chØ lµ mét giai ®o¹n trong qu¸ tr×nh ®ã. Tuy nhiªn,
®©y l¹i lµ giai ®o¹n ®ãng vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh
cña KDD.
1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu
Khai ph¸ d÷ liÖu lµ mét b−íc quan träng trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ
sè l−îng lín d÷ liÖu ®· l−u tr÷ trong c¸c CSDL, kho d÷ liÖu hoÆc c¸c n¬i l−u tr÷
kh¸c. B−íc nµy cã thÓ t−¬ng t¸c lÉn nhau gi÷a ng−êi sö dông hoÆc c¬ së tri thøc.
C¸c mÉu ®¸ng quan t©m ®−îc ®−a ®Õn cho ng−êi sö dông hoÆc l−u tr÷ nh− lµ tri thøc
míi trong c¬ së tri thøc.
KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu cã thÓ cã c¸c thµnh phÇn chÝnh sau:

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
14

Ng−êi sö
dông

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Ng−êi sö
dông

Giao diÖn ng−êi dïng

§¸nh gi¸ mÉu
C¬ së tri thøc
M« t¬ khai ph¸ d÷ liÖu
(Data mining engine)

CSDL hay kho d÷ liÖu
phôc vô
Lµm s¹ch d÷ liÖu

Läc d÷ liÖu
CSDL

Kho d÷ liÖu

H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu
- CSDL, kho d÷ liÖu hay c¸c kho l−u tr÷ kh¸c: lµ mét hoÆc mét tËp c¸c CSDL,
kho d÷ liÖu, ... C¸c kü thuËt lµm s¹ch d÷ liÖu, tÝch hîp, läc d÷ liÖu cã thÓ thùc
hiÖn trªn d÷ liÖu.
- CSDL hay kho d÷ liÖu phôc vô: lµ nh÷ng d÷ liÖu cã liªn quan ®−îc läc vµ lµm
s¹ch tõ kho d÷ liÖu trªn c¬ së yªu cÇu khai ph¸ d÷ liÖu cña ng−êi dïng.
- C¬ së tri thøc: lµ lÜnh vùc tri thøc ®−îc sö dông ®Ó h−íng dÉn viÖc t×m hî¨c
®¸nh gi¸ c¸c mÉu kÕt qu¶ t×m ®−îc.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
15

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

- M« t¬ khai ph¸ d÷ liÖu: bao gåm tËp c¸c modul chøc n¨ng ®Ó thùc hiÖn c¸c
nhiÖm vô nh− m« t¶ ®Æc ®iÓm, kÕt hîp, ph©n líp, ph©n côm d÷ liÖu, ...
- Modul ®¸nh gi¸ mÉu: thµnh phÇn nµy sö dông c¸c ®é ®o vµ t−¬ng t¸c víi c¸c
modul khai ph¸ d÷ liÖu ®Ó tËp trung t×m c¸c mÉu ®¸ng quan t©m.
- Giao diÖn ng−êi dïng: cho phÐp ng−êi dïng t−¬ng t¸c víi hÖ thèng trªn c¬ së
nh÷ng truy vÊn hay t¸c vô, cung cÊp c¸c th«ng tin cho viÖc t×m kiÕm.
1.3.2. Qu¸ tr×nh khai ph¸ d÷ liÖu vµ gi¶i thuËt khai ph¸ d÷ liÖu
1.3.2.1. Qu¸ tr×nh khai ph¸ d÷ liÖu
C¸c gi¶i thuËt khai ph¸ d÷ liÖu th−êng ®−îc m« t¶ nh− nh÷ng ch−¬ng tr×nh
ho¹t ®éng trùc tiÕp trªn tÖp d÷ liÖu. Qu¸ tr×nh khai ph¸ d÷ liÖu ®−îc thÓ hiÖn bëi m«
h×nh sau:
Thèng kª vµ
tãm t¾t
Gi¶i thuËt
khai ph¸

Thu thËp vµ tiÒn
xö lý d÷ liÖu
X¸c ®Þnh d÷ liÖu
liªn quan

MÉu

D÷ liÖu trùc
tiÕp

X¸c ®Þnh nhiÖm
vô
H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu

- X¸c ®Þnh nhiÖm vô: X¸c ®Þnh chÝnh x¸c vÊn ®Ò cÇn ®−îc gi¶i quyÕt
- X¸c ®Þnh d÷ liÖu liªn quan: Trªn c¬ së vÊn ®Ò cÇn ®−îc gi¶i quyÕt, x¸c ®Þnh
c¸c nguån d÷ liÖu liªn quan ®Ó cã thÓ x©y dùng gi¶i ph¸p.
- Thu thËp vµ tiÒn xö lü d÷ liÖu: Thu thËp c¸c d÷ liÖu cã liªn quan vµ xö lý
chóng ®−a vÒ d¹ng sao cho gi¶i thuËt khai ph¸ d÷ liÖu cã thÓ hiÓu ®−îc. ë ®©y
cã thÓ gÆp mét sè vÊn ®Ò nh−: d÷ liÖu ph¶i ®−îc sao ra nhiÒu b¶n (nÕu ®−îc
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
16

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

chiÕt xuÊt vµo c¸c tÖp), qu¶n lý c¸c tÖp d÷ liÖu, ph¶i lÆp ®i lÆp l¹i nhiÒu lÇn
toµn bé qu¸ tr×nh (nÕu m« h×nh d÷ liÖu thay ®æi), ...
- Thèng kª vµ tãm t¾t d÷ liÖu, ®ång thêi kÕt hîp víi c¸c d÷ liÖu trùc tiÕp ®Ó lµm
®Çu vµo cho b−íc thùc hiÖn gi¶i thuËt khai ph¸ d÷ liÖu.
- Chän thuËt to¸n khai ph¸ d÷ liÖu thÝch hîp vµ thùc hiÖn viÖc khai ph¸ d÷ liÖu
®Ó t×m ®−îc c¸c mÉu cã ý nghÜa. Víi c¸c nhiÖm vô kh¸c nhau cña khai ph¸
d÷ liÖu, d¹ng cña c¸c mÉu chiÕt xuÊt ®−îc còng kh¸c nhau. MÉu chiÕt xuÊt
®−îc cã thÓ lµ mét m« t¶ xu h−íng, cã thÓ lµ d−íi d¹ng v¨n b¶n, mét ®å thÞ
m« t¶ c¸c mèi quan hÖ trong m« h×nh,...
1.3.2.2. C¸c thµnh phÇn cña gi¶i thuËt khai ph¸ d÷ liÖu
Gi¶i thuËt khai ph¸ d÷ liÖu gåm ba thµnh phÇn chÝnh:
• BiÓu diÔn m« h×nh: M« h×nh ®−îc biÓu diÔn b»ng mét ng«n ng÷ L ®Ó m« t¶
c¸c mÉu cã thÓ khai th¸c ®−îc. NÕu m« h×nh m« t¶ qu¸ h¹n chÕ th× sÏ kh«ng thÓ häc
®−îc hoÆc sÏ kh«ng cã c¸c mÉu t¹o ra ®−îc mét m« h×nh chÝnh x¸c cho d÷ liÖu. Tuy
nhiªn, kh¶ n¨ng m« t¶ cña m« h×nh cµng lín th× cµng t¨ng møc ®é nguy hiÓm do bÞ
häc qu¸ vµ lµm gi¶m kh¶ n¨ng dù ®o¸n cña c¸c d÷ liÖu ch−a biÕt. Do ®ã, viÖc quan
träng lµ ng−êi ph©n tÝch d÷ liÖu vµ thiÕt kÕ gi¶i thuËt cÇn ph¶i hiÓu ®Çy ®ñ c¸c gi¶
thiÕt m« t¶ vµ cÇn ph¶i diÔn t¶ ®−îc c¸c gi¶ thiÕt m« t¶ nµo ®−îc t¹o ra tõ luËt nµo.
• §¸nh gi¸ m« h×nh: §¸nh gi¸ xem mét mÉu cã ®¸p øng ®−îc c¸c tiªu chuÈn
cña qu¸ tr×nh ph¸t hiÖn tri thøc hay kh«ng. ViÖc ®¸nh gi¸ ®é chÝnh x¸c dù ®o¸n
®−îc thùc hiÖn dùa trªn ®¸nh gi¸ chÐo (cross validation). §¸nh gi¸ chÊt l−îng liªn
quan ®Õn ®é chÝnh x¸c dù ®o¸n, ®é míi, kh¶ n¨ng sö dông, kh¶ n¨ng hiÓu ®−îc cña
m« h×nh. Cã thÓ sö dông chuÈn thèng kª vµ chuÈn logic ®Ó ®¸nh gi¸ m« h×nh.
• Ph−¬ng ph¸p t×m kiÕm: Ph−¬ng ph¸p t×m kiÕm gåm hai thµnh phÇn: t×m kiÕm
tham sè vµ t×m kiÕm m« h×nh.
- Trong t×m kiÕm tham sè, gi¶i thuËt cÇn t×m kiÕm c¸c tham sè ®Ó tèi −u ho¸
c¸c tiªu chuÈn ®¸nh gi¸ m« h×nh víi c¸c d÷ liÖu quan s¸t ®−îc vµ mét miªu t¶
m« h×nh ®· ®Þnh tr−íc.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
17

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

- T×m kiÕm m« h×nh thùc hiÖn gièng nh− mét vßng lÆp qua ph−¬ng ph¸p t×m
kiÕm tham sè, miªu t¶ m« h×nh bÞ thay ®æi t¹o nªn mét hä c¸c m« h×nh. Víi
mçi mét miªu t¶ m« h×nh, ph−¬ng ph¸p t×m kiÕm tham sè ®−îc thùc hiÖn ®Ó
®¸nh gi¸ chÊt l−îng m« h×nh. C¸c ph−¬ng ph¸p t×m kiÕm m« h×nh th−êng sö
dông c¸c ph−¬ng ph¸p t×m kiÕm heuristic v× kÝch th−íc cña kh«ng gian t×m
kiÕm c¸c m« h×nh th−êng ng¨n c¶n c¸c kü thuËt t×m kiÕm tæng thÓ.
1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu
§èi víi khai ph¸ d÷ liÖu, cã hai bµi to¸n chÝnh lµ:
- Bµi to¸n m« t¶ (description): §−a ra m« h×nh biÓu thÞ nh÷ng tÝnh chÊt chung
nhÊt cña d÷ liÖu mÉu.
- Bµi to¸n khai ph¸ dù b¸o (prediction): Suy diÔn dùa trªn d÷ liÖu mÉu hiÖn cã
®Ó ®−a ra mét kÕt qu¶ nµo ®ã.
Nh− vËy, cã thÓ coi môc ®Ých chÝnh cña khai ph¸ d÷ liÖu lµ m« t¶ vµ dù b¸o. C¸c
mÉu ®−îc ph¸t hiÖn nh»m vµo hai môc ®Ých nµy. Bµi to¸n dù b¸o liªn quan ®Õn viÖc
sö dông c¸c biÕn hoÆc c¸c tr−êng trong CSDL ®Ó chiÕt xuÊt ra c¸c mÉu, trªn c¬ së
®ã dù ®o¸n c¸c gi¸ trÞ ch−a biÕt hoÆc c¸c gi¸ trÞ t−¬ng lai cña c¸c biÕn ®¸ng quan
t©m. Bµi to¸n m« t¶ tËp trung vµo viÖc t×m kiÕm c¸c mÉu m« t¶ d÷ liÖu cã thÓ hiÓu
®−îc cho c¸c øng dông thùc tÕ.
§Ó ®¹t ®−îc hai môc ®Ých nµy, nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu bao gåm
c¸c vÊn ®Ò sau:
• Ph©n líp (clasification): Ph©n líp t−¬ng øng víi viÖc x¸c lËp mét ¸nh x¹ (hay
ph©n lo¹i) mét tËp d÷ liÖu vµo mét trong sè c¸c líp ®· x¸c ®Þnh.
• Håi quy (Regression): Håi quy t−¬ng øng víi viÖc x¸c lËp ¸nh x¹ tõ mét tËp
d÷ liÖu vµo mét biÕn dù ®o¸n cã gi¸ trÞ thùc.
• Ph©n côm (Clustering): Ph©n côm nh»m ghÐp nhãm c¸c ®èi t−îng d÷ liÖu.
C¸c ®èi t−îng d÷ liÖu ®−îc coi lµ gièng nhau, nÕu chóng thuéc cïng mét côm vµ
kh¸c nhau nÕu chóng thuéc c¸c côm kh¸c nhau. C¸c côm cã thÓ t¸ch rêi nhau hoÆc
ph©n cÊp hoÆc gèi lªn nhau. NghÜa lµ mét ®èi t−îng d÷ liÖu cã thÓ võa thuéc côm
nµy, võa thuéc côm kia. Qu¸ tr×nh nhãm c¸c ®èi t−îng thµnh c¸c côm ®−îc gäi lµ
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
18

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

ph©n côm hay ph©n nhãm. Mét vÝ dô øng dông cña khai ph¸ d÷ liÖu cã nhiÖm vô
ph©n côm lµ ph¸t hiÖn tËp nh÷ng kh¸ch hµng cã hµnh vi gièng nhau trong c¬ së d÷
liÖu tiÕp thÞ.

Côm 3

Côm 1

Côm 2

H×nh 1.4: KÕt qu¶ cña ph©n côm
H×nh 1.4 m« t¶ c¸c mÉu cña qu¸ tr×nh khai ph¸ d÷ liÖu víi nhiÖm vô ph©n
côm. C¸c mÉu lµ nhãm kh¸ch hµng ®−îc xÕp vµo ba nhãm gèi lªn nhau. Nh÷ng
kh¸ch hµng ë c¶ hai côm chøng tá kh¸ch hµng ®ã cã thÓ thuéc hai tr¹ng th¸i.
• Tãm t¾t (summarization): liªn quan ®Õn c¸c ph−¬ng ph¸p t×m kiÕm mét m« t¶
tãm t¾t cho mét tËp con d÷ liÖu.
• M« h×nh ho¸ sù phô thuéc (Dependency Modeling): Bao gåm viÖc t×m kiÕm
mét m« h×nh m« t¶ sù phô thuéc gi÷a c¸c biÕn. C¸c m« h×nh phô thuéc tån t¹i d−íi
hai møc:
- Møc cÊu tróc, lµ m« h×nh x¸c ®Þnh c¸c biÕn nµo lµ phô thuéc côc bé víi
nhau (th−êng ë d¹ng ®å ho¹).
- Møc ®Þnh l−îng lµ m« h×nh x¸c ®Þnh ®é lín cña sù phô thuéc theo mét
th−íc ®o nµo ®ã.
• Ph¸t hiÖn thay ®æi vµ sai lÖch (Change and Deviation detection): X¸c ®Þnh
nh÷ng thay ®æi ®¸ng kÓ nhÊt trong d÷ liÖu tõ c¸c gi¸ trÞ chuÈn ®o ®−îc tr−íc ®ã.
Râ rµng, nh÷ng nhiÖm vô kh¸c nhau kÓ trªn yªu cÇu vÒ sè l−îng vµ c¸c d¹ng
th«ng tin rÊt kh¸c nhau. Do ®ã, tuú theo tõng nhiÖm vô cô thÓ, sÏ cã nh÷ng ¶nh
h−ëng ®Õn viÖc thiÕt kÕ vµ lùa chän gi¶i thuËt khai ph¸ d÷ liÖu.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

19

1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn
1.3.4.1. Ph−¬ng ph¸p quy n¹p
Cã hai kü thuËt chÝnh ®Ó thùc hiÖn lµ suy diÔn vµ quy n¹p.
• Suy diÔn: nh»m rót ra th«ng tin lµ kÕt qu¶ logic cña c¸c th«ng tin trong
CSDL. Ph−¬ng ph¸p suy diÔn dùa trªn nh÷ng sù kiÖn chÝnh x¸c ®Ó suy ra c¸c tri
thøc míi tõ c¸c th«ng tin cò. MÉu chiÕt xuÊt theo kü thuËt nµy th−êng lµ c¸c luËt
suy diÔn.
• Quy n¹p: Ph−¬ng ph¸p quy n¹p suy ra th«ng tin ®−îc sinh ra tõ c¬ së d÷ liÖu,
cã nghÜa lµ nã tù t×m kiÕm, t¹o mÉu vµ sinh ra tri thøc chø kh«ng ph¶i b¾t ®Çu víi
c¸c tri thøc ®· biÕt tr−íc. C¸c th«ng tin do ph−¬ng ph¸p nµy mang l¹i lµ nh÷ng
th«ng tin hay tri thøc cÊp cao diÔn t¶ vÒ c¸c ®èi t−îng trong CSDL. Ph−¬ng ph¸p
nµy liªn quan ®Õn viÖc t×m kiÕm c¸c mÉu trong CSDL.
Ph−¬ng ph¸p quy n¹p th−êng ®−îc nãi ®Õn trong kü thuËt c©y quyÕt ®Þnh vµ
t¹o luËt.
1.3.4.2. C©y quyÕt ®Þnh vµ t¹o luËt
• C©y quyÕt ®Þnh: lµ mét d¹ng m« t¶ tri thøc ®¬n gi¶n nh»m ph©n c¸c ®èi t−äng
d÷ liÖu thµnh mét sè líp nhÊt ®Þnh. C¸c nót cña c©y ®−îc g¸n nh·n lµ tªn c¸c thuéc
tÝnh, c¸c cung ®−îc g¾n gi¸ trÞ cã thÓ cña c¸c thuéc tÝnh, c¸c l¸ miªu t¶ c¸c líp kh¸c
nhau. C¸c ®èi t−îng ®−îc ph©n líp theo c¸c ®−êng ®i trªn c©y, qua c¸c cung t−¬ng
øng víi gi¸ trÞ cña thuéc tÝnh cña ®èi t−îng tíi l¸.
VÝ dô: B¶ng d÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis:
Ngµy

Quang c¶nh

NhiÖt ®é

§é Èm

Giã

Ch¬i tennis

D1

N¾ng

Nãng

Cao

Yªó

Kh«ng

D2

N¾ng

Nãng

Cao

M¹nh

Kh«ng

D3

©m u

Nãng

Cao

Yªó

Cã

D4

M−a

Êm ¸p

Cao

Yªó

Cã

D5

M−a

L¹nh

B×nh th−êng

Yªó

Cã

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

20
D6

M−a

L¹nh

B×nh th−êng

M¹nh

Kh«ng

D7

©m u

L¹nh

B×nh th−êng

M¹nh

Cã

D8

N¾ng

Êm ¸p

Cao

Yªó

Kh«ng

D9

N¾ng

L¹nh

B×nh th−êng

Yªó

Cã

D10

M−a

Êm ¸p

B×nh th−êng

Yªó

Cã

D11

N¾ng

Êm ¸p

B×nh th−êng

M¹nh

Cã

D12

©m u

Êm ¸p

Cao

M¹nh

Cã

D13

©m u

Nãng

B×nh th−êng

Yªó

Cã

D14

M−a

Êm ¸p

Cao

M¹nh

Kh«ng

B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis
Tõ b¶ng d÷ liÖu trªn, ng−êi ta x©y dùng ®−îc c©y quyÕt ®Þnh trî gióp quyÕt ®Þnh
®i hay kh«ng ®i ch¬i tennis nh− sau:
Quang c¶nh
N¾ng
§é Èm
Cao
Kh«ng

M−a

©m u

Giã

Cã

B×nh th−êng

M¹nh

Cã

Kh«ng

YÕu
Cã

H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis
• T¹o luËt: C¸c luËt ®−îc t¹o ra nh»m suy diÔn mét sè mÉu d÷ liÖu cã ý nghÜa
vÒ mÆt thèng kª. C¸c luËt cã d¹ng “NÕu P th× Q”, víi P lµ mÖnh ®Ò ®óng víi mét
phÇn d÷ liÖu cã trong CSDL, Q lµ mÖnh ®Ò dù ®o¸n.
C©y quyÕt ®Þnh vµ luËt cã −u ®iÓm lµ h×nh thøc m« t¶ ®¬n gi¶n, m« h×nh biÓu
diÔn kh¸ dÔ hiÓu ®èi víi ng−êi sö dông. Tuy nhiªn, m« t¶ c©y vµ luËt chØ cã thÓ biÓu
diÔn ®−îc mét sè chøc n¨ng, v× vËy chóng giíi h¹n vÒ ®é chÝnh x¸c cña m« h×nh.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
21

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

1.3.4.3. Ph¸t hiÖn luËt kÕt hîp
Ph−¬ng ph¸p nµy nh»m ph¸t hiÖn c¸c luËt kÕt hîp gi÷a c¸c thµnh phÇn d÷
liÖu trong CSDL. §Çu ra cña thuËt to¸n khai ph¸ d÷ liÖu lµ mét tËp luËt kÕt mµ mçi
luËt cã d¹ng: X => Y (nÕu cã X th× cã Y). KÌm theo mçi luËt t×m ®−îc lµ c¸c tham
sè ®é hç trî vµ ®é tin cËy cña luËt. §é hç trî vµ ®é tin cËy lµ hai ®é ®o chØ sù ®¸ng
quan t©m, ph¶n ¸nh sù h÷u Ých vµ sù ch¾c ch¾n cña luËt, chóng ®−îc tÝnh theo c«ng
thøc:
§é hç trî (Support) = Sè b¶n ghi chøa X / Tæng sè b¶n ghi.
§é tin cËy (Confidence) = Sè b¶n ghi chøa c¶ X vµ Y / Sè b¶n ghi chøa X
VÝ dô: Ph©n tÝch CSDL b¸n hµng, ng−êi ta nhËn ®−îc th«ng tin vÒ nh÷ng kh¸ch
hµng mua m¸y tÝnh ®ång thêi còng cã khuynh h−íng mua phÇn mÒm qu¶n lý tµi
chÝnh trong cïng mét lÇn mua ®−îc m« t¶ trong luËt kÕt hîp nh− sau:
“M¸y tÝnh => PhÇn mÒm qu¶n lý”
[§é hç trî: 2%, ®é tin cËy: 60%]
LuËt trªn thÓ hiÖn cã 2% trªn tæng sè c¸c kh¸ch hµng ®· mua m¸y tÝnh, trong
sè nh÷ng kh¸ch hµng mua m¸y tÝnh, 60% còng mua phÇn mÒm qu¶n lý.
Ph¸t hiÖn c¸c luËt kÕt hîp lµ ph¶i t×m tÊt c¶ c¸c luËt tho¶ m·n ng−ìng ®é tin
cËy vµ ®é hç trî cho tr−íc. ThuËt to¸n t×m c¸c luËt kÕt hîp tr−íc tiªn ph¶i ®i t×m c¸c
tËp môc th−êng xuyªn, sau ®ã tõ c¸c tËp môc th−êng xuyªn t¹o nªn luËt kÕt hîp.
1.3.4.4. Ph©n nhãm vµ ph©n ®o¹n
Kü thuËt ph©n nhãm vµ ph©n ®o¹n lµ nh÷ng kü thuËt ph©n chia d÷ liÖu sao
cho mçi phÇn hoÆc mçi nhãm sÏ gièng nhau theo mét tiªu chuÈn nµo ®ã. Mèi quan
hÖ thµnh viªn cña c¸c nhãm cã thÓ dùa trªn møc ®é gièng nhau cña c¸c thµnh viªn
vµ tõ ®ã x©y dùng nªn c¸c luËt rµng buéc gi÷a c¸c thµnh viªn trong nhãm. Mét kü
thuËt ph©n nhãm kh¸c lµ x©y dùng c¸c hµm ®¸nh gi¸ c¸c thuéc tÝnh cña c¸c thµnh
phÇn nh− lµ hµm cña c¸c tham sè cña c¸c thµnh phÇn. Ph−¬ng ph¸p nµy ®−îc gäi lµ
ph−¬ng ph¸p ph©n ho¹ch tèi −u (optimal partitioning).
MÉu ®Çu ra cña qu¸ tr×nh khai ph¸ d÷ liÖu dïng kü thuËt nµy lµ c¸c tËp mÉu
chøa c¸c d÷ liÖu cã chung nh÷ng tÝnh chÊt nµo ®ã ®−îc ph©n t¸ch tõ CSDL. Khi c¸c
mÉu ®−îc thiÕt lËp, chóng cã thÓ ®−îc sö dông ®Ó t¸i t¹o c¸c tËp d÷ liÖu ë d¹ng dÔ
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
22

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

hiÓu h¬n, ®ång thêi còng cung cÊp c¸c nhãm d÷ liÖu cho c¸c ho¹t ®éng còng nh−
c«ng viÖc ph©n tÝch. §èi víi CSDL lín, viÖc lÊy ra c¸c nhãm nµy lµ rÊt quan träng.
1.3.4.5. C¸c ph−¬ng ph¸p dùa trªn mÉu
Sö dông c¸c mÉu miªu t¶ tõ CSDL ®Ó t¹o nªn mét m« h×nh dù ®o¸n c¸c mÉu
míi b»ng c¸ch rót ra c¸c thuéc tÝnh t−¬ng tù nh− c¸c mÉu ®· biÕt trong m« h×nh.
C¸c kü thuËt ®−îc sö dông bao gåm ph©n líp theo k l¸ng giÒng gÇn nhÊt (K_nearest
neighbour), c¸c gi¶i thuËt håi quy vµ c¸c hÖ thèng suy diÔn dùa trªn t×nh huèng
(case based reasoning).
1.3.4.6. M« h×nh phô thuéc dùa trªn ®å thÞ x¸c suÊt
C¸c m« h×nh ®å thÞ x¸c ®Þnh sù phô thuéc x¸c suÊt gi÷a c¸c sù kiÖn th«ng
qua mèi liªn hÖ trùc tiÕp theo c¸c cung cña ®å thÞ. ë d¹ng ®¬n gi¶n nhÊt, m« h×nh
x¸c ®Þnh nh÷ng biÕn nµo phô thuéc nhau mét c¸ch trùc tiÕp. M« h×nh phô thuéc dùa
trªn ®å thÞ x¸c suÊt th−êng ®−îc sö dông víi c¸c biÕn cã gi¸ trÞ rêi r¹c hoÆc ph©n
lo¹i. Tuy nhiªn, c¸c m« h×nh nµy còng ®−îc më réng cho mét sè tr−êng hîp ®Æc biÖt
nh− mËt ®é Gaussian hoÆc cho c¸c biÕn cã gi¸ trÞ thùc.
1.3.4.7. M« h×nh häc quan hÖ
MÉu chiÕt suÊt ®−îc b»ng c¸c luËt suy diÔn vµ c©y quyÕt ®Þnh g¾n chÆt víi
mÖnh ®Ò logic, cßn m« h×nh häc quan hÖ (cßn gäi lµ lËp tr×nh logic quy n¹p) sö dông
ng«n ng÷ mÉu theo thø tù logic tr−íc (first – order logic) kh¸ linh ho¹t. M« h×nh nµy
cã thÓ dÔ dµng t×m ra c«ng thøc X=Y. Cho ®Õn nay, hÇu hÕt c¸c nghiªn cøu vÒ c¸c
ph−¬ng ph¸p ®¸nh gi¸ m« h×nh häc quan hÖ ®Òu theo logic trong tù nhiªn.
1.3.4.8. Khai ph¸ d÷ liÖu v¨n b¶n (Text Mining)
Khai ph¸ d÷ liÖu v¨n b¶n phï hîp víi viÖc t×m kiÕm, ph©n tÝch vµ ph©n lîp
c¸c d÷ liÖu v¨n b¶n kh«ng ®Þnh d¹ng. C¸c lÜnh vùc øng dông cña khai ph¸ d÷ liÖu
v¨n b¶n nh− nghiªn cøu thÞ tr−êng, thu nhËp, t×nh b¸o, .... Ph−¬ng ph¸p nµy ®−îc sö
dông ®Ó ph©n tÝch c©u tr¶ lêi cho c¸c c©u hái më trong kh¶o s¸t thÞ tr−êng, t×m kiÕm
c¸c tµi liÖu phøc t¹p.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
23

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

1.3.4.9. M¹ng n¬ron
M¹ng n¬ron lµ c¸ch tiÕp cËn tÝnh to¸n míi liªn quan ®Õn viÖc ph¸t triÓn c¸c
cÊu tróc to¸n häc víi kh¶ n¨ng häc. M¹ng n¬ron lµ kÕt qu¶ cña viÖc nghiªn cøu m«
h×nh häc cña hÖ thÇn kinh con ng−êi. M¹ng cã thÓ ®−a ra ý nghÜa tõ c¸c d÷ liÖu phøc
t¹p hoÆc kh«ng chÝnh x¸c vµ cã thÓ ®−îc sö dông ®Ó chiÕt suÊt c¸c mÉu vµ ph¸t hiÖn
ra c¸c xu h−íng phøc t¹p mµ con ng−êi còng nh− c¸c kü thuËt m¸y tÝnh kh¸c kh«ng
thÓ ph¸t hiÖn ®−îc.
Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng
n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n trong viÖc ¸p dông vµ triÓn
khai nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè nh÷ng −u ®iÓm ®ã lµ
kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ ¸p dông ®−îc cho
rÊt nhiÒu bµi to¸n kh¸c nhau ®¸p øng ®−îc nhiÖm vô ®Æt ra cña khai ph¸ d÷ liÖu nh−
ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô thuéc vµo thêi gian, ....
1.3.4.10. Gi¶i thuËt di truyÒn
Gi¶i thuËt di truyÒn chÝnh lµ sù m« pháng l¹i qu¸ tr×nh tiÕn ho¸ di truyÒn
trong tù nhiªn. Mét c¸ch chÝnh x¸c th× ®ã lµ gi¶i thuËt chØ ra tËp c¸c c¸ thÓ ®−îc
h×nh thµnh, −íc l−îng vµ biÕn ®æi nh− thÕ nµo. Cô thÓ lµ c¸c vÊn ®Ò nh− lµm thÕ nµo
®Ó lùa chän c¸c c¸ thÓ t¸i t¹o vµ c¸c c¸ thÓ nµo sÏ bÞ lo¹i bá, qu¸ tr×nh lai ghÐp vµ
®ét biÕn sÏ diÔn ra nh− thÕ nµo? Gi¶i thuËt còng m« pháng l¹i yÕu tè gien trong
nhiÔm s¾c thÓ sinh häc trªn m¸y tÝnh ®Ó cã thÓ gi¶i quyÕt ®−îc c¸c bµi to¸n thùc tÕ
kh¸c nhau.
Gi¶i thuËt di truyÒn lµ mét gi¶i thuËt tèi −u ho¸, ®−îc sö dông réng r·i trong
viÖc tèi −u ho¸ c¸c kü thuËt khai ph¸ d÷ liÖu trong ®ã cã kü thuËt m¹ng n¬ron. Sù
liªn hÖ cña gi¶i thuËt di truyÒn víi c¸c gi¶i thuËt khai ph¸ lµ ë chç viÖc tèi −u ho¸ rÊt
cÇn thiÕt cho qu¸ tr×nh khai ph¸ d÷ liÖu, vÝ dô nh− trong c¸c kü thuËt c©y quyÕt ®Þnh,
t¹o luËt, ....
VÊn ®Ò lùa chän ph−¬ng ph¸p:
Qua phÇn tr×nh bÇy trªn, ta nhËn thÊy cã rÊt nhiÒu ph−¬ng ph¸p khai ph¸ d÷
liÖu. Mçi ph−¬ng ph¸p cã nh÷ng ®Æc ®iÓm riªng phï hîp víi mét líp c¸c bµi to¸n,
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
24

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

víi c¸c d¹ng d÷ liÖu vµ miÒn d÷ liÖu nhÊt ®Þnh. HiÖn ng−êi ta vÉn ch−a ®−a ra ®−îc
mét tiªu chuÈn nµo trong viÖc quyÕt ®Þnh sö dông ph−¬ng ph¸p khai ph¸ nµo trong
tr−êng hîp nµo th× hiÖu qu¶.
HÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu ®Òu cßn míi mÎ víi lÜnh vùc kinh
doanh. H¬n n÷a, l¹i cã rÊt nhiÒu kü thuËt, mçi kü thuËt ®−îc sö dông cho nhiÒu bµi
to¸n kh¸c nhau. V× vËy, tr¶ lêi cho c©u hái “Dïng kü thuËt nµo?” lµ mét vÊn ®Ò
kh«ng ®¬n gi¶n. Mçi kü thuËt ®Òu cã ®iÓm m¹nh vµ ®iÓm yÕu nhÊt ®Þnh, nªn vÊn ®Ò
®èi víi ng−êi sö dông lµ ph¶i lùa chän vµ ¸p dông c¸c kü thuËt mét c¸ch thËt ®¬n
gi¶n, dÔ sö dông ®Ó kh«ng c¶m thÊy nh÷ng phøc t¹p vèn cã cña kü thuËt ®ã.
1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü
thuËt khai ph¸ d÷ liÖu
1.3.5.1. ¦u thÕ cña khai ph¸ d÷ liÖu so víi c¸c ph−¬ng ph¸p c¬ b¶n
Khai ph¸ d÷ liÖu lµ lÜnh vùc liªn quan tíi rÊt nhiÒu ngµnh häc kh¸c nh−: hÖ
CSDL, thèng kª, hiÓn thÞ trùc quan ho¸,... H¬n n÷a, tuú vµo c¸ch tiÕp cËn, khai ph¸
d÷ liÖu cßn cã thÓ ¸p dông mét sè kü thuËt nh− m¹ng n¬ron, lü thuyÕt tËp th« hoÆc
tËp mê, biÓu diÔn tri thøc,... Tuy nhiªn, khai ph¸ d÷ liÖu cã mét sè −u ®iÓm râ rÖt so
víi c¸c ph−¬ng ph¸p c¬ b¶n kh¸c, cô thÓ nh− sau:
• So víi ph−¬ng ph¸p häc m¸y, khai ph¸ d÷ liÖu cã lîi thÕ h¬n ë chç nã cã thÓ
sö dông c¸c CSDL chøa nhiÔu, d÷ liÖu kh«ng ®Çy ®ñ hoÆc biÕn ®æi liªn tôc. Trong
khi ph−¬ng ph¸p häc m¸y chñ yÕu ®−îc ¸p dông trong nh÷ng CSDL ®Çy ®ñ, Ýt biÕn
®éng vµ tËp d÷ liÖu kh«ng qu¸ lín.
• Ph−¬ng ph¸p hÖ chuyªn gia: ph−¬ng ph¸p nµy kh¸c víi khai ph¸ d÷ liÖu ë chç
c¸c vÝ dô cña chuyªn gia th−êng ë møc chÊt l−îng cao h¬n nhiÒu so víi d÷ liÖu
trong CSDL vµ chóng chØ bao hµm c¸c tr−êng hîp quan träng. H¬n n÷a, c¸c chuyªn
gia sÏ x¸c nhËn gi¸ trÞ vµ tÝnh h÷u Ých cña c¸c mÉu ph¸t hiÖn ®−îc vµ nh− thÕ ®ßi hái
ph¶i cã sù tham gia cña con ng−êi trong viÖc ph¸t hiÖn tri thøc.
• Ph−¬ng ph¸p thèng kª lµ mét trong nh÷ng nÒn t¶ng lý thuyÕt cña khai ph¸ d÷
liÖu, nh−ng khi so s¸nh chóng víi nhau, cã thÓ thÊy ph−¬ng ph¸p thèng kª cßn cã
mét sè ®iÓm yÕu mµ khai ph¸ d÷ liÖu ®· kh¾c phôc ®−îc:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
25

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

- C¸c ph−¬ng ph¸p thèng kª chuÈn kh«ng phï hîp víi c¸c kiÓu d÷ liÖu cã cÊu
tróc trong rÊt nhiÒu c¸c CSDL.
- C¸c ph−¬ng ph¸p thèng kª ho¹t ®éng hoµn toµn theo d÷ liÖu, nã kh«ng sö
dông tri thøc s½n cã vÒ lÜnh vùc.
- KÕt qu¶ ph©n tÝch cña thèng kª cã thÓ sÏ rÊt nhiÒu vµ khã cã thÓ lµm râ ®−îc.
- Ph−¬ng ph¸p thèng kª cÇn cã sù h−íng dÉn cña ng−êi dïng ®Ó x¸c ®Þnh ph©n
tÝch d÷ liÖu nh− thÕ nµo vµ ë ®©u.
1.3.5.2. Nh÷ng vÊn ®Ò khã kh¨n th¸ch thøc
MÆc dï khai ph¸ d÷ liÖu lµ mét kü thuËt khai ph¸ tri thøc hiÖu qu¶, nh−ng
còng béc lé nhiÒu khã kh¨n. Nh÷ng khã kh¨n ®ã chÝnh lµ nh÷ng th¸ch thøc lín
trong qu¸ tr×nh nghiªn cøu vµ øng dông c¸c kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ.
C¸c vÊn ®Ò vÒ c¬ së d÷ liÖu:
§Çu vµo cña hÖ thèng ph¸t hiÖn tri thøc chñ yÕu lµ c¸c d÷ liÖu th« trong
CSDL. Nh÷ng vÊn ®Ò ph¸t sinh trong qu¸ tr×nh khai ph¸ d÷ liÖu chÝnh tõ c¸c nguyªn
nh©n lµ d÷ liÖu trong thùc tÕ th−êng ®éng, kh«ng ®Çy ®ñ, lín vµ bÞ nhiÔu. Trong mét
sè tr−êng hîp, ng−êi ta kh«ng biÕt d÷ liÖu cã chøa th«ng tin cÇn thiÕt cho viÖc khai
th¸c hay kh«ng vµ lµm thÕ nµo ®Ó gi¶i quyÕt sù d− thõa nh÷ng th«ng tin kh«ng thÝch
hîp.
• VÊn ®Ò d÷ liÖu lín: C¸c CSDL th«ng th−êng lµ rÊt lín, víi hµng tr¨m tr−êng
vµ b¶ng cã hµng triÖu b¶n ghi. Khi ®ã kÝch th−íc l−u tr÷ còng rÊt lín, hµng
gigabytes thËm chÝ terabytes. Do ®ã, lµm t¨ng kh«ng gian t×m kiÕm, t¨ng qu¸ tr×nh
suy diÔn, ®ång thêi còng lµm t¨ng kh¶ n¨ng gi¶i thuËt khai ph¸ d÷ liÖu t×m ®−îc c¸c
mÉu gi¶. Ph−¬ng ph¸p kh¾c phôc vÊn ®Ò nµy hiÖn nay lµ ®−a ra mét ng−ìng cho
CSDL, lÊy mÉu, c¸c ph−¬ng ph¸p xÊp xØ, xö lý song song, gi¶m kÝch th−íc t¸c ®éng
cña bµi to¸n vµ sö dông c¸c tri thøc ®· biÕt tr−íc ®Ó x¸c ®Þnh c¸c biÕn kh«ng phï
hîp.
• VÊn ®Ò d÷ liÖu ®éng: HÇu hÕt c¸c CSDL cã néi dung thay ®æi liªn tôc theo thêi
gian vµ viÖc khai ph¸ d÷ liÖu bÞ ¶nh h−ëng bëi thêi ®iÓm quan s¸t. ViÖc thay ®æi d÷
liÖu nhanh chãng cã thÓ lµm cho c¸c mÉu khai ph¸ ®−îc tr−íc ®ã mÊt gi¸ trÞ. H¬n
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
26

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

n÷a, c¸c biÕn trong CSDL cña øng dông cã thÓ bÞ thay ®æi, bÞ xo¸ hoÆc t¨ng lªn theo
thêi gian. VÊn ®Ò nµy ®−îc gi¶i quyÕt b»ng gi¶i ph¸p t¨ng tr−ëng ®Ó n©ng cÊp c¸c
mÉu vµ coi nh÷ng thay ®æi nh− lµ c¬ héi ®Ó khai th¸c b»ng c¸ch sö dông nã ®Ó t×m
kiÕm c¸c mÉu bÞ thay ®æi.
• VÊn ®Ò c¸c tr−êng kh«ng phï hîp: Mét ®Æc ®iÓm quan träng kh¸c lµ tÝnh
kh«ng thÝch hîp cña d÷ liÖu, nghÜa lµ d÷ liÖu trë thµnh kh«ng thÝch hîp víi môc tiªu
träng t©m hiÖn t¹i cña viÖc khai ph¸. Mét khÝa c¹nh kh¸c ®«i khi còng liªn quan ®Õn
®é phï hîp lµ tÝnh øng dông cña mét thuéc tÝnh ®èi víi mét tËp con cña CSDL.
• VÊn ®Ò c¸c tr−êng hay c¸c gi¸ trÞ bÞ thiÕu: Mét quan s¸t kh«ng ®Çy ®ñ cña
CSDL cã thÓ lµm cho d÷ liÖu cã gi¸ trÞ bÞ xem nh− lµ cã lçi. ViÖc quan s¸t CSDL
ph¶i ph¸t hiÖn ®−îc toµn bé c¸c thuéc tÝnh cã thÓ dïng ®Ó khai ph¸ d÷ liÖu trong bµi
to¸n. Gi¶ sö ta cã c¸c thuéc tÝnh ®Ó ph©n biÖt c¸c t×nh huèng ®¸ng quan t©m, nÕu
chóng kh«ng thÓ hiÖn ®−îc ®iÒu ®ã th× cã nghÜa lµ ®· cã lçi trong d÷ liÖu. §©y còng
lµ vÊn ®Ò th−êng x¶y ra trong CSDL kinh doanh, c¸c thuéc tÝnh quan träng cã thÓ bÞ
thiÕu d÷ liÖu, kh«ng s½n sµng cho viÖc khai ph¸ d÷ liÖu.
• §é nhiÔu vµ kh«ng ch¾c ch¾n: §é nhiÔu cña d÷ liÖu (®é chÝnh x¸c, dung sai,
...) còng lµ mét nh©n tè ¶nh h−ëng ®Õn qu¸ tr×nh khai ph¸ d÷ liÖu.
• Mèi quan hÖ phøc t¹p gi÷a c¸c tr−êng: c¸c thuéc tÝnh hoÆc c¸c gi¸ trÞ d÷ liÖu
cã cÊu tróc ph©n cÊp, c¸c mèi quan hÖ gi÷a c¸c thuéc tÝnh ®Ó diÔn t¶ tri thøc vÒ néi
dung cña CSDL dÉn tíi c¸c gi¶i thuËt ph¶i cã kh¶ n¨ng khai ph¸ mét c¸ch hiÖu qu¶
c¸c d÷ liÖu nµy.
Mét sè vÊn ®Ò kh¸c:
• Qu¸ phï hîp: Khi mét thuËt to¸n t×m kiÕm c¸c tham sè tèt nhÊt cho mét m«
h×nh nµo ®ã sö dông mét tËp d÷ liÖu h÷u h¹n, cã thÓ x¶y ra t×nh tr¹ng “qu¸ ®é”,
nghÜa lµ chØ phï hîp víi mét tËp d÷ liÖu mµ kh«ng cã kh¶ n¨ng ®¸p øng víi c¸c d÷
liÖu l¹. §iÒu ®ã lµm cho m« h×nh ho¹t ®éng rÊt kÐm víi c¸c d÷ liÖu thö. Cã thÓ kh¾c
phôc b»ng c¸ch ®¸nh gi¸ chÐo, thùc hiÖn theo nguyªn t¾c nµo ®ã hoÆc sö dông c¸c
biÖn ph¸p thèng kª kh¸c.
• Kh¶ n¨ng biÓu ®¹t mÉu: trong rÊt nhiÒu øng dông, ®iÒu quan träng lµ nh÷ng
mÉu khai th¸c ®−îc ph¶i cµng dÔ hiÓu ®èi víi con ng−êi cµng tèt. V× vËy, c¸c gi¶i
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
27

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

ph¸p th−êng lµ diÔn t¶ d−íi d¹ng ®å ho¹, x©y dùng cÊu tróc luËt víi c¸c ®å thÞ cã
h−íng, biÓu diÔn b»ng ng«n ng÷ tù nhiªn vµ c¸c kü thuËt kh¸c nh»m biÓu diÔn tri
thøc vµ d÷ liÖu.
• T−¬ng t¸c víi ng−êi sö dông vµ c¸c tri thøc s½n cã: rÊt nhiÒu c«ng cô vµ
ph−¬ng ph¸p khai ph¸ d÷ liÖu kh«ng thùc sù t−¬ng t¸c víi ng−êi dïng vµ kh«ng dÔ
dµng kÕt hîp cïng víi c¸c tri thøc ®· biÕt tr−íc ®ã. ViÖc sö dông tri thøc miÒn lµ rÊt
quan träng trong khai ph¸ d÷ liÖu. §· cã nhiÒu biÖn ph¸p nh»m kh¾c phôc vÊn ®Ò
nµy nh− sö dông CSDL suy diÔn ®Ó ph¸t hiÖn tri thøc, sau ®ã sö dông nh÷ng tri thøc
ph¸t hiÖn ®−îc ®Ó h−íng dÉn cho viÖc t×m kiÕm khai ph¸ d÷ liÖu hoÆc sö dông sù
ph©n bè x¸c suÊt d÷ liÖu tr−íc ®ã nh− mét d¹ng m· ho¸ d÷ liÖu cã s½n.
KÕt luËn ch−¬ng 1
Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL lµ qu¸ t×nh rót ra nh÷ng tri thøc cã
Ých, tiÒm tµng trong CSDL. Qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu
giai ®o¹n kh¸c nhau trong ®ã, khai ph¸ d÷ liÖu lµ giai ®o¹n quan träng nhÊt, ®ãng
vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh cña KDD. NhiÖm vô
cña khai ph¸ d÷ liÖu lµ kh¸m ph¸ c¸c mÉu cã Ých tõ nguån d÷ liÖu, trong ®ã, d÷ liÖu
cã thÓ ®−îc l−u tr÷ trong c¸c CSDL, kho d÷ liÖu. Ch−¬ng nµy còng tr×nh bµy c¸c
nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh−
c¸c vÊn ®Ò th¸ch thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo
thùc tÕ.
Trong c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu ®· giíi thiÖu, m¹ng n¬ron vµ gi¶i
thuËt di truyÒn lµ c¸c kü thuËt khai ph¸ ®ang ®−îc quan t©m nghiªn cøu m¹nh mÏ.
Ch−¬ng sau sÏ tr×nh bÇy chi tiÕt h¬n vÒ kü thuËt khai ph¸ d÷ liÖu dïng m¹ng n¬ron
vµ gi¶i thuËt di truyÒn.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
28

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Ch−¬ng 2:

Kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng
n¬ron vµ gi¶i thuËt di truyÒn

2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu

Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng
n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n cho qu¸ tr×nh ¸p dông vµ
triÓn khai, nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè c¸c −u ®iÓm ph¶i
kÓ ®Õn lµ m¹ng cã kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ
¸p dông cho rÊt nhiÒu lo¹i bµi to¸n kh¸c nhau, ®¸p øng ®−îc c¸c nhiÖm vô ®Æt ra cña
khai ph¸ d÷ liÖu nh− ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô
thuéc thêi gian,....
2.1.1. Kh¸i niÖm m¹ng n¬ron
M¹ng n¬ron nh©n t¹o (Artficial Neural Network - ANN) lµ hÖ thèng ®−îc
x©y dùng m« pháng theo c¸c chøc n¨ng cña mét m¹ng n¬ron sinh häc nãi chung,
hay m¹ng n¬ron sinh häc cña con ng−êi nãi riªng. Trong luËn v¨n nµy, khi nãi ®Õn
m¹ng n¬ron cã nghÜa lµ m¹ng n¬ron nh©n t¹o, bëi v× trong thùc tÕ, m¹ng n¬ron sinh
häc (Biological Neural Network - BNN) cã cÊu t¹o phøc t¹p h¬n nhiÒu so víi m¹ng
n¬ron nh©n t¹o mµ ta ®Ò cËp ®Õn. Thùc chÊt, m¹ng n¬ron nh©n t¹o lµ c¸c m« h×nh
to¸n häc mµ con ng−êi x©y dùng nªn. Cho ®Õn nay, ch−a cã mét ®Þnh nghÜa tæng
qu¸t nµo vÒ m¹ng n¬ron, song phÇn lín nh÷ng nhµ nghiªn cøu trong lÜnh vùc nµy
®Òu thèng nhÊt víi kh¸i niÖm:
M¹ng n¬ron lµ mét hÖ thèng gåm nhiÒu phÇn tö xö lý ®¬n gi¶n gäi lµ c¸c
n¬ron ®−îc liªn kÕt víi nhau vµ cïng ho¹t ®éng song song. TÝnh n¨ng ho¹t ®éng cña
m¹ng phô thuéc vµo cÊu tróc m¹ng, träng sè liªn kÕt gi÷a c¸c n¬ron vµ qu¸ tr×nh xö

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

29

lý bªn trong c¸c n¬ron. Ngoµi chøc n¨ng xö lý, hÖ thèng cßn cã kh¶ n¨ng häc sè
liÖu vµ tæng qu¸t ho¸ tõ c¸c sè liÖu ®· häc.
Chóng ta sÏ lÇn l−ît ph©n tÝch m« h×nh n¬ron sinh häc, sau ®ã lµ m« h×nh
n¬ron nh©n t¹o ®Ó dÔ dµng thÊy ®−îc sù t−¬ng quan nµy, ®ång thêi hiÓu râ h¬n vÒ
m¹ng n¬ron nh©n t¹o.
2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc
HÖ thÇn kinh con ng−êi cã kho¶ng 1010 tÕ bµo thÇn kinh ®−îc gäi lµ c¸c n¬
ron, mçi n¬ron cã thÓ liªn kÕt víi 104 n¬ron kh¸c th«ng qua c¸c khíp nèi [12].

Khíp nèi (Synaspe)

Khíp nèi (Synaspe)
Trôc (Axon)
Nh©n
(Soma)

H×nh 2.1: CÊu t¹o cña n¬ron
Mçi n¬ ron gåm cã ba phÇn: th©n n¬ ron cã nhiÖm vô tiÕp nhËn hay ph¸t ra
c¸c xung thÇn kinh, bªn trong cã nh©n (Soma), hÖ thèng d©y thÇn kinh vµo
(dendrites- cßn gäi lµ c¸c nh¸nh thô gi¸c) vµ mét ®Çu d©y thÇn kinh ra (sîi trôc axon
– nh¸nh trùc gi¸c) ®Ó dÉn truyÒn c¸c xung thÇn kinh. C¸c ®Çu d©y thÇn kinh vµo
nhËn tÝn hiÖu tõ c¸c n¬ron kh¸c, nh©n n¬ron sÏ sinh ra tÝn hiÖu ë ®Çu ra cña n¬ron vµ
truyÒn tíi c¸c n¬ron kh¸c ®−îc nèi víi ®Çu ra qua trôc.
§é lín cña c¸c tÝn hiÖu vµo cã thÓ bÞ thay ®æi khi ®−îc truyÒn qua c¸c khíp
thÇn kinh cã trªn c¸c nh¸nh thÇn kinh vµo. Tû lÖ biÕn ®æi tÝn hiÖu ë khíp thÇn kinh
®−îc gäi lµ ®é khuyÕch ®¹i khíp vµ ®−îc gäi lµ c¸c träng sè trong c¸c n¬ ron nh©n
t¹o.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
30

s

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

TÝn hiÖu vµo tõ n¬ron l©n cËn
víi c−êng ®é s

Khíp thÇn kinh víi ®é khuÕch ®¹i
khíp w

w

p = ws

TÝn hiÖu p tíi n¬ron sau khi ®i
qua khíp thÇn kinh

H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron
Theo c¸c nghiªn cøu vÒ sinh häc, chøc n¨ng cña hÖ thÇn kinh kh«ng phô
thuéc nhiÒu vµo vai trß cña tõng n¬ ron ®¬n lÎ mµ phô thuéc vµo c¸ch mµ toµn bé
c¸c n¬ ron ®−îc nèi víi nhau, gäi lµ m¹ng n¬ ron sinh häc [12].
TÊt c¶ c¸c ®Æc ®iÓm trªn ®Òu ®−îc vËn dông mét c¸ch triÖt ®Ó trong viÖc x©y
dùng mét m¹ng nh©n t¹o nh»m t¹o ra mét m¹ng n¬ron gièng víi m¹ng n¬ron sinh
häc nhÊt.
2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o
2.1.3.1. N¬ron nh©n t¹o
Gièng nh− n¬ron sinh häc, mçi n¬ron nh©n t¹o ®−îc nèi víi c¸c n¬ron kh¸c
vµ nhËn tÝn hiÖu tõ chóng víi c¸c träng sè liªn kÕt.
Mét n¬ron nh©n t¹o ph¶n ¸nh c¸c tÝnh chÊt c¬ b¶n cña n¬ron sinh häc ®−îc
m« pháng trong h×nh 2.3.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
31

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

§é lÖch
Bias bk
wk1

x1

Hµm truyÒn
(Activation function)

TÝn hiÖu vµo
(Input signal)

wk2

x2

f (.)

∑

…

TÝn hiÖu ra
(Output)
wkn

xn

H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o
+ §Çu vµo cña n¬ron gåm n tÝn hiÖu x = (x1, x2, …, xn), ®Çu ra lµ tÝn hiÖu y =
(y1, y2, …, ym).
+ Mét tËp c¸c khíp nèi vµ träng sè t−¬ng øng wki, tÝn hiÖu vµo xi cña khíp
nèi thø i cña n¬ron k ®−îc nh©n víi träng sè wki.
+ Mét bé céng ∑ thùc hiÖn trªn c¸c träng sè cña c¸c khíp nèi th−êng ®−îc
gäi lµ bé kÕt hîp tuyÕn tÝnh.
+ Mét hµm chuÈn khèng chÕ gi¸ trÞ ®Çu ra cña m¹ng n¬ron ®−îc gäi lµ hµm
truyÒn hay hµm kÝch ho¹t. Th«ng th−êng,tÝn hiÖu ®Çu ra cña mét n¬ron trong
kho¶ng [0, 1] hoÆc [-1, 1].
Tr¹ng th¸i bªn trong cña n¬ron ®−îc x¸c ®Þnh qua bé tæng c¸c ®Çu vµo cã
träng sè w (i=1, 2, .., n). §Çu ra y ®−îc x¸c ®Þnh qua hµm phi tuyÕn f
Nh− vËy, m« h×nh to¸n häc cña n¬ron nh©n t¹o k tÝnh to¸n t¹i thêi ®iÓm t nh−
sau:
net (t ) = ∑i =1 wki xi (t ) + bk y k (t ) = f
n

Trong ®ã:

(∑

n

i =1

wki xi (t ) + bk

)

lµ tÝn hiÖu tæng hîp ®Çu vµo,
bk lµ ®é lÖch bias.

§Çu ra th−êng ®−îc ký hiÖu lµ out = y(t)=f(net)
TÝn hiÖu vµo ®−îc xö lý nhê hµm kÝch ho¹t (activation function) hay cßn gäi
lµ hµm truyÒn (trasfer function) ®Ó t¹o tÝn hiÖu ra, tÝn hiÖu ra sÏ ®−îc truyÒn ®i nÕu
kh¸c 0. Tãm l¹i, cã thÓ xem n¬ron lµ mét hµm phi tuyÕn nhiÒu ®Çu vµo vµ mét ®Çu
ra.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

32
2.1.3.2. Hµm truyÒn trong n¬ron

CÊu tróc cña m¹ng n¬ron chñ yÕu ®−îc ®Æc tr−ng bëi lo¹i cña c¸c n¬ron vµ
mèi liªn hÖ xö lý th«ng tin gi÷a chóng. VÒ cÊu tróc cña n¬ron, chñ yÕu ng−êi ta
quan t©m tíi c¸ch tæng hîp c¸c tÝn hiÖu vµo, ng−ìng t¹i mçi n¬ron vµ c¸c hµm
truyÒn.
Hµm truyÒn x¸c ®Þnh møc ®é liªn kÕt bªn trong c¸c n¬ron. Hµm truyÒn cã
nhiÖm vô t¹o møc ®é kÝch thÝch cña n¬ron, tõ ®ã sÏ lµm h−ng phÊn hoÆc øc chÕ c¸c
n¬ron kh¸c trong m¹ng.
Trong lý thuyÕt m¹ng n¬ron, phÐp tæng hîp tÝn hiÖu ®Çu vµo cña n¬ron i cã m
tÝn hiÖu ®Çu vµo xj th−êng ®−îc ký hiÖu:
net i = ∑ j =1 wij x j ; wij = (wi1, wi2, …, wim)
m

TÝn hiÖu ra t¹i n¬ron i th−êng ký hiÖu lµ outi hoÆc fi, ®−îc tÝnh theo c«ng thøc sau
víi f lµ hµm truyÒn:
outi(t) =f (neti(t))
Cã nhiÒu hµm truyÒn kh¸c nhau ®−îc sö dông trong tõng tr−êng hîp cô thÓ,
c¸c hµm truyÒn nãi chung nªn tho¶ m·n c¸c tÝnh chÊt sau:
♦ BÞ chÆn: f ( x) ≤ M , ∀x
♦ §¬n ®iÖu t¨ng: f ( x1 ) > f ( x 2 ), ∀x1 > x 2
♦ Kh¶ vi liªn tôc: f(x) cã ®¹o hµm f’(x) vµ f’(x) lµ hµm liªn tôc
Trong thùc tÕ, khi xÐt c¸c n¬ron, chóng chØ cã thÓ cã hai tr¹ng th¸i lµ bÞ kÝch
ho¹t hoÆc kh«ng bÞ kÝch ho¹t. NghÜa lµ tÝn hiÖu ra mét cña n¬ron cÇn ph¶i ®¶m b¶o
sao cho cã thÓ nhËn biÕt ®−îc n¬ron ®ã cã bÞ kÝch ho¹t hay kh«ng. V× lý do ®ã, hµm
truyÒn ph¶i tho¶ m·n ®iÒu kiÖn tÝn hiÖu ra cuèi cïng cña n¬ron ph¶i liªn tôc vµ n»m
trong mét giíi h¹n x¸c ®Þnh (cã thÓ lµ gi÷a 0 vµ 1). Cã mét sè d¹ng hµm truyÒn
th−êng ®−îc sö dông sau:
⎧1, if ( x ≥ θ )
⎩0, if ( x < θ )

Hµm ranh giíi cøng (Hard – limiter): f ( x) = ⎨

⎧1, if ( x ≥ θ )
⎩− 1, if ( x < θ )

Hµm ranh giíi cøng ®èi xøng: f ( x) = ⎨

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
33
Hµm Gauss:

f ( x) = e − x

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

2

Hµm Sigmoidal hay hµm logicstic (cßn gäi lµ hµm ch÷ S): f ( x) =

1
1 + e−x

f(x)
1.0
0.5

x

H×nh 2.4: Hµm Sigmoidal
Hµm Sigmoidal lµ hµm th−êng ®−îc sö dông nhiÒu nhÊt trong c¸c lo¹i m¹ng
n¬ron, bëi gi¸ trÞ cña hµm lµ liªn tôc trong kho¶ng (0,1). TÝn hiÖu ra cña hµm cã hai
tr¹ng th¸i æn ®Þnh vµ mét vïng chuyÓn ®æi. N¬ron cã hµm kÝch ho¹t sigmoidal sÏ
sinh gi¸ trÞ thùc bÊt kú gi÷a gi¸ trÞ lín nhÊt 1.0 vµ gi¸ trÞ nhá nhÊt 0. Output d¹ng
sigmoidal cã gi¸ trÞ > 0.8 ®−îc coi nh− output kÝch ho¹t. NÕu cã gi¸ trÞ < 0.2 coi nh−
gi¸ trÞ kh«ng kÝch ho¹t. C¸c gi¸ trÞ output n»m trong kho¶ng 0.2 ®Õn 0.8 lµ trong
vïng chuyÓn ®æi. Khi Net cã gi¸ trÞ ©m lín, hµm sÏ tr¶ l¹i gi¸ trÞ 0, khi Net cã gi¸ trÞ
d−¬ng lín, hµm sÏ tr¶ l¹i gi¸ trÞ 1, ®ã lµ c¸c gi¸ trÞ th−êng ®−îc dïng ®Ó biÓu diÔn
c¸c kÕt qu¶ ®óng, sai.
Hµm sigmoidal cã thÓ dïng ®Ó ph¸t hiÖn c¸c ®Æc tr−ng cña d÷ liÖu vµ dïng
cho môc ®Ých ph©n líp d÷ liÖu.
2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron
Khi xÐt m¹ng n¬ron sinh häc ng−êi ta nhËn thÊy: c¸c tÝn hiÖu do c¸c n¬ron
t¹o ra rÊt gièng nhau vµ hÇu nh− kh«ng thÓ ph©n biÖt ®−îc cho dï ®ã lµ n¬ron cña
lo¹i sinh vËt nµo. Râ rµng c−êng ®é tÝn hiÖu ®−îc t¹o ra bëi c¸c n¬ron cã thÓ kh¸c
nhau phô thuéc vµo c−êng ®é kÝch thÝch nh−ng bÒ ngoµi cña c¸c tÝn hiÖu l¹i rÊt
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
34

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

gièng nhau. §iÒu ®ã chøng tá r»ng viÖc thùc hiÖn chøc n¨ng cña bé n·o kh«ng phô
thuéc qu¸ nhiÒu vµo vai trß cña mét n¬ron ®¬n lÎ mµ phô thuéc vµo toµn bé hÖ
thèng n¬ron. NghÜa lµ phô thuéc vµo c¸ch liªn kÕt gi÷a c¸c n¬ron, hay cã thÓ nãi
viÖc thùc hiÖn c¸c chøc n¨ng phô thuéc vµo cÊu tróc cña m¹ng n¬ron.
Trong m« h×nh m¹ng n¬ron nh©n t¹o, c¸c n¬ron ®−îc nèi víi nhau bëi c¸c
liªn kÕt n¬ron, mçi liªn kÕt cã mét träng sè ®Æc tr−ng cho ®Æc tÝnh kÝch ho¹t hay øc
chÕ gi÷a c¸c n¬ron. §ång thêi, c¸c n¬ron ®−îc nhãm l¹i víi nhau theo cÊu tróc ph©n
líp, bao gåm: líp vµo (input layer), líp ra (output layer) vµ líp Èn (hidden layer).
Líp vµo: C¸c nót trong líp vµo gäi lµ c¸c nót vµo, chóng m· ho¸ mÉu ®−îc
®−a vµo m¹ng xö lý. C¸c n¬ron vµo kh«ng xö lý th«ng tin, chØ ph©n t¸n th«ng tin
cho nót kh¸c (trªn biÓu ®å chóng ®−îc vÏ kh¸c c¸c nót Èn vµ c¸c nót ra ®Ó ph©n biÖt
gi÷a c¸c nót cã xö lý vµ kh«ng xö lý th«ng tin)
Líp Èn: C¸c n¬ron trong líp Èn gäi lµ c¸c nót Èn v× chóng kh«ng thÓ quan
s¸t ®−îc trùc tiÕp. Chóng t¹o thµnh c¸c m« h×nh to¸n häc phi tuyÕn cho m¹ng.
Líp ra: C¸c n¬ron trong líp nµy gäi lµ c¸c nót ra, chóng cã nhiÖm vô ®−a
th«ng tin ra thÝch nghi mÉu m· ng−êi sö dông cÇn.
Mét m¹ng ®−îc gäi lµ kÕt nèi ®Çy ®ñ nÕu tÊt c¶ c¸c nót cña mét líp ®−îc nèi
víi tÊt c¶ c¸c nót cña líp kÒ liÒn nã. Cã nhiÒu lo¹i kÕt nãi kh¸c nhau:
KÕt nèi liªn líp lµ kÕt nèi gi÷a c¸c nót trong c¸c líp kh¸c nhau
KÕt nèi trong líp lµ kÕt nèi gi÷a c¸c nót trong cïng mét líp.
Tù kÕt nèi lµ kÕt nèi tõ mét nót tíi chÝnh nã.
KÕt nãi siªu líp lµ kÕt nèi gi÷a c¸c líp c¸ch nhau (kh«ng kÒ nhau).
Mét kÕt nèi bËc cao lµ mét kÕt nèi víi nhiÒu nót ®Çu vµo. Sè c¸c nót ®Çu vµo
x¸c ®Þnh bËc kÕt nèi vµ bËc kÕt nèi cña m¹ng lµ bËc cña kÕt nèi bËc cao nhÊt.
2.1.4.1. Ph©n lo¹i m¹ng n¬ron
Mét c¸ch h×nh thøc, cã thÓ biÓu diÔn m¹ng n¬ron nh− mét ®å thÞ cã h−íng G
= (N, A). Trong ®ã tËp ®Ønh N biÒu diÔn c¸c phÇn tö xö lý, tËp c¸c cung A biÓu diÔn
liªn kÕt gi÷a c¸c phÇn tö xö lý, chiÒu cña cung chØ h−íng cña tÝn hiÖu xö lý.
Ph©n lo¹i theo kiÓu liªn kÕt n¬ron:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

35

M¹ng n¬ron truyÒn th¼ng (feed – forward Neural Network): Trong m¹ng,
c¸c liªn kÕt n¬ron chØ ®i theo mét h−íng tõ líp vµo ®Õn líp ra, kh«ng t¹o thµnh chu
tr×nh víi c¸c ®Ønh lµ c¸c n¬ron, c¸c cung lµ c¸c liªn kÕt gi÷a chóng [10].
x0

bias

h0

x1

bias
y1

h1

x2

y2

h2

…

…

xl

w

Líp vµo

(1 )
ji

hm

Líp Èn

…
yn

w

(2)
kj

Líp ra

H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp (Feed-Forward Neural Network)
M¹ng håi quy: cho phÐp c¸c liªn kÕt n¬ron t¹o thµnh chu tr×nh, cã th«ng
tin ®−îc xö lý theo hai chiÒu. V× c¸c th«ng tin ra cña c¸c n¬ron ®−îc truyÒn l¹i cho
c¸c n¬ron ®· gãp phÇn kÝch ho¹t chóng nªn m¹ng håi quy cßn cã kh¶ n¨ng l−u gi÷
tr¹ng th¸i trong cña nã d−íi d¹ng c¸c ng−ìng kÝch ho¹t ngoµi c¸c träng sè liªn kÕt
n¬ron [10].
h0

x0

y0

h1

x1
…
xl
Líp vµo

y1

…

…
yn

hm

Líp Èn

Líp ra

H×nh 2.6: M¹ng håi quy (Recurrent Neural Network)
M¹ng kÕt nèi ®èi xøng vµ kh«ng ®èi xøng: M¹ng kÕt nèi ®èi xøng lµ m¹ng
tho¶ m·n nÕu cã mét ®−êng nèi tõ nót i ®Õn nót j th× còng cã mét ®−êng nèi tõ nót j
®Õn nót i vµ träng sè t−¬ng øng víi hai ®−êng nèi nµy lµ b»ng nhau: wji = wij . M¹ng
kh«ng tho¶ m·n ®iÒu kiÖn trªn lµ kÕt nèi kh«ng ®èi xøng.
Ph©n lo¹i theo sè líp:
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
36

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

M¹ng chØ gåm mét líp vµo vµ mét líp ra gäi lµ m¹ng ®¬n líp hay m¹ng mét
líp. M¹ng cã tõ mét líp Èn trë lªn ®−îc gäi lµ m¹ng ®a líp hay m¹ng nhiÒu líp.
Mét m¹ng ®a líp ®−îc gäi lµ m¹ng n líp víi n lµ tæng sè líp Èn vµ líp ra.
Trong m« h×nh m¹ng ®a líp, ®Çu ra cña c¸c phÇn tö tÝnh to¸n t¹i mét líp lµ
®Çu vµo cña líp tiÕp theo. Kh«ng cho phÐp c¸c liªn kÕt gi÷a c¸c n¬ron trong cïng
mét líp, còng kh«ng cho phÐp c¸c liªn kÕt n¬ron nh¶y qua mét líp trë lªn.
2.1.5. Häc vµ lan truyÒn trong m¹ng
2.1.5.1. Häc vµ tæng qu¸t ho¸
M¹ng n¬ron thùc hiÖn hai chøc n¨ng quan träng lµ häc vµ tæng qu¸t ho¸. Häc
lµ qu¸ tr×nh hiÖu chØnh c¸c tham sè vµ c¸c träng sè liªn kÕt trong m¹ng ®Ó tèi thiÓu
ho¸ sai sè víi vect¬ ®Çu vµo cho tr−íc. Qu¸ tr×nh häc dõng khi m¹ng tho¶ m·n mét
tiªu chuÈn dõng nµo ®ã, ch¼ng h¹n khi c¸c träng sè cña m¹ng t¹o ra lçi ®ñ nhá gi÷a
®Çu ra mong ®îi vµ kÕt qu¶ ®Çu ra cña m¹ng víi ®Çu vµo cho tr−íc.
Tæng qu¸ ho¸ lµ qu¸ tr×nh ®−a vµo mét vector ®Çu vµo míi vµ s¶n sinh ra
quyÕt ®Þnh dùa trªn vector ®Çu ra tÝnh ®−îc tõ m¹ng.
Bµi to¸n häc cã thÓ ®−îc m« t¶ nh− sau: Cho tËp mÉu (Xi, Yi) víi Xi vµ Yi lµ
hai vÐc t¬ trong kh«ng gian mét hoÆc nhiÒu chiÒu, cÇn x¸c ®Þnh bé träng sè W0 trªn
kh«ng gian tham sè ®Ò computer (Xi, W0) = Yi.
Qu¸ tr×nh häc ®−îc thùc hiÖn theo hai b−íc: X¸c ®Þnh hµm gi¸ trÞ trªn c¸c
tham sè vµ tèi thiÓu ho¸ tham sè trong kh«ng gian cña c¸c tham sè.
Häc chia thµnh hai lo¹i: häc tham sè vµ häc cÊu tróc.
- Häc tham sè: Lµ qu¸ tr×nh x¸c ®Þnh mét tËp hîp tham sè W0 lµ c¸c träng sè
tèt nhÊt víi mét cÊu tróc m¹ng cè ®Þnh. §Ó lµm ®−îc ®iÒu nµy cÇn x©y dùng mét
hµm gi¸ dùa trªn tËp d÷ liÖu Ttrain vµ tËp träng sè W. Hµm gi¸ cã thÓ lµ mét hµm kh¶
vi bÊt kú cã tÝnh chÊt ®¹t ®Õn cùc tiÓu khi c¸c ®Çu ra Oi ®óng b»ng ®Çu ra lý t−ëng Yi
cña tËp mÉu. Cã thÓ x©y dùng hµm gi¸ d−íi d¹ng Ln – norm nh− sau:

E=

1
∑ (y i − Oi )p víi 1 ≤ p ≤ ∞
p i

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
37

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Víi bé tham sè nµy, cã thÓ ¸p dông mét gi¶i thuËt t×m kiÕm nµo ®ã trªn
kh«ng gian Rm cña tËp träng sè. NÕu thu ®−îc kÕt qu¶ tèt víi mét cùc tiÓu toµn côc,
ta sÏ cã mét bé tham sè tèt nhÊt cho m¹ng.
- Häc cÊu tróc: Víi häc tham sè ta gi¶ ®Þnh r»ng m¹ng cã mét cÊu tróc cè
®Þnh. ViÖc häc cÊu tróc cña m¹ng truyÒn th¼ng g¾n víi yªu cÇu t×m ra sè líp cña
m¹ng L vµ sè n¬ron trªn mçi líp nj. Tuy nhiªn, víi c¸c m¹ng håi quy cßn ph¶i x¸c
®Þnh thªm c¸c tham sè ng−ìng θ cña c¸c n¬ron trong m¹ng. Mét c¸ch tæng qu¸t lµ
ph¶i x¸c ®Þnh bé tham sè P = (L, n1,…nl, θ1,…, θk).
C¸c kü thuËt häc cña m¹ng N¬ ron chØ ra c¸ch chØnh söa c¸c träng sè liªn kÕt
m¹ng khi mét mÉu häc ®−îc ®−a vµo m¹ng. Sau ®©y sÏ tr×nh bÇy cô thÓ vÒ c¸c kü
thuËt häc [3]:
a. Häc cã gi¸m s¸t
Víi ph−¬ng ph¸p häc cã gi¸m s¸t hay häc cã thÇy (supervised learning),
m¹ng ®−îc cung cÊp mét tËp mÉu häc {(Xs, Ys)} theo nghÜa Xs lµ c¸c tÝn hiÖu vµo,
th× kÕt qu¶ ra ®óng cña hÖ ph¶i lµ YS. ë mçi lÇn häc, vÐc t¬ tÝn hiÖu vµo Xs ®−îc ®−a
vµo m¹ng, sau ®ã so s¸nh sù sai kh¸c gi÷a c¸c kÕt qu¶ ra ®óng Ys víi kÕt qu¶ tÝnh
to¸n qua m¹ng outs. Sai sè nµy sÏ ®−îc dïng ®Ó hiÖu chØnh l¹i c¸c träng sè liªn kÕt
trong m¹ng. Qóa tr×nh cø tiÕp tôc cho ®Õn khi tho¶ m·n mét tiªu chuÈn nµo ®ã. Cã
hai c¸ch sö dông tËp mÉu häc: hoÆc dïng c¸c mÉu lÇn l−ît, hÕt mÉu nµy ®Õn mÉu
kh¸c, hoÆc sö dông ®ång thêi tÊt c¶ c¸c mÉu.

ANN
w

Xs
§Çu vµo

Sai sè

§Çu ra thùc tÕ

TÝnh sai sè
§Çu ra mong muèn Ys

H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
38

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

b. Häc t¨ng c−êng
Ta thÊy trong kü thuËt häc cã gi¸m s¸t, c¸c vect¬ ®Çu ra ®−îc biÕt mét c¸ch
chÝnh x¸c, nh−ng trong mét sè tr−êng hîp cã Ýt th«ng tin, ch¼ng h¹n chØ cã thÓ nãi
lµ m¹ng sinh Output qu¸ lín hoÆc chØ ®óng kho¶ng 40%. Khi ®ã chØ cã mét tÝn hiÖu
®¸nh gi¸ lµ “True” hoÆc “False” quay l¹i m¹ng, c¸c thñ tôc häc ®ã gäi lµ thñ tôc häc
t¨ng c−êng.
ANN
w

Xs
§Çu vµo

TÝn hiÖu
®¸nh gi¸

§Çu ra thùc tÕ

T¹o tÝn hiÖu
®¸nh gi¸
TÝn hiÖu t¨ng c−êng

H×nh 2.8: S¬ ®å häc t¨ng c−êng
c. Häc kh«ng gi¸m s¸t
Trong ph−¬ng ph¸p häc kh«ng gi¸m s¸t (unsepervised learning), ®Çu ra mong
muèn cña m¹ng kh«ng ®−îc cho tr−íc vµ m¹ng ®−îc trang bÞ kh¶ n¨ng tù tæ chøc.
M¹ng kh«ng sö dông mèi quan hÖ líp cña c¸c mÉu häc mµ dïng th«ng tin kÕt hîp
víi nhãm c¸c n¬ron ®Ó thay ®æi c¸c tham sè côc bé sao cho hîp nhÊt. HÖ thèng häc
kh«ng gi¸m s¸t ph©n chia c¸c mÉu vµo c¸c nhãm hoÆc c¸c líp quyÕt ®Þnh b»ng c¸ch
chän c¸c n¬ron “chiÕn th¾ng” vµ thay ®æi c¸c träng sè t−¬ng øng cña chóng. Th«ng
th−êng, viÖc häc kh«ng gi¸m s¸t dïng nhiÒu tham sè h¬n kü thuËt häc cã gi¸m s¸t.
ANN
w

Xs
§Çu vµo

H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t

D−¬ng ThÞ HiÒn Thanh – CNTT 2006

§Çu ra thùc tÕ
39

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Nh− vËy, gi¶i thuËt häc lµ gi¶i thuËt xuÊt ph¸t tõ mét tËp mÉu, qua qu¸ tr×nh
huÊn luyÖn ®Ó t×m ra bé träng sè liªn kÕt gi÷a c¸c n¬ron, cã thÓ m« t¶ tæng qu¸t nh−
sau:
§Çu vµo: Mét tËp mÉu gåm n phÇn tö.
§Çu ra: CÊu tróc m¹ng vµ bé träng sè c¸c liªn kÕt n¬ron
Gi¶i thuËt:
1. Khëi t¹o träng sè cña m¹ng, ®Æt i =1;
2. §−a mÉu i vµo líp vµo cña m¹ng;
3. Sö dông thuËt to¸n lan truyÒn, nhËn ®−îc gi¸ trÞ c¸c nót ra.
NÕu gi¸ trÞ ®Çu ra cña m¹ng ®¹t yªu cÇu hoÆc tho¶ m·n tiªu chuÈn
dõng th× kÕt thóc.
4. Söa ®æi träng sè b»ng luËt häc cña m¹ng;
5. NÕu i = n th× ®Æt l¹i i = 1, nÕu kh«ng th× t¨ng i lªn 1: i=i+1
Quay l¹i b−íc 2.
Cã nhiÒu tiªu chuÈn dõng qu¸ tr×nh häc, ch¼ng h¹n:
- ChuÈn lçi E nhá h¬n mét ng−ìng cho tr−íc: E < θ.
- C¸c träng sè cña m¹ng kh«ng thay ®æi nhiÒu sau khi hiÖu chØnh:
new
old
wij − wij p θ .

- ViÖc lÆp bÞ b·o hoµ, tøc lµ sè lÇn lÆp v−ît qu¸ mét ng−ìng N cho tr−íc.
2.1.5.2. Lan truyÒn trong m¹ng
M¹ng n¬ron lan truyÒn th«ng tin tõ líp vµo ®Õn líp ra. Khi viÖc lan truyÒn
kÕt thóc, th«ng tin t¹i líp ra chÝnh lµ kÕt qu¶ cña qu¸ tr×nh lan truyÒn.
Gi¶i thuËt lan truyÒn ®−îc m« t¶ nh− sau:
§Çu vµo: Mét tËp tÝn hiÖu vµo
§Çu ra: KÕt qu¶ ra t−¬ng øng víi tËp tÝn hiÖu vµo
Gi¶i thuËt:
1. §−a tËp tÝn hiÖu vµo vµo líp vµo cña m¹ng.
2. TÝnh møc tÝch cùc cña c¸c nót trong m¹ng.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
40

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

3. Víi m¹ng truyÒn th¼ng: NÕu møc tÝch cùc cña nót ra ®· biÕt th× kÕt
thóc.
Víi m¹ng ph¶n håi: NÕu møc tÝch cùc cña nót ra b»ng hoÆc xÊp xØ
b»ng h»ng sè th× kÕt thóc.
NÕu kh«ng th× quay l¹i b−íc 2.
2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron
M¹ng n¬ron lµ mét c«ng cô h÷u hiÖu trong c¸c m« h×nh tÝnh to¸n th«ng minh
víi mét sè ®Æc ®iÓm chÝnh sau:
- Cho phÐp x©y dùng mét mét m« h×nh tÝnh to¸n cã kh¶ n¨ng häc d÷ liÖu cao:
ChØ cÇn ®−a vµo cho m¹ng mét tËp d÷ liÖu trong qu¸ tr×nh häc lµ m¹ng cã thÓ ph¸t
hiÖn nh÷ng rµng buéc d÷ liÖu vµ ¸p dông nh÷ng rµng buéc nµy trong qu¸ tr×nh sö
dông mµ kh«ng cÇn cã thªm c¸c tri thøc vÒ miÒn øng dông. Kh¶ n¨ng nµy cho phÐp
x©y dùng m« h×nh d÷ liÖu kh¸ dÔ dµng.
- Xö lý c¸c qu¸ tr×nh phi tuyÕn: M¹ng cã kh¶ n¨ng xÊp xØ nh÷ng ¸nh x¹ phi
tuyÕn tuú ý nªn cã thÓ gi¶i ®−îc nh÷ng bµi to¸n phi tuyÕn phøc t¹p. Nã cã thÓ thùc
hiÖn nhiÒu phÐp läc n»m ngoµi kh¶ n¨ng cña nh÷ng bé läc tuyÕn tÝnh th«ng th−êng.
§Æc tr−ng nµy rÊt quan träng, vÝ dô trong xÊp xØ m¹ng, miÔn nhiÔu (chÊp nhËn
nhiÔu) vµ cã kh¶ n¨ng ph©n líp.
- Kh¶ n¨ng cña c¸c qu¸ tr×nh xö song song vµ ph©n t¸n: Cã thÓ ®−a vµo m¹ng
mét l−îng lín c¸c n¬ron liªn kÕt víi nhau theo nh÷ng l−îc ®å víi c¸c kiÕn tróc kh¸c
nhau. M¹ng cã cÊu tróc song song lín, cã kh¶ n¨ng t¨ng tèc ®é tÝnh to¸n vµ hy väng
sÏ ®¸p øng ®−îc yªu cÇu cña nh÷ng hÖ thèng cÇn cã ®é chÝnh x¸c cao h¬n nh÷ng hÖ
thèng truyÒn thèng.
- M¹ng n¬ron cã kh¶ n¨ng dung thø lçi cao: Cè g¾ng b¾t ch−íc kh¶ n¨ng
dung thø lçi cña n·o theo nghÜa hÖ thèng cã thÓ tiÕp tôc lµm viÖc vµ ®iÒu chØnh khi
nhËn tÝn hiÖu vµo cã mét phÇn th«ng tin bÞ sai lÖch hoÆc bÞ thiÕu.
- Kh¶ n¨ng thÝch nghi vµ tù tæ chøc: vÒ ®Æc tr−ng nµy, ng−êi ta ®Ò cËp tíi kh¶
n¨ng xö lý thÝch nghi vµ ®iÒu chØnh bÒn v÷ng dùa vµo c¸c thuËt to¸n thÝch nghi vµ
c¸c quy t¾c tù tæ chøc.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
41

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

- H¬n n÷a, mÆc dï cã rÊt nhiÒu kü thuËt vµ gi¶i thuËt ®−îc sö dông trong khai
ph¸ d÷ liÖu, mét sè kü thuËt cßn ®−îc kÕt hîp ®Ó sö dông cã hiÖu qu¶, song m¹ng
n¬ron vÉn cã nh÷ng −u ®iÓm ®¸ng chó ý nh−:
o

Tù ®éng t×m kiÕm tÊt c¶ c¸c mèi quan hÖ cã thÓ gi÷a c¸c nh©n tè
chÝnh.

o

M« h×nh ho¸ tù ®éng c¸c bµi to¸n phøc t¹p mµ kh«ng cÇn biÕt tr−íc
møc ®é phøc t¹p.

o

Cã kh¶ n¨ng chiÕt xuÊt ra nh÷ng th«ng tin nhanh h¬n rÊt nhiÒu so víi
nhiÒu c«ng cô kh¸c.

Víi c¸c ®Æc ®iÓm trªn ta thÊy: M¹ng n¬ron cho phÐp dÔ dµng x©y dùng c¸c
m« h×nh thÝch nghi mµ trong ®ã sù thay ®æi liªn tôc vÒ quy luËt d÷ liÖu cã thÓ dÔ
dµng ®−îc cËp nhËt trong qu¸ tr×nh häc l¹i cña m¹ng. Tuy nhiªn, m¹ng n¬ron kh«ng
ph¶i mét c«ng cô v¹n n¨ng, nã cã mét sè nh−îc ®iÓm:
- M¹ng chØ cã thÓ lµm viÖc víi nh÷ng d÷ liÖu sè.
- §Ó m¹ng ®¹t hiÖu qu¶ cÇn cã mét bé d÷ liÖu mÉu ®ñ lín cho qu¸ tr×nh häc.
- M¹ng chØ cã tÝnh chÊt néi suy. Kh¶ n¨ng ngo¹i suy rÊt kÐm.
- M¹ng kh«ng ®−a ra ®−îc c¬ chÕ gi¶i thÝch.
- §«i khi m¹ng ch−a ®¶m b¶o ®é héi tô cÇn thiÕt cho qu¸ tr×nh sö dông.
Nh− vËy, mét m¹ng n¬ron nh©n t¹o khi ®em vµo sö dông tr−íc tiªn ph¶i cho
m¹ng häc c¸c mÉu häc. Bé träng sè ban ®Çu cña m¹ng th−êng ®−îc khëi t¹o ngÉu
nhiªn. Qu¸ tr×nh häc sÏ dÇn dÇn thay ®æi bé träng sè nµy ®Ó cùc tiÓu ho¸ sai sè. Tuy
nhiªn, víi bé träng sè khëi t¹o ngÉu nhiªn, m¹ng th−êng bÞ r¬i vµo c¸c gi¸ trÞ cùc
tiÓu ®Þa ph−¬ng vµ qu¸ tr×nh hiÖu chØnh träng sè nµy th−êng kh«ng mang l¹i kÕt qu¶
mong muèn, tøc lµ kh«ng lµm gi¶m ®¸ng kÓ sai sè hoÆc thËm chÝ cã lóc cßn lµm
t¨ng sai sè. Mét ph−¬ng ph¸p tr¸nh ®−îc tr−êng hîp cùc trÞ ®Þa ph−¬ng lµ kÕt hîp
gi¶i thuËt di truyÒn víi m¹ng n¬ron. Gi¶i thuËt di truyÒn sÏ t×m kiÕm mét c¸ch toµn
côc c¸c bé träng sè tèt nhÊt cho m¹ng n¬ron vµ cho kÕt qu¶ lµ vïng l©n cËn víi ®iÓm
cùc trÞ toµn côc. Sau ®ã, mét vµi bé träng sè tèt nhÊt sÏ ®−îc dïng lµm c¸c gi¸ trÞ
träng sè khëi t¹o cho m¹ng n¬ron vµ kÕt qu¶ sÏ lµ cùc trÞ toµn côc.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
42

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU

Gi¶i thuËt di truyÒn (Genetic Algorithm - GA) lµ mét ph−¬ng ph¸p t×m kiÕm
cùc trÞ tæng thÓ, kü thuËt tèi −u tæng thÓ cã tÇm quan träng rÊt lín ®èi víi nhiÒu vÊn
®Ò kh¸c nhau trong khoa häc vµ kü thuËt. Trong khai ph¸ d÷ liÖu, gi¶i thuËt di
truyÒn th−êng ®−îc sö dông trªn nÒn cña c¸c kü thuËt kh¸c nh− m¹ng n¬ron hay
ph©n líp theo k l¸ng giÒng gÇn nhÊt. MÆc dï vËy, gi¶i thuËt di truyÒn lµ mét kü
thuËt rÊt cÇn thiÕt v× hÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu tãm l¹i ®Òu lµ vÊn ®Ò tèi
−u ho¸. §èi víi m¹ng n¬ron, ®ã lµ vÊn ®Ò t×m kiÕm c¸c träng sè cho mét cÊu tróc
m¹ng tèi −u. §èi víi k l¸ng giÒng gÇn nhÊt, ®ã lµ vÊn ®Ò t×m c¸c träng sè quan träng
tèi −u ®Ó ¸p dông cho mçi yÕu tè dù ®o¸n. §èi víi c©y quyÕt ®Þnh, ®ã lµ bµi to¸n t×m
kiÕm c¸c yÕu tè dù ®o¸n tèt nhÊt vµ c¸c gi¸ trÞ ®Ó ph©n t¸ch trong viÖc tèi −u ho¸
c©y. Gi¶i thuËt di truyÒn ®−îc ®¸nh gi¸ b»ng hµm thÝch nghi ®Ó x¸c ®Þnh c¸c m«
h×nh dù ®o¸n tèi −u cho viÖc khai ph¸ d÷ liÖu.
2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn
ý t−ëng cña gi¶i thuËt di truyÒn lµ m« pháng theo c¬ chÕ cña qu¸ tr×nh chän
läc vµ di truyÒn trong tù nhiªn. Tõ tËp c¸c lêi gi¶i cã thÓ ban ®Çu, th«ng qua nhiÒu
b−íc tiÕn ho¸ ®Ó h×nh thµnh c¸c tËp míi víi nh÷ng lêi gi¶i tèt h¬n, cuèi cïng sÏ t×m
®−îc lêi gi¶i gÇn tèi −u nhÊt [1, 6].
GA sö dông c¸c thuËt ng÷ lÊy tõ di truyÒn häc:
- Mét tËp hîp c¸c lêi gi¶i ®−îc gäi lµ mét Líp hay QuÇn thÓ (population).
- Mçi lêi gi¶i ®−îc biÓu diÔn bëi mét NhiÔm s¾c thÓ hay C¸ thÓ
(chromosome).
- NhiÔm s¾c thÓ ®−îc t¹o thµnh tõ c¸c gien
Mét qu¸ tr×nh tiÕn ho¸ ®−îc thùc hiÖn trªn mét quÇn thÓ t−¬ng ®−¬ng víi sù
t×m kiÕm trªn kh«ng gian c¸c lêi gi¶i cã thÓ cña bµi to¸n. Qu¸ tr×nh t×m kiÕm nµy
lu«n ®ßi hái sù c©n b»ng gi÷a hai môc tiªu: Khai th¸c lêi gi¶i tèt nhÊt vµ xem xÐt
toµn bé kh«ng gian t×m kiÕm.
GA thùc hiÖn t×m kiÕm theo nhiÒu h−íng b»ng c¸ch duy tr× tËp hîp c¸c lêi
gi¶i cã thÓ vµ khuyÕn khÝch sù h×nh thµnh vµ trao ®æi th«ng tin gi÷a c¸c h−íng.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
43

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

TËp lêi gi¶i ph¶i tr¶i qua nhiÒu b−íc tiÕn ho¸, t¹i mçi thÕ hÖ, mét tËp míi c¸c
c¸ thÓ ®−îc t¹o ra cã chøa c¸c phÇn cña nh÷ng c¸ thÓ thÝch nghi nhÊt trong thÕ hÖ
cò. §ång thêi gi¶i thuËt di truyÒn khai th¸c mét c¸ch cã hiÖu qu¶ th«ng tin tr−íc ®ã
®Ó suy xÐt trªn ®iÓm t×m kiÕm míi víi mong muèn cã ®−îc sù c¶i thiÖn qua tõng thÕ
hÖ. Nh− vËy, c¸c ®Æc tr−ng ®−îc ®¸nh gi¸ tèt sÏ cã c¬ héi ph¸t triÓn vµ c¸c tÝnh chÊt
tåi (kh«ng thÝch nghi víi m«i tr−êng) sÏ cã xu h−íng biÕn mÊt.
Gi¶i thuËt di truyÒn tæng qu¸t ®−îc m« t¶ nh− sau:
PROCEDURE GeneticAlgorithm;
BEGIN
T:=0;
Khëi t¹o líp P(t);
§¸nh gi¸ líp P(t);
While not (§iÒu_kiÖn_kÕt_thóc) do
Begin
t:=t+1;
Chän läc P(t) tõ P(t-1);
KÕt hîp c¸c c¸ thÓ cña P(t);
§¸nh gi¸ líp P(t);
end;
END;
Trong ®ã:
- TËp hîp c¸c lêi gi¶i ban ®Çu ®−îc khëi t¹o ngÉu nhiªn.
- Trong vßng lÆp thø t, GA x¸c ®Þnh tËp c¸c nhiÔm s¾c thÓ P(t)={x1t, x2t, …,
xnt} b»ng c¸ch chän lùa c¸c nhiÔm s¾c thÓ thÝch nghi h¬n tõ P(t-1). Mçi nhiÔm s¾c
thÓ xit ®−îc ®¸nh gi¸ ®Ó x¸c ®Þnh ®é thÝch nghi cña nã vµ mét sè thµnh viªn cña P(t)
l¹i ®−îc t¸i s¶n xuÊt nhê c¸c to¸n tö Lai ghÐp vµ §ét biÕn.
Khi ¸p dông GA ®Ó quyÕt mét bµi to¸n cô thÓ, ph¶i lµm râ c¸c vÊn ®Ò sau:
1. Chän c¸ch biÓu diÔn di truyÒn nµo ®èi víi nh÷ng lêi gi¶i cã thÓ cña bµi
to¸n?
2. T¹o tËp lêi gi¶i ban ®Çu nh− thÕ nµo?
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
44

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

3. X¸c ®Þnh hµm ®¸nh gi¸ ®Ó ®¸nh gi¸ møc ®é thÝch nghi cña c¸c c¸ thÓ.
4. X¸c ®Þnh c¸c to¸n tö di truyÒn ®Ó s¶n sinh con ch¸u.
5. X¸c ®Þnh gi¸ trÞ c¸c tham sè mµ GA sö dông nh− kÝch th−íc tËp lêi gi¶i,
x¸c suÊt ¸p dông c¸c to¸n tö di truyÒn,…
Nh− vËy GA lµ mét gi¶i thuËt lÆp nh»m gi¶i quyÕt c¸c bµi to¸n t×m kiÕm, nã
kh¸c víi c¸c thñ tôc tèi −u th«ng th−êng ë nh÷ng ®iÓm c¬ b¶n sau:
- Gi¶i thuËt di truyÒn lµm viÖc víi bé m· cña tËp th«ng sè chø kh«ng lµm
viÖc trùc tiÕp víi gi¸ trÞ cña c¸c th«ng sè.
- Gi¶i thuËt di truyÒn t×m kiÕm song song trªn mét quÇn thÓ chø kh«ng t×m
kiÕm tõ mét ®iÓm, mÆt kh¸c nhê ¸p dông c¸c to¸n tö di truyÒn, nã sÏ trao ®æi th«ng
tin gi÷a c¸c ®iÓm, nh− vËy sÏ gi¶m bít kh¶ n¨ng kÕt thóc t¹i mét cùc tiÓu côc bé mµ
kh«ng t×m thÊy cùc tiÓu toµn côc.
- Gi¶i thuËt di truyÒn chØ sö dông th«ng tin cña hµm môc tiªu ®Ó ®¸nh gi¸ qu¸
tr×nh t×m kiÕm chø kh«ng ®ßi hái c¸c th«ng tin bæ trî kh¸c.
- C¸c luËt chuyÓn ®æi cña gi¶i thuËt di truyÒn mang tÝnh x¸c suÊt chø kh«ng
mang tÝnh tiÒn ®Þnh.
C¸c th«ng sè cña bµi to¸n ®−îc m· ho¸ thµnh c¸c chuçi. C¸ch ®¬n gi¶n nhÊt
lµ chóng ta dïng chuçi bit ®Ó m· ho¸ c¸c th«ng sè. Mçi th«ng sè ®−îc m· ho¸ b»ng
mét chuçi bÝt cã ®é dµi nµo ®ã, sau ®ã nèi chóng l¹i víi nhau, ta sÏ cã mét chuçi m·
ho¸ cho tËp c¸c th«ng sè. §Ó tÝnh to¸n gi¸ trÞ hµm môc tiªu t−¬ng øng víi mçi chuçi
th«ng sè, ta ph¶i gi¶i m· bé th«ng sè nµy theo mét quy t¾c nµo ®ã. Gi¶i thuËt di
truyÒn t×m kiÕm song song trªn mét tËp c¸c chuçi, do ®ã gi¶m thiÓu ®−îc kh¶ n¨ng
bá qua c¸c cùc trÞ toµn côc vµ dõng l¹i ë cùc trÞ ®Þa ph−¬ng. §iÒu nµy gi¶i thÝch v×
sao gi¶i thuËt di truyÒn mang tÝnh toµn côc.
HiÖn nay gi¶i thuËt di truyÒn ®−îc ¸p dông ngµy cµng nhiÒu trong kinh
doanh, khoa häc vµ kü thuËt v× tÝnh chÊt kh«ng qu¸ phøc t¹p mµ hiÖu qu¶ cña nã.
H¬n n÷a, gi¶i thuËt di truyÒn kh«ng ®ßi hái kh¾t khe ®èi víi kh«ng gian t×m kiÕm
nh− gi¶ ®Þnh vÒ sù liªn tôc, sù cã ®¹o hµm,.... B»ng lý thuyÕt vµ thùc nghiÖm, gi¶i
thuËt di truyÒn ®· ®−îc chøng minh lµ gi¶i thuËt t×m kiÕm toµn côc m¹nh trong c¸c
kh«ng gian lêi gi¶i phøc t¹p.
D−¬ng ThÞ HiÒn Thanh – CNTT 2006
45

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn
BiÓu diÔn lêi gi¶i lµ vÊn ®Ò ®Çu tiªn ®−îc quan t©m tíi khi b¾t tay vµo gi¶i
quyÕt mét bµi to¸n b»ng GA. ViÖc lùa chän c¸ch biÓu diÔn lêi gi¶i nh− thÕ nµo phô
thuéc vµo tõng líp bµi to¸n thËm chÝ vµo tõng bµi to¸n cô thÓ.
GA kinh ®iÓn dïng chuçi nhÞ ph©n cã chiÒu dµi x¸c ®Þnh ®Ó biÓu diÔn lêi
gi¶i. Tuy nhiªn, thùc tÕ cho thÊy c¸ch biÓu diÔn nµy khã ¸p dông trùc tiÕp cho c¸c
bµi to¸n tèi −u cì lín cã nhiÒu rµng buéc. V× lý do ®ã, GA c¶i tiÕn hay cßn gäi lµ
Ch−¬ng tr×nh tiÕn ho¸ ®· t×m kiÕm c¸c c¸ch biÓu diÔn thÝch nghi vµ tù nhiªn h¬n
víi c¸c bµi to¸n thùc tÕ nh−: BiÓu diÔn theo trËt tù, biÓu diÔn theo gi¸ trÞ thùc, biÓu
diÔn b»ng c¸c cÊu tróc c©y, ma trËn, … PhÇn nµy sÏ tr×nh bÇy tæng quan vÒ c¸c c¸ch
biÓu diÔn ®ã.
2.2.2.1. BiÓu diÔn nhÞ ph©n (Binary encoding)
Trong biÓu diÔn nhÞ ph©n, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c bit 0 hoÆc 1.
Ch¼ng h¹n:
NST A: 101100101100101011100101
NST B: 111111100000110000011111
VÝ dô: Bµi to¸n “XÕp ba l«” ®−îc ph¸t biÓu: “Cho mét tËp c¸c ®å vËt, mçi ®å
vËt cã gi¸ trÞ vµ kÝch th−íc x¸c ®Þnh, cho biÕt søc chøa cña ba l«. H·y chän c¸ch xÕp
c¸c ®å vËt vµo ba l« sao cho tæng gi¸ trÞ cña c¸c ®å vËt lµ cao nhÊt”.
BiÓu diÔn mçi lêi gi¶i cña bµi to¸n trªn b»ng mét chuçi nhÞ ph©n, ë ®ã mçi
bit 0 hoÆc 1 øng víi mét ®å vËt kh«ng ®−îc chän hoÆc ®−îc chän.
Víi c¸ch biÓu diÔn ®ã, bµi to¸n ®−îc ph¸t biÓu l¹i nh− sau: “ Cho mét tËp c¸c
khèi l−¬ng W[i], tËp c¸c gi¸ trÞ P[i] vµ søc chøa C. T×m mét vect¬ nhÞ ph©n x=<x1,
x2, …, xn> tho¶ m·n:

∑

n

i =1

x[i ]-W [i ] ≤ C

víi P(x) =

∑

n

i =1

x[i ]-W [i ] lµ cùc ®¹i.

2.2.2.2. BiÓu diÔn ho¸n vÞ (Permutation encoding)

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
46

Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn
trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông

Sö dông trong bµi to¸n mµ thø tù c¸c thµnh phÇn cña lêi gi¶i quyÕt ®Þnh møc
®é phï hîp cña lêi gi¶i, ®iÓn h×nh nh− bµi to¸n “ Ng−êi du lÞch”.
Víi c¸ch biÓu diÔn thø tù, c¸ch s¾p xÕp cña c¸c gien kh¸c nhau cho ta c¸c
nhiÔm s¾c thÓ kh¸c nhau, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c sè nguyªn diÔn t¶
quan hÖ tiÕp nèi. Lêi gi¶i ®−îc biÓu diÔn b»ng mét vect¬ sè nguyªn v=( i1, i2, …, in )
víi v lµ mét ho¸n vÞ cña tËp thø tù.
VÝ dô:

NST A: ( 1 5 3 2 6 4 7 9 8 )
NST B: ( 8 5 6 7 2 3 1 4 9 )

2.2.2.3. BiÓu diÔn gi¸ trÞ (Value encoding)
Th−êng dïng trong c¸c bµi to¸n mµ c¸ch biÓu diÔn chuçi nhÞ ph©n lµ khã
thùc hiÖn nh− miÒn x¸c ®Þnh cña c¸c thµnh phÇn lêi gi¶i kh¸ lín víi ®é chÝnh x¸c
yªu cÇu cao, miÒn x¸c ®Þnh kh«ng râ rµng, hay c¸c bµi to¸n mµ viÖc biÓu diÔn nhÞ
ph©n lµ “ kh«ng tù nhiªn”.
Trong biÓu diÔn gi¸ trÞ, mçi c¸ thÓ lµ mét chuçi c¸c gi¸ trÞ liªn quan ®Õn bµi
to¸n, c¸c gi¸ trÞ cã thÓ lµ sè thùc, sè nguyªn, ký tù hay c¸c ®èi t−îng phøc t¹p kh¸c.
VÝ dô:

NST A: (0.1229 2.9234 3.0012, 0.3567, 4.3828)
NST B (AJUHNEOLDOGSGLLIKUFSEJHJH)

2.2.2.4. BiÓu diÔn d¹ng c©y (Tree encoding)
C¸ch biÓu diÔn lêi gi¶i dïng cÊu tróc c©y ®−îc dïng chñ yÕu trong c¸c
ch−¬ng tr×nh tiÕn ho¸, trong biÓu diÔn biÓu thøc, hay lËp c¸c ch−¬ng tr×nh di truyÒn
häc. Víi c¸ch biÓu diÔn nµy, mçi c¸ thÓ lµ mét c©y c¸c ®èi t−îng.
2.2.3. C¸c to¸n tö di truyÒn
C¸c c¸ thÓ trong gi¶i thuËt di truyÒn lµ c¸c chuçi bit ®−îc t¹o bëi viÖc c¾t d¸n
c¸c chuçi bit con. Mçi chuçi bit ®¹i diÖn cho mét tËp th«ng sè trong kh«ng gian t×m
kiÕm, nªn ®−îc coi lµ lêi gi¶i tiÒm n¨ng cña bµi to¸n tèi −u. Tõ mçi chuçi bit ta gi¶i
m· ®Ó tÝnh l¹i tËp thèng sè, sau ®ã tÝnh ®−îc gi¸ trÞ hµm môc tiªu. Tõ ®ã, gi¸ trÞ hµm
môc tiªu ®−îc biÕn ®æi thµnh gi¸ trÞ do ®é phï hîp cña tõng chuçi.

D−¬ng ThÞ HiÒn Thanh – CNTT 2006
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung
Tailieu.vncty.com   ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung

More Related Content

What's hot

đảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt namđảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt nam
https://www.facebook.com/garmentspace
 
Luan van tien si kinh te quoc dan neu (14)
Luan van tien si kinh te quoc dan neu (14)Luan van tien si kinh te quoc dan neu (14)
Luan van tien si kinh te quoc dan neu (14)
Nguyễn Công Huy
 
Luan van tien si kinh te quoc dan neu (5)
Luan van tien si kinh te quoc dan neu (5)Luan van tien si kinh te quoc dan neu (5)
Luan van tien si kinh te quoc dan neu (5)
Nguyễn Công Huy
 
Suc khoe-nghe-nghiep
Suc khoe-nghe-nghiepSuc khoe-nghe-nghiep
Suc khoe-nghe-nghiep
stop_alove
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
bookbooming1
 
Giao trinh cau truc du lieu va giai thuat
Giao trinh cau truc du lieu va giai thuatGiao trinh cau truc du lieu va giai thuat
Giao trinh cau truc du lieu va giai thuat
Pham Minh Hai
 

What's hot (18)

Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
Luận văn: Hạn chế rủi ro tín dụng tại ngân hàng nông nghiệp và phát triển nôn...
 
Ke toan quan tri
Ke toan quan triKe toan quan tri
Ke toan quan tri
 
đảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt namđảM bảo tài chính cho bảo hiểm xã hội việt nam
đảM bảo tài chính cho bảo hiểm xã hội việt nam
 
Luan van tien si kinh te quoc dan neu (14)
Luan van tien si kinh te quoc dan neu (14)Luan van tien si kinh te quoc dan neu (14)
Luan van tien si kinh te quoc dan neu (14)
 
Luan van tien si kinh te quoc dan neu (5)
Luan van tien si kinh te quoc dan neu (5)Luan van tien si kinh te quoc dan neu (5)
Luan van tien si kinh te quoc dan neu (5)
 
Luận văn: Thực trạng và giải pháp để lập báo cáo tài chính hợp nhất cho các d...
Luận văn: Thực trạng và giải pháp để lập báo cáo tài chính hợp nhất cho các d...Luận văn: Thực trạng và giải pháp để lập báo cáo tài chính hợp nhất cho các d...
Luận văn: Thực trạng và giải pháp để lập báo cáo tài chính hợp nhất cho các d...
 
Luận văn: Nâng cao hiệu quả hoạt động của các công ty niêm yết nhằm phát triể...
Luận văn: Nâng cao hiệu quả hoạt động của các công ty niêm yết nhằm phát triể...Luận văn: Nâng cao hiệu quả hoạt động của các công ty niêm yết nhằm phát triể...
Luận văn: Nâng cao hiệu quả hoạt động của các công ty niêm yết nhằm phát triể...
 
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
Luận án: Hoàn thiện quản lý nhà nước đối với cơ sở hạ tầng đô thị du lịch ở V...
 
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
Luận án: Nâng cao chất lượng đội ngũ công chức hành chính Nhà nước tỉnh Hải D...
 
He thong dieu khien thuy khi tran xuan tuy
He thong dieu khien thuy khi  tran xuan tuy He thong dieu khien thuy khi  tran xuan tuy
He thong dieu khien thuy khi tran xuan tuy
 
Suc khoe-nghe-nghiep
Suc khoe-nghe-nghiepSuc khoe-nghe-nghiep
Suc khoe-nghe-nghiep
 
Luận văn: Giải pháp phát triển dịch vụ tài chính tại tổng công ty bưu chính V...
Luận văn: Giải pháp phát triển dịch vụ tài chính tại tổng công ty bưu chính V...Luận văn: Giải pháp phát triển dịch vụ tài chính tại tổng công ty bưu chính V...
Luận văn: Giải pháp phát triển dịch vụ tài chính tại tổng công ty bưu chính V...
 
Luận án: Nghiên cứu thống kê tài khoản vệ tinh du lịch ở VN, HAY
Luận án: Nghiên cứu thống kê tài khoản vệ tinh du lịch ở VN, HAYLuận án: Nghiên cứu thống kê tài khoản vệ tinh du lịch ở VN, HAY
Luận án: Nghiên cứu thống kê tài khoản vệ tinh du lịch ở VN, HAY
 
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAYLuận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
Luận văn: Giải pháp phát triển thị trường phi nhân thọ ở VN, HAY
 
Luận văn: Hiện đại hóa hoạt động của các Ngân hàng Thương mại Việt Nam
Luận văn: Hiện đại hóa hoạt động của các Ngân hàng Thương mại Việt NamLuận văn: Hiện đại hóa hoạt động của các Ngân hàng Thương mại Việt Nam
Luận văn: Hiện đại hóa hoạt động của các Ngân hàng Thương mại Việt Nam
 
Luận văn: Quyền chọn chứng khoán và việc áp dụng quyền chọn chứng khoán vào t...
Luận văn: Quyền chọn chứng khoán và việc áp dụng quyền chọn chứng khoán vào t...Luận văn: Quyền chọn chứng khoán và việc áp dụng quyền chọn chứng khoán vào t...
Luận văn: Quyền chọn chứng khoán và việc áp dụng quyền chọn chứng khoán vào t...
 
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]Giáo trình tin học đại cương   đỗ thị mơ[bookbooming.com]
Giáo trình tin học đại cương đỗ thị mơ[bookbooming.com]
 
Giao trinh cau truc du lieu va giai thuat
Giao trinh cau truc du lieu va giai thuatGiao trinh cau truc du lieu va giai thuat
Giao trinh cau truc du lieu va giai thuat
 

Viewers also liked (7)

Tailieu.vncty.com powerpoint giáo án toán
Tailieu.vncty.com   powerpoint giáo án toánTailieu.vncty.com   powerpoint giáo án toán
Tailieu.vncty.com powerpoint giáo án toán
 
Tailieu.vncty.com hoan thien-quan_ly_tai_chinh_tai_cac_truong_dai_hoc_cong_...
Tailieu.vncty.com   hoan thien-quan_ly_tai_chinh_tai_cac_truong_dai_hoc_cong_...Tailieu.vncty.com   hoan thien-quan_ly_tai_chinh_tai_cac_truong_dai_hoc_cong_...
Tailieu.vncty.com hoan thien-quan_ly_tai_chinh_tai_cac_truong_dai_hoc_cong_...
 
Tailieu.vncty.com giao-trinh-hoa-hoc-dau-mo-va-khi
Tailieu.vncty.com   giao-trinh-hoa-hoc-dau-mo-va-khiTailieu.vncty.com   giao-trinh-hoa-hoc-dau-mo-va-khi
Tailieu.vncty.com giao-trinh-hoa-hoc-dau-mo-va-khi
 
Tailieu.vncty.com thiet ke web dai hoc
Tailieu.vncty.com   thiet ke web dai hocTailieu.vncty.com   thiet ke web dai hoc
Tailieu.vncty.com thiet ke web dai hoc
 
Tailieu.vncty.com xay dung-va_danh_gia_hieu_qua_trien_khai_he_dieu_hanh_lin...
Tailieu.vncty.com   xay dung-va_danh_gia_hieu_qua_trien_khai_he_dieu_hanh_lin...Tailieu.vncty.com   xay dung-va_danh_gia_hieu_qua_trien_khai_he_dieu_hanh_lin...
Tailieu.vncty.com xay dung-va_danh_gia_hieu_qua_trien_khai_he_dieu_hanh_lin...
 
Tailieu.vncty.com dt22
Tailieu.vncty.com   dt22Tailieu.vncty.com   dt22
Tailieu.vncty.com dt22
 
Tailieu.vncty.com ielts speaking real test with key
Tailieu.vncty.com   ielts speaking real test with keyTailieu.vncty.com   ielts speaking real test with key
Tailieu.vncty.com ielts speaking real test with key
 

Similar to Tailieu.vncty.com ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung

Giáo trình nhập môn tin học đỗ thị mơ[bookbooming.com]
Giáo trình nhập môn tin học   đỗ thị mơ[bookbooming.com]Giáo trình nhập môn tin học   đỗ thị mơ[bookbooming.com]
Giáo trình nhập môn tin học đỗ thị mơ[bookbooming.com]
bookbooming1
 

Similar to Tailieu.vncty.com ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung (20)

Cau truc du_lieu_va_giai_thuat_moi
Cau truc du_lieu_va_giai_thuat_moiCau truc du_lieu_va_giai_thuat_moi
Cau truc du_lieu_va_giai_thuat_moi
 
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
Luận văn: Nâng cao năng lực cạnh tranh của các ngân hàng thương mại Việt Nam ...
 
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
NÂNG CAO NĂNG LỰC CẠNH TRANH CỦA CÁC NGÂN HÀNG THƯƠNG MẠI VIỆT NAM KHI VIỆT N...
 
Biện pháp đẩy mạnh chăm sóc khách hàng tại Bưu điện Trung tâm 1 – Bưu điện th...
Biện pháp đẩy mạnh chăm sóc khách hàng tại Bưu điện Trung tâm 1 – Bưu điện th...Biện pháp đẩy mạnh chăm sóc khách hàng tại Bưu điện Trung tâm 1 – Bưu điện th...
Biện pháp đẩy mạnh chăm sóc khách hàng tại Bưu điện Trung tâm 1 – Bưu điện th...
 
Luận án: Chính sách cổ tức của các doanh nghiệp thủy sản niêm yết trên thị tr...
Luận án: Chính sách cổ tức của các doanh nghiệp thủy sản niêm yết trên thị tr...Luận án: Chính sách cổ tức của các doanh nghiệp thủy sản niêm yết trên thị tr...
Luận án: Chính sách cổ tức của các doanh nghiệp thủy sản niêm yết trên thị tr...
 
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An BìnhỨng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
Ứng dụng Etabs 9.7 trong tính toán công trình - Trần An Bình
 
Đánh giá thực trạng phát triển nguồn nhân lực vùng đồng bằng sông Cửu Long
Đánh giá thực trạng phát triển nguồn nhân lực vùng đồng bằng sông Cửu LongĐánh giá thực trạng phát triển nguồn nhân lực vùng đồng bằng sông Cửu Long
Đánh giá thực trạng phát triển nguồn nhân lực vùng đồng bằng sông Cửu Long
 
Đồ án môn học thiết kế trạm xử lý nước thải KCN Hiệp Phước
Đồ án môn học thiết kế trạm xử lý nước thải KCN Hiệp PhướcĐồ án môn học thiết kế trạm xử lý nước thải KCN Hiệp Phước
Đồ án môn học thiết kế trạm xử lý nước thải KCN Hiệp Phước
 
Ebook dau-tu-tai-chinh[thu viennet.vn]
Ebook dau-tu-tai-chinh[thu viennet.vn]Ebook dau-tu-tai-chinh[thu viennet.vn]
Ebook dau-tu-tai-chinh[thu viennet.vn]
 
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VNLuận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
Luận án: Quản lý rủi ro tín dụng tại Ngân hàng Thương mại CP Công thương VN
 
Giáo trình nhập môn tin học đỗ thị mơ[bookbooming.com]
Giáo trình nhập môn tin học   đỗ thị mơ[bookbooming.com]Giáo trình nhập môn tin học   đỗ thị mơ[bookbooming.com]
Giáo trình nhập môn tin học đỗ thị mơ[bookbooming.com]
 
Luận văn: Vận dụng kế toán quản trị vào việc kiểm soát chất lượng tại Công ty...
Luận văn: Vận dụng kế toán quản trị vào việc kiểm soát chất lượng tại Công ty...Luận văn: Vận dụng kế toán quản trị vào việc kiểm soát chất lượng tại Công ty...
Luận văn: Vận dụng kế toán quản trị vào việc kiểm soát chất lượng tại Công ty...
 
Luận văn: Công tác quản lý thu bảo hiểm xã hội tại Trà Vinh, HAY
Luận văn: Công tác quản lý thu bảo hiểm xã hội tại Trà Vinh, HAYLuận văn: Công tác quản lý thu bảo hiểm xã hội tại Trà Vinh, HAY
Luận văn: Công tác quản lý thu bảo hiểm xã hội tại Trà Vinh, HAY
 
Luận văn: Giải pháp thúc đẩy hoạt động sáp nhập và mua lại ngân hàng theo địn...
Luận văn: Giải pháp thúc đẩy hoạt động sáp nhập và mua lại ngân hàng theo địn...Luận văn: Giải pháp thúc đẩy hoạt động sáp nhập và mua lại ngân hàng theo địn...
Luận văn: Giải pháp thúc đẩy hoạt động sáp nhập và mua lại ngân hàng theo địn...
 
Luận án: Bảo đảm lợi ích của bên Việt Nam trong thu hút và quản lý đầu tư trự...
Luận án: Bảo đảm lợi ích của bên Việt Nam trong thu hút và quản lý đầu tư trự...Luận án: Bảo đảm lợi ích của bên Việt Nam trong thu hút và quản lý đầu tư trự...
Luận án: Bảo đảm lợi ích của bên Việt Nam trong thu hút và quản lý đầu tư trự...
 
Luận án: Chuyển dịch cơ cấu sử dụng đất vùng đồng bằng sông Hồng trong quá tr...
Luận án: Chuyển dịch cơ cấu sử dụng đất vùng đồng bằng sông Hồng trong quá tr...Luận án: Chuyển dịch cơ cấu sử dụng đất vùng đồng bằng sông Hồng trong quá tr...
Luận án: Chuyển dịch cơ cấu sử dụng đất vùng đồng bằng sông Hồng trong quá tr...
 
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
Luận án: Cơ cấu lại các ngân hàng thương mại nhà nước Việt Nam trong giai đoạ...
 
Ly thuyetdohoa
Ly thuyetdohoaLy thuyetdohoa
Ly thuyetdohoa
 
Luận án: Hoàn thiện hệ thống thông tin kế toán trong các trường ĐH Công lập VN
Luận án: Hoàn thiện hệ thống thông tin kế toán trong các trường ĐH Công lập VNLuận án: Hoàn thiện hệ thống thông tin kế toán trong các trường ĐH Công lập VN
Luận án: Hoàn thiện hệ thống thông tin kế toán trong các trường ĐH Công lập VN
 
La09.025 hoàn thiện hệ thống thông tin kế toán trong các trường đại học công ...
La09.025 hoàn thiện hệ thống thông tin kế toán trong các trường đại học công ...La09.025 hoàn thiện hệ thống thông tin kế toán trong các trường đại học công ...
La09.025 hoàn thiện hệ thống thông tin kế toán trong các trường đại học công ...
 

More from Trần Đức Anh

More from Trần Đức Anh (20)

Tailieu.vncty.com 5275 1261
Tailieu.vncty.com   5275 1261Tailieu.vncty.com   5275 1261
Tailieu.vncty.com 5275 1261
 
Tailieu.vncty.com 5249 5591
Tailieu.vncty.com   5249 5591Tailieu.vncty.com   5249 5591
Tailieu.vncty.com 5249 5591
 
Tailieu.vncty.com 5219 0449
Tailieu.vncty.com   5219 0449Tailieu.vncty.com   5219 0449
Tailieu.vncty.com 5219 0449
 
Tailieu.vncty.com 5208 2542
Tailieu.vncty.com   5208 2542Tailieu.vncty.com   5208 2542
Tailieu.vncty.com 5208 2542
 
Tailieu.vncty.com 5145 0887
Tailieu.vncty.com   5145 0887Tailieu.vncty.com   5145 0887
Tailieu.vncty.com 5145 0887
 
Tailieu.vncty.com 5142 5647
Tailieu.vncty.com   5142 5647Tailieu.vncty.com   5142 5647
Tailieu.vncty.com 5142 5647
 
Tailieu.vncty.com 5138 529
Tailieu.vncty.com   5138 529Tailieu.vncty.com   5138 529
Tailieu.vncty.com 5138 529
 
Tailieu.vncty.com 5125 4608
Tailieu.vncty.com   5125 4608Tailieu.vncty.com   5125 4608
Tailieu.vncty.com 5125 4608
 
Tailieu.vncty.com 5117 1019
Tailieu.vncty.com   5117 1019Tailieu.vncty.com   5117 1019
Tailieu.vncty.com 5117 1019
 
Tailieu.vncty.com 5106 4775
Tailieu.vncty.com   5106 4775Tailieu.vncty.com   5106 4775
Tailieu.vncty.com 5106 4775
 
Tailieu.vncty.com 5089 2417
Tailieu.vncty.com   5089 2417Tailieu.vncty.com   5089 2417
Tailieu.vncty.com 5089 2417
 
Tailieu.vncty.com 5088 8018
Tailieu.vncty.com   5088 8018Tailieu.vncty.com   5088 8018
Tailieu.vncty.com 5088 8018
 
Tailieu.vncty.com 5067 1967
Tailieu.vncty.com   5067 1967Tailieu.vncty.com   5067 1967
Tailieu.vncty.com 5067 1967
 
Tailieu.vncty.com nst gioi-tinh_va_di_truyen_lien_ket_gioi_tinh_747
Tailieu.vncty.com   nst gioi-tinh_va_di_truyen_lien_ket_gioi_tinh_747Tailieu.vncty.com   nst gioi-tinh_va_di_truyen_lien_ket_gioi_tinh_747
Tailieu.vncty.com nst gioi-tinh_va_di_truyen_lien_ket_gioi_tinh_747
 
Tailieu.vncty.com nhom 6-de_tai_flo_9602
Tailieu.vncty.com   nhom 6-de_tai_flo_9602Tailieu.vncty.com   nhom 6-de_tai_flo_9602
Tailieu.vncty.com nhom 6-de_tai_flo_9602
 
Tailieu.vncty.com lai phan-tu_2413
Tailieu.vncty.com   lai phan-tu_2413Tailieu.vncty.com   lai phan-tu_2413
Tailieu.vncty.com lai phan-tu_2413
 
Tailieu.vncty.com duong hoa-hoc_3666
Tailieu.vncty.com   duong hoa-hoc_3666Tailieu.vncty.com   duong hoa-hoc_3666
Tailieu.vncty.com duong hoa-hoc_3666
 
Tailieu.vncty.com do an-nhan_giong_in_vi_tro_cay_co_ngot_stevia_4562
Tailieu.vncty.com   do an-nhan_giong_in_vi_tro_cay_co_ngot_stevia_4562Tailieu.vncty.com   do an-nhan_giong_in_vi_tro_cay_co_ngot_stevia_4562
Tailieu.vncty.com do an-nhan_giong_in_vi_tro_cay_co_ngot_stevia_4562
 
Tailieu.vncty.com tieu luanc4v-1324
Tailieu.vncty.com   tieu luanc4v-1324Tailieu.vncty.com   tieu luanc4v-1324
Tailieu.vncty.com tieu luanc4v-1324
 
Tailieu.vncty.com do an-cong_nghe_san_xuat_sua_tiet_trung_9366
Tailieu.vncty.com   do an-cong_nghe_san_xuat_sua_tiet_trung_9366Tailieu.vncty.com   do an-cong_nghe_san_xuat_sua_tiet_trung_9366
Tailieu.vncty.com do an-cong_nghe_san_xuat_sua_tiet_trung_9366
 

Tailieu.vncty.com ky thuat-mang_noron_va_giai_thuat_di_truyen_trong_khai_pha_du_lieu_va_thu_nghiem_ung_dung

  • 1. bé gi¸o dôc vµ ®µo t¹o tr−êng ®¹i häc b¸ch khoa hµ néi D−¬ng thÞ hiÒn thanh Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông LuËn v¨n th¹c sü c«ng nghÖ th«ng tin Hµ néi – 2008
  • 2. 1 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Môc lôc Môc lôc....................................................................................................................... 1 Danh môc c¸c tõ viÕt t¾t ............................................................................................. 3 Danh môc c¸c b¶ng .................................................................................................... 4 Danh môc c¸c h×nh vÏ vµ ®å thÞ ................................................................................. 5 Lêi nãi ®Çu ................................................................................................................. 6 Ch−¬ng 1. khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong csdl ..................8 1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL .......8 1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc? ......................................................................8 1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ............................9 1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU.....................................10 1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu .....................................................................10 1.2.3. Khai ph¸ d÷ liÖu ..........................................................................................12 1.2.4. Minh ho¹ vµ ®¸nh gi¸..................................................................................12 1.2.5. §−a kÕt qu¶ vµo thùc tÕ...............................................................................13 1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu ..........................................................................13 1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .....................................................13 1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu..........................................................17 1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn ..........................................19 1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü thuËt khai ph¸ d÷ liÖu .......................................................................................24 KÕt luËn ch−¬ng 1 ....................................................................................................27 Ch−¬ng 2. kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i thuËt di truyÒn ......................................................................................................21 2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu ..............................................................28 2.1.1. Kh¸i niÖm m¹ng n¬ron ...............................................................................28 2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc ....................................................29 2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o .......................................30 2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron ..............................................................33 2.1.5. Häc vµ lan truyÒn trong m¹ng.....................................................................36 2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron .............................................................................40 D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 3. 2 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU ..............................................42 2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn .....................................................................42 2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn...............................45 2.2.3. C¸c to¸n tö di truyÒn ...................................................................................46 2.2.4. C¬ së to¸n häc cña gi¶i thuËt di truyÒn.......................................................52 2.2.5. Nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn .......................................................54 KÕt luËn ch−¬ng 2 ....................................................................................................56 Ch−¬ng 3. tÝch hîp gi¶i thuËt di truyÒn víi gi¶i thuËt huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp ..........................................................50 3.1. §Æt vÊn ®Ò ................................................................................................................57 3.2. m¹ng n¬ron truyÒn th¼ng nhiÒu líp víi gi¶i thuËt lan truyÒn ng−îc sai sè vµ mét sè c¶i tiÕn ..........................................................................57 3.2.1. KiÕn tróc cña m¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................57 3.2.2. C¬ chÕ häc cña m¹ng n¬ ron truyÒn th¼ng nhiÒu líp..................................59 3.2.3. ThuËt to¸n lan truyÒn ng−îc sai sè .............................................................60 3.2.2. Mét sè c¶i tiÕn cña gi¶i thuËt BP ................................................................71 3.3. KÕt hîp gi¶i thuËt di truyÒn víi gi¶i thuËt BP ..........................................73 3.3.1. Gi¶i thuËt GA trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp ........73 3.3.2. GhÐp nèi víi gi¶i thuËt lan truyÒn ng−îc sai sè..........................................75 KÕt luËn ch−¬ng 3 ....................................................................................................76 Ch−¬ng 4. øng dông trong bµi to¸n dù b¸o d÷ liÖu .....................................71 4.1. giíi thiÖu bµi to¸n ................................................................................................78 4.2. m« h×nh ho¸ bµi to¸n, thiÕt kÕ d÷ liÖu vµ gi¶i thuËt..............................80 4.2.1. M« h×nh ho¸ bµi to¸n ..................................................................................80 4.2.2. ThiÕt kÕ d÷ liÖu ...........................................................................................81 4.2.3. ThiÕt kÕ gi¶i thuËt .......................................................................................82 4.3. ch−¬ng tr×nh dù b¸o d÷ liÖu .............................................................................93 KÕt luËn ch−¬ng 4 ....................................................................................................98 KÕt luËn .......................................................................................................... 99 Tµi liÖu tham kh¶o........................................................................................ .100 D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 4. 3 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Danh môc c¸c tõ viÕt t¾t STT Tõ viÕt t¾t NghÜa tiÕng viÖt tiÕng anh 1 ANN M¹ng n¬ron nh©n t¹o Artficial Neural Network 2 BNN M¹ng n¬ron sinh häc Biological Neural Network 3 BP Gi¶i thuËt lan truyÒn Back-Propagation of error ng−îc cña sai sè 4 Csdl C¬ së d÷ liÖu Data Base 5 dm Khai ph¸ d÷ liÖu Data Mining 6 GA Gi¶i thuËt di truyÒn Genetic Algorithm 7 Kdd Ph¸t hiÖn tri thøc Knowledge trong CSDL D−¬ng ThÞ HiÒn Thanh – CNTT 2006 Database Discover in
  • 5. 4 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Danh môc c¸c b¶ng B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis.................................... 20 B¶ng 2.1: VÝ dô dïng phÐp t¸i t¹o............................................................................ 48 B¶ng 2.2: Qu¸ tr×nh t¸i t¹o ....................................................................................... 51 B¶ng 2.3: Qu¸ tr×nh lai ghÐp..................................................................................... 51 B¶ng 3.1: C¸c hµm kÝch ho¹t.................................................................................... 69 B¶ng 4.1: Sè liÖu thö nghiÖm cña bµi to¸n dù b¸o ....................................................79 D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 6. 5 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Danh môc c¸c h×nh vÏ vµ ®å thÞ H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL .................................................. 10 H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu .................................................. 14 H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu........................................................................ 15 H×nh 1.4: KÕt qu¶ cña ph©n côm .............................................................................. 18 H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis................................................................... 20 H×nh 2.1: CÊu t¹o cña n¬ron..................................................................................... 29 H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron.................................................................. 30 H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o ............................................................. 31 H×nh 2.4: Hµm Sigmoidal......................................................................................... 33 H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp......................................................... 35 H×nh 2.6: M¹ng håi quy ........................................................................................... 35 H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t ................................................................. 37 H×nh 2.8: S¬ ®å häc t¨ng c−êng ............................................................................... 38 H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t ........................................................................ 38 H×nh 3.1: M¹ng n¬ron truyÒn th¼ng 2 líp................................................................ 58 H×nh 3.2: S¬ ®å hiÖu chØnh c¸c träng sè cña gi¶i thuËt BP ...................................... 59 H×nh 3.3: S¬ ®å m· ho¸ c¸c träng sè cña m¹ng n¬ron............................................. 74 H×nh 3.4: S¬ ®å cña gi¶i thuËt lai ............................................................................. 76 H×nh 4.1: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1 ............................................................... 84 H×nh 4.2: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.1 ............................................................ 86 H×nh 4.3: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 1.2 ............................................................ 89 H×nh 4.4: S¬ ®å khèi gi¶i thuËt Ph©n hÖ 2 ............................................................... 91 H×nh 4.5: Mµn h×nh chÝnh cña ch−¬ng tr×nh dù b¸o................................................. 93 H×nh 4.6: D÷ liÖu tÖp huÊn luyÖn ............................................................................. 94 H×nh 4.7: Mµn h×nh nhËp tham sè cho m¹ng n¬ron................................................. 94 H×nh 4.8: Mµn h×nh nhËp tham sè cho gi¶i thuËt GA .............................................. 95 H×nh 4.9: T×m kiÕm b»ng gi¶i thuËt GA................................................................... 95 H×nh 4.10: HuÊn luyÖn b»ng gi¶i thuËt BP............................................................... 96 H×nh 4.11: Mµn h×nh dù b¸o .................................................................................... 98 D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 7. 6 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Lêi nãi ®Çu Trong nh÷ng n¨m gÇn ®©y, vai trß cña m¸y tÝnh trong viÖc l−u tr÷ vµ xö lý th«ng tin ngµy cµng trë nªn quan träng. Bªn c¹nh ®ã, c¸c thiÕt bÞ thu thËp d÷ liÖu tù ®éng còng ph¸t triÓn m¹nh gãp phÇn t¹o ra nh÷ng kho d÷ liÖu khæng lå. D÷ liÖu ®−îc thu thËp vµ l−u tr÷ ngµy cµng nhiÒu nh−ng ng−êi ra quyÕt ®Þnh l¹i cÇn cã nh÷ng th«ng tin bæ Ých, nh÷ng “tri thøc” rót ra tõ nh÷ng nguån d÷ liÖu h¬n lµ chÝnh d÷ liÖu ®ã cho viÖc ra quyÕt ®Þnh cña m×nh. Víi nh÷ng yªu cÇu ®ã, c¸c m« h×nh CSDL truyÒn thèng vµ ng«n ng÷ thao t¸c d÷ liÖu kh«ng cßn thÝch hîp n÷a. §Ó cã ®−îc tri thøc tõ CSDL, ng−êi ta ®· ph¸t triÓn c¸c lÜnh vùc nghiªn cøu vÒ tæ chøc c¸c kho d÷ liÖu vµ kho th«ng tin, c¸c hÖ trî gióp ra quyÕt ®Þnh, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL. Trong sè ®ã, khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc ®· trë thµnh mét lÜnh vùc nghiªn cøu rÊt s«i ®éng. LuËn v¨n tËp trung nghiªn cøu kü thuËt sö dông m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu, ®Æc biÖt lµ gi¶i ph¸p tÝch hîp gi¶i thuËt di truyÒn víi gi¶i thuËt huÊn luyÖn m¹ng n¬ron. Trªn c¬ së ®ã, luËn v¨n x©y dùng ch−¬ng tr×nh dù b¸o d÷ liÖu sö dông m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GABP. LuËn v¨n ®−îc tr×nh bÇy gåm 4 ch−¬ng víi néi dung chÝnh nh− sau : Ch−¬ng 1: Tr×nh bÇy mét c¸ch tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL. Trong ®ã ®Ò cËp ®Õn c¸c kh¸i nÖm, qu¸ tr×nh ph¸t hiÖn tri thøc, nhiÖm vô chÝnh vµ c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh− nh÷ng vÊn ®Ò th¸ch thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ. Ch−¬ng 2: Nghiªn cøu kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i thuËt di truyÒn, cô thÓ lµ nh÷ng vÊn ®Ò vÒ lùa chän cÊu tróc m¹ng vµ c¸c tham sè, x©y dùng gi¶i thuËt häc vµ lan truyÒn trong m¹ng n¬ron, còng nh− c¸ch biÓu diÔn lêi gi¶i, c¸c to¸n tö di truyÒn c¬ b¶n vµ nh÷ng c¶i tiÕn cña gi¶i thuËt di truyÒn. §ång thêi, ch−¬ng 2 còng ®−a ra nh÷ng ®¸nh gi¸ vÒ hiÖu qu¶ cña kü thuËt sö dông m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu, qua ®ã cã thÓ ®Þnh h−íng cho viÖc lùa chän ph−¬ng ph¸p khai ph¸ thÝch hîp cho c¸c vÊn ®Ò thùc tÕ. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 8. 7 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Ch−¬ng 3 : Giíi thiÖu kiÕn tróc m¹ng n¬ron truyÒn th¼ng nhiÒu líp, gi¶i thuËt BP, c¸c vÊn ®Ò vÒ sö dông gi¶i thuËt BP vµ tr×nh bÇy gi¶i ph¸p tÝch hîp gi¶i thuËt GA víi gi¶i thuËt BP trong huÊn luyÖn m¹ng n¬ron truyÒn th¼ng nhiÒu líp. Ch−¬ng 4 : Giíi thiÖu bµi to¸n øng dông dù b¸o lò trªn s«ng, tõ ®ã m« h×nh ho¸ bµi to¸n, thiÕt kÕ thuËt to¸n, d÷ liÖu vµ cµi ®Æt ch−¬ng tr×nh thö nghiÖm víi c«ng cô m¹ng n¬ron truyÒn th¼ng huÊn luyÖn b»ng gi¶i thuËt lai GA-BP. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 9. 8 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Ch−¬ng 1: khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong CSDL 1.1. tæng quan vÒ khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong C¬ Së D÷ LiÖu 1.1.1. T¹i sao cÇn ph¸t hiÖn tri thøc? H¬n hai thËp niªn trë l¹i ®©y, l−îng th«ng tin ®−îc l−u tr÷ trªn c¸c thiÕt bÞ ®iÖn tö kh«ng ngõng t¨ng lªn. ViÖc tÝch luü d÷ liÖu diÔn ra víi mét tèc ®é bïng næ. Ng−êi ta −íc ®o¸n r»ng l−îng th«ng tin trªn toµn cÇu t¨ng gÊp ®«i sau kho¶ng hai n¨m vµ theo ®ã kÝch th−íc c¬ së d÷ liÖu (CSDL) còng t¨ng lªn mét c¸ch nhanh chãng, c¶ vÒ sè b¶n ghi cña CSDL lÉn sè tr−êng, thuéc tÝnh trong b¶n ghi. L−îng d÷ liÖu khæng lå nµy thùc sù lµ nguån tµi nguyªn rÊt gi¸ trÞ v× th«ng tin chÝnh lµ yÕu tè then chèt trong mäi ho¹t ®éng. Tuy nhiªn, d÷ liÖu sÏ kh«ng cã ®Çy ®ñ ý nghÜa nÕu kh«ng ph¸t hiÖn ra nh÷ng tri thøc tiÒm Èn cã gi¸ trÞ trong ®ã. Nh÷ng tri thøc nµy th−êng rÊt nhá so víi l−îng d÷ liÖu, do ®ã ph¸t hiÖn ra chóng lµ mét vÊn ®Ò kh¸ khã kh¨n. ViÖc x©y dùng c¸c hÖ thèng cã kh¶ n¨ng ph¸t hiÖn ®−îc c¸c mÈu tri thøc cã gi¸ trÞ trong khèi d÷ liÖu ®å sé nh− vËy gäi lµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu (Knowledge Discover in Database_KDD). C¸c kü thuËt xö lý c¬ b¶n chÝnh lµ kü thuËt khai ph¸ d÷ liÖu (Data Mining_DM). ViÖc ph©n tÝch d÷ liÖu mét c¸ch tù ®éng vµ mang tÝnh dù b¸o cña KDD cã −u thÕ h¬n h¼n so víi c¸c ph−¬ng ph¸p ph©n tÝch th«ng th−êng, dùa trªn nh÷ng sù kiÖn trong qu¸ khø cña c¸c hÖ hç trî ra quyÕt ®Þnh truyÒn thèng tr−íc ®©y. Víi tÊt c¶ nh÷ng −u thÕ ®ã, KDD ®· chøng tá ®−îc tÝnh h÷u dông cña nã trong m«i tr−êng ®Çy tÝnh c¹nh tranh ngµy nay. KDD ®· vµ ®ang trë thµnh mét h−íng nghiªn cøu chÝnh cña lÜnh vùc khoa häc m¸y tÝnh vµ c«ng nghÖ tri thøc. Ph¹m vi øng dông cña KDD ban ®Çu chØ lµ trong lÜnh vùc th−¬ng m¹i vµ tµi chÝnh. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 10. 9 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Cho ®Õn nay, KDD ®· ®−îc øng dông réng r·i trong c¸c lÜnh vùc kh¸c nh− viÔn th«ng, gi¸o dôc, ®iÒu trÞ y häc, … Cã thÓ nãi, KDD lµ mét sù cè g¾ng ®Ó gi¶i quyÕt vÊn ®Ò nan gi¶i cña kû nguyªn th«ng tin sè: vÊn ®Ò trµn d÷ liÖu. 1.1.2. Khai ph¸ d÷ liÖu vµ ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu Kh¸i niÖm “ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu” ®−îc ®−a ra lÇn ®Çu tiªn vµo n¨m 1989, trong ®ã nhÊn m¹nh r»ng tri thøc lµ s¶n phÈm cuèi cïng cña qu¸ tr×nh khai ph¸ d÷ liÖu. Ph¸t hiÖn tri thøc trong c¬ së d÷ liÖu ®−îc ®Þnh nghÜa nh− lµ qu¸ tr×nh ch¾t läc tri thøc tõ mét l−îng lín d÷ liÖu. Nãi c¸ch kh¸c, cã thÓ quan niÖm KDD lµ mét ¸nh x¹ d÷ liÖu tõ møc thÊp thµnh c¸c d¹ng c« ®äng h¬n, tãm t¾t vµ h÷u Ých h¬n. Mét vÝ dô trùc quan th−êng ®−îc dïng lµ viÖc khai th¸c vµng tõ ®¸ vµ c¸t, ng−êi khai th¸c muèn ch¾t läc vµng tõ ®¸ vµ c¸t trong ®iÒu kiÖn l−îng ®¸ vµ c¸t rÊt lín. ThuËt ng÷ “data mining” ¸m chØ viÖc t×m kiÕm mét tËp hîp nhá tri thøc, th«ng tin cã gi¸ trÞ tõ mét l−îng lín c¸c d÷ liÖu th« [7]. Nã bao hµm mét lo¹t c¸c kü thuËt nh»m ph¸t hiÖn ra nh÷ng th«ng tin cã gi¸ trÞ tiÒm Èn trong c¸c CSDL lín. NhiÒu thuËt ng÷ hiÖn ®−îc dïng còng cã nghÜa t−¬ng tù víi tõ data mining nh− knowledge mining (khai ph¸ tri thøc), knowledge extraction (ch¾t läc tri thøc), data/patern analysis (Ph©n tÝch d÷ liÖu/mÉu), data archaeology (kh¶o cæ d÷ liÖu), data dredging (n¹o vÐt d÷ liÖu). Nh− vËy, nÕu quan niÖm tri thøc lµ mèi quan hÖ gi÷a c¸c phÇn tö d÷ liÖu th× ph¸t hiÖn tri thøc chØ qu¸ tr×nh chiÕt suÊt tri thøc tõ c¬ së d÷ liÖu, trong ®ã tr¶i qua nhiÒu giai ®o¹n kh¸c nhau. Khai ph¸ d÷ liÖu sö dông c¸c gi¶i thuËt ®Æc biÖt ®Ó chiÕt xuÊt ra c¸c mÉu, c¸c m« h×nh tõ d÷ liÖu vµ chØ lµ mét giai ®o¹n trong qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL. Ph¸t hiÖn tri thøc trong CSDL vµ khai ph¸ d÷ liÖu lµ mét kü thuËt míi xuÊt hiÖn vµ cã tèc ®é ph¸t triÓn rÊt nhanh. Ngoµi ra nã cßn lµ mét lÜnh vùc ®a ngµnh, liªn quan ®Õn nhiÒu lÜnh vùc kh¸c nh−: lý thuyÕt thuËt to¸n, Data Warehouse, OLAP, tÝnh to¸n song song, … nh−ng chñ yÕu dùa trªn nÒn t¶ng cña x¸c suÊt thèng kª, c¬ së d÷ liÖu vµ häc m¸y. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 11. 10 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 1.2. Qu¸ tr×nh ph¸T HIÖN TRI THøC trong C¥ Së D÷ LIÖU H×nh 1.1 m« t¶ 5 giai ®o¹n trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu. MÆc dï cã 5 giai ®o¹n, song ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu lµ mét qu¸ tr×nh t−¬ng t¸c vµ lÆp ®i lÆp l¹i thµnh mét chu tr×nh liªn tôc theo kiÓu xo¸y tr«n èc, trong ®ã lÇn lÆp sau hoµn chØnh h¬n lÇn lÆp tr−íc. Ngoµi ra, giai ®o¹n sau l¹i dùa trªn kÕt qu¶ cña giai ®o¹n tr−íc theo kiÓu th¸c n−íc [7, 4]. 5. §−a kÕt qu¶ vµo thùc tÕ 4. Minh ho¹ vµ ®¸nh gi¸ tri thøc ®−îc ph¸t hiÖn 3. Khai ph¸ d÷ liÖu – TrÝch ra c¸c mÉu/ c¸c m« h×nh 2. Thu thËp vµ tiÒn xö lý d÷ li 1. HiÓu vµ x¸c ®Þnh vÊn ®Ò H×nh 1.1: Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL Sau ®©y sÏ tr×nh bÇy cô thÓ h¬n tõng giai ®o¹n cña qu¸ tr×nh nµy: 1.2.1. X¸c ®Þnh vÊn ®Ò Qu¸ tr×nh nµy mang tÝnh ®Þnh tÝnh víi môc ®Ých x¸c ®Þnh ®−îc lÜnh vùc yªu cÇu ph¸t hiÖn tri thøc vµ x©y dùng bµi to¸n tæng thÓ. Trong thùc tÕ, c¸c c¬ së d÷ liÖu ®−îc chuyªn m«n ho¸ vµ ph©n chia theo c¸c lÜnh vùc kh¸c nhau. Víi mçi tri thøc ph¸t hiÖn ®−îc, cã thÓ cã gi¸ trÞ cho lÜnh vùc nµy nh−ng l¹i kh«ng mang l¹i nhiÒu ý nghÜa ®èi víi mét lÜnh vùc kh¸c. V× vËy, viÖc x¸c ®Þnh bµi to¸n gióp ®Þnh h−íng cho giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu. 1.2.2. Thu thËp vµ tiÒn xö lý d÷ liÖu Trong qu¸ tr×nh thu thËp d÷ liÖu cho bµi to¸n, c¸c c¬ së d÷ liÖu thu ®−îc th−êng chøa rÊt nhiÒu thuéc tÝnh nh−ng l¹i kh«ng ®Çy ®ñ, kh«ng thuÇn nhÊt, cã D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 12. 11 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông nhiÒu lçi vµ cã c¸c gi¸ trÞ ®Æc biÖt. Nguyªn nh©n cã thÓ lµ do ý kiÕn ph¸t biÓu cña c¸c chuyªn gia kh«ng thèng nhÊt, do c¸c sai sè khi ®o ®¹c d÷ liÖu,… V× vËy, giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu trë nªn rÊt quan träng trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu. Giai ®o¹n nµy th−êng chiÕm tõ 70% ®Õn 80% gi¸ thµnh cña toµn bé bµi to¸n. Giai ®o¹n thu thËp vµ tiÒn xö lý d÷ liÖu ®−îc chia thµnh c¸c c«ng ®o¹n nh−: lùa chän d÷ liÖu, lµm s¹ch d÷ liÖu, lµm giµu d÷ liÖu, m· ho¸ d÷ liÖu. C¸c c«ng ®o¹n ®−îc thùc hiÖn theo tr×nh tù nh»m ®−a ra mét c¬ së d÷ liÖu thÝch hîp cho c¸c giai ®o¹n sau. Tuy nhiªn, tuú tõng d÷ liÖu cô thÓ mµ qu¸ tr×nh trªn ®−îc ®iÒu chØnh cho phï hîp 1.2.2.1. Chän läc d÷ liÖu §©y lµ b−íc chän läc c¸c d÷ liÖu liªn quan trong c¸c nguån d÷ liÖu kh¸c nhau. C¸c th«ng tin ®−îc chän ra lµ nh÷ng th«ng tin cã nhiÒu liªn quan ®Õn lÜnh vùc cÇn ph¸t hiÖn tri thøc ®· x¸c ®Þnh trong giai ®o¹n x¸c ®Þnh vÊn ®Ò. 1.2.2.2. Lµm s¹ch d÷ liÖu D÷ liÖu thùc tÕ, ®Æc biÖt lµ nh÷ng d÷ liÖu ®−îc lÊy tõ nhiÒu nguån kh¸c nhau th−êng kh«ng ®ång nhÊt. Do ®ã, cÇn cã biÖn ph¸p xö lý ®Ó thèng nhÊt c¸c d÷ liÖu thu ®−îc phôc vô cho khai ph¸. Giai ®o¹n lµm s¹ch d÷ liÖu th−êng bao gåm c¸c phÐp xö lý nh−: ®iÒu hoµ d÷ liÖu, xö lý c¸c gi¸ trÞ khuyÕt, xö lý nhiÔu vµ c¸c ngo¹i lÖ,... 1.2.2.3. Lµm giµu d÷ liÖu ViÖc thu thËp d÷ liÖu ®«i khi kh«ng ®¶m b¶o tÝnh ®Çy ®ñ cña d÷ liÖu. Mét sè th«ng tin rÊt quan träng cã thÓ thiÕu hoÆc kh«ng ®Çy ®ñ. ViÖc lµm giµu d÷ liÖu chÝnh lµ t×m c¸ch bæ sung c¸c th«ng tin cã ý nghÜa vµ quan träng cho qu¸ tr×nh khai ph¸ d÷ liÖu sau nµy. Qu¸ tr×nh lµm giµu d÷ liÖu còng bao gåm viÖc tÝch hîp vµ chuyÓn ®æi d÷ liÖu. C¸c d÷ liÖu tõ nhiÒu nguån kh¸c nhau ®−îc tÝch hîp thµnh mét kho thèng nhÊt. C¸c khu«n d¹ng kh¸c nhau cña d÷ liÖu còng ®−îc quy ®æi, tÝnh to¸n l¹i ®Ó ®−a vÒ mét kiÓu thèng nhÊt, tiÖn cho qu¸ tr×nh ph©n tÝch. §«i khi, mét sè thuéc tÝnh míi còng cã thÓ ®−îc x©y dùng dùa trªn c¸c thuéc tÝnh cò. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 13. 12 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 1.2.2.4. M∙ ho¸ §©y lµ giai ®o¹n m· ho¸ c¸c ph−¬ng ph¸p dïng ®Ó chän läc, lµm s¹ch, lµm giµu d÷ liÖu thµnh c¸c thñ tôc, ch−¬ng tr×nh hay c¸c tiÖn Ých nh»m tù ®éng ho¸ viÖc kÕt xuÊt, biÕn ®æi vµ di chuyÓn d÷ liÖu. C¸c hÖ thèng con ®ã cã thÓ ®−îc thùc thi ®Þnh kú ®Ó lµm t−¬i d÷ liÖu phôc vô cho viÖc ph©n tÝch. 1.2.3. Khai ph¸ d÷ liÖu Giai ®o¹n khai ph¸ d÷ liÖu ®−îc b¾t ®Çu sau khi d÷ liÖu ®· ®−îc thu thËp vµ xö lý. Trong giai ®o¹n nµy, c«ng viÖc chñ yÕu lµ x¸c ®Þnh ®−îc bµi to¸n khai ph¸ d÷ liÖu, tiÕn hµnh lùa chän c¸c ph−¬ng ph¸p khai ph¸ thÝch hîp víi d÷ liÖu cã ®−îc vµ t¸ch ra c¸c tri thøc cÇn thiÕt. Th«ng th−êng, c¸c bµi to¸n khai ph¸ d÷ liÖu bao gåm: c¸c bµi to¸n mang tÝnh chÊt m« t¶, ®−a ra nh÷ng tÝnh chÊt chung nhÊt cña d÷ liÖu, c¸c bµi to¸n khai ph¸, dù b¸o, bao gåm c¶ viÖc thùc hiÖn c¸c suy diÔn dùa trªn d÷ liÖu hiÖn cã. Tuú theo tõng bµi to¸n x¸c ®Þnh ®−îc mµ ta lùa chän c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu cho phï hîp. 1.2.4. Minh ho¹ vµ ®¸nh gi¸ C¸c tri thøc ph¸t hiÖn ®−îc tõ c¬ së d÷ liÖu cÇn ®−îc tæng hîp vµ biÓu diÔn d−íi d¹ng gÇn gòi víi ng−êi sö dông nh− ®å thÞ, c©y, b¶ng biÓu, hay c¸c luËt, c¸c b¸o c¸o,... phôc vô cho c¸c môc ®Ých hç trî quyÕt ®Þnh kh¸c nhau. Do nhiÒu ph−¬ng ph¸p khai ph¸ cã thÓ ®−îc ¸p dông nªn c¸c kÕt qu¶ cã thÓ cã nhiÒu møc ®é tèt xÊu kh¸c nhau vµ viÖc ®¸nh gi¸ c¸c kÕt qu¶ thu ®−îc lµ rÊt cÇn thiÕt. Th«ng th−êng, c¸c kÕt qu¶ sÏ ®−îc tæng hîp, so s¸nh b»ng c¸c biÓu ®å vµ ®−îc kiÓm nghiÖm, tinh läc. §Ó ®¸nh gi¸ tri thøc, ng−êi ta th−êng dùa vµo c¸c tiªu chÝ nhÊt ®Þnh nh−: - Tri thøc ph¶i ®ñ ®é ®¸ng quan t©m: thÓ hiÖn ë tÝnh h÷u dông (useful), tÝnh míi l¹ (novel) cña tri thøc vµ qu¸ tr×nh trÝch rót kh«ng tÇm th−êng. - Tri thøc ph¶i ®ñ ®é tin cËy. §©y lµ c«ng viÖc cña c¸c nhµ chuyªn gia, c¸c nhµ ph©n tÝch vµ ra quyÕt ®Þnh. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 14. 13 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 1.2.5. §−a kÕt qu¶ vµo thùc tÕ C¸c kÕt qu¶ cña qu¸ tr×nh ph¸t hiÖn tri thøc cã thÓ ®−îc ®−a vµo øng dông trong c¸c lÜnh vùc kh¸c nhau. Do c¸c kÕt qu¶ cã thÓ lµ c¸c dù b¸o hoÆc c¸c m« t¶ nªn cã thÓ ®−a vµo c¸c hÖ thèng hç trî ra quyÕt ®Þnh nh»m tù ®éng ho¸ qu¸ tr×nh nµy. Nh− vËy, qu¸ tr×nh ph¸t hiÖn tri thøc tõ c¬ së d÷ liÖu th−êng ®−îc thùc hiÖn theo n¨m b−íc nªu trªn. Tuy nhiªn, trong qu¸ tr×nh khai th¸c, cã thÓ thùc hiÖn nh÷ng c¶i tiÕn, n©ng cÊp cho phï hîp víi tõng øng dông cô thÓ. Trong sè c¸c b−íc, tiÒn xö lý d÷ liÖu vµ khai ph¸ d÷ liÖu hai b−íc rÊt quan träng, chiÕm phÇn lín c«ng søc vµ gi¸ thµnh cña toµn bé bµi to¸n. ViÖc lùa chän c¸c ph−¬ng ph¸p thùc hiÖn cô thÓ cho qu¸ tr×nh tiÒn xö lý vµ khai ph¸ d÷ liÖu phô thuéc rÊt nhiÒu vµo ®Æc ®iÓm d÷ liÖu vµ yªu cÇu cña bµi to¸n. Sau ®©y, ta sÏ xem xÐt cô thÓ h¬n qu¸ tr×nh khai ph¸ d÷ liÖu. 1.3. c¸c kü thuËt Khai ph¸ d÷ liÖu Ta ®· biÕt, qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu giai ®o¹n kh¸c nhau mµ khai ph¸ d÷ liÖu chØ lµ mét giai ®o¹n trong qu¸ tr×nh ®ã. Tuy nhiªn, ®©y l¹i lµ giai ®o¹n ®ãng vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh cña KDD. 1.3.1. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu Khai ph¸ d÷ liÖu lµ mét b−íc quan träng trong qu¸ tr×nh ph¸t hiÖn tri thøc tõ sè l−îng lín d÷ liÖu ®· l−u tr÷ trong c¸c CSDL, kho d÷ liÖu hoÆc c¸c n¬i l−u tr÷ kh¸c. B−íc nµy cã thÓ t−¬ng t¸c lÉn nhau gi÷a ng−êi sö dông hoÆc c¬ së tri thøc. C¸c mÉu ®¸ng quan t©m ®−îc ®−a ®Õn cho ng−êi sö dông hoÆc l−u tr÷ nh− lµ tri thøc míi trong c¬ së tri thøc. KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu cã thÓ cã c¸c thµnh phÇn chÝnh sau: D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 15. 14 Ng−êi sö dông Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Ng−êi sö dông Giao diÖn ng−êi dïng §¸nh gi¸ mÉu C¬ së tri thøc M« t¬ khai ph¸ d÷ liÖu (Data mining engine) CSDL hay kho d÷ liÖu phôc vô Lµm s¹ch d÷ liÖu Läc d÷ liÖu CSDL Kho d÷ liÖu H×nh 1.2: KiÕn tróc cña hÖ thèng khai ph¸ d÷ liÖu - CSDL, kho d÷ liÖu hay c¸c kho l−u tr÷ kh¸c: lµ mét hoÆc mét tËp c¸c CSDL, kho d÷ liÖu, ... C¸c kü thuËt lµm s¹ch d÷ liÖu, tÝch hîp, läc d÷ liÖu cã thÓ thùc hiÖn trªn d÷ liÖu. - CSDL hay kho d÷ liÖu phôc vô: lµ nh÷ng d÷ liÖu cã liªn quan ®−îc läc vµ lµm s¹ch tõ kho d÷ liÖu trªn c¬ së yªu cÇu khai ph¸ d÷ liÖu cña ng−êi dïng. - C¬ së tri thøc: lµ lÜnh vùc tri thøc ®−îc sö dông ®Ó h−íng dÉn viÖc t×m hî¨c ®¸nh gi¸ c¸c mÉu kÕt qu¶ t×m ®−îc. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 16. 15 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông - M« t¬ khai ph¸ d÷ liÖu: bao gåm tËp c¸c modul chøc n¨ng ®Ó thùc hiÖn c¸c nhiÖm vô nh− m« t¶ ®Æc ®iÓm, kÕt hîp, ph©n líp, ph©n côm d÷ liÖu, ... - Modul ®¸nh gi¸ mÉu: thµnh phÇn nµy sö dông c¸c ®é ®o vµ t−¬ng t¸c víi c¸c modul khai ph¸ d÷ liÖu ®Ó tËp trung t×m c¸c mÉu ®¸ng quan t©m. - Giao diÖn ng−êi dïng: cho phÐp ng−êi dïng t−¬ng t¸c víi hÖ thèng trªn c¬ së nh÷ng truy vÊn hay t¸c vô, cung cÊp c¸c th«ng tin cho viÖc t×m kiÕm. 1.3.2. Qu¸ tr×nh khai ph¸ d÷ liÖu vµ gi¶i thuËt khai ph¸ d÷ liÖu 1.3.2.1. Qu¸ tr×nh khai ph¸ d÷ liÖu C¸c gi¶i thuËt khai ph¸ d÷ liÖu th−êng ®−îc m« t¶ nh− nh÷ng ch−¬ng tr×nh ho¹t ®éng trùc tiÕp trªn tÖp d÷ liÖu. Qu¸ tr×nh khai ph¸ d÷ liÖu ®−îc thÓ hiÖn bëi m« h×nh sau: Thèng kª vµ tãm t¾t Gi¶i thuËt khai ph¸ Thu thËp vµ tiÒn xö lý d÷ liÖu X¸c ®Þnh d÷ liÖu liªn quan MÉu D÷ liÖu trùc tiÕp X¸c ®Þnh nhiÖm vô H×nh 1.3: Qu¸ tr×nh khai ph¸ d÷ liÖu - X¸c ®Þnh nhiÖm vô: X¸c ®Þnh chÝnh x¸c vÊn ®Ò cÇn ®−îc gi¶i quyÕt - X¸c ®Þnh d÷ liÖu liªn quan: Trªn c¬ së vÊn ®Ò cÇn ®−îc gi¶i quyÕt, x¸c ®Þnh c¸c nguån d÷ liÖu liªn quan ®Ó cã thÓ x©y dùng gi¶i ph¸p. - Thu thËp vµ tiÒn xö lü d÷ liÖu: Thu thËp c¸c d÷ liÖu cã liªn quan vµ xö lý chóng ®−a vÒ d¹ng sao cho gi¶i thuËt khai ph¸ d÷ liÖu cã thÓ hiÓu ®−îc. ë ®©y cã thÓ gÆp mét sè vÊn ®Ò nh−: d÷ liÖu ph¶i ®−îc sao ra nhiÒu b¶n (nÕu ®−îc D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 17. 16 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông chiÕt xuÊt vµo c¸c tÖp), qu¶n lý c¸c tÖp d÷ liÖu, ph¶i lÆp ®i lÆp l¹i nhiÒu lÇn toµn bé qu¸ tr×nh (nÕu m« h×nh d÷ liÖu thay ®æi), ... - Thèng kª vµ tãm t¾t d÷ liÖu, ®ång thêi kÕt hîp víi c¸c d÷ liÖu trùc tiÕp ®Ó lµm ®Çu vµo cho b−íc thùc hiÖn gi¶i thuËt khai ph¸ d÷ liÖu. - Chän thuËt to¸n khai ph¸ d÷ liÖu thÝch hîp vµ thùc hiÖn viÖc khai ph¸ d÷ liÖu ®Ó t×m ®−îc c¸c mÉu cã ý nghÜa. Víi c¸c nhiÖm vô kh¸c nhau cña khai ph¸ d÷ liÖu, d¹ng cña c¸c mÉu chiÕt xuÊt ®−îc còng kh¸c nhau. MÉu chiÕt xuÊt ®−îc cã thÓ lµ mét m« t¶ xu h−íng, cã thÓ lµ d−íi d¹ng v¨n b¶n, mét ®å thÞ m« t¶ c¸c mèi quan hÖ trong m« h×nh,... 1.3.2.2. C¸c thµnh phÇn cña gi¶i thuËt khai ph¸ d÷ liÖu Gi¶i thuËt khai ph¸ d÷ liÖu gåm ba thµnh phÇn chÝnh: • BiÓu diÔn m« h×nh: M« h×nh ®−îc biÓu diÔn b»ng mét ng«n ng÷ L ®Ó m« t¶ c¸c mÉu cã thÓ khai th¸c ®−îc. NÕu m« h×nh m« t¶ qu¸ h¹n chÕ th× sÏ kh«ng thÓ häc ®−îc hoÆc sÏ kh«ng cã c¸c mÉu t¹o ra ®−îc mét m« h×nh chÝnh x¸c cho d÷ liÖu. Tuy nhiªn, kh¶ n¨ng m« t¶ cña m« h×nh cµng lín th× cµng t¨ng møc ®é nguy hiÓm do bÞ häc qu¸ vµ lµm gi¶m kh¶ n¨ng dù ®o¸n cña c¸c d÷ liÖu ch−a biÕt. Do ®ã, viÖc quan träng lµ ng−êi ph©n tÝch d÷ liÖu vµ thiÕt kÕ gi¶i thuËt cÇn ph¶i hiÓu ®Çy ®ñ c¸c gi¶ thiÕt m« t¶ vµ cÇn ph¶i diÔn t¶ ®−îc c¸c gi¶ thiÕt m« t¶ nµo ®−îc t¹o ra tõ luËt nµo. • §¸nh gi¸ m« h×nh: §¸nh gi¸ xem mét mÉu cã ®¸p øng ®−îc c¸c tiªu chuÈn cña qu¸ tr×nh ph¸t hiÖn tri thøc hay kh«ng. ViÖc ®¸nh gi¸ ®é chÝnh x¸c dù ®o¸n ®−îc thùc hiÖn dùa trªn ®¸nh gi¸ chÐo (cross validation). §¸nh gi¸ chÊt l−îng liªn quan ®Õn ®é chÝnh x¸c dù ®o¸n, ®é míi, kh¶ n¨ng sö dông, kh¶ n¨ng hiÓu ®−îc cña m« h×nh. Cã thÓ sö dông chuÈn thèng kª vµ chuÈn logic ®Ó ®¸nh gi¸ m« h×nh. • Ph−¬ng ph¸p t×m kiÕm: Ph−¬ng ph¸p t×m kiÕm gåm hai thµnh phÇn: t×m kiÕm tham sè vµ t×m kiÕm m« h×nh. - Trong t×m kiÕm tham sè, gi¶i thuËt cÇn t×m kiÕm c¸c tham sè ®Ó tèi −u ho¸ c¸c tiªu chuÈn ®¸nh gi¸ m« h×nh víi c¸c d÷ liÖu quan s¸t ®−îc vµ mét miªu t¶ m« h×nh ®· ®Þnh tr−íc. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 18. 17 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông - T×m kiÕm m« h×nh thùc hiÖn gièng nh− mét vßng lÆp qua ph−¬ng ph¸p t×m kiÕm tham sè, miªu t¶ m« h×nh bÞ thay ®æi t¹o nªn mét hä c¸c m« h×nh. Víi mçi mét miªu t¶ m« h×nh, ph−¬ng ph¸p t×m kiÕm tham sè ®−îc thùc hiÖn ®Ó ®¸nh gi¸ chÊt l−îng m« h×nh. C¸c ph−¬ng ph¸p t×m kiÕm m« h×nh th−êng sö dông c¸c ph−¬ng ph¸p t×m kiÕm heuristic v× kÝch th−íc cña kh«ng gian t×m kiÕm c¸c m« h×nh th−êng ng¨n c¶n c¸c kü thuËt t×m kiÕm tæng thÓ. 1.3.3. NhiÖm vô chÝnh cña khai ph¸ d÷ liÖu §èi víi khai ph¸ d÷ liÖu, cã hai bµi to¸n chÝnh lµ: - Bµi to¸n m« t¶ (description): §−a ra m« h×nh biÓu thÞ nh÷ng tÝnh chÊt chung nhÊt cña d÷ liÖu mÉu. - Bµi to¸n khai ph¸ dù b¸o (prediction): Suy diÔn dùa trªn d÷ liÖu mÉu hiÖn cã ®Ó ®−a ra mét kÕt qu¶ nµo ®ã. Nh− vËy, cã thÓ coi môc ®Ých chÝnh cña khai ph¸ d÷ liÖu lµ m« t¶ vµ dù b¸o. C¸c mÉu ®−îc ph¸t hiÖn nh»m vµo hai môc ®Ých nµy. Bµi to¸n dù b¸o liªn quan ®Õn viÖc sö dông c¸c biÕn hoÆc c¸c tr−êng trong CSDL ®Ó chiÕt xuÊt ra c¸c mÉu, trªn c¬ së ®ã dù ®o¸n c¸c gi¸ trÞ ch−a biÕt hoÆc c¸c gi¸ trÞ t−¬ng lai cña c¸c biÕn ®¸ng quan t©m. Bµi to¸n m« t¶ tËp trung vµo viÖc t×m kiÕm c¸c mÉu m« t¶ d÷ liÖu cã thÓ hiÓu ®−îc cho c¸c øng dông thùc tÕ. §Ó ®¹t ®−îc hai môc ®Ých nµy, nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu bao gåm c¸c vÊn ®Ò sau: • Ph©n líp (clasification): Ph©n líp t−¬ng øng víi viÖc x¸c lËp mét ¸nh x¹ (hay ph©n lo¹i) mét tËp d÷ liÖu vµo mét trong sè c¸c líp ®· x¸c ®Þnh. • Håi quy (Regression): Håi quy t−¬ng øng víi viÖc x¸c lËp ¸nh x¹ tõ mét tËp d÷ liÖu vµo mét biÕn dù ®o¸n cã gi¸ trÞ thùc. • Ph©n côm (Clustering): Ph©n côm nh»m ghÐp nhãm c¸c ®èi t−îng d÷ liÖu. C¸c ®èi t−îng d÷ liÖu ®−îc coi lµ gièng nhau, nÕu chóng thuéc cïng mét côm vµ kh¸c nhau nÕu chóng thuéc c¸c côm kh¸c nhau. C¸c côm cã thÓ t¸ch rêi nhau hoÆc ph©n cÊp hoÆc gèi lªn nhau. NghÜa lµ mét ®èi t−îng d÷ liÖu cã thÓ võa thuéc côm nµy, võa thuéc côm kia. Qu¸ tr×nh nhãm c¸c ®èi t−îng thµnh c¸c côm ®−îc gäi lµ D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 19. 18 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông ph©n côm hay ph©n nhãm. Mét vÝ dô øng dông cña khai ph¸ d÷ liÖu cã nhiÖm vô ph©n côm lµ ph¸t hiÖn tËp nh÷ng kh¸ch hµng cã hµnh vi gièng nhau trong c¬ së d÷ liÖu tiÕp thÞ. Côm 3 Côm 1 Côm 2 H×nh 1.4: KÕt qu¶ cña ph©n côm H×nh 1.4 m« t¶ c¸c mÉu cña qu¸ tr×nh khai ph¸ d÷ liÖu víi nhiÖm vô ph©n côm. C¸c mÉu lµ nhãm kh¸ch hµng ®−îc xÕp vµo ba nhãm gèi lªn nhau. Nh÷ng kh¸ch hµng ë c¶ hai côm chøng tá kh¸ch hµng ®ã cã thÓ thuéc hai tr¹ng th¸i. • Tãm t¾t (summarization): liªn quan ®Õn c¸c ph−¬ng ph¸p t×m kiÕm mét m« t¶ tãm t¾t cho mét tËp con d÷ liÖu. • M« h×nh ho¸ sù phô thuéc (Dependency Modeling): Bao gåm viÖc t×m kiÕm mét m« h×nh m« t¶ sù phô thuéc gi÷a c¸c biÕn. C¸c m« h×nh phô thuéc tån t¹i d−íi hai møc: - Møc cÊu tróc, lµ m« h×nh x¸c ®Þnh c¸c biÕn nµo lµ phô thuéc côc bé víi nhau (th−êng ë d¹ng ®å ho¹). - Møc ®Þnh l−îng lµ m« h×nh x¸c ®Þnh ®é lín cña sù phô thuéc theo mét th−íc ®o nµo ®ã. • Ph¸t hiÖn thay ®æi vµ sai lÖch (Change and Deviation detection): X¸c ®Þnh nh÷ng thay ®æi ®¸ng kÓ nhÊt trong d÷ liÖu tõ c¸c gi¸ trÞ chuÈn ®o ®−îc tr−íc ®ã. Râ rµng, nh÷ng nhiÖm vô kh¸c nhau kÓ trªn yªu cÇu vÒ sè l−îng vµ c¸c d¹ng th«ng tin rÊt kh¸c nhau. Do ®ã, tuú theo tõng nhiÖm vô cô thÓ, sÏ cã nh÷ng ¶nh h−ëng ®Õn viÖc thiÕt kÕ vµ lùa chän gi¶i thuËt khai ph¸ d÷ liÖu. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 20. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 19 1.3.4. Mét sè ph−¬ng ph¸p khai ph¸ d÷ liÖu phæ biÕn 1.3.4.1. Ph−¬ng ph¸p quy n¹p Cã hai kü thuËt chÝnh ®Ó thùc hiÖn lµ suy diÔn vµ quy n¹p. • Suy diÔn: nh»m rót ra th«ng tin lµ kÕt qu¶ logic cña c¸c th«ng tin trong CSDL. Ph−¬ng ph¸p suy diÔn dùa trªn nh÷ng sù kiÖn chÝnh x¸c ®Ó suy ra c¸c tri thøc míi tõ c¸c th«ng tin cò. MÉu chiÕt xuÊt theo kü thuËt nµy th−êng lµ c¸c luËt suy diÔn. • Quy n¹p: Ph−¬ng ph¸p quy n¹p suy ra th«ng tin ®−îc sinh ra tõ c¬ së d÷ liÖu, cã nghÜa lµ nã tù t×m kiÕm, t¹o mÉu vµ sinh ra tri thøc chø kh«ng ph¶i b¾t ®Çu víi c¸c tri thøc ®· biÕt tr−íc. C¸c th«ng tin do ph−¬ng ph¸p nµy mang l¹i lµ nh÷ng th«ng tin hay tri thøc cÊp cao diÔn t¶ vÒ c¸c ®èi t−îng trong CSDL. Ph−¬ng ph¸p nµy liªn quan ®Õn viÖc t×m kiÕm c¸c mÉu trong CSDL. Ph−¬ng ph¸p quy n¹p th−êng ®−îc nãi ®Õn trong kü thuËt c©y quyÕt ®Þnh vµ t¹o luËt. 1.3.4.2. C©y quyÕt ®Þnh vµ t¹o luËt • C©y quyÕt ®Þnh: lµ mét d¹ng m« t¶ tri thøc ®¬n gi¶n nh»m ph©n c¸c ®èi t−äng d÷ liÖu thµnh mét sè líp nhÊt ®Þnh. C¸c nót cña c©y ®−îc g¸n nh·n lµ tªn c¸c thuéc tÝnh, c¸c cung ®−îc g¾n gi¸ trÞ cã thÓ cña c¸c thuéc tÝnh, c¸c l¸ miªu t¶ c¸c líp kh¸c nhau. C¸c ®èi t−îng ®−îc ph©n líp theo c¸c ®−êng ®i trªn c©y, qua c¸c cung t−¬ng øng víi gi¸ trÞ cña thuéc tÝnh cña ®èi t−îng tíi l¸. VÝ dô: B¶ng d÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis: Ngµy Quang c¶nh NhiÖt ®é §é Èm Giã Ch¬i tennis D1 N¾ng Nãng Cao Yªó Kh«ng D2 N¾ng Nãng Cao M¹nh Kh«ng D3 ©m u Nãng Cao Yªó Cã D4 M−a Êm ¸p Cao Yªó Cã D5 M−a L¹nh B×nh th−êng Yªó Cã D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 21. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 20 D6 M−a L¹nh B×nh th−êng M¹nh Kh«ng D7 ©m u L¹nh B×nh th−êng M¹nh Cã D8 N¾ng Êm ¸p Cao Yªó Kh«ng D9 N¾ng L¹nh B×nh th−êng Yªó Cã D10 M−a Êm ¸p B×nh th−êng Yªó Cã D11 N¾ng Êm ¸p B×nh th−êng M¹nh Cã D12 ©m u Êm ¸p Cao M¹nh Cã D13 ©m u Nãng B×nh th−êng Yªó Cã D14 M−a Êm ¸p Cao M¹nh Kh«ng B¶ng 1.1: D÷ liÖu häc trong vÝ dô quyÕt ®Þnh ®i ch¬i tennis Tõ b¶ng d÷ liÖu trªn, ng−êi ta x©y dùng ®−îc c©y quyÕt ®Þnh trî gióp quyÕt ®Þnh ®i hay kh«ng ®i ch¬i tennis nh− sau: Quang c¶nh N¾ng §é Èm Cao Kh«ng M−a ©m u Giã Cã B×nh th−êng M¹nh Cã Kh«ng YÕu Cã H×nh 1.5: C©y quyÕt ®Þnh ®i ch¬i tennis • T¹o luËt: C¸c luËt ®−îc t¹o ra nh»m suy diÔn mét sè mÉu d÷ liÖu cã ý nghÜa vÒ mÆt thèng kª. C¸c luËt cã d¹ng “NÕu P th× Q”, víi P lµ mÖnh ®Ò ®óng víi mét phÇn d÷ liÖu cã trong CSDL, Q lµ mÖnh ®Ò dù ®o¸n. C©y quyÕt ®Þnh vµ luËt cã −u ®iÓm lµ h×nh thøc m« t¶ ®¬n gi¶n, m« h×nh biÓu diÔn kh¸ dÔ hiÓu ®èi víi ng−êi sö dông. Tuy nhiªn, m« t¶ c©y vµ luËt chØ cã thÓ biÓu diÔn ®−îc mét sè chøc n¨ng, v× vËy chóng giíi h¹n vÒ ®é chÝnh x¸c cña m« h×nh. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 22. 21 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 1.3.4.3. Ph¸t hiÖn luËt kÕt hîp Ph−¬ng ph¸p nµy nh»m ph¸t hiÖn c¸c luËt kÕt hîp gi÷a c¸c thµnh phÇn d÷ liÖu trong CSDL. §Çu ra cña thuËt to¸n khai ph¸ d÷ liÖu lµ mét tËp luËt kÕt mµ mçi luËt cã d¹ng: X => Y (nÕu cã X th× cã Y). KÌm theo mçi luËt t×m ®−îc lµ c¸c tham sè ®é hç trî vµ ®é tin cËy cña luËt. §é hç trî vµ ®é tin cËy lµ hai ®é ®o chØ sù ®¸ng quan t©m, ph¶n ¸nh sù h÷u Ých vµ sù ch¾c ch¾n cña luËt, chóng ®−îc tÝnh theo c«ng thøc: §é hç trî (Support) = Sè b¶n ghi chøa X / Tæng sè b¶n ghi. §é tin cËy (Confidence) = Sè b¶n ghi chøa c¶ X vµ Y / Sè b¶n ghi chøa X VÝ dô: Ph©n tÝch CSDL b¸n hµng, ng−êi ta nhËn ®−îc th«ng tin vÒ nh÷ng kh¸ch hµng mua m¸y tÝnh ®ång thêi còng cã khuynh h−íng mua phÇn mÒm qu¶n lý tµi chÝnh trong cïng mét lÇn mua ®−îc m« t¶ trong luËt kÕt hîp nh− sau: “M¸y tÝnh => PhÇn mÒm qu¶n lý” [§é hç trî: 2%, ®é tin cËy: 60%] LuËt trªn thÓ hiÖn cã 2% trªn tæng sè c¸c kh¸ch hµng ®· mua m¸y tÝnh, trong sè nh÷ng kh¸ch hµng mua m¸y tÝnh, 60% còng mua phÇn mÒm qu¶n lý. Ph¸t hiÖn c¸c luËt kÕt hîp lµ ph¶i t×m tÊt c¶ c¸c luËt tho¶ m·n ng−ìng ®é tin cËy vµ ®é hç trî cho tr−íc. ThuËt to¸n t×m c¸c luËt kÕt hîp tr−íc tiªn ph¶i ®i t×m c¸c tËp môc th−êng xuyªn, sau ®ã tõ c¸c tËp môc th−êng xuyªn t¹o nªn luËt kÕt hîp. 1.3.4.4. Ph©n nhãm vµ ph©n ®o¹n Kü thuËt ph©n nhãm vµ ph©n ®o¹n lµ nh÷ng kü thuËt ph©n chia d÷ liÖu sao cho mçi phÇn hoÆc mçi nhãm sÏ gièng nhau theo mét tiªu chuÈn nµo ®ã. Mèi quan hÖ thµnh viªn cña c¸c nhãm cã thÓ dùa trªn møc ®é gièng nhau cña c¸c thµnh viªn vµ tõ ®ã x©y dùng nªn c¸c luËt rµng buéc gi÷a c¸c thµnh viªn trong nhãm. Mét kü thuËt ph©n nhãm kh¸c lµ x©y dùng c¸c hµm ®¸nh gi¸ c¸c thuéc tÝnh cña c¸c thµnh phÇn nh− lµ hµm cña c¸c tham sè cña c¸c thµnh phÇn. Ph−¬ng ph¸p nµy ®−îc gäi lµ ph−¬ng ph¸p ph©n ho¹ch tèi −u (optimal partitioning). MÉu ®Çu ra cña qu¸ tr×nh khai ph¸ d÷ liÖu dïng kü thuËt nµy lµ c¸c tËp mÉu chøa c¸c d÷ liÖu cã chung nh÷ng tÝnh chÊt nµo ®ã ®−îc ph©n t¸ch tõ CSDL. Khi c¸c mÉu ®−îc thiÕt lËp, chóng cã thÓ ®−îc sö dông ®Ó t¸i t¹o c¸c tËp d÷ liÖu ë d¹ng dÔ D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 23. 22 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông hiÓu h¬n, ®ång thêi còng cung cÊp c¸c nhãm d÷ liÖu cho c¸c ho¹t ®éng còng nh− c«ng viÖc ph©n tÝch. §èi víi CSDL lín, viÖc lÊy ra c¸c nhãm nµy lµ rÊt quan träng. 1.3.4.5. C¸c ph−¬ng ph¸p dùa trªn mÉu Sö dông c¸c mÉu miªu t¶ tõ CSDL ®Ó t¹o nªn mét m« h×nh dù ®o¸n c¸c mÉu míi b»ng c¸ch rót ra c¸c thuéc tÝnh t−¬ng tù nh− c¸c mÉu ®· biÕt trong m« h×nh. C¸c kü thuËt ®−îc sö dông bao gåm ph©n líp theo k l¸ng giÒng gÇn nhÊt (K_nearest neighbour), c¸c gi¶i thuËt håi quy vµ c¸c hÖ thèng suy diÔn dùa trªn t×nh huèng (case based reasoning). 1.3.4.6. M« h×nh phô thuéc dùa trªn ®å thÞ x¸c suÊt C¸c m« h×nh ®å thÞ x¸c ®Þnh sù phô thuéc x¸c suÊt gi÷a c¸c sù kiÖn th«ng qua mèi liªn hÖ trùc tiÕp theo c¸c cung cña ®å thÞ. ë d¹ng ®¬n gi¶n nhÊt, m« h×nh x¸c ®Þnh nh÷ng biÕn nµo phô thuéc nhau mét c¸ch trùc tiÕp. M« h×nh phô thuéc dùa trªn ®å thÞ x¸c suÊt th−êng ®−îc sö dông víi c¸c biÕn cã gi¸ trÞ rêi r¹c hoÆc ph©n lo¹i. Tuy nhiªn, c¸c m« h×nh nµy còng ®−îc më réng cho mét sè tr−êng hîp ®Æc biÖt nh− mËt ®é Gaussian hoÆc cho c¸c biÕn cã gi¸ trÞ thùc. 1.3.4.7. M« h×nh häc quan hÖ MÉu chiÕt suÊt ®−îc b»ng c¸c luËt suy diÔn vµ c©y quyÕt ®Þnh g¾n chÆt víi mÖnh ®Ò logic, cßn m« h×nh häc quan hÖ (cßn gäi lµ lËp tr×nh logic quy n¹p) sö dông ng«n ng÷ mÉu theo thø tù logic tr−íc (first – order logic) kh¸ linh ho¹t. M« h×nh nµy cã thÓ dÔ dµng t×m ra c«ng thøc X=Y. Cho ®Õn nay, hÇu hÕt c¸c nghiªn cøu vÒ c¸c ph−¬ng ph¸p ®¸nh gi¸ m« h×nh häc quan hÖ ®Òu theo logic trong tù nhiªn. 1.3.4.8. Khai ph¸ d÷ liÖu v¨n b¶n (Text Mining) Khai ph¸ d÷ liÖu v¨n b¶n phï hîp víi viÖc t×m kiÕm, ph©n tÝch vµ ph©n lîp c¸c d÷ liÖu v¨n b¶n kh«ng ®Þnh d¹ng. C¸c lÜnh vùc øng dông cña khai ph¸ d÷ liÖu v¨n b¶n nh− nghiªn cøu thÞ tr−êng, thu nhËp, t×nh b¸o, .... Ph−¬ng ph¸p nµy ®−îc sö dông ®Ó ph©n tÝch c©u tr¶ lêi cho c¸c c©u hái më trong kh¶o s¸t thÞ tr−êng, t×m kiÕm c¸c tµi liÖu phøc t¹p. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 24. 23 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 1.3.4.9. M¹ng n¬ron M¹ng n¬ron lµ c¸ch tiÕp cËn tÝnh to¸n míi liªn quan ®Õn viÖc ph¸t triÓn c¸c cÊu tróc to¸n häc víi kh¶ n¨ng häc. M¹ng n¬ron lµ kÕt qu¶ cña viÖc nghiªn cøu m« h×nh häc cña hÖ thÇn kinh con ng−êi. M¹ng cã thÓ ®−a ra ý nghÜa tõ c¸c d÷ liÖu phøc t¹p hoÆc kh«ng chÝnh x¸c vµ cã thÓ ®−îc sö dông ®Ó chiÕt suÊt c¸c mÉu vµ ph¸t hiÖn ra c¸c xu h−íng phøc t¹p mµ con ng−êi còng nh− c¸c kü thuËt m¸y tÝnh kh¸c kh«ng thÓ ph¸t hiÖn ®−îc. Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n trong viÖc ¸p dông vµ triÓn khai nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè nh÷ng −u ®iÓm ®ã lµ kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ ¸p dông ®−îc cho rÊt nhiÒu bµi to¸n kh¸c nhau ®¸p øng ®−îc nhiÖm vô ®Æt ra cña khai ph¸ d÷ liÖu nh− ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô thuéc vµo thêi gian, .... 1.3.4.10. Gi¶i thuËt di truyÒn Gi¶i thuËt di truyÒn chÝnh lµ sù m« pháng l¹i qu¸ tr×nh tiÕn ho¸ di truyÒn trong tù nhiªn. Mét c¸ch chÝnh x¸c th× ®ã lµ gi¶i thuËt chØ ra tËp c¸c c¸ thÓ ®−îc h×nh thµnh, −íc l−îng vµ biÕn ®æi nh− thÕ nµo. Cô thÓ lµ c¸c vÊn ®Ò nh− lµm thÕ nµo ®Ó lùa chän c¸c c¸ thÓ t¸i t¹o vµ c¸c c¸ thÓ nµo sÏ bÞ lo¹i bá, qu¸ tr×nh lai ghÐp vµ ®ét biÕn sÏ diÔn ra nh− thÕ nµo? Gi¶i thuËt còng m« pháng l¹i yÕu tè gien trong nhiÔm s¾c thÓ sinh häc trªn m¸y tÝnh ®Ó cã thÓ gi¶i quyÕt ®−îc c¸c bµi to¸n thùc tÕ kh¸c nhau. Gi¶i thuËt di truyÒn lµ mét gi¶i thuËt tèi −u ho¸, ®−îc sö dông réng r·i trong viÖc tèi −u ho¸ c¸c kü thuËt khai ph¸ d÷ liÖu trong ®ã cã kü thuËt m¹ng n¬ron. Sù liªn hÖ cña gi¶i thuËt di truyÒn víi c¸c gi¶i thuËt khai ph¸ lµ ë chç viÖc tèi −u ho¸ rÊt cÇn thiÕt cho qu¸ tr×nh khai ph¸ d÷ liÖu, vÝ dô nh− trong c¸c kü thuËt c©y quyÕt ®Þnh, t¹o luËt, .... VÊn ®Ò lùa chän ph−¬ng ph¸p: Qua phÇn tr×nh bÇy trªn, ta nhËn thÊy cã rÊt nhiÒu ph−¬ng ph¸p khai ph¸ d÷ liÖu. Mçi ph−¬ng ph¸p cã nh÷ng ®Æc ®iÓm riªng phï hîp víi mét líp c¸c bµi to¸n, D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 25. 24 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông víi c¸c d¹ng d÷ liÖu vµ miÒn d÷ liÖu nhÊt ®Þnh. HiÖn ng−êi ta vÉn ch−a ®−a ra ®−îc mét tiªu chuÈn nµo trong viÖc quyÕt ®Þnh sö dông ph−¬ng ph¸p khai ph¸ nµo trong tr−êng hîp nµo th× hiÖu qu¶. HÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu ®Òu cßn míi mÎ víi lÜnh vùc kinh doanh. H¬n n÷a, l¹i cã rÊt nhiÒu kü thuËt, mçi kü thuËt ®−îc sö dông cho nhiÒu bµi to¸n kh¸c nhau. V× vËy, tr¶ lêi cho c©u hái “Dïng kü thuËt nµo?” lµ mét vÊn ®Ò kh«ng ®¬n gi¶n. Mçi kü thuËt ®Òu cã ®iÓm m¹nh vµ ®iÓm yÕu nhÊt ®Þnh, nªn vÊn ®Ò ®èi víi ng−êi sö dông lµ ph¶i lùa chän vµ ¸p dông c¸c kü thuËt mét c¸ch thËt ®¬n gi¶n, dÔ sö dông ®Ó kh«ng c¶m thÊy nh÷ng phøc t¹p vèn cã cña kü thuËt ®ã. 1.3.5. Nh÷ng −u thÕ vµ khã kh¨n th¸ch thøc trong nghiªn cøu vµ øng dông kü thuËt khai ph¸ d÷ liÖu 1.3.5.1. ¦u thÕ cña khai ph¸ d÷ liÖu so víi c¸c ph−¬ng ph¸p c¬ b¶n Khai ph¸ d÷ liÖu lµ lÜnh vùc liªn quan tíi rÊt nhiÒu ngµnh häc kh¸c nh−: hÖ CSDL, thèng kª, hiÓn thÞ trùc quan ho¸,... H¬n n÷a, tuú vµo c¸ch tiÕp cËn, khai ph¸ d÷ liÖu cßn cã thÓ ¸p dông mét sè kü thuËt nh− m¹ng n¬ron, lü thuyÕt tËp th« hoÆc tËp mê, biÓu diÔn tri thøc,... Tuy nhiªn, khai ph¸ d÷ liÖu cã mét sè −u ®iÓm râ rÖt so víi c¸c ph−¬ng ph¸p c¬ b¶n kh¸c, cô thÓ nh− sau: • So víi ph−¬ng ph¸p häc m¸y, khai ph¸ d÷ liÖu cã lîi thÕ h¬n ë chç nã cã thÓ sö dông c¸c CSDL chøa nhiÔu, d÷ liÖu kh«ng ®Çy ®ñ hoÆc biÕn ®æi liªn tôc. Trong khi ph−¬ng ph¸p häc m¸y chñ yÕu ®−îc ¸p dông trong nh÷ng CSDL ®Çy ®ñ, Ýt biÕn ®éng vµ tËp d÷ liÖu kh«ng qu¸ lín. • Ph−¬ng ph¸p hÖ chuyªn gia: ph−¬ng ph¸p nµy kh¸c víi khai ph¸ d÷ liÖu ë chç c¸c vÝ dô cña chuyªn gia th−êng ë møc chÊt l−îng cao h¬n nhiÒu so víi d÷ liÖu trong CSDL vµ chóng chØ bao hµm c¸c tr−êng hîp quan träng. H¬n n÷a, c¸c chuyªn gia sÏ x¸c nhËn gi¸ trÞ vµ tÝnh h÷u Ých cña c¸c mÉu ph¸t hiÖn ®−îc vµ nh− thÕ ®ßi hái ph¶i cã sù tham gia cña con ng−êi trong viÖc ph¸t hiÖn tri thøc. • Ph−¬ng ph¸p thèng kª lµ mét trong nh÷ng nÒn t¶ng lý thuyÕt cña khai ph¸ d÷ liÖu, nh−ng khi so s¸nh chóng víi nhau, cã thÓ thÊy ph−¬ng ph¸p thèng kª cßn cã mét sè ®iÓm yÕu mµ khai ph¸ d÷ liÖu ®· kh¾c phôc ®−îc: D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 26. 25 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông - C¸c ph−¬ng ph¸p thèng kª chuÈn kh«ng phï hîp víi c¸c kiÓu d÷ liÖu cã cÊu tróc trong rÊt nhiÒu c¸c CSDL. - C¸c ph−¬ng ph¸p thèng kª ho¹t ®éng hoµn toµn theo d÷ liÖu, nã kh«ng sö dông tri thøc s½n cã vÒ lÜnh vùc. - KÕt qu¶ ph©n tÝch cña thèng kª cã thÓ sÏ rÊt nhiÒu vµ khã cã thÓ lµm râ ®−îc. - Ph−¬ng ph¸p thèng kª cÇn cã sù h−íng dÉn cña ng−êi dïng ®Ó x¸c ®Þnh ph©n tÝch d÷ liÖu nh− thÕ nµo vµ ë ®©u. 1.3.5.2. Nh÷ng vÊn ®Ò khã kh¨n th¸ch thøc MÆc dï khai ph¸ d÷ liÖu lµ mét kü thuËt khai ph¸ tri thøc hiÖu qu¶, nh−ng còng béc lé nhiÒu khã kh¨n. Nh÷ng khã kh¨n ®ã chÝnh lµ nh÷ng th¸ch thøc lín trong qu¸ tr×nh nghiªn cøu vµ øng dông c¸c kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ. C¸c vÊn ®Ò vÒ c¬ së d÷ liÖu: §Çu vµo cña hÖ thèng ph¸t hiÖn tri thøc chñ yÕu lµ c¸c d÷ liÖu th« trong CSDL. Nh÷ng vÊn ®Ò ph¸t sinh trong qu¸ tr×nh khai ph¸ d÷ liÖu chÝnh tõ c¸c nguyªn nh©n lµ d÷ liÖu trong thùc tÕ th−êng ®éng, kh«ng ®Çy ®ñ, lín vµ bÞ nhiÔu. Trong mét sè tr−êng hîp, ng−êi ta kh«ng biÕt d÷ liÖu cã chøa th«ng tin cÇn thiÕt cho viÖc khai th¸c hay kh«ng vµ lµm thÕ nµo ®Ó gi¶i quyÕt sù d− thõa nh÷ng th«ng tin kh«ng thÝch hîp. • VÊn ®Ò d÷ liÖu lín: C¸c CSDL th«ng th−êng lµ rÊt lín, víi hµng tr¨m tr−êng vµ b¶ng cã hµng triÖu b¶n ghi. Khi ®ã kÝch th−íc l−u tr÷ còng rÊt lín, hµng gigabytes thËm chÝ terabytes. Do ®ã, lµm t¨ng kh«ng gian t×m kiÕm, t¨ng qu¸ tr×nh suy diÔn, ®ång thêi còng lµm t¨ng kh¶ n¨ng gi¶i thuËt khai ph¸ d÷ liÖu t×m ®−îc c¸c mÉu gi¶. Ph−¬ng ph¸p kh¾c phôc vÊn ®Ò nµy hiÖn nay lµ ®−a ra mét ng−ìng cho CSDL, lÊy mÉu, c¸c ph−¬ng ph¸p xÊp xØ, xö lý song song, gi¶m kÝch th−íc t¸c ®éng cña bµi to¸n vµ sö dông c¸c tri thøc ®· biÕt tr−íc ®Ó x¸c ®Þnh c¸c biÕn kh«ng phï hîp. • VÊn ®Ò d÷ liÖu ®éng: HÇu hÕt c¸c CSDL cã néi dung thay ®æi liªn tôc theo thêi gian vµ viÖc khai ph¸ d÷ liÖu bÞ ¶nh h−ëng bëi thêi ®iÓm quan s¸t. ViÖc thay ®æi d÷ liÖu nhanh chãng cã thÓ lµm cho c¸c mÉu khai ph¸ ®−îc tr−íc ®ã mÊt gi¸ trÞ. H¬n D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 27. 26 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông n÷a, c¸c biÕn trong CSDL cña øng dông cã thÓ bÞ thay ®æi, bÞ xo¸ hoÆc t¨ng lªn theo thêi gian. VÊn ®Ò nµy ®−îc gi¶i quyÕt b»ng gi¶i ph¸p t¨ng tr−ëng ®Ó n©ng cÊp c¸c mÉu vµ coi nh÷ng thay ®æi nh− lµ c¬ héi ®Ó khai th¸c b»ng c¸ch sö dông nã ®Ó t×m kiÕm c¸c mÉu bÞ thay ®æi. • VÊn ®Ò c¸c tr−êng kh«ng phï hîp: Mét ®Æc ®iÓm quan träng kh¸c lµ tÝnh kh«ng thÝch hîp cña d÷ liÖu, nghÜa lµ d÷ liÖu trë thµnh kh«ng thÝch hîp víi môc tiªu träng t©m hiÖn t¹i cña viÖc khai ph¸. Mét khÝa c¹nh kh¸c ®«i khi còng liªn quan ®Õn ®é phï hîp lµ tÝnh øng dông cña mét thuéc tÝnh ®èi víi mét tËp con cña CSDL. • VÊn ®Ò c¸c tr−êng hay c¸c gi¸ trÞ bÞ thiÕu: Mét quan s¸t kh«ng ®Çy ®ñ cña CSDL cã thÓ lµm cho d÷ liÖu cã gi¸ trÞ bÞ xem nh− lµ cã lçi. ViÖc quan s¸t CSDL ph¶i ph¸t hiÖn ®−îc toµn bé c¸c thuéc tÝnh cã thÓ dïng ®Ó khai ph¸ d÷ liÖu trong bµi to¸n. Gi¶ sö ta cã c¸c thuéc tÝnh ®Ó ph©n biÖt c¸c t×nh huèng ®¸ng quan t©m, nÕu chóng kh«ng thÓ hiÖn ®−îc ®iÒu ®ã th× cã nghÜa lµ ®· cã lçi trong d÷ liÖu. §©y còng lµ vÊn ®Ò th−êng x¶y ra trong CSDL kinh doanh, c¸c thuéc tÝnh quan träng cã thÓ bÞ thiÕu d÷ liÖu, kh«ng s½n sµng cho viÖc khai ph¸ d÷ liÖu. • §é nhiÔu vµ kh«ng ch¾c ch¾n: §é nhiÔu cña d÷ liÖu (®é chÝnh x¸c, dung sai, ...) còng lµ mét nh©n tè ¶nh h−ëng ®Õn qu¸ tr×nh khai ph¸ d÷ liÖu. • Mèi quan hÖ phøc t¹p gi÷a c¸c tr−êng: c¸c thuéc tÝnh hoÆc c¸c gi¸ trÞ d÷ liÖu cã cÊu tróc ph©n cÊp, c¸c mèi quan hÖ gi÷a c¸c thuéc tÝnh ®Ó diÔn t¶ tri thøc vÒ néi dung cña CSDL dÉn tíi c¸c gi¶i thuËt ph¶i cã kh¶ n¨ng khai ph¸ mét c¸ch hiÖu qu¶ c¸c d÷ liÖu nµy. Mét sè vÊn ®Ò kh¸c: • Qu¸ phï hîp: Khi mét thuËt to¸n t×m kiÕm c¸c tham sè tèt nhÊt cho mét m« h×nh nµo ®ã sö dông mét tËp d÷ liÖu h÷u h¹n, cã thÓ x¶y ra t×nh tr¹ng “qu¸ ®é”, nghÜa lµ chØ phï hîp víi mét tËp d÷ liÖu mµ kh«ng cã kh¶ n¨ng ®¸p øng víi c¸c d÷ liÖu l¹. §iÒu ®ã lµm cho m« h×nh ho¹t ®éng rÊt kÐm víi c¸c d÷ liÖu thö. Cã thÓ kh¾c phôc b»ng c¸ch ®¸nh gi¸ chÐo, thùc hiÖn theo nguyªn t¾c nµo ®ã hoÆc sö dông c¸c biÖn ph¸p thèng kª kh¸c. • Kh¶ n¨ng biÓu ®¹t mÉu: trong rÊt nhiÒu øng dông, ®iÒu quan träng lµ nh÷ng mÉu khai th¸c ®−îc ph¶i cµng dÔ hiÓu ®èi víi con ng−êi cµng tèt. V× vËy, c¸c gi¶i D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 28. 27 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông ph¸p th−êng lµ diÔn t¶ d−íi d¹ng ®å ho¹, x©y dùng cÊu tróc luËt víi c¸c ®å thÞ cã h−íng, biÓu diÔn b»ng ng«n ng÷ tù nhiªn vµ c¸c kü thuËt kh¸c nh»m biÓu diÔn tri thøc vµ d÷ liÖu. • T−¬ng t¸c víi ng−êi sö dông vµ c¸c tri thøc s½n cã: rÊt nhiÒu c«ng cô vµ ph−¬ng ph¸p khai ph¸ d÷ liÖu kh«ng thùc sù t−¬ng t¸c víi ng−êi dïng vµ kh«ng dÔ dµng kÕt hîp cïng víi c¸c tri thøc ®· biÕt tr−íc ®ã. ViÖc sö dông tri thøc miÒn lµ rÊt quan träng trong khai ph¸ d÷ liÖu. §· cã nhiÒu biÖn ph¸p nh»m kh¾c phôc vÊn ®Ò nµy nh− sö dông CSDL suy diÔn ®Ó ph¸t hiÖn tri thøc, sau ®ã sö dông nh÷ng tri thøc ph¸t hiÖn ®−îc ®Ó h−íng dÉn cho viÖc t×m kiÕm khai ph¸ d÷ liÖu hoÆc sö dông sù ph©n bè x¸c suÊt d÷ liÖu tr−íc ®ã nh− mét d¹ng m· ho¸ d÷ liÖu cã s½n. KÕt luËn ch−¬ng 1 Qu¸ tr×nh ph¸t hiÖn tri thøc trong CSDL lµ qu¸ t×nh rót ra nh÷ng tri thøc cã Ých, tiÒm tµng trong CSDL. Qu¸ tr×nh ph¸t hiÖn tri thøc, vÒ nguyªn lý, tr¶i qua nhiÒu giai ®o¹n kh¸c nhau trong ®ã, khai ph¸ d÷ liÖu lµ giai ®o¹n quan träng nhÊt, ®ãng vai trß chñ chèt vµ lµ giai ®o¹n chÝnh t¹o nªn tÝnh ®a ngµnh cña KDD. NhiÖm vô cña khai ph¸ d÷ liÖu lµ kh¸m ph¸ c¸c mÉu cã Ých tõ nguån d÷ liÖu, trong ®ã, d÷ liÖu cã thÓ ®−îc l−u tr÷ trong c¸c CSDL, kho d÷ liÖu. Ch−¬ng nµy còng tr×nh bµy c¸c nhiÖm vô chÝnh cña khai ph¸ d÷ liÖu, c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu còng nh− c¸c vÊn ®Ò th¸ch thøc trong nghiªn cøu vµ ¸p dông kü thuËt khai ph¸ d÷ liÖu vµo thùc tÕ. Trong c¸c ph−¬ng ph¸p khai ph¸ d÷ liÖu ®· giíi thiÖu, m¹ng n¬ron vµ gi¶i thuËt di truyÒn lµ c¸c kü thuËt khai ph¸ ®ang ®−îc quan t©m nghiªn cøu m¹nh mÏ. Ch−¬ng sau sÏ tr×nh bÇy chi tiÕt h¬n vÒ kü thuËt khai ph¸ d÷ liÖu dïng m¹ng n¬ron vµ gi¶i thuËt di truyÒn. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 29. 28 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Ch−¬ng 2: Kü thuËt khai ph¸ d÷ liÖu sö dông m¹ng n¬ron vµ gi¶i thuËt di truyÒn 2.1. M¹ng n¬ron trong khai ph¸ d÷ liÖu Khi ®Ò cËp ®Õn khai th¸c d÷ liÖu, ng−êi ta th−êng ®Ò cËp nhiÒu ®Õn m¹ng n¬ron. Tuy m¹ng n¬ron cã mét sè h¹n chÕ g©y khã kh¨n cho qu¸ tr×nh ¸p dông vµ triÓn khai, nh−ng nã còng cã nh÷ng −u ®iÓm ®¸ng kÓ. Mét trong sè c¸c −u ®iÓm ph¶i kÓ ®Õn lµ m¹ng cã kh¶ n¨ng t¹o ra c¸c m« h×nh dù ®o¸n cã ®é chÝnh x¸c cao, cã thÓ ¸p dông cho rÊt nhiÒu lo¹i bµi to¸n kh¸c nhau, ®¸p øng ®−îc c¸c nhiÖm vô ®Æt ra cña khai ph¸ d÷ liÖu nh− ph©n líp, ph©n nhãm, m« h×nh ho¸, dù b¸o c¸c sù kiÖn phô thuéc thêi gian,.... 2.1.1. Kh¸i niÖm m¹ng n¬ron M¹ng n¬ron nh©n t¹o (Artficial Neural Network - ANN) lµ hÖ thèng ®−îc x©y dùng m« pháng theo c¸c chøc n¨ng cña mét m¹ng n¬ron sinh häc nãi chung, hay m¹ng n¬ron sinh häc cña con ng−êi nãi riªng. Trong luËn v¨n nµy, khi nãi ®Õn m¹ng n¬ron cã nghÜa lµ m¹ng n¬ron nh©n t¹o, bëi v× trong thùc tÕ, m¹ng n¬ron sinh häc (Biological Neural Network - BNN) cã cÊu t¹o phøc t¹p h¬n nhiÒu so víi m¹ng n¬ron nh©n t¹o mµ ta ®Ò cËp ®Õn. Thùc chÊt, m¹ng n¬ron nh©n t¹o lµ c¸c m« h×nh to¸n häc mµ con ng−êi x©y dùng nªn. Cho ®Õn nay, ch−a cã mét ®Þnh nghÜa tæng qu¸t nµo vÒ m¹ng n¬ron, song phÇn lín nh÷ng nhµ nghiªn cøu trong lÜnh vùc nµy ®Òu thèng nhÊt víi kh¸i niÖm: M¹ng n¬ron lµ mét hÖ thèng gåm nhiÒu phÇn tö xö lý ®¬n gi¶n gäi lµ c¸c n¬ron ®−îc liªn kÕt víi nhau vµ cïng ho¹t ®éng song song. TÝnh n¨ng ho¹t ®éng cña m¹ng phô thuéc vµo cÊu tróc m¹ng, träng sè liªn kÕt gi÷a c¸c n¬ron vµ qu¸ tr×nh xö D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 30. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 29 lý bªn trong c¸c n¬ron. Ngoµi chøc n¨ng xö lý, hÖ thèng cßn cã kh¶ n¨ng häc sè liÖu vµ tæng qu¸t ho¸ tõ c¸c sè liÖu ®· häc. Chóng ta sÏ lÇn l−ît ph©n tÝch m« h×nh n¬ron sinh häc, sau ®ã lµ m« h×nh n¬ron nh©n t¹o ®Ó dÔ dµng thÊy ®−îc sù t−¬ng quan nµy, ®ång thêi hiÓu râ h¬n vÒ m¹ng n¬ron nh©n t¹o. 2.1.2. N¬ron sinh häc vµ m¹ng n¬ron sinh häc HÖ thÇn kinh con ng−êi cã kho¶ng 1010 tÕ bµo thÇn kinh ®−îc gäi lµ c¸c n¬ ron, mçi n¬ron cã thÓ liªn kÕt víi 104 n¬ron kh¸c th«ng qua c¸c khíp nèi [12]. Khíp nèi (Synaspe) Khíp nèi (Synaspe) Trôc (Axon) Nh©n (Soma) H×nh 2.1: CÊu t¹o cña n¬ron Mçi n¬ ron gåm cã ba phÇn: th©n n¬ ron cã nhiÖm vô tiÕp nhËn hay ph¸t ra c¸c xung thÇn kinh, bªn trong cã nh©n (Soma), hÖ thèng d©y thÇn kinh vµo (dendrites- cßn gäi lµ c¸c nh¸nh thô gi¸c) vµ mét ®Çu d©y thÇn kinh ra (sîi trôc axon – nh¸nh trùc gi¸c) ®Ó dÉn truyÒn c¸c xung thÇn kinh. C¸c ®Çu d©y thÇn kinh vµo nhËn tÝn hiÖu tõ c¸c n¬ron kh¸c, nh©n n¬ron sÏ sinh ra tÝn hiÖu ë ®Çu ra cña n¬ron vµ truyÒn tíi c¸c n¬ron kh¸c ®−îc nèi víi ®Çu ra qua trôc. §é lín cña c¸c tÝn hiÖu vµo cã thÓ bÞ thay ®æi khi ®−îc truyÒn qua c¸c khíp thÇn kinh cã trªn c¸c nh¸nh thÇn kinh vµo. Tû lÖ biÕn ®æi tÝn hiÖu ë khíp thÇn kinh ®−îc gäi lµ ®é khuyÕch ®¹i khíp vµ ®−îc gäi lµ c¸c träng sè trong c¸c n¬ ron nh©n t¹o. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 31. 30 s Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông TÝn hiÖu vµo tõ n¬ron l©n cËn víi c−êng ®é s Khíp thÇn kinh víi ®é khuÕch ®¹i khíp w w p = ws TÝn hiÖu p tíi n¬ron sau khi ®i qua khíp thÇn kinh H×nh 2.2: Thu nhËn tÝn hiÖu trong n¬ron Theo c¸c nghiªn cøu vÒ sinh häc, chøc n¨ng cña hÖ thÇn kinh kh«ng phô thuéc nhiÒu vµo vai trß cña tõng n¬ ron ®¬n lÎ mµ phô thuéc vµo c¸ch mµ toµn bé c¸c n¬ ron ®−îc nèi víi nhau, gäi lµ m¹ng n¬ ron sinh häc [12]. TÊt c¶ c¸c ®Æc ®iÓm trªn ®Òu ®−îc vËn dông mét c¸ch triÖt ®Ó trong viÖc x©y dùng mét m¹ng nh©n t¹o nh»m t¹o ra mét m¹ng n¬ron gièng víi m¹ng n¬ron sinh häc nhÊt. 2.1.3. M« h×nh vµ qu¸ tr×nh xö lý trong n¬ron nh©n t¹o 2.1.3.1. N¬ron nh©n t¹o Gièng nh− n¬ron sinh häc, mçi n¬ron nh©n t¹o ®−îc nèi víi c¸c n¬ron kh¸c vµ nhËn tÝn hiÖu tõ chóng víi c¸c träng sè liªn kÕt. Mét n¬ron nh©n t¹o ph¶n ¸nh c¸c tÝnh chÊt c¬ b¶n cña n¬ron sinh häc ®−îc m« pháng trong h×nh 2.3. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 32. 31 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông §é lÖch Bias bk wk1 x1 Hµm truyÒn (Activation function) TÝn hiÖu vµo (Input signal) wk2 x2 f (.) ∑ … TÝn hiÖu ra (Output) wkn xn H×nh 2.3: M« h×nh cña mét n¬ron nh©n t¹o + §Çu vµo cña n¬ron gåm n tÝn hiÖu x = (x1, x2, …, xn), ®Çu ra lµ tÝn hiÖu y = (y1, y2, …, ym). + Mét tËp c¸c khíp nèi vµ träng sè t−¬ng øng wki, tÝn hiÖu vµo xi cña khíp nèi thø i cña n¬ron k ®−îc nh©n víi träng sè wki. + Mét bé céng ∑ thùc hiÖn trªn c¸c träng sè cña c¸c khíp nèi th−êng ®−îc gäi lµ bé kÕt hîp tuyÕn tÝnh. + Mét hµm chuÈn khèng chÕ gi¸ trÞ ®Çu ra cña m¹ng n¬ron ®−îc gäi lµ hµm truyÒn hay hµm kÝch ho¹t. Th«ng th−êng,tÝn hiÖu ®Çu ra cña mét n¬ron trong kho¶ng [0, 1] hoÆc [-1, 1]. Tr¹ng th¸i bªn trong cña n¬ron ®−îc x¸c ®Þnh qua bé tæng c¸c ®Çu vµo cã träng sè w (i=1, 2, .., n). §Çu ra y ®−îc x¸c ®Þnh qua hµm phi tuyÕn f Nh− vËy, m« h×nh to¸n häc cña n¬ron nh©n t¹o k tÝnh to¸n t¹i thêi ®iÓm t nh− sau: net (t ) = ∑i =1 wki xi (t ) + bk y k (t ) = f n Trong ®ã: (∑ n i =1 wki xi (t ) + bk ) lµ tÝn hiÖu tæng hîp ®Çu vµo, bk lµ ®é lÖch bias. §Çu ra th−êng ®−îc ký hiÖu lµ out = y(t)=f(net) TÝn hiÖu vµo ®−îc xö lý nhê hµm kÝch ho¹t (activation function) hay cßn gäi lµ hµm truyÒn (trasfer function) ®Ó t¹o tÝn hiÖu ra, tÝn hiÖu ra sÏ ®−îc truyÒn ®i nÕu kh¸c 0. Tãm l¹i, cã thÓ xem n¬ron lµ mét hµm phi tuyÕn nhiÒu ®Çu vµo vµ mét ®Çu ra. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 33. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 32 2.1.3.2. Hµm truyÒn trong n¬ron CÊu tróc cña m¹ng n¬ron chñ yÕu ®−îc ®Æc tr−ng bëi lo¹i cña c¸c n¬ron vµ mèi liªn hÖ xö lý th«ng tin gi÷a chóng. VÒ cÊu tróc cña n¬ron, chñ yÕu ng−êi ta quan t©m tíi c¸ch tæng hîp c¸c tÝn hiÖu vµo, ng−ìng t¹i mçi n¬ron vµ c¸c hµm truyÒn. Hµm truyÒn x¸c ®Þnh møc ®é liªn kÕt bªn trong c¸c n¬ron. Hµm truyÒn cã nhiÖm vô t¹o møc ®é kÝch thÝch cña n¬ron, tõ ®ã sÏ lµm h−ng phÊn hoÆc øc chÕ c¸c n¬ron kh¸c trong m¹ng. Trong lý thuyÕt m¹ng n¬ron, phÐp tæng hîp tÝn hiÖu ®Çu vµo cña n¬ron i cã m tÝn hiÖu ®Çu vµo xj th−êng ®−îc ký hiÖu: net i = ∑ j =1 wij x j ; wij = (wi1, wi2, …, wim) m TÝn hiÖu ra t¹i n¬ron i th−êng ký hiÖu lµ outi hoÆc fi, ®−îc tÝnh theo c«ng thøc sau víi f lµ hµm truyÒn: outi(t) =f (neti(t)) Cã nhiÒu hµm truyÒn kh¸c nhau ®−îc sö dông trong tõng tr−êng hîp cô thÓ, c¸c hµm truyÒn nãi chung nªn tho¶ m·n c¸c tÝnh chÊt sau: ♦ BÞ chÆn: f ( x) ≤ M , ∀x ♦ §¬n ®iÖu t¨ng: f ( x1 ) > f ( x 2 ), ∀x1 > x 2 ♦ Kh¶ vi liªn tôc: f(x) cã ®¹o hµm f’(x) vµ f’(x) lµ hµm liªn tôc Trong thùc tÕ, khi xÐt c¸c n¬ron, chóng chØ cã thÓ cã hai tr¹ng th¸i lµ bÞ kÝch ho¹t hoÆc kh«ng bÞ kÝch ho¹t. NghÜa lµ tÝn hiÖu ra mét cña n¬ron cÇn ph¶i ®¶m b¶o sao cho cã thÓ nhËn biÕt ®−îc n¬ron ®ã cã bÞ kÝch ho¹t hay kh«ng. V× lý do ®ã, hµm truyÒn ph¶i tho¶ m·n ®iÒu kiÖn tÝn hiÖu ra cuèi cïng cña n¬ron ph¶i liªn tôc vµ n»m trong mét giíi h¹n x¸c ®Þnh (cã thÓ lµ gi÷a 0 vµ 1). Cã mét sè d¹ng hµm truyÒn th−êng ®−îc sö dông sau: ⎧1, if ( x ≥ θ ) ⎩0, if ( x < θ ) Hµm ranh giíi cøng (Hard – limiter): f ( x) = ⎨ ⎧1, if ( x ≥ θ ) ⎩− 1, if ( x < θ ) Hµm ranh giíi cøng ®èi xøng: f ( x) = ⎨ D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 34. 33 Hµm Gauss: f ( x) = e − x Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 2 Hµm Sigmoidal hay hµm logicstic (cßn gäi lµ hµm ch÷ S): f ( x) = 1 1 + e−x f(x) 1.0 0.5 x H×nh 2.4: Hµm Sigmoidal Hµm Sigmoidal lµ hµm th−êng ®−îc sö dông nhiÒu nhÊt trong c¸c lo¹i m¹ng n¬ron, bëi gi¸ trÞ cña hµm lµ liªn tôc trong kho¶ng (0,1). TÝn hiÖu ra cña hµm cã hai tr¹ng th¸i æn ®Þnh vµ mét vïng chuyÓn ®æi. N¬ron cã hµm kÝch ho¹t sigmoidal sÏ sinh gi¸ trÞ thùc bÊt kú gi÷a gi¸ trÞ lín nhÊt 1.0 vµ gi¸ trÞ nhá nhÊt 0. Output d¹ng sigmoidal cã gi¸ trÞ > 0.8 ®−îc coi nh− output kÝch ho¹t. NÕu cã gi¸ trÞ < 0.2 coi nh− gi¸ trÞ kh«ng kÝch ho¹t. C¸c gi¸ trÞ output n»m trong kho¶ng 0.2 ®Õn 0.8 lµ trong vïng chuyÓn ®æi. Khi Net cã gi¸ trÞ ©m lín, hµm sÏ tr¶ l¹i gi¸ trÞ 0, khi Net cã gi¸ trÞ d−¬ng lín, hµm sÏ tr¶ l¹i gi¸ trÞ 1, ®ã lµ c¸c gi¸ trÞ th−êng ®−îc dïng ®Ó biÓu diÔn c¸c kÕt qu¶ ®óng, sai. Hµm sigmoidal cã thÓ dïng ®Ó ph¸t hiÖn c¸c ®Æc tr−ng cña d÷ liÖu vµ dïng cho môc ®Ých ph©n líp d÷ liÖu. 2.1.4. CÊu tróc vµ ph©n lo¹i m¹ng n¬ron Khi xÐt m¹ng n¬ron sinh häc ng−êi ta nhËn thÊy: c¸c tÝn hiÖu do c¸c n¬ron t¹o ra rÊt gièng nhau vµ hÇu nh− kh«ng thÓ ph©n biÖt ®−îc cho dï ®ã lµ n¬ron cña lo¹i sinh vËt nµo. Râ rµng c−êng ®é tÝn hiÖu ®−îc t¹o ra bëi c¸c n¬ron cã thÓ kh¸c nhau phô thuéc vµo c−êng ®é kÝch thÝch nh−ng bÒ ngoµi cña c¸c tÝn hiÖu l¹i rÊt D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 35. 34 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông gièng nhau. §iÒu ®ã chøng tá r»ng viÖc thùc hiÖn chøc n¨ng cña bé n·o kh«ng phô thuéc qu¸ nhiÒu vµo vai trß cña mét n¬ron ®¬n lÎ mµ phô thuéc vµo toµn bé hÖ thèng n¬ron. NghÜa lµ phô thuéc vµo c¸ch liªn kÕt gi÷a c¸c n¬ron, hay cã thÓ nãi viÖc thùc hiÖn c¸c chøc n¨ng phô thuéc vµo cÊu tróc cña m¹ng n¬ron. Trong m« h×nh m¹ng n¬ron nh©n t¹o, c¸c n¬ron ®−îc nèi víi nhau bëi c¸c liªn kÕt n¬ron, mçi liªn kÕt cã mét träng sè ®Æc tr−ng cho ®Æc tÝnh kÝch ho¹t hay øc chÕ gi÷a c¸c n¬ron. §ång thêi, c¸c n¬ron ®−îc nhãm l¹i víi nhau theo cÊu tróc ph©n líp, bao gåm: líp vµo (input layer), líp ra (output layer) vµ líp Èn (hidden layer). Líp vµo: C¸c nót trong líp vµo gäi lµ c¸c nót vµo, chóng m· ho¸ mÉu ®−îc ®−a vµo m¹ng xö lý. C¸c n¬ron vµo kh«ng xö lý th«ng tin, chØ ph©n t¸n th«ng tin cho nót kh¸c (trªn biÓu ®å chóng ®−îc vÏ kh¸c c¸c nót Èn vµ c¸c nót ra ®Ó ph©n biÖt gi÷a c¸c nót cã xö lý vµ kh«ng xö lý th«ng tin) Líp Èn: C¸c n¬ron trong líp Èn gäi lµ c¸c nót Èn v× chóng kh«ng thÓ quan s¸t ®−îc trùc tiÕp. Chóng t¹o thµnh c¸c m« h×nh to¸n häc phi tuyÕn cho m¹ng. Líp ra: C¸c n¬ron trong líp nµy gäi lµ c¸c nót ra, chóng cã nhiÖm vô ®−a th«ng tin ra thÝch nghi mÉu m· ng−êi sö dông cÇn. Mét m¹ng ®−îc gäi lµ kÕt nèi ®Çy ®ñ nÕu tÊt c¶ c¸c nót cña mét líp ®−îc nèi víi tÊt c¶ c¸c nót cña líp kÒ liÒn nã. Cã nhiÒu lo¹i kÕt nãi kh¸c nhau: KÕt nèi liªn líp lµ kÕt nèi gi÷a c¸c nót trong c¸c líp kh¸c nhau KÕt nèi trong líp lµ kÕt nèi gi÷a c¸c nót trong cïng mét líp. Tù kÕt nèi lµ kÕt nèi tõ mét nót tíi chÝnh nã. KÕt nãi siªu líp lµ kÕt nèi gi÷a c¸c líp c¸ch nhau (kh«ng kÒ nhau). Mét kÕt nèi bËc cao lµ mét kÕt nèi víi nhiÒu nót ®Çu vµo. Sè c¸c nót ®Çu vµo x¸c ®Þnh bËc kÕt nèi vµ bËc kÕt nèi cña m¹ng lµ bËc cña kÕt nèi bËc cao nhÊt. 2.1.4.1. Ph©n lo¹i m¹ng n¬ron Mét c¸ch h×nh thøc, cã thÓ biÓu diÔn m¹ng n¬ron nh− mét ®å thÞ cã h−íng G = (N, A). Trong ®ã tËp ®Ønh N biÒu diÔn c¸c phÇn tö xö lý, tËp c¸c cung A biÓu diÔn liªn kÕt gi÷a c¸c phÇn tö xö lý, chiÒu cña cung chØ h−íng cña tÝn hiÖu xö lý. Ph©n lo¹i theo kiÓu liªn kÕt n¬ron: D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 36. Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 35 M¹ng n¬ron truyÒn th¼ng (feed – forward Neural Network): Trong m¹ng, c¸c liªn kÕt n¬ron chØ ®i theo mét h−íng tõ líp vµo ®Õn líp ra, kh«ng t¹o thµnh chu tr×nh víi c¸c ®Ønh lµ c¸c n¬ron, c¸c cung lµ c¸c liªn kÕt gi÷a chóng [10]. x0 bias h0 x1 bias y1 h1 x2 y2 h2 … … xl w Líp vµo (1 ) ji hm Líp Èn … yn w (2) kj Líp ra H×nh 2.5: M¹ng n¬ron truyÒn th¼ng nhiÒu líp (Feed-Forward Neural Network) M¹ng håi quy: cho phÐp c¸c liªn kÕt n¬ron t¹o thµnh chu tr×nh, cã th«ng tin ®−îc xö lý theo hai chiÒu. V× c¸c th«ng tin ra cña c¸c n¬ron ®−îc truyÒn l¹i cho c¸c n¬ron ®· gãp phÇn kÝch ho¹t chóng nªn m¹ng håi quy cßn cã kh¶ n¨ng l−u gi÷ tr¹ng th¸i trong cña nã d−íi d¹ng c¸c ng−ìng kÝch ho¹t ngoµi c¸c träng sè liªn kÕt n¬ron [10]. h0 x0 y0 h1 x1 … xl Líp vµo y1 … … yn hm Líp Èn Líp ra H×nh 2.6: M¹ng håi quy (Recurrent Neural Network) M¹ng kÕt nèi ®èi xøng vµ kh«ng ®èi xøng: M¹ng kÕt nèi ®èi xøng lµ m¹ng tho¶ m·n nÕu cã mét ®−êng nèi tõ nót i ®Õn nót j th× còng cã mét ®−êng nèi tõ nót j ®Õn nót i vµ träng sè t−¬ng øng víi hai ®−êng nèi nµy lµ b»ng nhau: wji = wij . M¹ng kh«ng tho¶ m·n ®iÒu kiÖn trªn lµ kÕt nèi kh«ng ®èi xøng. Ph©n lo¹i theo sè líp: D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 37. 36 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông M¹ng chØ gåm mét líp vµo vµ mét líp ra gäi lµ m¹ng ®¬n líp hay m¹ng mét líp. M¹ng cã tõ mét líp Èn trë lªn ®−îc gäi lµ m¹ng ®a líp hay m¹ng nhiÒu líp. Mét m¹ng ®a líp ®−îc gäi lµ m¹ng n líp víi n lµ tæng sè líp Èn vµ líp ra. Trong m« h×nh m¹ng ®a líp, ®Çu ra cña c¸c phÇn tö tÝnh to¸n t¹i mét líp lµ ®Çu vµo cña líp tiÕp theo. Kh«ng cho phÐp c¸c liªn kÕt gi÷a c¸c n¬ron trong cïng mét líp, còng kh«ng cho phÐp c¸c liªn kÕt n¬ron nh¶y qua mét líp trë lªn. 2.1.5. Häc vµ lan truyÒn trong m¹ng 2.1.5.1. Häc vµ tæng qu¸t ho¸ M¹ng n¬ron thùc hiÖn hai chøc n¨ng quan träng lµ häc vµ tæng qu¸t ho¸. Häc lµ qu¸ tr×nh hiÖu chØnh c¸c tham sè vµ c¸c träng sè liªn kÕt trong m¹ng ®Ó tèi thiÓu ho¸ sai sè víi vect¬ ®Çu vµo cho tr−íc. Qu¸ tr×nh häc dõng khi m¹ng tho¶ m·n mét tiªu chuÈn dõng nµo ®ã, ch¼ng h¹n khi c¸c träng sè cña m¹ng t¹o ra lçi ®ñ nhá gi÷a ®Çu ra mong ®îi vµ kÕt qu¶ ®Çu ra cña m¹ng víi ®Çu vµo cho tr−íc. Tæng qu¸ ho¸ lµ qu¸ tr×nh ®−a vµo mét vector ®Çu vµo míi vµ s¶n sinh ra quyÕt ®Þnh dùa trªn vector ®Çu ra tÝnh ®−îc tõ m¹ng. Bµi to¸n häc cã thÓ ®−îc m« t¶ nh− sau: Cho tËp mÉu (Xi, Yi) víi Xi vµ Yi lµ hai vÐc t¬ trong kh«ng gian mét hoÆc nhiÒu chiÒu, cÇn x¸c ®Þnh bé träng sè W0 trªn kh«ng gian tham sè ®Ò computer (Xi, W0) = Yi. Qu¸ tr×nh häc ®−îc thùc hiÖn theo hai b−íc: X¸c ®Þnh hµm gi¸ trÞ trªn c¸c tham sè vµ tèi thiÓu ho¸ tham sè trong kh«ng gian cña c¸c tham sè. Häc chia thµnh hai lo¹i: häc tham sè vµ häc cÊu tróc. - Häc tham sè: Lµ qu¸ tr×nh x¸c ®Þnh mét tËp hîp tham sè W0 lµ c¸c träng sè tèt nhÊt víi mét cÊu tróc m¹ng cè ®Þnh. §Ó lµm ®−îc ®iÒu nµy cÇn x©y dùng mét hµm gi¸ dùa trªn tËp d÷ liÖu Ttrain vµ tËp träng sè W. Hµm gi¸ cã thÓ lµ mét hµm kh¶ vi bÊt kú cã tÝnh chÊt ®¹t ®Õn cùc tiÓu khi c¸c ®Çu ra Oi ®óng b»ng ®Çu ra lý t−ëng Yi cña tËp mÉu. Cã thÓ x©y dùng hµm gi¸ d−íi d¹ng Ln – norm nh− sau: E= 1 ∑ (y i − Oi )p víi 1 ≤ p ≤ ∞ p i D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 38. 37 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Víi bé tham sè nµy, cã thÓ ¸p dông mét gi¶i thuËt t×m kiÕm nµo ®ã trªn kh«ng gian Rm cña tËp träng sè. NÕu thu ®−îc kÕt qu¶ tèt víi mét cùc tiÓu toµn côc, ta sÏ cã mét bé tham sè tèt nhÊt cho m¹ng. - Häc cÊu tróc: Víi häc tham sè ta gi¶ ®Þnh r»ng m¹ng cã mét cÊu tróc cè ®Þnh. ViÖc häc cÊu tróc cña m¹ng truyÒn th¼ng g¾n víi yªu cÇu t×m ra sè líp cña m¹ng L vµ sè n¬ron trªn mçi líp nj. Tuy nhiªn, víi c¸c m¹ng håi quy cßn ph¶i x¸c ®Þnh thªm c¸c tham sè ng−ìng θ cña c¸c n¬ron trong m¹ng. Mét c¸ch tæng qu¸t lµ ph¶i x¸c ®Þnh bé tham sè P = (L, n1,…nl, θ1,…, θk). C¸c kü thuËt häc cña m¹ng N¬ ron chØ ra c¸ch chØnh söa c¸c träng sè liªn kÕt m¹ng khi mét mÉu häc ®−îc ®−a vµo m¹ng. Sau ®©y sÏ tr×nh bÇy cô thÓ vÒ c¸c kü thuËt häc [3]: a. Häc cã gi¸m s¸t Víi ph−¬ng ph¸p häc cã gi¸m s¸t hay häc cã thÇy (supervised learning), m¹ng ®−îc cung cÊp mét tËp mÉu häc {(Xs, Ys)} theo nghÜa Xs lµ c¸c tÝn hiÖu vµo, th× kÕt qu¶ ra ®óng cña hÖ ph¶i lµ YS. ë mçi lÇn häc, vÐc t¬ tÝn hiÖu vµo Xs ®−îc ®−a vµo m¹ng, sau ®ã so s¸nh sù sai kh¸c gi÷a c¸c kÕt qu¶ ra ®óng Ys víi kÕt qu¶ tÝnh to¸n qua m¹ng outs. Sai sè nµy sÏ ®−îc dïng ®Ó hiÖu chØnh l¹i c¸c träng sè liªn kÕt trong m¹ng. Qóa tr×nh cø tiÕp tôc cho ®Õn khi tho¶ m·n mét tiªu chuÈn nµo ®ã. Cã hai c¸ch sö dông tËp mÉu häc: hoÆc dïng c¸c mÉu lÇn l−ît, hÕt mÉu nµy ®Õn mÉu kh¸c, hoÆc sö dông ®ång thêi tÊt c¶ c¸c mÉu. ANN w Xs §Çu vµo Sai sè §Çu ra thùc tÕ TÝnh sai sè §Çu ra mong muèn Ys H×nh 2.7: S¬ ®å häc tham sè cã gi¸m s¸t D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 39. 38 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông b. Häc t¨ng c−êng Ta thÊy trong kü thuËt häc cã gi¸m s¸t, c¸c vect¬ ®Çu ra ®−îc biÕt mét c¸ch chÝnh x¸c, nh−ng trong mét sè tr−êng hîp cã Ýt th«ng tin, ch¼ng h¹n chØ cã thÓ nãi lµ m¹ng sinh Output qu¸ lín hoÆc chØ ®óng kho¶ng 40%. Khi ®ã chØ cã mét tÝn hiÖu ®¸nh gi¸ lµ “True” hoÆc “False” quay l¹i m¹ng, c¸c thñ tôc häc ®ã gäi lµ thñ tôc häc t¨ng c−êng. ANN w Xs §Çu vµo TÝn hiÖu ®¸nh gi¸ §Çu ra thùc tÕ T¹o tÝn hiÖu ®¸nh gi¸ TÝn hiÖu t¨ng c−êng H×nh 2.8: S¬ ®å häc t¨ng c−êng c. Häc kh«ng gi¸m s¸t Trong ph−¬ng ph¸p häc kh«ng gi¸m s¸t (unsepervised learning), ®Çu ra mong muèn cña m¹ng kh«ng ®−îc cho tr−íc vµ m¹ng ®−îc trang bÞ kh¶ n¨ng tù tæ chøc. M¹ng kh«ng sö dông mèi quan hÖ líp cña c¸c mÉu häc mµ dïng th«ng tin kÕt hîp víi nhãm c¸c n¬ron ®Ó thay ®æi c¸c tham sè côc bé sao cho hîp nhÊt. HÖ thèng häc kh«ng gi¸m s¸t ph©n chia c¸c mÉu vµo c¸c nhãm hoÆc c¸c líp quyÕt ®Þnh b»ng c¸ch chän c¸c n¬ron “chiÕn th¾ng” vµ thay ®æi c¸c träng sè t−¬ng øng cña chóng. Th«ng th−êng, viÖc häc kh«ng gi¸m s¸t dïng nhiÒu tham sè h¬n kü thuËt häc cã gi¸m s¸t. ANN w Xs §Çu vµo H×nh 2.9: S¬ ®å häc kh«ng gi¸m s¸t D−¬ng ThÞ HiÒn Thanh – CNTT 2006 §Çu ra thùc tÕ
  • 40. 39 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Nh− vËy, gi¶i thuËt häc lµ gi¶i thuËt xuÊt ph¸t tõ mét tËp mÉu, qua qu¸ tr×nh huÊn luyÖn ®Ó t×m ra bé träng sè liªn kÕt gi÷a c¸c n¬ron, cã thÓ m« t¶ tæng qu¸t nh− sau: §Çu vµo: Mét tËp mÉu gåm n phÇn tö. §Çu ra: CÊu tróc m¹ng vµ bé träng sè c¸c liªn kÕt n¬ron Gi¶i thuËt: 1. Khëi t¹o träng sè cña m¹ng, ®Æt i =1; 2. §−a mÉu i vµo líp vµo cña m¹ng; 3. Sö dông thuËt to¸n lan truyÒn, nhËn ®−îc gi¸ trÞ c¸c nót ra. NÕu gi¸ trÞ ®Çu ra cña m¹ng ®¹t yªu cÇu hoÆc tho¶ m·n tiªu chuÈn dõng th× kÕt thóc. 4. Söa ®æi träng sè b»ng luËt häc cña m¹ng; 5. NÕu i = n th× ®Æt l¹i i = 1, nÕu kh«ng th× t¨ng i lªn 1: i=i+1 Quay l¹i b−íc 2. Cã nhiÒu tiªu chuÈn dõng qu¸ tr×nh häc, ch¼ng h¹n: - ChuÈn lçi E nhá h¬n mét ng−ìng cho tr−íc: E < θ. - C¸c träng sè cña m¹ng kh«ng thay ®æi nhiÒu sau khi hiÖu chØnh: new old wij − wij p θ . - ViÖc lÆp bÞ b·o hoµ, tøc lµ sè lÇn lÆp v−ît qu¸ mét ng−ìng N cho tr−íc. 2.1.5.2. Lan truyÒn trong m¹ng M¹ng n¬ron lan truyÒn th«ng tin tõ líp vµo ®Õn líp ra. Khi viÖc lan truyÒn kÕt thóc, th«ng tin t¹i líp ra chÝnh lµ kÕt qu¶ cña qu¸ tr×nh lan truyÒn. Gi¶i thuËt lan truyÒn ®−îc m« t¶ nh− sau: §Çu vµo: Mét tËp tÝn hiÖu vµo §Çu ra: KÕt qu¶ ra t−¬ng øng víi tËp tÝn hiÖu vµo Gi¶i thuËt: 1. §−a tËp tÝn hiÖu vµo vµo líp vµo cña m¹ng. 2. TÝnh møc tÝch cùc cña c¸c nót trong m¹ng. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 41. 40 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 3. Víi m¹ng truyÒn th¼ng: NÕu møc tÝch cùc cña nót ra ®· biÕt th× kÕt thóc. Víi m¹ng ph¶n håi: NÕu møc tÝch cùc cña nót ra b»ng hoÆc xÊp xØ b»ng h»ng sè th× kÕt thóc. NÕu kh«ng th× quay l¹i b−íc 2. 2.1.6. §¸nh gi¸ vÒ m¹ng n¬ron M¹ng n¬ron lµ mét c«ng cô h÷u hiÖu trong c¸c m« h×nh tÝnh to¸n th«ng minh víi mét sè ®Æc ®iÓm chÝnh sau: - Cho phÐp x©y dùng mét mét m« h×nh tÝnh to¸n cã kh¶ n¨ng häc d÷ liÖu cao: ChØ cÇn ®−a vµo cho m¹ng mét tËp d÷ liÖu trong qu¸ tr×nh häc lµ m¹ng cã thÓ ph¸t hiÖn nh÷ng rµng buéc d÷ liÖu vµ ¸p dông nh÷ng rµng buéc nµy trong qu¸ tr×nh sö dông mµ kh«ng cÇn cã thªm c¸c tri thøc vÒ miÒn øng dông. Kh¶ n¨ng nµy cho phÐp x©y dùng m« h×nh d÷ liÖu kh¸ dÔ dµng. - Xö lý c¸c qu¸ tr×nh phi tuyÕn: M¹ng cã kh¶ n¨ng xÊp xØ nh÷ng ¸nh x¹ phi tuyÕn tuú ý nªn cã thÓ gi¶i ®−îc nh÷ng bµi to¸n phi tuyÕn phøc t¹p. Nã cã thÓ thùc hiÖn nhiÒu phÐp läc n»m ngoµi kh¶ n¨ng cña nh÷ng bé läc tuyÕn tÝnh th«ng th−êng. §Æc tr−ng nµy rÊt quan träng, vÝ dô trong xÊp xØ m¹ng, miÔn nhiÔu (chÊp nhËn nhiÔu) vµ cã kh¶ n¨ng ph©n líp. - Kh¶ n¨ng cña c¸c qu¸ tr×nh xö song song vµ ph©n t¸n: Cã thÓ ®−a vµo m¹ng mét l−îng lín c¸c n¬ron liªn kÕt víi nhau theo nh÷ng l−îc ®å víi c¸c kiÕn tróc kh¸c nhau. M¹ng cã cÊu tróc song song lín, cã kh¶ n¨ng t¨ng tèc ®é tÝnh to¸n vµ hy väng sÏ ®¸p øng ®−îc yªu cÇu cña nh÷ng hÖ thèng cÇn cã ®é chÝnh x¸c cao h¬n nh÷ng hÖ thèng truyÒn thèng. - M¹ng n¬ron cã kh¶ n¨ng dung thø lçi cao: Cè g¾ng b¾t ch−íc kh¶ n¨ng dung thø lçi cña n·o theo nghÜa hÖ thèng cã thÓ tiÕp tôc lµm viÖc vµ ®iÒu chØnh khi nhËn tÝn hiÖu vµo cã mét phÇn th«ng tin bÞ sai lÖch hoÆc bÞ thiÕu. - Kh¶ n¨ng thÝch nghi vµ tù tæ chøc: vÒ ®Æc tr−ng nµy, ng−êi ta ®Ò cËp tíi kh¶ n¨ng xö lý thÝch nghi vµ ®iÒu chØnh bÒn v÷ng dùa vµo c¸c thuËt to¸n thÝch nghi vµ c¸c quy t¾c tù tæ chøc. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 42. 41 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông - H¬n n÷a, mÆc dï cã rÊt nhiÒu kü thuËt vµ gi¶i thuËt ®−îc sö dông trong khai ph¸ d÷ liÖu, mét sè kü thuËt cßn ®−îc kÕt hîp ®Ó sö dông cã hiÖu qu¶, song m¹ng n¬ron vÉn cã nh÷ng −u ®iÓm ®¸ng chó ý nh−: o Tù ®éng t×m kiÕm tÊt c¶ c¸c mèi quan hÖ cã thÓ gi÷a c¸c nh©n tè chÝnh. o M« h×nh ho¸ tù ®éng c¸c bµi to¸n phøc t¹p mµ kh«ng cÇn biÕt tr−íc møc ®é phøc t¹p. o Cã kh¶ n¨ng chiÕt xuÊt ra nh÷ng th«ng tin nhanh h¬n rÊt nhiÒu so víi nhiÒu c«ng cô kh¸c. Víi c¸c ®Æc ®iÓm trªn ta thÊy: M¹ng n¬ron cho phÐp dÔ dµng x©y dùng c¸c m« h×nh thÝch nghi mµ trong ®ã sù thay ®æi liªn tôc vÒ quy luËt d÷ liÖu cã thÓ dÔ dµng ®−îc cËp nhËt trong qu¸ tr×nh häc l¹i cña m¹ng. Tuy nhiªn, m¹ng n¬ron kh«ng ph¶i mét c«ng cô v¹n n¨ng, nã cã mét sè nh−îc ®iÓm: - M¹ng chØ cã thÓ lµm viÖc víi nh÷ng d÷ liÖu sè. - §Ó m¹ng ®¹t hiÖu qu¶ cÇn cã mét bé d÷ liÖu mÉu ®ñ lín cho qu¸ tr×nh häc. - M¹ng chØ cã tÝnh chÊt néi suy. Kh¶ n¨ng ngo¹i suy rÊt kÐm. - M¹ng kh«ng ®−a ra ®−îc c¬ chÕ gi¶i thÝch. - §«i khi m¹ng ch−a ®¶m b¶o ®é héi tô cÇn thiÕt cho qu¸ tr×nh sö dông. Nh− vËy, mét m¹ng n¬ron nh©n t¹o khi ®em vµo sö dông tr−íc tiªn ph¶i cho m¹ng häc c¸c mÉu häc. Bé träng sè ban ®Çu cña m¹ng th−êng ®−îc khëi t¹o ngÉu nhiªn. Qu¸ tr×nh häc sÏ dÇn dÇn thay ®æi bé träng sè nµy ®Ó cùc tiÓu ho¸ sai sè. Tuy nhiªn, víi bé träng sè khëi t¹o ngÉu nhiªn, m¹ng th−êng bÞ r¬i vµo c¸c gi¸ trÞ cùc tiÓu ®Þa ph−¬ng vµ qu¸ tr×nh hiÖu chØnh träng sè nµy th−êng kh«ng mang l¹i kÕt qu¶ mong muèn, tøc lµ kh«ng lµm gi¶m ®¸ng kÓ sai sè hoÆc thËm chÝ cã lóc cßn lµm t¨ng sai sè. Mét ph−¬ng ph¸p tr¸nh ®−îc tr−êng hîp cùc trÞ ®Þa ph−¬ng lµ kÕt hîp gi¶i thuËt di truyÒn víi m¹ng n¬ron. Gi¶i thuËt di truyÒn sÏ t×m kiÕm mét c¸ch toµn côc c¸c bé träng sè tèt nhÊt cho m¹ng n¬ron vµ cho kÕt qu¶ lµ vïng l©n cËn víi ®iÓm cùc trÞ toµn côc. Sau ®ã, mét vµi bé träng sè tèt nhÊt sÏ ®−îc dïng lµm c¸c gi¸ trÞ träng sè khëi t¹o cho m¹ng n¬ron vµ kÕt qu¶ sÏ lµ cùc trÞ toµn côc. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 43. 42 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 2.2. Gi¶i thuËt di truyÒn trong khaI PH¸ D÷ LIÖU Gi¶i thuËt di truyÒn (Genetic Algorithm - GA) lµ mét ph−¬ng ph¸p t×m kiÕm cùc trÞ tæng thÓ, kü thuËt tèi −u tæng thÓ cã tÇm quan träng rÊt lín ®èi víi nhiÒu vÊn ®Ò kh¸c nhau trong khoa häc vµ kü thuËt. Trong khai ph¸ d÷ liÖu, gi¶i thuËt di truyÒn th−êng ®−îc sö dông trªn nÒn cña c¸c kü thuËt kh¸c nh− m¹ng n¬ron hay ph©n líp theo k l¸ng giÒng gÇn nhÊt. MÆc dï vËy, gi¶i thuËt di truyÒn lµ mét kü thuËt rÊt cÇn thiÕt v× hÇu hÕt c¸c kü thuËt khai ph¸ d÷ liÖu tãm l¹i ®Òu lµ vÊn ®Ò tèi −u ho¸. §èi víi m¹ng n¬ron, ®ã lµ vÊn ®Ò t×m kiÕm c¸c träng sè cho mét cÊu tróc m¹ng tèi −u. §èi víi k l¸ng giÒng gÇn nhÊt, ®ã lµ vÊn ®Ò t×m c¸c träng sè quan träng tèi −u ®Ó ¸p dông cho mçi yÕu tè dù ®o¸n. §èi víi c©y quyÕt ®Þnh, ®ã lµ bµi to¸n t×m kiÕm c¸c yÕu tè dù ®o¸n tèt nhÊt vµ c¸c gi¸ trÞ ®Ó ph©n t¸ch trong viÖc tèi −u ho¸ c©y. Gi¶i thuËt di truyÒn ®−îc ®¸nh gi¸ b»ng hµm thÝch nghi ®Ó x¸c ®Þnh c¸c m« h×nh dù ®o¸n tèi −u cho viÖc khai ph¸ d÷ liÖu. 2.2.1. C¬ b¶n vÒ gi¶i thuËt di truyÒn ý t−ëng cña gi¶i thuËt di truyÒn lµ m« pháng theo c¬ chÕ cña qu¸ tr×nh chän läc vµ di truyÒn trong tù nhiªn. Tõ tËp c¸c lêi gi¶i cã thÓ ban ®Çu, th«ng qua nhiÒu b−íc tiÕn ho¸ ®Ó h×nh thµnh c¸c tËp míi víi nh÷ng lêi gi¶i tèt h¬n, cuèi cïng sÏ t×m ®−îc lêi gi¶i gÇn tèi −u nhÊt [1, 6]. GA sö dông c¸c thuËt ng÷ lÊy tõ di truyÒn häc: - Mét tËp hîp c¸c lêi gi¶i ®−îc gäi lµ mét Líp hay QuÇn thÓ (population). - Mçi lêi gi¶i ®−îc biÓu diÔn bëi mét NhiÔm s¾c thÓ hay C¸ thÓ (chromosome). - NhiÔm s¾c thÓ ®−îc t¹o thµnh tõ c¸c gien Mét qu¸ tr×nh tiÕn ho¸ ®−îc thùc hiÖn trªn mét quÇn thÓ t−¬ng ®−¬ng víi sù t×m kiÕm trªn kh«ng gian c¸c lêi gi¶i cã thÓ cña bµi to¸n. Qu¸ tr×nh t×m kiÕm nµy lu«n ®ßi hái sù c©n b»ng gi÷a hai môc tiªu: Khai th¸c lêi gi¶i tèt nhÊt vµ xem xÐt toµn bé kh«ng gian t×m kiÕm. GA thùc hiÖn t×m kiÕm theo nhiÒu h−íng b»ng c¸ch duy tr× tËp hîp c¸c lêi gi¶i cã thÓ vµ khuyÕn khÝch sù h×nh thµnh vµ trao ®æi th«ng tin gi÷a c¸c h−íng. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 44. 43 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông TËp lêi gi¶i ph¶i tr¶i qua nhiÒu b−íc tiÕn ho¸, t¹i mçi thÕ hÖ, mét tËp míi c¸c c¸ thÓ ®−îc t¹o ra cã chøa c¸c phÇn cña nh÷ng c¸ thÓ thÝch nghi nhÊt trong thÕ hÖ cò. §ång thêi gi¶i thuËt di truyÒn khai th¸c mét c¸ch cã hiÖu qu¶ th«ng tin tr−íc ®ã ®Ó suy xÐt trªn ®iÓm t×m kiÕm míi víi mong muèn cã ®−îc sù c¶i thiÖn qua tõng thÕ hÖ. Nh− vËy, c¸c ®Æc tr−ng ®−îc ®¸nh gi¸ tèt sÏ cã c¬ héi ph¸t triÓn vµ c¸c tÝnh chÊt tåi (kh«ng thÝch nghi víi m«i tr−êng) sÏ cã xu h−íng biÕn mÊt. Gi¶i thuËt di truyÒn tæng qu¸t ®−îc m« t¶ nh− sau: PROCEDURE GeneticAlgorithm; BEGIN T:=0; Khëi t¹o líp P(t); §¸nh gi¸ líp P(t); While not (§iÒu_kiÖn_kÕt_thóc) do Begin t:=t+1; Chän läc P(t) tõ P(t-1); KÕt hîp c¸c c¸ thÓ cña P(t); §¸nh gi¸ líp P(t); end; END; Trong ®ã: - TËp hîp c¸c lêi gi¶i ban ®Çu ®−îc khëi t¹o ngÉu nhiªn. - Trong vßng lÆp thø t, GA x¸c ®Þnh tËp c¸c nhiÔm s¾c thÓ P(t)={x1t, x2t, …, xnt} b»ng c¸ch chän lùa c¸c nhiÔm s¾c thÓ thÝch nghi h¬n tõ P(t-1). Mçi nhiÔm s¾c thÓ xit ®−îc ®¸nh gi¸ ®Ó x¸c ®Þnh ®é thÝch nghi cña nã vµ mét sè thµnh viªn cña P(t) l¹i ®−îc t¸i s¶n xuÊt nhê c¸c to¸n tö Lai ghÐp vµ §ét biÕn. Khi ¸p dông GA ®Ó quyÕt mét bµi to¸n cô thÓ, ph¶i lµm râ c¸c vÊn ®Ò sau: 1. Chän c¸ch biÓu diÔn di truyÒn nµo ®èi víi nh÷ng lêi gi¶i cã thÓ cña bµi to¸n? 2. T¹o tËp lêi gi¶i ban ®Çu nh− thÕ nµo? D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 45. 44 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 3. X¸c ®Þnh hµm ®¸nh gi¸ ®Ó ®¸nh gi¸ møc ®é thÝch nghi cña c¸c c¸ thÓ. 4. X¸c ®Þnh c¸c to¸n tö di truyÒn ®Ó s¶n sinh con ch¸u. 5. X¸c ®Þnh gi¸ trÞ c¸c tham sè mµ GA sö dông nh− kÝch th−íc tËp lêi gi¶i, x¸c suÊt ¸p dông c¸c to¸n tö di truyÒn,… Nh− vËy GA lµ mét gi¶i thuËt lÆp nh»m gi¶i quyÕt c¸c bµi to¸n t×m kiÕm, nã kh¸c víi c¸c thñ tôc tèi −u th«ng th−êng ë nh÷ng ®iÓm c¬ b¶n sau: - Gi¶i thuËt di truyÒn lµm viÖc víi bé m· cña tËp th«ng sè chø kh«ng lµm viÖc trùc tiÕp víi gi¸ trÞ cña c¸c th«ng sè. - Gi¶i thuËt di truyÒn t×m kiÕm song song trªn mét quÇn thÓ chø kh«ng t×m kiÕm tõ mét ®iÓm, mÆt kh¸c nhê ¸p dông c¸c to¸n tö di truyÒn, nã sÏ trao ®æi th«ng tin gi÷a c¸c ®iÓm, nh− vËy sÏ gi¶m bít kh¶ n¨ng kÕt thóc t¹i mét cùc tiÓu côc bé mµ kh«ng t×m thÊy cùc tiÓu toµn côc. - Gi¶i thuËt di truyÒn chØ sö dông th«ng tin cña hµm môc tiªu ®Ó ®¸nh gi¸ qu¸ tr×nh t×m kiÕm chø kh«ng ®ßi hái c¸c th«ng tin bæ trî kh¸c. - C¸c luËt chuyÓn ®æi cña gi¶i thuËt di truyÒn mang tÝnh x¸c suÊt chø kh«ng mang tÝnh tiÒn ®Þnh. C¸c th«ng sè cña bµi to¸n ®−îc m· ho¸ thµnh c¸c chuçi. C¸ch ®¬n gi¶n nhÊt lµ chóng ta dïng chuçi bit ®Ó m· ho¸ c¸c th«ng sè. Mçi th«ng sè ®−îc m· ho¸ b»ng mét chuçi bÝt cã ®é dµi nµo ®ã, sau ®ã nèi chóng l¹i víi nhau, ta sÏ cã mét chuçi m· ho¸ cho tËp c¸c th«ng sè. §Ó tÝnh to¸n gi¸ trÞ hµm môc tiªu t−¬ng øng víi mçi chuçi th«ng sè, ta ph¶i gi¶i m· bé th«ng sè nµy theo mét quy t¾c nµo ®ã. Gi¶i thuËt di truyÒn t×m kiÕm song song trªn mét tËp c¸c chuçi, do ®ã gi¶m thiÓu ®−îc kh¶ n¨ng bá qua c¸c cùc trÞ toµn côc vµ dõng l¹i ë cùc trÞ ®Þa ph−¬ng. §iÒu nµy gi¶i thÝch v× sao gi¶i thuËt di truyÒn mang tÝnh toµn côc. HiÖn nay gi¶i thuËt di truyÒn ®−îc ¸p dông ngµy cµng nhiÒu trong kinh doanh, khoa häc vµ kü thuËt v× tÝnh chÊt kh«ng qu¸ phøc t¹p mµ hiÖu qu¶ cña nã. H¬n n÷a, gi¶i thuËt di truyÒn kh«ng ®ßi hái kh¾t khe ®èi víi kh«ng gian t×m kiÕm nh− gi¶ ®Þnh vÒ sù liªn tôc, sù cã ®¹o hµm,.... B»ng lý thuyÕt vµ thùc nghiÖm, gi¶i thuËt di truyÒn ®· ®−îc chøng minh lµ gi¶i thuËt t×m kiÕm toµn côc m¹nh trong c¸c kh«ng gian lêi gi¶i phøc t¹p. D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 46. 45 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông 2.2.2. Mét sè c¸ch biÓu diÔn lêi gi¶i cña gi¶i thuËt di truyÒn BiÓu diÔn lêi gi¶i lµ vÊn ®Ò ®Çu tiªn ®−îc quan t©m tíi khi b¾t tay vµo gi¶i quyÕt mét bµi to¸n b»ng GA. ViÖc lùa chän c¸ch biÓu diÔn lêi gi¶i nh− thÕ nµo phô thuéc vµo tõng líp bµi to¸n thËm chÝ vµo tõng bµi to¸n cô thÓ. GA kinh ®iÓn dïng chuçi nhÞ ph©n cã chiÒu dµi x¸c ®Þnh ®Ó biÓu diÔn lêi gi¶i. Tuy nhiªn, thùc tÕ cho thÊy c¸ch biÓu diÔn nµy khã ¸p dông trùc tiÕp cho c¸c bµi to¸n tèi −u cì lín cã nhiÒu rµng buéc. V× lý do ®ã, GA c¶i tiÕn hay cßn gäi lµ Ch−¬ng tr×nh tiÕn ho¸ ®· t×m kiÕm c¸c c¸ch biÓu diÔn thÝch nghi vµ tù nhiªn h¬n víi c¸c bµi to¸n thùc tÕ nh−: BiÓu diÔn theo trËt tù, biÓu diÔn theo gi¸ trÞ thùc, biÓu diÔn b»ng c¸c cÊu tróc c©y, ma trËn, … PhÇn nµy sÏ tr×nh bÇy tæng quan vÒ c¸c c¸ch biÓu diÔn ®ã. 2.2.2.1. BiÓu diÔn nhÞ ph©n (Binary encoding) Trong biÓu diÔn nhÞ ph©n, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c bit 0 hoÆc 1. Ch¼ng h¹n: NST A: 101100101100101011100101 NST B: 111111100000110000011111 VÝ dô: Bµi to¸n “XÕp ba l«” ®−îc ph¸t biÓu: “Cho mét tËp c¸c ®å vËt, mçi ®å vËt cã gi¸ trÞ vµ kÝch th−íc x¸c ®Þnh, cho biÕt søc chøa cña ba l«. H·y chän c¸ch xÕp c¸c ®å vËt vµo ba l« sao cho tæng gi¸ trÞ cña c¸c ®å vËt lµ cao nhÊt”. BiÓu diÔn mçi lêi gi¶i cña bµi to¸n trªn b»ng mét chuçi nhÞ ph©n, ë ®ã mçi bit 0 hoÆc 1 øng víi mét ®å vËt kh«ng ®−îc chän hoÆc ®−îc chän. Víi c¸ch biÓu diÔn ®ã, bµi to¸n ®−îc ph¸t biÓu l¹i nh− sau: “ Cho mét tËp c¸c khèi l−¬ng W[i], tËp c¸c gi¸ trÞ P[i] vµ søc chøa C. T×m mét vect¬ nhÞ ph©n x=<x1, x2, …, xn> tho¶ m·n: ∑ n i =1 x[i ]-W [i ] ≤ C víi P(x) = ∑ n i =1 x[i ]-W [i ] lµ cùc ®¹i. 2.2.2.2. BiÓu diÔn ho¸n vÞ (Permutation encoding) D−¬ng ThÞ HiÒn Thanh – CNTT 2006
  • 47. 46 Kü thuËt m¹ng n¬ron vµ gi¶i thuËt di truyÒn trong khai ph¸ d÷ liÖu vµ thö nghiÖm øng dông Sö dông trong bµi to¸n mµ thø tù c¸c thµnh phÇn cña lêi gi¶i quyÕt ®Þnh møc ®é phï hîp cña lêi gi¶i, ®iÓn h×nh nh− bµi to¸n “ Ng−êi du lÞch”. Víi c¸ch biÓu diÔn thø tù, c¸ch s¾p xÕp cña c¸c gien kh¸c nhau cho ta c¸c nhiÔm s¾c thÓ kh¸c nhau, mçi nhiÔm s¾c thÓ lµ mét chuçi c¸c sè nguyªn diÔn t¶ quan hÖ tiÕp nèi. Lêi gi¶i ®−îc biÓu diÔn b»ng mét vect¬ sè nguyªn v=( i1, i2, …, in ) víi v lµ mét ho¸n vÞ cña tËp thø tù. VÝ dô: NST A: ( 1 5 3 2 6 4 7 9 8 ) NST B: ( 8 5 6 7 2 3 1 4 9 ) 2.2.2.3. BiÓu diÔn gi¸ trÞ (Value encoding) Th−êng dïng trong c¸c bµi to¸n mµ c¸ch biÓu diÔn chuçi nhÞ ph©n lµ khã thùc hiÖn nh− miÒn x¸c ®Þnh cña c¸c thµnh phÇn lêi gi¶i kh¸ lín víi ®é chÝnh x¸c yªu cÇu cao, miÒn x¸c ®Þnh kh«ng râ rµng, hay c¸c bµi to¸n mµ viÖc biÓu diÔn nhÞ ph©n lµ “ kh«ng tù nhiªn”. Trong biÓu diÔn gi¸ trÞ, mçi c¸ thÓ lµ mét chuçi c¸c gi¸ trÞ liªn quan ®Õn bµi to¸n, c¸c gi¸ trÞ cã thÓ lµ sè thùc, sè nguyªn, ký tù hay c¸c ®èi t−îng phøc t¹p kh¸c. VÝ dô: NST A: (0.1229 2.9234 3.0012, 0.3567, 4.3828) NST B (AJUHNEOLDOGSGLLIKUFSEJHJH) 2.2.2.4. BiÓu diÔn d¹ng c©y (Tree encoding) C¸ch biÓu diÔn lêi gi¶i dïng cÊu tróc c©y ®−îc dïng chñ yÕu trong c¸c ch−¬ng tr×nh tiÕn ho¸, trong biÓu diÔn biÓu thøc, hay lËp c¸c ch−¬ng tr×nh di truyÒn häc. Víi c¸ch biÓu diÔn nµy, mçi c¸ thÓ lµ mét c©y c¸c ®èi t−îng. 2.2.3. C¸c to¸n tö di truyÒn C¸c c¸ thÓ trong gi¶i thuËt di truyÒn lµ c¸c chuçi bit ®−îc t¹o bëi viÖc c¾t d¸n c¸c chuçi bit con. Mçi chuçi bit ®¹i diÖn cho mét tËp th«ng sè trong kh«ng gian t×m kiÕm, nªn ®−îc coi lµ lêi gi¶i tiÒm n¨ng cña bµi to¸n tèi −u. Tõ mçi chuçi bit ta gi¶i m· ®Ó tÝnh l¹i tËp thèng sè, sau ®ã tÝnh ®−îc gi¸ trÞ hµm môc tiªu. Tõ ®ã, gi¸ trÞ hµm môc tiªu ®−îc biÕn ®æi thµnh gi¸ trÞ do ®é phï hîp cña tõng chuçi. D−¬ng ThÞ HiÒn Thanh – CNTT 2006