SlideShare a Scribd company logo
1 of 27
Ⅰ

Өгөгдлийн олборлолтын ашиглалт
Зорилт
Ангилал

Багцлах
Ангилал
•

•
•

Бичлэгийн цуглуулга өгөгдсөн
• Бичлэг бүр нь атрибутын цогцыг агуулсан ба нэг
атрибут нь нэг класс.
Бусад атрибутын утгын зориулалтаар класс
атрибутын загварыг гаргах
Зорилго: Өмнө нь үл мэдэгдэх бичлэгийг байж
болохуйц мөн зөв классд тодорхойлох
• Test set нь загварын нарийн тодорхойлохын тулд
ашигладаг бөгөөд сүүлийн үед өгөгдсөн өгөгдлийн
цуглууллагыг training set болон test set гэж
хуваадаг болсон.Training set нь загварыг босгон
байгуулахад хэрэглэдэг бол test set нь түүнийг
батлахад хэрэглэдэг.
Ангилал
Tid

Attrib1

Attrib2

Attrib3

Class

1

Yes

Large

125K

No

2

No

Medium

100K

No

3

No

Small

70K

No

4

Yes

Medium

120K

No

5

No

Large

95K

Yes

6

No

Medium

60K

No

7

Yes

Large

220K

No

8

No

Small

85K

Yes

9

No

Medium

75K

No

10

No

Small

90K

Learning
algorithm

Yes

Induction
Learn
Model
Model

10

Training Set
Tid

Attrib1

Attrib2

11

No

Small

55K

?

12

Yes

Medium

80K

?

13

Yes

Large

110K

?

14

No

Small

95K

?

15

No

Large

67K

?

10

Test Set

Attrib3

Apply
Model

Class

Deduction
Ангилалын жишээ


Хавдрын эсийг халдвартай халдваргүйг таамаглах



Кредит крадитны үйл ажиллагааг
хуйлварынх уу эсвэл хууль ёсных уу гэдгийг ангилах



Протоны эсийг ялгах



Мэдээллийг ангилах жишээ нь
ийгэм улс төрийн гэх мэт.

спортын , н
Ангилалын алгоритмууд
Шийдвэрийн модонд сууриласан метод
 Дүрэмд сууриласан метод
 Санах ойд сууриласан бодлого
 Мэдрэлийн системийн сүлжээ
 Naïve Bayes and Bayesian Belief сүлжээ
 Support Vector Machines

Шийдвэрийн модны жишээ

Tid Refund Marital
Status
1

Yes

Single

125K

No

2

No

Married

100K

No

3

No

Single

70K

No

4

Yes

Married

120K

No

5

No

Divorced 95K

Yes

6

No

Married

No

7

Yes

Divorced 220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10

No

Single

90K

Splitting Attributes

Taxable
Income Cheat

Yes

60K

Refund
Yes

No

NO

MarSt
Single, Divorced
TaxInc

< 80K
NO

NO
> 80K
YES

10

Training Data

Married

Model: Decision Tree
Шийдвэрийн модны жишээ

Tid Refund Marital
Status
1

Yes

Single

125K

No

2

No

Married

100K

No

3

No

Single

70K

No

4

Yes

Married

120K

No

5

No

Divorced 95K

No

Married

No

7

Yes

Divorced 220K

No

8

No

Single

85K

Yes

9

No

Married

75K

No

10

No

Single

90K

Yes

Married

Yes

6

10

Taxable
Income Cheat

MarStSingle, Divor
ced

60K

NO

Refund
No

Yes
NO

TaxInc
< 80K
NO

> 80K
YES
Шийдвэрийн модны ангилал үүрэг
Tid

Attrib1

Attrib2

Attrib3

Class

1

Yes

Large

125K

No

2

No

Medium

100K

No

3

No

Small

70K

No

4

Yes

Medium

120K

No

5

No

Large

95K

Yes

6

No

Medium

60K

No

7

Yes

Large

220K

No

8

No

Small

85K

Yes

9

No

Medium

75K

No

10

No

Small

90K

Tree
Induction
algorithm

Yes

Induction
Learn
Model
Model

10

Training Set

Tid

Attrib1

Attrib2

11

No

Small

55K

?

12

Yes

Medium

80K

?

13

Yes

Large

110K

?

14

No

Small

95K

?

15

No

Large

67K

?

10

Test Set

Attrib3

Apply
Model

Class

Deduction

Decision
Tree
Test Data-д загварыг ашиглах
Test Data
Модны оройноос эхлэнэ.

10

Yes

No

NO

MarSt

Single, Divorced
TaxInc
< 80K
NO

Married
NO

> 80K
YES

Taxable
Income Cheat

No

Refund

Refund Marital
Status

80K

Married

?
Test Data-д загварыг ашиглах
Test Data
Refund Marital
Status
No

Refund

10

Yes

No

NO

MarSt

Single, Divorced
TaxInc
< 80K
NO

Married
NO

> 80K
YES

Taxable
Income Cheat
80K

Married

?
Test Data-д загварыг ашиглах
Test Data
Refund Marital
Status
No

Refund

10

Yes

No

NO

MarSt
Single, Divorced
TaxInc
< 80K

NO

Married
NO

> 80K
YES

Taxable
Income Cheat
80K

Married

?
Test Data-д загварыг ашиглах
Test Data
Refund Marital
Status
No

Refund

10

Yes

No

NO

MarSt
Single, Divorced
TaxInc
< 80K

NO

Married
NO

> 80K
YES

Taxable
Income Cheat
80K

Married

?
Test Data-д загварыг ашиглах
Test Data
Refund Marital
Status
No

Refund

10

Yes

No

NO

MarSt
Single, Divorced
TaxInc
< 80K

NO

Married
NO

> 80K
YES

Taxable
Income Cheat
80K

Married

?
Test Data-д загварыг ашиглах
Test Data
Refund Marital
Status
No

Refund

Taxable
Income Cheat
80K

Married

?

10

Yes

No

NO

MarSt
Single, Divorced
TaxInc
< 80K

NO

Married
NO

> 80K
YES

Assign Cheat to “No”
Шийдвэрийн модны ангилал үүрэг
Tid

Attrib1

Attrib2

Attrib3

Class

1

Yes

Large

125K

No

2

No

Medium

100K

No

3

No

Small

70K

No

4

Yes

Medium

120K

No

5

No

Large

95K

Yes

6

No

Medium

60K

No

7

Yes

Large

220K

No

8

No

Small

85K

Yes

9

No

Medium

75K

No

10

No

Small

90K

Tree
Induction
algorithm

Yes

Induction
Learn
Model
Model

10

Training Set

Tid

Attrib1

Attrib2

11

No

Small

55K

?

12

Yes

Medium

80K

?

13

Yes

Large

110K

?

14

No

Small

95K

?

15

No

Large

67K

?

10

Test Set

Attrib3

Apply
Model

Class

Deduction

Deci
sion
Tree
Багцлал

Давхарлагдсан тойрог технологи
 Багцлах даа:


– Хямд бөгөөд ойролцоо ижил төсөөтэй хэмж

игдэхүүн
– Илүү үнэтэй үнэн зөв ижил төсөөтэй хэмжи
гдэхүүн
Canopy


Canopy алгоритм
– алгоритм нь багцлах процесс нь 2 үе шатаас бүрд

энэ.
 Эхний үе шат: алгоритм нь давхарлагдсан тойрг
уудын зарим тоог гаргахын тулд зайн хэмжигдэ
хүүнийг ашигладаг. Өгөгдөл цэг бүр нэг эсвэл н
эгээс дээш тойрогт хамрагдах бөгөөд өгөгдөл ц
эг бүр хамгийн багадаа нэг тойрогт хамрагдах ё
стой.
 Хоёрдугаар үе шат: нарийн тодорхой зайн хэмж
игдэхүүнийг ашиглан уламжлалт багцлах аргыг
ашиглана.
Canopy


Жишээ
– Давхарлагдсан тойрог нь өгөгдлийн цуглуулгыг хамруулна(х

учина)

Нарийн зураас бүр нь төв цэгтэй хамгийн ойр х
өршийг агуулна
 Тасархай зураас бүр нь төв цэгээс хол хөршийг
агуулна

Canopy
Canopy
Canopy


Хамгийн эхний цэг нь хамгийн эхний тойргийн төв бол
но.(кодон дээр 2-р мөр)
– Өгөгдлийн цуглуулгын бүх өгөгдөл цэгийн төв нь байна

– LS: n ширхэг өгөгдөл цэгийн нийлбэр
– N: өгөгдлийн цуглуулгын тоо хэмжээ
– Xi: d-хэмжээси өгөгдөл цэг
Canopy


Оролтын параметр: Creat_circles(D,Rad)
– D нь бүх цэг бөгөөд ямар нэгэн тойрогт хамрагдааг
үй
– Rad нь тойргийн радус
 Өгөгдлийн радус

–

–

R нь тойргийн радус бөгөөд энэ нь бүх өгөгө
л цэгийг агуулна
Area=3.14*Rd
Canopy
–

Тэгш өнцөгтийн талбай

– D: цэгийн хэмжээс

– Li: i хэмжээс дэх хамгийн бага утга болон хамгийн их утга хоё

рын хоорондох ялгаа бөгөөд энэ нь i хэмжээсийн урт


Харьцаа талбай=(тойргийн талбай/ тэгш өнцөгтийн та
лбай) эсвэл эсрэгээр нь
Харьцаа талбай=(тэгш өнцөгтийн талбай/тойргийн тал
бай)
0<харьцаа талбай<1
 Rad=d*ratio area + ratio area/2
 Тойргийн талбай болон тэгш өнцөгтийн талбай

– Зурагт, эхний хэмжээстийн урт нь 2 цэнхэр өнгийн цэгээр тод

орхойлогдсон(х тэнхлэг), хоёрдугаар хэмжээстийн урт нь 2 у
лаан өнгийн цэгээр тодорхойлогдсон(у тэнхлэг)
Лекц 3

More Related Content

Viewers also liked

Viewers also liked (7)

Лекц 5 - 6
Лекц 5 - 6Лекц 5 - 6
Лекц 5 - 6
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Лекц 8
Лекц 8Лекц 8
Лекц 8
 
Open Data at smart resilient city of Ulaanbaatar
Open Data at smart resilient city of UlaanbaatarOpen Data at smart resilient city of Ulaanbaatar
Open Data at smart resilient city of Ulaanbaatar
 
Лекц 1
Лекц 1Лекц 1
Лекц 1
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7
 
Лабораторийн ажил 12
Лабораторийн ажил 12Лабораторийн ажил 12
Лабораторийн ажил 12
 

More from Chinzorig Undarmaa

Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолтChinzorig Undarmaa
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамжChinzorig Undarmaa
 
Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4Chinzorig Undarmaa
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолтChinzorig Undarmaa
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолтChinzorig Undarmaa
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамжChinzorig Undarmaa
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7Chinzorig Undarmaa
 
Лабораторийн ажил 6
Лабораторийн ажил 6Лабораторийн ажил 6
Лабораторийн ажил 6Chinzorig Undarmaa
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7Chinzorig Undarmaa
 
Лабораторийн ажил 5
Лабораторийн ажил 5Лабораторийн ажил 5
Лабораторийн ажил 5Chinzorig Undarmaa
 
Лабораторийн ажил 4
Лабораторийн ажил 4Лабораторийн ажил 4
Лабораторийн ажил 4Chinzorig Undarmaa
 
Лабораторийн ажил 2
Лабораторийн ажил 2Лабораторийн ажил 2
Лабораторийн ажил 2Chinzorig Undarmaa
 

More from Chinzorig Undarmaa (16)

Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамж
 
Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4Лабораторийн ажил 3 - 4
Лабораторийн ажил 3 - 4
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Хичээлийн тодорхойлолт
Хичээлийн тодорхойлолтХичээлийн тодорхойлолт
Хичээлийн тодорхойлолт
 
Бие даалтын удирдамж
Бие даалтын удирдамжБие даалтын удирдамж
Бие даалтын удирдамж
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7
 
Лабораторийн ажил 6
Лабораторийн ажил 6Лабораторийн ажил 6
Лабораторийн ажил 6
 
Лабораторийн ажил 7
Лабораторийн ажил 7Лабораторийн ажил 7
Лабораторийн ажил 7
 
Лабораторийн ажил 5
Лабораторийн ажил 5Лабораторийн ажил 5
Лабораторийн ажил 5
 
Лекц 5
Лекц 5Лекц 5
Лекц 5
 
Лабораторийн ажил 4
Лабораторийн ажил 4Лабораторийн ажил 4
Лабораторийн ажил 4
 
Лекц 4
Лекц 4Лекц 4
Лекц 4
 
Лекц 3
Лекц 3Лекц 3
Лекц 3
 
Лабораторийн ажил 2
Лабораторийн ажил 2Лабораторийн ажил 2
Лабораторийн ажил 2
 
Лекц 2
Лекц 2Лекц 2
Лекц 2
 

Лекц 3

  • 1.
  • 4. Ангилал • • • Бичлэгийн цуглуулга өгөгдсөн • Бичлэг бүр нь атрибутын цогцыг агуулсан ба нэг атрибут нь нэг класс. Бусад атрибутын утгын зориулалтаар класс атрибутын загварыг гаргах Зорилго: Өмнө нь үл мэдэгдэх бичлэгийг байж болохуйц мөн зөв классд тодорхойлох • Test set нь загварын нарийн тодорхойлохын тулд ашигладаг бөгөөд сүүлийн үед өгөгдсөн өгөгдлийн цуглууллагыг training set болон test set гэж хуваадаг болсон.Training set нь загварыг босгон байгуулахад хэрэглэдэг бол test set нь түүнийг батлахад хэрэглэдэг.
  • 6. Ангилалын жишээ  Хавдрын эсийг халдвартай халдваргүйг таамаглах  Кредит крадитны үйл ажиллагааг хуйлварынх уу эсвэл хууль ёсных уу гэдгийг ангилах  Протоны эсийг ялгах  Мэдээллийг ангилах жишээ нь ийгэм улс төрийн гэх мэт. спортын , н
  • 7. Ангилалын алгоритмууд Шийдвэрийн модонд сууриласан метод  Дүрэмд сууриласан метод  Санах ойд сууриласан бодлого  Мэдрэлийн системийн сүлжээ  Naïve Bayes and Bayesian Belief сүлжээ  Support Vector Machines 
  • 8. Шийдвэрийн модны жишээ Tid Refund Marital Status 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Splitting Attributes Taxable Income Cheat Yes 60K Refund Yes No NO MarSt Single, Divorced TaxInc < 80K NO NO > 80K YES 10 Training Data Married Model: Decision Tree
  • 9. Шийдвэрийн модны жишээ Tid Refund Marital Status 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K No Married No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Married Yes 6 10 Taxable Income Cheat MarStSingle, Divor ced 60K NO Refund No Yes NO TaxInc < 80K NO > 80K YES
  • 10. Шийдвэрийн модны ангилал үүрэг Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Tree Induction algorithm Yes Induction Learn Model Model 10 Training Set Tid Attrib1 Attrib2 11 No Small 55K ? 12 Yes Medium 80K ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K ? 10 Test Set Attrib3 Apply Model Class Deduction Decision Tree
  • 11. Test Data-д загварыг ашиглах Test Data Модны оройноос эхлэнэ. 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Taxable Income Cheat No Refund Refund Marital Status 80K Married ?
  • 12. Test Data-д загварыг ашиглах Test Data Refund Marital Status No Refund 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Taxable Income Cheat 80K Married ?
  • 13. Test Data-д загварыг ашиглах Test Data Refund Marital Status No Refund 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Taxable Income Cheat 80K Married ?
  • 14. Test Data-д загварыг ашиглах Test Data Refund Marital Status No Refund 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Taxable Income Cheat 80K Married ?
  • 15. Test Data-д загварыг ашиглах Test Data Refund Marital Status No Refund 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Taxable Income Cheat 80K Married ?
  • 16. Test Data-д загварыг ашиглах Test Data Refund Marital Status No Refund Taxable Income Cheat 80K Married ? 10 Yes No NO MarSt Single, Divorced TaxInc < 80K NO Married NO > 80K YES Assign Cheat to “No”
  • 17. Шийдвэрийн модны ангилал үүрэг Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No 10 No Small 90K Tree Induction algorithm Yes Induction Learn Model Model 10 Training Set Tid Attrib1 Attrib2 11 No Small 55K ? 12 Yes Medium 80K ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K ? 10 Test Set Attrib3 Apply Model Class Deduction Deci sion Tree
  • 18. Багцлал Давхарлагдсан тойрог технологи  Багцлах даа:  – Хямд бөгөөд ойролцоо ижил төсөөтэй хэмж игдэхүүн – Илүү үнэтэй үнэн зөв ижил төсөөтэй хэмжи гдэхүүн
  • 19. Canopy  Canopy алгоритм – алгоритм нь багцлах процесс нь 2 үе шатаас бүрд энэ.  Эхний үе шат: алгоритм нь давхарлагдсан тойрг уудын зарим тоог гаргахын тулд зайн хэмжигдэ хүүнийг ашигладаг. Өгөгдөл цэг бүр нэг эсвэл н эгээс дээш тойрогт хамрагдах бөгөөд өгөгдөл ц эг бүр хамгийн багадаа нэг тойрогт хамрагдах ё стой.  Хоёрдугаар үе шат: нарийн тодорхой зайн хэмж игдэхүүнийг ашиглан уламжлалт багцлах аргыг ашиглана.
  • 20. Canopy  Жишээ – Давхарлагдсан тойрог нь өгөгдлийн цуглуулгыг хамруулна(х учина) Нарийн зураас бүр нь төв цэгтэй хамгийн ойр х өршийг агуулна  Тасархай зураас бүр нь төв цэгээс хол хөршийг агуулна 
  • 23. Canopy  Хамгийн эхний цэг нь хамгийн эхний тойргийн төв бол но.(кодон дээр 2-р мөр) – Өгөгдлийн цуглуулгын бүх өгөгдөл цэгийн төв нь байна – LS: n ширхэг өгөгдөл цэгийн нийлбэр – N: өгөгдлийн цуглуулгын тоо хэмжээ – Xi: d-хэмжээси өгөгдөл цэг
  • 24. Canopy  Оролтын параметр: Creat_circles(D,Rad) – D нь бүх цэг бөгөөд ямар нэгэн тойрогт хамрагдааг үй – Rad нь тойргийн радус  Өгөгдлийн радус – – R нь тойргийн радус бөгөөд энэ нь бүх өгөгө л цэгийг агуулна Area=3.14*Rd
  • 25. Canopy – Тэгш өнцөгтийн талбай – D: цэгийн хэмжээс – Li: i хэмжээс дэх хамгийн бага утга болон хамгийн их утга хоё рын хоорондох ялгаа бөгөөд энэ нь i хэмжээсийн урт  Харьцаа талбай=(тойргийн талбай/ тэгш өнцөгтийн та лбай) эсвэл эсрэгээр нь Харьцаа талбай=(тэгш өнцөгтийн талбай/тойргийн тал бай) 0<харьцаа талбай<1
  • 26.  Rad=d*ratio area + ratio area/2  Тойргийн талбай болон тэгш өнцөгтийн талбай – Зурагт, эхний хэмжээстийн урт нь 2 цэнхэр өнгийн цэгээр тод орхойлогдсон(х тэнхлэг), хоёрдугаар хэмжээстийн урт нь 2 у лаан өнгийн цэгээр тодорхойлогдсон(у тэнхлэг)