The presentation explains the decision tree and ensemble in machine learning.
I presented this at the Big data club for college students.
(Jan 31st, 2019)
7. ์ด๋ฆ ํตํ์๊ฐ(๋ถ) ์์น์ง ๋ง์คํฌ ๊ฐ๊ธฐ
์ด์์ฐฌ 40 X O No
๊น์๋ 35 O O No
๋ฐ์ ํ 110 O X Yes
๊นํํฌ 85 O O No
ํ์ง๋ฏผ 100 X O Yes
์ข ์๋ณ์
Ex) ๊ฐ๊ธฐ ์ ๋ฌด๋ฅผ ๋ง์ถ์!
7
8. 8
Train_data
์ด๋ฆ ํตํ์๊ฐ(๋ถ) ์์น์ง ๋ง์คํฌ ๊ฐ๊ธฐ
์ด์์ฐฌ 40 X O No
๊น์๋ 35 O O No
๋ฐ์ ํ 110 O X Yes
๊นํํฌ 85 O O No
ํ์ง๋ฏผ 100 X O Yes
ํตํ์๊ฐ >= 60
์์น์ง ์ฌ๋ถ
๊ฐ๊ธฐ: No
๊ฐ๊ธฐ: Yes ๋ง์คํฌ ์ฌ๋ถ
No Yes
No Yes
๊ฐ๊ธฐ: Yes ๊ฐ๊ธฐ: No
No Yes
9. Train_data๋ฅผ ์๋ฒฝ ๋ถ๋ฅ!
์ ํ๋=1
์ฑ๋ฅ ์ข์ Tree
9
Train_data
์ด์์ฐฌ
๊น์๋
ํ์ง๋ฏผ
๋ฐ์ ํ ๊นํํฌ
์ด๋ฆ ํตํ์๊ฐ(๋ถ) ์์น์ง ๋ง์คํฌ ๊ฐ๊ธฐ
์ด์์ฐฌ 40 X O No
๊น์๋ 35 O O No
๋ฐ์ ํ 110 O X Yes
๊นํํฌ 85 O O No
ํ์ง๋ฏผ 100 X O Yes
ํตํ์๊ฐ >= 60
์์น์ง ์ฌ๋ถ
๊ฐ๊ธฐ: No
๊ฐ๊ธฐ: Yes ๋ง์คํฌ ์ฌ๋ถ
No Yes
No Yes
๊ฐ๊ธฐ: Yes ๊ฐ๊ธฐ: No
No Yes
10. 10
Train_data
์ด์์ฐฌ
๊น์๋
ํ์ง๋ฏผ
๋ฐ์ ํ ๊นํํฌ
์กฐ๋จ๋น 50 O X No
Test_data
์ด๋ฆ ํตํ์๊ฐ(๋ถ) ์์น์ง ๋ง์คํฌ ๊ฐ๊ธฐ
์ด์์ฐฌ 40 X O No
๊น์๋ 35 O O No
๋ฐ์ ํ 110 O X Yes
๊นํํฌ 85 O O No
ํ์ง๋ฏผ 100 X O Yes
ํตํ์๊ฐ >= 60
์์น์ง ์ฌ๋ถ
๊ฐ๊ธฐ: No
๊ฐ๊ธฐ: Yes ๋ง์คํฌ ์ฌ๋ถ
No Yes
No Yes
๊ฐ๊ธฐ: Yes ๊ฐ๊ธฐ: No
No Yes
์กฐ๋จ๋น?? -> ์ค๋ถ๋ฅ
11. 11
Train_data
์ด์์ฐฌ
๊น์๋
ํ์ง๋ฏผ
์กฐ๋จ๋น 50 O X No
Test_data
์ด๋ฆ ํตํ์๊ฐ(๋ถ) ์์น์ง ๋ง์คํฌ ๊ฐ๊ธฐ
์ด์์ฐฌ 40 X O No
๊น์๋ 35 O O No
๋ฐ์ ํ 110 O X Yes
๊นํํฌ 85 O O No
ํ์ง๋ฏผ 100 X O Yes
ํตํ์๊ฐ >= 60
์์น์ง ์ฌ๋ถ
๊ฐ๊ธฐ: No
๊ฐ๊ธฐ: Yes ๊ฐ๊ธฐ: No
No Yes
No Yes
๊นํํฌ
์กฐ๋จ๋น
์ง๋ฌธ 1๊ฐ๋ฅผ ๋ ํ๋๋ผ๋ฉด?
Train_data๋ฅผ ์๋ฒฝํ๊ฒ ๋ถ๋ฅํ์ง ๋ชปํ์ง๋ง Test_data๋ฅผ ๋ง์ถ ์ ์๋ค.
โ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ง๋ฌธ์ ํด์ผํ ๊น?โ
โ์ด๋ค ๊ธฐ์ค์ผ๋ก ์ง๋ฌธ์ ์๋ผ์ผ ํ ๊น?โ
42. 1. n๋ฒ ๋จ์ ์์ ๋ณต์ ์ถ์ถ
Bagging
42
A
B
C
D
Train data
A
A A
B
B
D D
D
C
C
C
C
. . .
Bootstrap sample1 Bootstrap sample2 Bootstrap sample3
43. 2. ์ฌ๋ฌ ๊ฐ์ ๋จ์ผ ๋ชจ๋ธ ์์ฑ
Bagging
43
A
A A
B
B
D D
D
C
C
C
C
. . .
training
training
training
model1 model2 model3 . . .
๋ฒ์ฃผํ: voting
์ฐ์ํ: averaging
56. 1. 1ํ ๋ณต์์ถ์ถ ํ ํธ๋ฆฌ ๋ชจ๋ธ ์์ฑ
AdaBoost
56
A
B
C
D
Train data
A
C
D
Tree 1
Bagging๊ณผ ๋์ผ
A
57. 2. ๊ฐ์ค์น ์ ๋ฐ์ดํธ
AdaBoost
57
B
C
D
A
B
C
D
Train data
Train_Data๋ก test๋ฅผ ํ ํ,
์ค๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ค์ด ์ถ์ถ๋ ํ๋ฅ ์ ๋์ธ ํ 1๋ฒ ๊ณผ์ ์ ๋ค์ ์ํ
๊ฐ์ค์น
A
1
4
B
1
4
C
1
4
D
1
4
์ ๋ฐ์ดํธ๋ ๊ฐ์ค์น
A
1
4
โ exp(โ๐)/(๐ด + ๐ต + ๐ถ + ๐ท)
B
1
4
โ exp(๐)/(๐ด + ๐ต + ๐ถ + ๐ท)
C
1
4
โ exp(โ๐)/(๐ด + ๐ต + ๐ถ + ๐ท)
D
1
4
โ exp(โ๐)/(๐ด + ๐ต + ๐ถ + ๐ท)
B
Tree 2
#. e(์๋ฌ์จ): ์ค๋ฅ๋ฐ์ดํฐ ๊ฐ์ค์น ํฉ / ์ ์ฒด ๋ฐ์ดํฐ ๊ฐ์ค์น ํฉ
#. a(์ ๋ขฐ๋):
1
2
โ ln(
1โ๐
๐
)
B๋ง ์ค๋ถ๋ฅ๋ ์ํ
58. 3. ์ ๊ณผ์ ๋ฐ๋ณต
AdaBoost
58
์๋ฌ์จ์ด 0์ด ๋ ๋๊น์ง ํน์ ํธ๋ฆฌ ๋ชจ๋ธ ์๊ฐ ์ผ์ ํ ์์ ๋๋ฌํ ๋๊น์ง
์ ๊ณผ์ ๋ค์ ๊ณ์ ๋ฐ๋ณต
. . .
A
B
C
D
Train data
D
C
D
B
B
C
D
B C
Tree 1 Tree 2 Tree 3
A
A A
59. 4. ์ ๋ขฐ๋(a)๋ฅผ ๊ณฑํ์ฌ voting
AdaBoost
59
Tree 1
Predict*a
Tree 2
Predict*a
Tree 3
Predict*a
. . .
. . .
+ + =