KIPS_C2008A_0034
- 1. ์ 29 ํ ํ๊ตญ์ ๋ณด์ฒ๋ฆฌํํ ์ถ๊ณํ์ ๋ฐํ๋ํ ๋
ผ๋ฌธ์ง ์ 15 ๊ถ ์ 1 ํธ (2008. 5)
1
๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ์ด์ฉํ ๋ฌธ์ฅ๊ฒฝ๊ณ์ธ์
๋ฐ์ํ*, ์ํด์ฐฝ**
*๊ณ ๋ ค๋ํ๊ต ์ปดํจํฐ ์ ๋ณดํต์ ๋ํ์
**๊ณ ๋ ค๋ํ๊ต ์ปดํจํฐํ๊ณผ
e-mail : *park.suhyuk@gmail.com, **rim@nlp.korea.ac.kr
Sentence Boundary Detection Using Machine Learning Techniques
Su-Hyuk Park*, Hae-Chang Rim**
* Graduate School of Computer and Information Technology, Korea University
** Dept. of Computer Science and Engineering, Korea University
์ ์ฝ
๋ณธ ๋
ผ๋ฌธ์ ์ธ์ด์ ํต๊ณ์ ํน์ง์ ์ด์ฉํ์ฌ ๋ฒ์ฉ์ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์๊ธฐ๋ฅผ ์ ์ํ๋ค. ์ ์ํ๋ ๋ฐฉ๋ฒ
์ ๋๋์ ์ฝํผ์ค ๋ด์์ ์ฌ์ฉ๋๊ณ ์๋ ๋ฌธ์ฅ ๊ฒฝ๊ณ๋ฅผ ๊ธฐ์ค์ผ๋ก ์์ ๋ฐ ์ด์ ๋ฑ์ ์์ง์ ์ด์ฉํ์ฌ
ํต๊ณ์ ํน์ง์ ์ถ์ถํ๊ณ ๋ค์ํ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ๊ฒฝ๊ณ๋ฅผ ์ธ์ํ๊ณ ์ ํ์๋ค. ๋ํ ํน
์ ์ธ์ด๋ ๋๋ฉ์ธ์ ์ ํ์ ์ด์ง ์๊ณ ๋ฒ์ฉ์ ์ธ ์์ง๋ง์ ์ฌ์ฉํ๋ ค๊ณ ๋
ธ๋ ฅํ์๋ค.
์ธ์ด์ ํน์ฑ์ ๋ฌธ์ฅ์ ๊ตฌ๋ถ์ด ์ ๋งคํ ๊ฒฝ์ฐ ๋๋ ์๋ชป ์ฌ์ฉ ๋ ๊ตฌ๋์ ๋ฑ์ ๊ฒฝ์ฐ์๋ ์ ์ฉ ๊ฐ๋ฅ
ํ๋๋ก ๋ค์ํ ์์ง์ ์ฌ์ฉํ์ฌ ์คํํ์์ผ๋ฉฐ, ํ๊ตญ์ด์ ์๋ฌธ ์ฝํผ์ค์ ๋ํด์ ๋์ผํ ์์ง์ ์ ์ฉ
ํ์ฌ ์คํํ์ฌ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ ์์ง๋ค์ด ํ๊ตญ์ด ๋ฐ ๋ค๋ฅธ ์ธ์ด๊ถ์ ์ธ์ด์๋ ์ ์ฉ๋ ์ ์๋ ๋ฒ
์ฉ์ ์ธ ์์ง์์ ํ์ธํ ์ ์์๋ค.
ํ๊ตญ์ด ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์์ ์ํ ๊ธฐ๊ณํ์ต ๋ฐ ์คํ์ ์ํด์ ์ธ์ข
๊ณํ ์ฝํผ์ค๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ฑ
๋ฅ์ฒ๋๋ก๋ ์ ํ๋ฅ ๊ณผ ์ฌํ์จ์ ์ฌ์ฉํ์์ผ๋ฉฐ, ์คํ๊ฒฐ๊ณผ ์ ์ํ ๋ฐฉ๋ฒ์ผ๋ก 99%์ ์ ํ๋ฅ ๊ณผ 99.2%์
์ฌํ์จ์ ๋ณด์๋ค. ์๋ฌธ์ ๊ฒฝ์ฐ๋ Wall Street Journal ์ฝํผ์ค๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ๋์ผํ ์์ง์ ์ ์ฉํ์ฌ
์คํํ ๊ฒฐ๊ณผ 98.9%์ ์ ํ๋ฅ ๊ณผ 94.6%์ ์ฌํ์จ์ ๋ณด์๋ค.
1. ์๋ก
โ๋ฌธ์ฅโ์ ์ฌ์ ์ ์ธ ์๋ฏธ๋ '์์ฌ๋ฅผ ์ ๋ฌํ๋ ์ต์์
๋จ์'๋ก ์ ์๋์ด ์์ผ๋ฉฐ, ์ ํต ๋ฌธ๋ฒ์์๋ '๋น๊ต์ ์
์ ํ๊ณ ๋
๋ฆฝ๋ ์์ฌ์ ๋ฌ ๋จ์๋ค'๋ผ๊ณ ์ ์ํ๊ณ ์์ผ
๋ฉฐ, ์ด๋ฌํ ๋ฌธ์ฅ์ ๋จ์๊ฐ ๋๋ถ๋ถ์ ์์ฐ์ด ์ฒ๋ฆฌ ๋
๊ตฌ, ํ์ฌ๋ถ์ฐฉ๊ธฐ ๋ฑ์ ๊ธฐ๋ณธ๋จ์๊ฐ ๋๊ณ ์์ผ๋ฉฐ, ์์ฑ
์ธ์๋ ๋ฌธ์ฅ ๋๋ OCR ์ฒ๋ฆฌ๋ ๋ฌธ์ ๋ฑ์ ๋ฌธ์ฅ๊ฒฝ๊ณ๊ฐ
๋ชจํธํ ๊ฒฝ์ฐ์ ๋ํด์๋ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ผ๋ก๋ ๋ฌธ์ฅ๊ฒฝ๊ณ
์ ์ธ์์์
์ด ๋ฐ๋์ ์๊ตฌ๋๋ค.
ํ์ง๋ง ์ค๋ก์์๋ ๋ฌธ์ฅ๊ฒฝ๊ณ์ ๊ตฌ๋ถ์ด ๋ช
ํํ์ง ๋ชป
ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ด ๋ณด์ด๋ฉฐ, ์ฌ๋์ด ๋ณด์์๋ ์ ๋๋ก ๊ตฌ
๋ถ๋์ง ์๋ ๊ฒฝ์ฐ๋ ๋ง๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ง์นจํ, ๋ฌผ์ํ,
๋๋ํ ๋ฑ์ ๊ธฐํธ๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฌธ์ฅ๊ฒฝ๊ณ๊ฐ ๊ตฌ๋ถ๋๋ค๊ณ
๋ณผ ์ ์์ผ๋, "๋ฌธ์ฅ์ ์์๋ฒํธ, e-mail, ์์ด์ ์ฝ์ด,
๊ฐ์กฐ๋ฅผ ์ํ ๋ฐ๋ณต, ์ด๊ฑฐ ๋ฑ์ ์ฌ์ฉ๋๋ ๋ง์นจํ ๋๋
์๋ชป ์ฌ์ฉ๋ ๊ตฌ๋์ ์ ๊ฒฝ์ฐ์ ๊ฐ์ด ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ
๋ ๋ง๋ค.
๋ฐ๋ผ์ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์์ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ ๊ฐ ๋ถ์ผ
์ ์ ๋ฌธ๊ฐ๊ฐ ํด๋น ์์น๋ฅผ ์ธ์ํ๋ ๊ท์น์ ์ ํ๋ ๊ฒ
์ด ๊ฐ์ฅ ์ด์์ ์ผ ์ ์์ผ๋, ๋๋ฌด ๋ง์ ๋น์ฉ์ด ์๋ชจ
๋ ๊ฒ์ผ๋ก ์์๋์ด ์ถ์ฒํ ๋งํ ๋ฐฉ๋ฒ์ด ์๋๋ฉฐ, ๋ณธ
๋
ผ๋ฌธ์์๋ ๋๋์ ์ฝํผ์ค์์ ์ถ์ถํ ๋ฌธ์ฅ๊ฒฝ๊ณ์ ํ
๋ณด๋ก ์ผ์ ์ ์๋ ๊ตฌ๋์ ์ ์ถ์ถํ๊ณ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ
์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ๊ฒฝ๊ณ๋ก ์ธ์๋๋ ์์น๋ฅผ ํํํ ์
์๋ ๋ค์ํ ์์ง์ ํ์ตํ๊ณ , ํฅํ ์๋ก์ด ๋ฌธ์์
๋ํ์ฌ ๋ฌธ์ฅ๊ฒฝ๊ณ๋ฅผ ํ๋จํด๋ผ ์ ์๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์
๊ธฐ๋ฅผ ์ ์ํ๋ค.
๋ค์ํ ์ธ์ด์ ๋ํ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์์ ์ต๋ํ ๋ง์
์ธ์ด์ ๋ํ ์คํ์ด ํ์ํ๊ฒ ์ผ๋, ์ฝํผ์ค ๋๋ ํด๋น
์ธ์ด์ ๋ํ ์ดํด์ ๋ถ์กฑ์ผ๋ก ๋ณธ ๋
ผ๋ฌธ์์๋ ํ๊ตญ์ด
๋ฐ ์์ด์ ๋ํด์๋ง ์คํํ๊ธฐ๋ก ํ์๋ค.
๊ธฐ๊ณํ์ต์ ์ฌ์ฉ๋ ๋๊ตฌ๋ก๋ WEKA Workbench ๋ผ๋
๋ฐ์ดํฐ๋ง์ด๋ ํดํท์ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ ๊ณต๋๋ ๋ค์ํ
๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์คํํ ๊ฒฐ๊ณผ ์๊ณ ๋ฆฌ์ฆ์ ์ํด์
์ ํ๋ฅ ๊ณผ ์ฌํ์จ์ด ํฌ๊ฒ ์ฐจ์ด ๋๋ ๊ฒฝ์ฐ๋ ์์์ผ๋,
์ฑ๋ฅ ๋ฉด์์ Random Forest ์๊ณ ๋ฆฌ์ฆ์ด ๊ฐ์ฅ ์ข์ ์ฑ
๋ฅ์ ๋ณด์๊ณ , ํ์ต์ ์ฌ์ฉ๋ ์ฝํผ์ค๋ ์์ ์ฝํผ์ค๋ง
์ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ด์ ๊ธฐ์ค์ผ๋ก ๊ตฌ๋ถํ๊ณ ๋ค์ ์ด์
์์ ๊ตฌ๋์ ํ๋ณด๊ฐ ๋ฐ์ํ๋ฉด, ๊ตฌ๋์ ์ ํฌํจํ์ฌ ๋ณ
๋์ ํ ํฐ์ผ๋ก ๋ถ๋ฆฌํด ๋ด์ด ๋ถ์์ ์๋ํ์๋ค.
2. ๊ด๋ จ์ฐ๊ตฌ
Riley, Michael D. (1989)๋ ๊ตฌ๋์ ์ด ๋ฐ์ํ๋ ์ฃผ๋ณ
๋จ์ด์ ์ถํํ๋ฅ ๋ฐ ๊ตฌ๋์ ์ด ๋ฐ๊ฒฌ๋ ์ด์ ์ ํด๋์ค
๋ฑ์ ์์ง์ ์ถ์ถํ์๊ณ , ํ๋ฅ ์ ๋ณด๋ AP News 2 ์ฒ 5
๋ฐฑ๋ง ๋จ์ด๋ฅผ ํตํด ๊ตฌํ์์ผ๋ฉฐ, Brown ์ฝํผ์ค ์์
Decision Tree (C4.5)๋ฅผ ์ด์ฉํ ๊ฒฐ๊ณผ 99.8%์ ์ ํ๋ฅ ์
๋ณด์๋ค.
- 2. ์ 29 ํ ํ๊ตญ์ ๋ณด์ฒ๋ฆฌํํ ์ถ๊ณํ์ ๋ฐํ๋ํ ๋
ผ๋ฌธ์ง ์ 15 ๊ถ ์ 1 ํธ (2008. 5)
2
David D. Palmer, Marti A. Hearst, (1994)๋ ๊ตฌ๋์ ์ฃผ
๋ณ์ ๋จ์ด์ ๋ํ ํ์ฌ์ ํ๋ฅ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ 20 ๊ฐ
์ง ์ ๋์ ํ ํฐ์ผ๋ก ๊ตฌ๋ถํ์๊ณ , Feed-forward Neural
Network ๋ฅผ ์ด์ฉํ ๊ฒฐ๊ณผ 98.5%์ ์ ํ๋ฅ ์ ๋ณด์๋ค.
Jeffrey C. Reynar and Adwait Ratnaparkhi, (1997)๋ ๊ตฌ
๋์ ํ๋ณด๊ฐ ๋ฐ์ํ ์/๋ค ํ ํฐ์ ํ๋ฅ ์ ๋ณด๋ฅผ ์ด์ฉํ
์์ผ๋ฉฐ, Maximum Entropy ๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ Wall Street
Journal ๋ฐ Brown ์ฝํผ์ค์์ ๊ฐ๊ฐ 98.0%, 97.5%์ ์
ํ๋ฅ ์ ๋ณด์๋ค.
์ํฌ์, ํ๊ตฐํฌ (2004)๋ ํ๋ณด ๊ตฌ๋์ ์์ฒด์ ํ๋ฅ ,
์/๋ค ๋ฐ์ํ๋ ์์ ๊ทธ๋ฆฌ๊ณ ์ธ์ฉ๋ถํธ์ ๊ฐ์๋ฅผ ์์ง
๋ก ์ด์ฉํ์์ผ๋ฉฐ, kNN ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ETRI, KAIST ์ฝ
ํผ์ค์์ ๊ฐ๊ฐ 96.73%, 98.64%์ ์ ํ๋ฅ ์ ๋ณด์๋ค. ๋
ํ ๋ ์ฝํผ์ค๋ฅผ ๋ชจ๋ ํ์ตํ ๊ฒฝ์ฐ์๋ 98.82%์ ์ ํ
๋ฅ ์ ๋ณด์๋ค.
์ด์ ๊ฐ์ด ์์ด์ ๋ํ ์ฐ๊ตฌ๋ ๋ง์ด ์ด๋ฃจ์ด์ก์ผ๋
ํ๊ตญ์ด์ ๋ํ ์ฐ๊ตฌ๋ ์์ง ๋ง์ง ์์ ์ค์ ์ด๋ฉฐ, ๋
ํ ๊ธฐ์กด์ ์ฐ๊ตฌ๋ ํ๊ตญ์ด ๋ฌธ์ฅ๊ฒฝ๊ณ์ธ์์ ๋
ผ๋ฌธ์์๋
์ธ๊ธํ์๋ฏ์ด ํ๊ตญ์ด ๋ฌธ์ฅ๊ฒฝ๊ณ์ ๋ํ ๋ค์ํ ์๊ณ ๋ฆฌ
์ฆ์ ํตํ ์คํ์ด ํ์ํ๋ค. ๋ํ ๊ฐ๋ณ ์ธ์ด์ ๋ํด
์๋ง ์คํ ๋ฐ ๊ฒ์ฆ์ด ์ด๋ฃจ์ด์ง๊ณ , ํ์ต์ ์ฌ์ฉ๋ ์
์ง์ด ๋ค๋ฅธ ๋๋ฉ์ธ ๋๋ ๋ค๋ฅธ ๊ณํต ์ธ์ด์ ๋ํ ์คํ
๋ฐ ๊ฒ์ฆ์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์์๋ค๊ณ ๋ณผ ์ ์๊ฒ ๋ค.
ํ์ง๋ง ์ต๊ทผ ์น ์๋ฃ ๋ฐ ๋ฌธ์์ ๊ฒฝ์ฐ ๋ค์ํ ์ธ์ด
์ ์๋ฃ๊ฐ ๋ง์ด ๋ฐ์ํ๋ฉฐ, ๊ทธ๋ฌํ ๋ฒ์ฉ์ ์ธ ์์ง์
๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค๊ณ ์๊ฐ๋๋ฉฐ, ์ด์ ๋ฌธ์ฅ๊ฒฝ๊ณ์
ํ์ํ ๋ค์ํ ์์ง์ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ํตํ์ฌ ํ์ต
ํ๊ณ ํ๊ตญ์ด ๋ฌธ์ฅ๊ฒฝ๊ณ ๋ฟ๋ง์ด ์๋๋ผ ์์ด์ ๋ํ์ฌ
๋ ์คํ์ ํ๊ณ ์ ํ๋ค.
3. ๋ฌธ์ฅ ๊ฒฝ๊ณ์ธ์
๊ฐ. ์ฝํผ์ค ์ ์ ๋ฐ ๊ตฌ์กฐํ
1) ํ๊ตญ์ด์ ๊ฒฝ์ฐ ๋ฌธ์์ด ์ธ์ฝ๋ฉ์ EUC-KR
์์ UTF-8 ์ผ๋ก ๋ณํ
2) ๊นจ์ง ๋ฌธ์์ด ๋ฐ ์ค๋ณต๋ ์ค๋ถ์ ๊ฒฐ๊ณผ ์ ๊ฑฐ
3) ๋ฌธ์ฅ, ์ด์ , ํ ํฐ๋จ์๋ก ์ ์ฅ
4) ์ ์ฒด ํ์ต ์ฝํผ์ค๋ฅผ ๊ตฌ์กฐํ ํ์ฌ ์ ์ฅ
๋. ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด๋ฅผ ์ฐพ๊ธฐ ์ํ ํต๊ณ์ ๋ณด ์ถ์ถ
1) ์ฝํผ์ค ๋ด์ ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ๋ก ์ธ์๋ ์์น
์ ๊ตฌ๋์ (ํน์๋ฌธ์ ํฌํจ)์ ๋น๋์
2) ๊ตฌ๋์ ํ๋ณด ์/๋ค์ ํ ํฐ์ ํ(๋ณธ ๋
ผ๋ฌธ์์
๋ถ๋ฅํ ํ๊ตญ์ด์์ ๋ฐ์ํ๋ 6 ๊ฐ์ง ํ ํฐ
์ ํ)์ ๋น๋์
๋ค. ๋ฌธ์ฅ๊ฒฝ๊ณ๋ฅผ ํ๋ณํ๊ธฐ ์ํ ํต๊ณ์ ๋ณด ์ถ์ถ
1) ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด ์์น์์ ๊ตฌ๋์ ์ ์
ํ์ ๋ฐ๋ฅธ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ ๋ฌด ๋น๋์
2) ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด ์/๋ค ํ ํฐ์ ๋ํ์ฌ
ํ ํฐ์ ํ์ ๋ฐ๋ฅธ ๋ฌธ์ฅ๊ฒฝ๊ณ ์ ๋ฌด ๋น๋์
3) ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด ์/๋ค 1 ์์ ์ ๋ํ
๋ฌธ์ฅ๊ฒฝ๊ณ ์ ๋ฌด ๋น๋์
4) ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด ์/๋ค ์ด์ ์ ๋ํ ๋ฌธ
์ฅ๊ฒฝ๊ณ ์ ๋ฌด ๋น๋์
5) ๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด ์/๋ค ํ ํฐ์ ๋ํ ๋ฌธ
์ฅ๊ฒฝ๊ณ ์ ๋ฌด ๋น๋์
4. ํต๊ณ์ ์์ง
๊ฐ. ๋ฌธ์ฅ๊ฒฝ๊ณ ์์น์ ์ ํ
๋ชจ๋ ๋ฌธ์ฅ๊ฒฝ๊ณ์์ ๋ฐ์ํ ์์ ๋๋ ๋ฌธ์์
๋ํ ํต๊ณ์ ๋ณด๋ฅผ ํตํ์ฌ, ๊ฐ์ฅ ๋ง์ด ๋ฐ์ํ ์
์ 99.9%์ ์์ ๋๋ ๋ฌธ์๊ฐ ์ถํํ๋ ์์น๋ฅผ
๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด๋ก ๋ณด์์ผ๋ฉฐ, ํ๊ตญ์ด์ ๊ฒฝ์ฐ ์ด
5 ๊ฐ์ง์ ๊ตฌ๋์ (๋ง์นจํ, ๋ฌผ์ํ, ๋๋ํ, ํฐ/์
์๋ฐ์ดํ)์ด ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด๋ก ๋ณผ ์ ์์๋ค. ์
์ด์ ๊ฒฝ์ฐ ์ด 3 ๊ฐ์ง์ ๊ตฌ๋์ (๋ง์นจํ, ๋ฌผ์ํ,
ํฐ ๋ฐ์ดํ)์ด ํ๋ณด๋ก ๋ํ๋ฌ๋ค.
ํ๊ตญ์ด์ ๊ฒฝ์ฐ๊ฐ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด์ข
๋ฅ๊ฐ ๋ ๋ง
์ผ๋ฏ๋ก ํ๊ตญ์ด๋ฅผ ์ค์ฌ์ผ๋ก ํํ ํ์๋ค.
๋. ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด๋ฅผ ์ํ ๊ตฌ๋์
1) ๋ง์นจํ, ๋ฌผ์ํ, ๋๋ํ, ํฐ/์์๋ฐ์ดํ
2) ํ๋ณด๊ฐ ๋ฐ์ํ ๊ฒฝ์ฐ ๋ฌธ์ฅ๊ฒฝ๊ณ ํ๋ณด๋ก ์ธ์.
๋๋ ํ๊ต์ ๊ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ง์ผ๋ก ์ต๋๋ค.
โ โ
๋ค. ๊ตฌ๋์ ํ๋ณด ์/๋ค์ ํ ํฐ์ ํ
1) ํ๊ธ/ ์ธ๊ตญ์ด/ ์ซ์/ ํน์๋ฌธ์
2) ์ ํ 1 (๋ง์นจํ, ๋ฌผ์ํ, ๋๋ํ)
3) ์ ํ 2 (์ผํ, ์ฝ๋ก , ๋น๊ธ)
4) ์ ํ 3 (๋ฐ์ดํ, ๊ดํธ, ์ค์ํ, ๋ถ์ํ)
5) ์ ํ 4 (๊ธฐํ ํน์๋ฌธ์)
6) ์ ํ 5 (์ ํ์ ํฌํจ๋์ง ์๋ ๋ฌธ์์ด)
๋น์ผ ์ฃผ๊ฐ๋ 13.3% ๋จ์ด์ง 9.96 ๋ฌ๋ฌ๊ฐ ๋๋ค.
์ซ์/./๊ธฐํธ 4 ์ซ์/./์ซ์ ํ๊ธ/.
๋ผ. ๊ตฌ๋์ ํ๋ณด์ ์/๋ค์ ์/๋ค์ 1 ์์
1) ํต๊ณ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ํ ํ๋ฅ ์ ์ด์ฉ
์ํ์ ๋ด๋๋๋ค. ๋ด๋ฌ๋ถํฐ๋ ๊ฐ์กฑ๊ฐ
๋ค/./๋ด
๋ง. ๊ตฌ๋์ ํ๋ณด ์/๋ค์ ํ ํฐ ๋ฌธ์์ด
1) ํต๊ณ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ๋ฐ์ํ ํ๋ฅ ์ ์ด์ฉ
์ก์ง ์์์ผ๋ฉด ํ๋ค"๋ฉฐ "CNN ๊ณผ ํจ๊ป ๋์
ํ๋ค/"/๋ฉฐ ๋ฉฐ/"/CNN
๋ฐ. ๊ตฌ๋์ ํ๋ณด ์/๋ค์ ํ ํฐ์ ๊ธธ์ด
1) ๊ธธ์ด๋ ์์ ์ ๊ฐ์
57.7%๋ก ์ง๋ 2003 ๋
12 ์(104.4%) ์ดํ
2/./7 3/./1
์ฌ. ๊ตฌ๋์ ํ๋ณด ์ด์ /๋ค์ ๊ตฌ๋์ ํ๋ณด๊น์ง์ ๊ฑฐ๋ฆฌ
1) ๊ฑฐ๋ฆฌ๋ ์ฌ์ด์ ์กด์ฌํ๋ ํ ํฐ์ ์
0.6 -2.5 ์ํธ์ TDP ๊ท๊ฒฉ์ ๋ฐ๋ฅด๋ฉฐ 1.8GHz ๊น์ง
1/./3 3/./6 6/./3
5. ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ ์ ํ
๊ฐ. ๋ค์ํ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ผ๋ก ์คํ
1) ์ถฉ๋ถํ ์์ ํ์ต์งํฉ ์ํ๋ง
ํด๋น ์ฝํผ์ค์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๊ธฐ๊ณํ์ต
๊ธฐ๋ฒ ์ ํ์ ์ํจ์ด๋ฏ๋ก, ๊ฒฐ๊ณผ์ ์๊ณก์ด ๋ฐ์
ํ์ง ์์ ์ ๋์ ์์ ์งํฉ์ ์ํ๋ง ํ์๋ค.
2) ์ถ์ถ๋ ํ์ต์งํฉ์ ํตํ์ฌ ๋ค์ํ ์๊ณ ๋ฆฌ
- 3. ์ 29 ํ ํ๊ตญ์ ๋ณด์ฒ๋ฆฌํํ ์ถ๊ณํ์ ๋ฐํ๋ํ ๋
ผ๋ฌธ์ง ์ 15 ๊ถ ์ 1 ํธ (2008. 5)
3
์ฆ์ ๋ํ์ฌ ์คํ์ ์ํ
3) ์คํ ๋์ ์๊ณ ๋ฆฌ์ฆ ์ค์์ ์์ 2 ๊ฐ์
์๊ณ ๋ฆฌ์ฆ์ ์ ํ
4) ์ถฉ๋ถํ ํฐ ํ์ต์งํฉ์ ๋ํ์ฌ ๋ค์ ์คํ
์ ํํ ์๊ณ ๋ฆฌ์ฆ์ด ์ ์ฒด ํ์ต์งํฉ์์๋ ์
๋์ํ๋ ์ง๋ฅผ ์ํ ์คํ์ ๋ค์ ์ํํ์๋ค.
๋. 1 ์ฐจ ์คํ๊ฒฐ๊ณผ
์ฐ์ 1 ์ฐจ ์คํ์ผ๋ก์จ ์ถฉ๋ถํ ์์ ํ์ต์งํฉ์ผ
๋ก ๋ค์ํ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ์คํํด ๋ณด๊ณ , ๊ฐ์ฅ
์ฑ๋ฅ์ด ๋ฐ์ด๋ 2 ๊ฐ์ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ผ๋ก 2 ์ฐจ
์คํ์ ํ๊ณ ์ ํ๋ค.
1) ์ํ๋ง ํ์ต์งํฉ ํ์ต ํ ์คํ๊ฒฐ๊ณผ
Classifier Precision Recall f-measure
BayesNet 0.962 0.917 0.939
NaiveBayes 0.954 0.878 0.915
Logistic 0.965 0.977 0.971
Multilayer
Perceptron
0.957 0.97 0.964
kNN 0.954 0.963 0.958
AdaBoost 0.934 0.953 0.944
Bagging 0.966 0.984 0.975
Dagging 0.952 0.963 0.957
Decorate 0.967 0.966 0.966
LogitBoost 0.947 0.95 0.949
ADTree 0.942 0.964 0.953
J48(C4.5) 0.97 (1st
) 0.969 0.964
Random
Forest
0.968 (2nd
) 0.981 0.974
REPTree 0.96 0.983 0.971
2) ๊ฒฐ๊ณผ๋ถ์
โ ์ด 885 ๊ฐ์ ์ด์ (0.1%)์ ํ์ต
โก ์ ํ๋ฅ ๊ธฐ์ค ์์ 2 ๊ฐ์ Classifier ์ ํํ
์์ผ๋ฉฐ, ๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์์ ๊ฒฝ์ฐ ์ฌํ์จ
๋ณด๋ค๋ ์ ํ๋ฅ ์ด ์ข ๋ ์๋ฏธ ์๋ ์งํ
๋ผ๊ณ ํ๋จํ์๋ค.
๋ค. 2 ์ฐจ ์คํ๊ฒฐ๊ณผ
1) 30% ์ํ๋ง ํ์ต์งํฉ ํ์ต ํ ์คํ๊ฒฐ๊ณผ
Classifier Precision Recall f-measure
Decision
Tree C4.5
0.979 0.98 0.98
Random
Forest
0.983 0.986 0.985
2) 70% ์ํ๋ง ํ์ต์งํฉ ํ์ต ํ ์คํ๊ฒฐ๊ณผ
Classifier Precision Recall f-measure
Decision
Tree C4.5
0.98 0.989 0.984
Random
Forest
0.991 0.992 0.991
3) ๊ฒฐ๊ณผ๋ถ์
โ 265,529 ์ด์ (30%), 619,567 ์ด์ (70%)
โก 1,000 ๊ฐ๊ฐ ๋์ง ์๋ ํ์ต์งํฉ๊ณผ ๊ทธ์
1,000 ๋ฐฐ๊ฐ ๋๋ ํ์ต์งํฉ๊ณผ ์ ํ๋ฅ ,
์ฌํ์จ ๋ชจ๋ 3%์ ๋ ๋ฐ์ ํฅ์์ด ์
์๋ค.
๋ผ. ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ ์ ํ
1) ์์คํ
์ฑ๋ฅ์ Random Forest ์๊ณ ๋ฆฌ์ฆ์์
๋ชจ๋ ํ์ต์งํฉ์ ํ์ต ์ํฌ ์๋ ์์์ผ๋ฉฐ,
70%์ ๋ (์ฝ 60 ๋ง ์ด์ )์ ํ์ต์ ํตํ์ฌ
๊ฐ์ฅ ๋ณ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ๋จ๋จ
6. ์คํ๊ฒฐ๊ณผ
๋ณธ ๋
ผ๋ฌธ์์๋ ํ๊ธ์ ๊ฒฝ์ฐ ์ธ์ข
์ฝํผ์ค 100 ๋ง
์ด์ ์ค 70 ๋ง ์ด์ ์ ์ฌ์ฉํ์ฌ 99.1%์ ์ ํ๋ฅ
์ ์ป์ด๋ผ ์ ์์์ผ๋ฉฐ, Spoken ๊ณผ Written ์ ๋น์จ
์ ๋์ผํ๊ฒ ํ์ฌ ์คํ์ ์ค์ํ์์ผ๋ฉฐ, ํ์ต ๋ฐ
์คํ์ 10-fold cross validation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์๋ค.
์๋ฌธ ์ฝํผ์ค์ธ Wall Street Journal ์ ๊ฒฝ์ฐ๋ ์ด
110 ๋ง ์ด์ ๋ชจ๋๋ฅผ ์ฌ์ฉํ์๊ณ ๋์ผํ ๋ฐฉ๋ฒ์ผ๋ก
์คํ์ ์ค์ํ์๋ค.
ํ๊ฐ์ฒ๋๋ก๋ ๋ฌธ์ฅ ์ ํ๋ฅ (Precision), ๋ฌธ์ฅ ์ฌํ
์จ(Recall) ๋ฐ F-measure ๋ฅผ ์ฌ์ฉํ์์ผ๋ฉฐ, ์ฒ๋์
์ ์๋ ๋ค์๊ณผ ๊ฐ๋ค.
์๋ฌธ์ฅ์ถ์ถํ์์คํ
์ด
์๋ฌธ์ฅ์ ๋ต์ถ์ถํ์์คํ
์ด
Pr =ecision
์๋ฌธ์ฅ์ ์ฒด
์๋ฌธ์ฅ์ ๋ต์ถ์ถํ์์คํ
์ด
Re =call
callecision
callecision
measureF
RePr
Re*Pr*2
+
=โ
๊ฐ. ์ธ์ข
๊ณํ ์ฝํผ์ค์ ๋ํ ์คํ
Spoken ๊ณผ Written ๋ชจ๋ ํ์ต์ ํฌํจ์์ผฐ์ผ๋ฉฐ,
์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋ฐ์ด๋ Decision Tree ์
Random Forest ์๊ณ ๋ฆฌ์ฆ์ ์ ํํ์ฌ ์คํํ์๋ค
1) ์คํ๊ฒฐ๊ณผ
Classifier Precision Recall f-measure
Decision Tree 0.98 0.989 0.984
Random Forest 0.991 0.992 0.991
โ Spoken ์ฝํผ์ค์ Written ์ฝํผ์ค์ ๋ํ
์ฌ 90%์ ๋๋ฅผ Random Sampling ํ์ฌ ํ
์ตํ๊ณ ๋๋จธ์ง 10%๋ฅผ ์ด์ฉํ์ฌ ์คํํ
๊ฒฐ๊ณผ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ค.
โก Classifier ์ ๊ฒฝ์ฐ Random Forest ๊ฐ ๋ ๋
์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
๋. Wall Street Journal ์ฝํผ์ค์ ๋ํ ์คํ
๋ง์ฐฌ๊ฐ์ง๋ก ๊ฒ์ฆ์ 10-Fold Cross Validation ์ผ๋ก
ํ์์ผ๋ฉฐ, ํ๊ตญ์ด์๋ ๋ฌ๋ฆฌ ์์ง์ ์ ๋ฐ ์ ๋ณด์
ํฌ๊ธฐ๊ฐ ๋ฌ๋ผ์ ๋ชจ๋ ํ์ต์งํฉ์ ๋ค ์ฌ์ฉํ ์ ์
์๋ค
1) ์คํ๊ฒฐ๊ณผ
Classifier Precision Recall f-measure
Decision Tree 0.989 0.946 0.967
Random Forest 0.981 0.942 0.961
2) ๊ฒฐ๊ณผ๋ถ์
โ ์์ฃผ ํฐ ์ฐจ์ด๋ ์๋์ง๋ง, ํ๊ตญ์ด์๋
๋ฌ๋ฆฌ Decision Tree ๊ฐ ์กฐ๊ธ ๋ ์ข์ ์ฑ๋ฅ
์ ๋ณด์ฌ์ฃผ์๋ค.
โก ๋์ผํ ์์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ถ์ถํ์์ผ
๋ฉฐ, ๋ณ๋์ Heuristic ์ ์ถ๊ฐํ์ง ์๊ณ ๋
๋์ ์ฑ๋ฅ์ ๋ํ๋์ผ๋ก์จ ํด๋น ์์ง์ด
๋ฒ์ฉ์ ์์ ํ์ธํ ์ ์์๋ค.
๋ค. ์์ง์ ๋ํ ์ฑ๋ฅ์คํ
๊ฐ ์์ง์ ์ ๊ฑฐํ๊ณ ์คํํ์์ ๊ฒฝ์ฐ์ ํด๋น
์์ง์ด ์ผ๋ง๋ ์ ์ฒด ์ ํ๋ฅ ์ ๋์ด๋ ๋ฐ์ ๊ธฐ
- 4. ์ 29 ํ ํ๊ตญ์ ๋ณด์ฒ๋ฆฌํํ ์ถ๊ณํ์ ๋ฐํ๋ํ ๋
ผ๋ฌธ์ง ์ 15 ๊ถ ์ 1 ํธ (2008. 5)
4
์ฌํ๋ ์ง๋ฅผ ํ
์คํธ ํด๋ณด์๋ค. ์ ์ฒด ์คํ์งํฉ
์์ ํ
์คํธ๋ ํ์ง ๋ชปํ์์ผ๋ฉฐ, ์ํ๋ง ํ ๊ฒฐ
๊ณผ์์ ํด๋น ์์ง์ ๋ํ ์๋์ ์ธ ๋น๊ต๋ฅผ ์
ํํ์๋ค.
Removed
Feature
Precision Recall f-measure
Complete Set
(All Features)
0.975 0.982 0.978
Base Set
(Punctuation)
0.92
(-5.5%)
0.936
(4.6%)
0.928
(-5%)
Prefix-token-type
0.974
(-0.1%)
0.98
(-0.2%)
0.977
(-0.1%)
Suffix-token-type
0.974
(-0.1%)
0.982 0.978
Prefix-syllable 0.975 0.982 0.978
Suffix-syllable
0.976
(+0.1%)
0.979
(-0.3%)
0.978
Prefix-token
0.978
(+0.3%)
0.979
(-0.3%)
0.978
Suffix-token
0.973
(-0.2%)
0.976
(-0.6%)
0.974
(-0.4%)
Prefix-token-
length
0.964
(-1.1%)
0.984
(+0.2%)
0.974
(-0.4%)
Suffix-token-
length
0.973
(-0.2%)
0.983
(+0.1%)
0.978
Prefix-token-
distance
0.975
0.983
(+0.1%)
0.979
(+0.1%)
Suffix-token-
distance
0.975
0.979
(-0.3%)
0.977
(-0.1%)
1) ์ ํ๋ ์์ง์ ์ ๊ฑฐํ๊ณ ์คํํ ๊ฒฐ๊ณผ, ์/
๋ค ํ ํฐ์ ๊ธธ์ด ํ ํฐ์ ์ ํ, ๊ตฌ๋์ ์์ผ
๋ก ๊ธ์ ์ ์ธ ์ํฅ์ ๋ณด์๋ค.
2) ๋ฐ๋ฉด์ ๋ค ์ฒซ ์์ ์์ ํ ํฐ ๋ฑ์ ์์ง์
์คํ๋ ค ์ ํ๋ฅ ์ ๋จ์ด๋จ๋ฆฌ๋ ํ์์ ๋ณด์
๋ค
๋ผ. ๊ธฐ์ฌ๋๊ฐ ๋จ์ด์ง๋ ์์ง์ ์ ๊ฑฐํ๊ณ ์คํ
Features Precision Recall f-measure
12 features 98% 98.9% 98.4%
10 features 98.5% 98.1% 98.4%
1) ์์์ ์ ์๋ ์ ํ๋ฅ ์ ๋จ์ด๋จ๋ฆฌ๋ ์์ง
์ ์ ๊ฑฐํ๊ณ ์คํํ ๊ฒฐ๊ณผ ํ์คํ ์ ํ๋ฅ ์
์ฌ๋ผ๊ฐ์ผ๋, f-measure ๋ ๋์ผํ๊ฒ ๋ํ๋ฌ
์ผ๋ฉฐ, ์ ์ฒด์ ์ผ๋ก ํด๋น ์์ง์ ์ ๊ฑฐํ์ฌ
์ ํ๋ฅ ์ ํฅ์์ํฌ ์ ์์์ผ๋, ์ฌํ์จ์
๋จ์ด์ก๋ค.
๋ง. ํ์ต๋ฐ์ดํฐ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ
1) ํ์ต ๋ฐ์ดํฐ๊ฐ 1,000 ๊ฑด ์ ๋์ ๊ฑฐ์ 97%
์ด์์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๊ทธ ์ด์์ ๋ฐ์ดํฐ
์์ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ์๋ค
2) ๊ทธ๋ํ ์์ผ๋ก๋ ์ ๋ณด์ด์ง ์์ง๋ง, ์ผ๋ถ
์ฑ๋ฅ์ด ํ๋ ํ์๋ ๋ณด์๋ค
7. ๊ฒฐ๋ก
๋ณธ ๋
ผ๋ฌธ์์๋ ๋ค์ํ ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ
๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์๋ฐฉ๋ฒ์ ์ ์ํ์์ผ๋ฉฐ, Decision Tree ์
Random Forest ๊ธฐ๊ณํ์ต ๊ธฐ๋ฒ์ ํตํ์ฌ ์คํ ๋ฐ ๋น๊ต
๋ฅผ ํ์๋ค. ๋ํ ์ธ์ด์ ์ข
์์ ์ด์ง ์์ ๋
๋ฆฝ์ ์ธ
์์ง๋ง์ ์ฌ์ฉํ๋ ค๊ณ ๋
ธ๋ ฅํ์์ผ๋ฉฐ, ๊ธฐ์กด์ ํ๊ตญ์ด
๋ฌธ์ฅ๊ฒฝ๊ณ ์ธ์์ ๋
ผ๋ฌธ์์ ์ฌ์ฉํ๋ ํน์ ๊ตฌ๋์ ์
๋ณด์ ์์กดํ์ง ์๊ณ ์๋ ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์
์ผ๋ฉฐ, ๊ตฌ๋์ ์ ๋ฐ์ํ์์ ๋ฐ๋ฅธ ํธ์ฐจ ๋ฑ์ ํ์์ด
์๊ณ , Spoken Language ์ Written Language ์ ๋ฐ๋ฅธ ์
ํ๋ฅ ์ด ๋จ์ด์ง๋ ๋ฌธ์ ๋ ๋ง์ด ๋ณด์ ๋์๋ค.
์๋ฌธ ์ฝํผ์ค์๋ ๋์ผํ๊ฒ ์ ์ฉํ์ฌ ์คํํ ๊ฒฐ๊ณผ
๋์ ์ ํ๋ฅ ์ ๋ณด์์ผ๋ก์จ ์ ํํ ์์ง์ด ๋ณด๋ค ๋ฒ์ฉ
์ ์ธ ๊ฒ์์ ํ์ธํ ์ ์์๊ณ ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ์ ํต
ํ ์คํ์ ํตํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๋ค.
ํฅํ ์ฐ๊ตฌ๋ก๋ ์ ํํ ๋์ด์์ง ์์ ๋ฌธ์ ์ฆ, ์น
๋ฌธ์๋ ๊ตฌ๋์ ์ด ์๋ต๋ ๋ฌธ์ ๋ฑ์ ๊ฒฝ์ฐ์๋ ์ผ๋ง๋
์ ๋์ํ๋ ์ง์ ๋ํด์๋ ํด๊ฒฐํ ์ ์๋ ์๋ก์ด
์์ง์ ๋ํ ๊ฒ๋ค๋ ๊ณ ๋ คํด๋ณด๊ณ ์ ํ๋ค.
์ฐธ๊ณ ๋ฌธํ
[1] 1989, Some applications of tree-based modeling to
speech and language
[2] 1994, Adaptive Sentence Boundary Disambiguation -
Palmer, Hearst
[3] 1997, A Maximum Entropy Approach to Identifying
Sentence Boundaries - Reynar, Ratnaparkhi
[4] 1997, Adaptive Multilingual Sentence Boundary
Disambiguation - Palmer, Hearst
[5] 2000, Reducing parsing complexity by intra-sentence
segmentation based on maximum entropy model
[6] 2000, Tagging sentence boundaries
[7] 2004, Dependency structure analysis and sentence
boundary detection in spontaneous Japanese
[8] 2004, Korean Sentence Boundary Detection Using
Memory-based Machine Learning - Lim, Han
[9] 2005, Instance-based sentence boundary determination by
optimization for natural language generation
[10] 2006, Unsupervised Multilingual Sentence Boundary
Detection