SlideShare a Scribd company logo
ปรัชญา บุญขวัญ (อาร์ม)
ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
kaamanita@gmail.com, prachya.boonkwan@nectec.or.th
¡ รู้จักกับภาษาไทย
¡ ความมหัศจรรย์แห่งภาษาไทย
¡ ภาษาไทยในสังคมออนไลน์
¡ หัวข้อวิจัยที่น่าสนใจ
¡ สรุป
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
¡ ภาษาไทยเป็นภาษาคำโดด(analytic language)
§ ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย
หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น
(head-initial)
§ ลำดับคำตายตัว และมีผลต่อการตีความความหมาย
§ ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก
หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา
(inflection) หรือเติมวิภัตติปัจจัย (declension)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4
ระบบความคิดแบบปัจเจกนิยม
เน้นความโดดเด่นของปัจเจกบุคคล
นิยมสื่อความหมายแบบชัดแจ้ง
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5
ระบบความคิดแบบปัจเจกนิยม
ประเด็นนำไปสู่เหตุผลสนับสนุน
เน้นเล่าเรื่องตามลำดับและให้เหตุผล
ประเด็น
เหตุผล 1
เหตุผล 2
เหตุผล 3
สรุปสาระสำคัญ
ระบบความคิดแบบรวมศูนย์
ข้ออ้างนำไปสู่ประเด็น
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้
ความหมายแฝง (high-context meaning)
§ คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist
semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น
หน่วยความหมายที่สลับซับซ้อน
§ สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง
(ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์
§ ระดับหน่วยคำ: “คำคืออะไร”
§ ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม
ประโยคถึงได้ขาดรุ่งริ่งแบบนี้”
§ ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร”
§ ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน”
§ ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่”
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
§ สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่
ภายในกลุ่มสามารถอนุมานได้จากบริบท
§ ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน
§ การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล
ภาษาธรรมชาติด้วยคอมพิวเตอร์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ
ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ
non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine
¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9
สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม
√ เขา.pro
เขา.n
ตา|กลม|
√ ตาก|ลม|
√ ตา|กลม|
ตาก|ลม|
npa1 npa3 npa2a1 a2 a3
¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing
Machine มีความซับซ้อนแบบ Exponential จึงเป็น
ปัญหาที่ทนรอไม่ได้ (intractable problem)
¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate)
เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB,
HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข
(เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
¡ คำถาม 1: คำคืออะไร
§ ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น
▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป
▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน
§ ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง
กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12
เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ
อิงตามคำมูล
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน|
ตัดแยกให้เป็นคำมูลทั้งหมด
อิงตามคำมูล
ที่รวมกันแน่น
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียน|ประจำ|
ดอก|จิก| (กล้วย) เล็บ|มือ|นาง|
ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ
อิงตามคำประสม
เปลี่ยนความหมาย
ฉัน|นำ|ดอก|ไม้|ไป|ไหว้|
ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ|
ดอก|ไม้| แม่|น้ำ| โรง|เรียน|
ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย
อิงตาม
หน่วยความหมาย
ฉัน|นำ|ดอกไม้|ไป|ไหว้|
ศาลพระภูมิ|ที่|โรงเรียนประจำ|
การออกกำลังกาย| หม้อแปลงไฟฟ้า|
ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13
เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง
อิงตามคำมูล
วิเคราะห์โครงสร้าง
หน่วยคำ
ขอบเขตคำมูล
ทับซ้อนกัน
ต่ำสุด N/A
อิงตามคำมูล
ที่รวมกันแน่น
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
รวมกันแน่น
ปานกลาง
Thai National
Corpus (TNC)
อิงตามคำประสมที่
เปลี่ยนความหมาย
วิเคราะห์โครงสร้าง
ไวยากรณ์
เมื่อไหร่จึงจะถือว่า
เปลี่ยนความหมาย
ปานกลาง BEST 2010
อิงตาม
หน่วยความหมาย
ใช้เพื่อสอนระบบ
แปลภาษาอัตโนมัติ
ไม่มีหน่วยความหมาย
กลางให้เป็นหลักยึด
สูง ORCHID
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14
หม้อหุงข้าว
N
หม้อ หุง ข้าว
N V N
VP
S
NP
หม้อหุงข้าว
N
ไฟฟ้า
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ไฟฟ้า
N
NP
หม้อหุงข้าว
N
ซ้อมมือ
N
NP
หม้อ หุง
N JV
JVP
NP
NP
ข้าว
N
ซ้อมมือ
N
NP
1
3 4
หีบ ประดับ มรกต
N JV N
JVP
NP
NP
2
หีบประดับมรกต
N
×
×
×
×
(รวมกันแน่น)
(รวมกันแบบหลวม)
(‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15
คนขับรถ
N
คน ขับ รถ
N V N
VP
S
NP
คนขับรถ
N
บรรทุก
JV
NP
คน ขับ
N V
VP
S
NP
รถ
N
บรรทุก
V
NP
คน ขับ
N JV
JVP
NP
NP
รถ
N
บรรทุก
V
NP
1
2
คนขับรถบรรทุก
N× ×
(ไม่รวมกันแน่น)
(‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้
§ สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า
ภายในกลุ่มยังสามารถอนุมานจากบริบทได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16
สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2
npa1 npa2a1 a2 a3
because he wants to relax without worrying about it .
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร
§ เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้
โดยใช้ Categorial Grammar และ Lambda Calculus
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17
คำศัพท์ Categorial Grammar Lambda Calculus
แม่, น้อง, ผ้า :- np mom’, sister’, clothes’
วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2))
เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18
แม่ วาน น้อง เก็บ ผ้า
np
: mom’
snp1/(snp2)/np2
: λx2 λf λx1.ask’(x1, x2, f(x2))
np
: sister’
snp1/np2
: λx2 λx1.collect’(x1,x2)
np
: clothes’
snp1/(snp2)
: λf λx1.ask’(x1, sister’, f(sister’))
snp1
: λx1.collect’(x1, clothes’)
snp1
: λx1.ask’(x1, sister’, collect’(sister’ , clothes’))
s
: ask’(mom’, sister’, collect’(sister’, clothes’))
¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ)
§ การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม
(Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน
รูปแทนความหมายได้
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19
แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’))
✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ
✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20
ระบบความคิดแบบรวมศูนย์
นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม
เน้นข้อแก้ตัวและการขออภัยที่มารบกวน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
ระบบความคิดในสื่อสารมวลชนบางชนิด
อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง
ไม่จำเป็นต้องมีประเด็นที่ชัดเจน
ข้ออ้าง 1
ข้ออ้าง 2
ข้ออ้าง 3
ข้ออ้าง 4 ข้ออ้าง 5
ข้ออ้าง 6
ข้ออ้าง 7
ข้ออ้าง 8
ประเด็น
?
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21
ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่
§ ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้
ความรู้ทางโลก (world knowledge) และสามัญสำนึก
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22
ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน
คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว”
ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ
สังคมออนไลน์
§ มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง
จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน
การพิมพ์ และการพิมพ์ผิดอย่างจงใจ
§ มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook,
Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ
§ ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์
§ ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก
§ เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis)
§ เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion)
ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25
โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย
ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว
+ + +
- - - -
1
2
¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ)
§ ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว
ตรงกันข้ามกับความหมายผิว (ambivalence)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26
ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง
+ -
แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล
- - -
¡ หัวข้อวิจัย
§ ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ
§ ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค
การแก้ปัญหาการละในระดับไวยากรณ์
§ ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย
การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่
§ ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ
§ ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก
(เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
¡ ข้อแนะนำ
§ ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ
พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง
§ ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ
แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม
(surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก
กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง
¡ การใช้กฎผสมกับ machine learning และการออกแบบ
รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้
¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
30
ที่มา: เพจมุกหรือ
เปลือกหมอย
¡ ความรู้เบื้องต้นสำหรับภาษาไทย
§ ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7)
§ โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์,
พ.ศ. 2520)
§ หลักภาษาไทย (กำชัย ทองหล่อ, 2515)
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
¡ Machine Learning
§ A First Course in Machine Learning (Simon Rogers
and Mark Girolami, 2011) [เข้าใจง่าย]
§ Pattern Recognition and Machine Learning
(Christopher Bishop, 2007) [ยากระดับกลาง]
§ Information Theory, Inference, and Learning
Algorithms (David MacKay, 2003) [ยากและละเอียด]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
¡ Natural Language Processing
§ Speech and Language Processing (Daniel Jurafsky
and James M. Martin, 2008) [ง่าย]
§ Foundations of Statistical Natural Language
Processing (Manning, Prabhakar, and Schütze, 2008)
[ยากระดับกลาง]
§ Natural Language Processing with Python (Bird,
Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย]
28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33

More Related Content

What's hot

แนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูลแนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูล
Shengyou Lin
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
Toine Bogers
 
OpenAI’s GPT 3 Language Model - guest Steve Omohundro
OpenAI’s GPT 3 Language Model - guest Steve OmohundroOpenAI’s GPT 3 Language Model - guest Steve Omohundro
OpenAI’s GPT 3 Language Model - guest Steve Omohundro
Numenta
 
ChatGPT_ppf.pdf
ChatGPT_ppf.pdfChatGPT_ppf.pdf
ChatGPT_ppf.pdf
ssuser693b9a
 
Python vs. r for data science
Python vs. r for data sciencePython vs. r for data science
Python vs. r for data science
Hugo Shi
 
Natural Language Processing
Natural Language Processing Natural Language Processing
Natural Language Processing
Adarsh Saxena
 
Introduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studiesIntroduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studies
Big Data Engineering, Faculty of Engineering, Dhurakij Pundit University
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language ProcessingMariana Soffer
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
Ila Group
 
เรียงความเรื่อง ความหลากหลายของวัฒนธรรม
เรียงความเรื่อง ความหลากหลายของวัฒนธรรมเรียงความเรื่อง ความหลากหลายของวัฒนธรรม
เรียงความเรื่อง ความหลากหลายของวัฒนธรรมMim Papatchaya
 
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมียอารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
PIMNAPA NARAJARUPA
 
CSCE181 Big ideas in NLP
CSCE181 Big ideas in NLPCSCE181 Big ideas in NLP
CSCE181 Big ideas in NLP
Insoo Chung
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีNuchy Geez
 
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
Agile India
 
Deep Natural Language Processing for Search and Recommender Systems
Deep Natural Language Processing for Search and Recommender SystemsDeep Natural Language Processing for Search and Recommender Systems
Deep Natural Language Processing for Search and Recommender Systems
Huiji Gao
 
Entity Linking, Link Prediction, and Knowledge Graph Completion
Entity Linking, Link Prediction, and Knowledge Graph CompletionEntity Linking, Link Prediction, and Knowledge Graph Completion
Entity Linking, Link Prediction, and Knowledge Graph Completion
Jennifer D'Souza
 
Natural language processing techniques transition from machine learning to de...
Natural language processing techniques transition from machine learning to de...Natural language processing techniques transition from machine learning to de...
Natural language processing techniques transition from machine learning to de...
Divya Gera
 
An introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERTAn introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERT
Suman Debnath
 

What's hot (20)

แนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูลแนวคิดแผนภาพกระแสข้อมูล
แนวคิดแผนภาพกระแสข้อมูล
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
OpenAI’s GPT 3 Language Model - guest Steve Omohundro
OpenAI’s GPT 3 Language Model - guest Steve OmohundroOpenAI’s GPT 3 Language Model - guest Steve Omohundro
OpenAI’s GPT 3 Language Model - guest Steve Omohundro
 
ChatGPT_ppf.pdf
ChatGPT_ppf.pdfChatGPT_ppf.pdf
ChatGPT_ppf.pdf
 
Python vs. r for data science
Python vs. r for data sciencePython vs. r for data science
Python vs. r for data science
 
Natural Language Processing
Natural Language Processing Natural Language Processing
Natural Language Processing
 
Introduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studiesIntroduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studies
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
เรียงความเรื่อง ความหลากหลายของวัฒนธรรม
เรียงความเรื่อง ความหลากหลายของวัฒนธรรมเรียงความเรื่อง ความหลากหลายของวัฒนธรรม
เรียงความเรื่อง ความหลากหลายของวัฒนธรรม
 
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมียอารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
อารยธรรมโลกสมัยโบราณ เมโสโปเตเมีย
 
CSCE181 Big ideas in NLP
CSCE181 Big ideas in NLPCSCE181 Big ideas in NLP
CSCE181 Big ideas in NLP
 
โครงงานประเภททฤษฏี
โครงงานประเภททฤษฏีโครงงานประเภททฤษฏี
โครงงานประเภททฤษฏี
 
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
7 Steps to Design, Build, and Scale an AI Product by Allie Miller at #AgileIn...
 
Deep Natural Language Processing for Search and Recommender Systems
Deep Natural Language Processing for Search and Recommender SystemsDeep Natural Language Processing for Search and Recommender Systems
Deep Natural Language Processing for Search and Recommender Systems
 
Entity Linking, Link Prediction, and Knowledge Graph Completion
Entity Linking, Link Prediction, and Knowledge Graph CompletionEntity Linking, Link Prediction, and Knowledge Graph Completion
Entity Linking, Link Prediction, and Knowledge Graph Completion
 
Natural language processing techniques transition from machine learning to de...
Natural language processing techniques transition from machine learning to de...Natural language processing techniques transition from machine learning to de...
Natural language processing techniques transition from machine learning to de...
 
Natural Language Processing
Natural Language ProcessingNatural Language Processing
Natural Language Processing
 
An introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERTAn introduction to the Transformers architecture and BERT
An introduction to the Transformers architecture and BERT
 
Text Mining - Data Mining
Text Mining - Data MiningText Mining - Data Mining
Text Mining - Data Mining
 

More from Data Science Thailand

Data Science Thailand Meetup#11
Data Science Thailand Meetup#11Data Science Thailand Meetup#11
Data Science Thailand Meetup#11
Data Science Thailand
 
Define Your Data (Science) Career
Define Your Data (Science) CareerDefine Your Data (Science) Career
Define Your Data (Science) Career
Data Science Thailand
 
Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data science
Data Science Thailand
 
Data Science fuels Creativity
Data Science fuels CreativityData Science fuels Creativity
Data Science fuels Creativity
Data Science Thailand
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data Sciencea
Data Science Thailand
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data Initiative
Data Science Thailand
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processing
Data Science Thailand
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
Data Science Thailand
 
Bioinformatics in a Nutshell
Bioinformatics in a NutshellBioinformatics in a Nutshell
Bioinformatics in a Nutshell
Data Science Thailand
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk Management
Data Science Thailand
 
Myths of Data Science
Myths of Data ScienceMyths of Data Science
Myths of Data Science
Data Science Thailand
 
Hr Analytics
Hr AnalyticsHr Analytics
Hr Analytics
Data Science Thailand
 
Marketing analytics
Marketing analyticsMarketing analytics
Marketing analytics
Data Science Thailand
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of Healthcare
Data Science Thailand
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance Security
Data Science Thailand
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)
Data Science Thailand
 
Using hadoop for big data
Using hadoop for big dataUsing hadoop for big data
Using hadoop for big data
Data Science Thailand
 
My Spark Journey
My Spark JourneyMy Spark Journey
My Spark Journey
Data Science Thailand
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics
Data Science Thailand
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in Manufacturing
Data Science Thailand
 

More from Data Science Thailand (20)

Data Science Thailand Meetup#11
Data Science Thailand Meetup#11Data Science Thailand Meetup#11
Data Science Thailand Meetup#11
 
Define Your Data (Science) Career
Define Your Data (Science) CareerDefine Your Data (Science) Career
Define Your Data (Science) Career
 
Drawing Your career in business analytics and data science
Drawing Your career in business analytics and data scienceDrawing Your career in business analytics and data science
Drawing Your career in business analytics and data science
 
Data Science fuels Creativity
Data Science fuels CreativityData Science fuels Creativity
Data Science fuels Creativity
 
Microsoft R Server for Data Sciencea
Microsoft R Server for Data ScienceaMicrosoft R Server for Data Sciencea
Microsoft R Server for Data Sciencea
 
Electronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data InitiativeElectronic Medical Records - Paperless to Big Data Initiative
Electronic Medical Records - Paperless to Big Data Initiative
 
Machine learning in image processing
Machine learning in image processingMachine learning in image processing
Machine learning in image processing
 
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
CUSTOMER ANALYTICS & SEGMENTATION FOR CUSTOMER CENTRIC ORGANIZATION & MARKETI...
 
Bioinformatics in a Nutshell
Bioinformatics in a NutshellBioinformatics in a Nutshell
Bioinformatics in a Nutshell
 
Data Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk ManagementData Science Application in Business Portfolio & Risk Management
Data Science Application in Business Portfolio & Risk Management
 
Myths of Data Science
Myths of Data ScienceMyths of Data Science
Myths of Data Science
 
Hr Analytics
Hr AnalyticsHr Analytics
Hr Analytics
 
Marketing analytics
Marketing analyticsMarketing analytics
Marketing analytics
 
Precision Medicine - The Future of Healthcare
Precision Medicine - The Future of HealthcarePrecision Medicine - The Future of Healthcare
Precision Medicine - The Future of Healthcare
 
Big Data Analytics to Enhance Security
Big Data Analytics to Enhance SecurityBig Data Analytics to Enhance Security
Big Data Analytics to Enhance Security
 
Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)Single Nucleotide Polymorphism Analysis (SNPs)
Single Nucleotide Polymorphism Analysis (SNPs)
 
Using hadoop for big data
Using hadoop for big dataUsing hadoop for big data
Using hadoop for big data
 
My Spark Journey
My Spark JourneyMy Spark Journey
My Spark Journey
 
Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics Technology behind-real-time-log-analytics
Technology behind-real-time-log-analytics
 
Predictive Analytics in Manufacturing
Predictive Analytics in ManufacturingPredictive Analytics in Manufacturing
Predictive Analytics in Manufacturing
 

Text Mining and Thai NLP

  • 2. ¡ รู้จักกับภาษาไทย ¡ ความมหัศจรรย์แห่งภาษาไทย ¡ ภาษาไทยในสังคมออนไลน์ ¡ หัวข้อวิจัยที่น่าสนใจ ¡ สรุป 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 2
  • 3. ¡ ภาษาไทยเป็นภาษาคำโดด(analytic language) § ลำดับคำแบบประธาน-กริยา-กรรม (SVO) และความหมาย หลักของหน่วยสร้าง (constituent) มักจะเป็นตัวขึ้นต้น (head-initial) § ลำดับคำตายตัว และมีผลต่อการตีความความหมาย § ใช้คำกริยาวิเศษณ์ (adverb) และคำช่วย (auxiliary) เพื่อบอก หน้าที่ทางไวยากรณ์ของคำในประโยค ไม่ต้องผันกริยา (inflection) หรือเติมวิภัตติปัจจัย (declension) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 3
  • 4. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 4 ระบบความคิดแบบปัจเจกนิยม เน้นความโดดเด่นของปัจเจกบุคคล นิยมสื่อความหมายแบบชัดแจ้ง ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ เน้นความสัมพันธ์แนบแน่นภายในกลุ่ม นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 5. ¡ ภาษาไทยผูกติดกับวัฒนธรรมและระบบความคิด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 5 ระบบความคิดแบบปัจเจกนิยม ประเด็นนำไปสู่เหตุผลสนับสนุน เน้นเล่าเรื่องตามลำดับและให้เหตุผล ประเด็น เหตุผล 1 เหตุผล 2 เหตุผล 3 สรุปสาระสำคัญ ระบบความคิดแบบรวมศูนย์ ข้ออ้างนำไปสู่ประเด็น เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น
  • 6. ¡ ภาษาไทยเรียบง่ายแต่สลับซับซ้อน (simplex) และนิยมใช้ ความหมายแฝง (high-context meaning) § คำในภาษาไทยมีหน่วยความหมายขนาดเล็ก (minimalist semantics) ทำให้ต้องใช้คำจำนวนมากมาประกอบสร้างเป็น หน่วยความหมายที่สลับซับซ้อน § สามารถละสรรพนาม (pro-dropping) และละหน่วยสร้าง (ellipsis) ได้ หากยังสามารถอนุมานความหมายได้จากบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 6
  • 7. ¡ การใช้ความหมายแฝงทำให้เกิดความมหัศจรรย์ § ระดับหน่วยคำ: “คำคืออะไร” § ระดับไวยากรณ์: “นี่มันคำประสมหรือหน่วยสร้าง” “ทำไม ประโยคถึงได้ขาดรุ่งริ่งแบบนี้” § ระดับความหมาย: “จะตีความรูปแทนความหมายอย่างไร” § ระดับปริจเฉท: “อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน” § ระดับวัจนปฏิบัติ: “ประโยคนี้หมายความว่าอะไรกันแน่” 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 7
  • 8. ¡ ภาษาไทยเน้นการใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม § สรรพนามและหน่วยสร้างอื่นๆ สามารถละได้ ตราบเท่าที่ ภายในกลุ่มสามารถอนุมานได้จากบริบท § ความกำกวมทางภาษาก็เป็นที่ยอมรับได้ด้วยเหตุผลเดียวกัน § การใช้ความหมายแฝงก่อให้เกิดปัญหากับการประมวลผล ภาษาธรรมชาติด้วยคอมพิวเตอร์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 8
  • 9. ¡ การแก้ปัญหาความหมายแฝง (context resolution) มีลักษณะ ไม่เป็นเชิงเส้น (non-linear) ทำให้การเชื่อมโยงบริบทเกิดภาวะ non-projectivity ซึ่งต้องแก้ปัญหาด้วย Turing Machine ¡ ตัวอย่าง: การแก้ปัญหาความหมายแฝงด้วย Type Logical Grammar 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 9 สมชายฝากปลาทองไว้กับเพื่อนตอนไปทะเล เขาอยากนั่งตากลมโดยไม่ต้องห่วงเจ้าตากลม √ เขา.pro เขา.n ตา|กลม| √ ตาก|ลม| √ ตา|กลม| ตาก|ลม| npa1 npa3 npa2a1 a2 a3
  • 10. ¡ การแก้ปัญหาความหมายแฝงด้วยกฎโดยใช้ Turing Machine มีความซับซ้อนแบบ Exponential จึงเป็น ปัญหาที่ทนรอไม่ได้ (intractable problem) ¡ ปัจจุบันนี้เราสามารถใช้วิธีการประมาณ (approximate) เพื่อแก้ปัญหานี้ได้ โดยใช้แบบจำลองทางสถิติ (เช่น NB, HMM, MEMM, และ CRF) หรือแบบจำลองเชิงตัวเลข (เช่น SVM และ PCA) แต่ก็ต้องยอมแลกกับความแม่นยำ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 10
  • 11. ¡ คำถาม 1: คำคืออะไร § ภาษาไทยพอมีเกณฑ์คร่าวๆ ของขอบเขตคำ ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำมูลที่รวมกันแน่น ▪ บ้างเชื่อว่าขอบเขตคำอยู่ที่คำประสมที่เปลี่ยนความหมายไป ▪ บ้างก็เชื่อว่าขึ้นอยู่กับการนำหน่วยความหมายของคำไปใช้งาน § ถึงจะกำหนดเกณฑ์คร่าวๆ ได้ แต่นักภาษาศาสตร์ก็ยังถกเถียง กันอยู่เสมอเมื่อพบความลักลั่นของกฎเกณฑ์ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 11
  • 12. ¡ รวมกรณีการตัดคำที่ขัดแย้งกับสัญชาตญาณ (counter-intuitive) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 12 เกณฑ์ ตัวอย่าง กรณีที่ขัดแย้งกับสัญชาตญาณ อิงตามคำมูล ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระ|ภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| ศาล|พระ|ภูมิ| โรง|เรียน| ตัดแยกให้เป็นคำมูลทั้งหมด อิงตามคำมูล ที่รวมกันแน่น ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียน|ประจำ| ดอก|จิก| (กล้วย) เล็บ|มือ|นาง| ตัดแยก เพราะมีความถี่การเกิดร่วมไม่เพียงพอ อิงตามคำประสม เปลี่ยนความหมาย ฉัน|นำ|ดอก|ไม้|ไป|ไหว้| ศาล|พระภูมิ|ที่|โรง|เรียน|ประจำ| ดอก|ไม้| แม่|น้ำ| โรง|เรียน| ต้องตัดแยก เพราะยังไม่เปลี่ยนความหมาย อิงตาม หน่วยความหมาย ฉัน|นำ|ดอกไม้|ไป|ไหว้| ศาลพระภูมิ|ที่|โรงเรียนประจำ| การออกกำลังกาย| หม้อแปลงไฟฟ้า| ต้องตัดรวมเพราะมีคำที่ตรงกันในภาษาอังกฤษ
  • 13. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 13 เกณฑ์ จุดประสงค์ ความลักลั่น ความกำกวม ตัวอย่าง อิงตามคำมูล วิเคราะห์โครงสร้าง หน่วยคำ ขอบเขตคำมูล ทับซ้อนกัน ต่ำสุด N/A อิงตามคำมูล ที่รวมกันแน่น วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า รวมกันแน่น ปานกลาง Thai National Corpus (TNC) อิงตามคำประสมที่ เปลี่ยนความหมาย วิเคราะห์โครงสร้าง ไวยากรณ์ เมื่อไหร่จึงจะถือว่า เปลี่ยนความหมาย ปานกลาง BEST 2010 อิงตาม หน่วยความหมาย ใช้เพื่อสอนระบบ แปลภาษาอัตโนมัติ ไม่มีหน่วยความหมาย กลางให้เป็นหลักยึด สูง ORCHID
  • 14. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 14 หม้อหุงข้าว N หม้อ หุง ข้าว N V N VP S NP หม้อหุงข้าว N ไฟฟ้า N NP หม้อ หุง N JV JVP NP NP ข้าว N ไฟฟ้า N NP หม้อหุงข้าว N ซ้อมมือ N NP หม้อ หุง N JV JVP NP NP ข้าว N ซ้อมมือ N NP 1 3 4 หีบ ประดับ มรกต N JV N JVP NP NP 2 หีบประดับมรกต N × × × × (รวมกันแน่น) (รวมกันแบบหลวม) (‘ซ้อมมือ’ ขยาย ‘หม้อ’ ไม่ได้)(‘ไฟฟ้า’ขยาย ‘หม้อ’ ได้)
  • 15. ¡ คำถาม 2: นี่มันคำประสมหรือหน่วยสร้าง (กรณีไม่ชัดแจ้ง) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 15 คนขับรถ N คน ขับ รถ N V N VP S NP คนขับรถ N บรรทุก JV NP คน ขับ N V VP S NP รถ N บรรทุก V NP คน ขับ N JV JVP NP NP รถ N บรรทุก V NP 1 2 คนขับรถบรรทุก N× × (ไม่รวมกันแน่น) (‘บรรทุก’ ขยาย ‘คน’ ไม่ได้)
  • 16. ¡ คำถาม 3: ทำไมประโยคถึงได้ขาดรุ่งริ่งแบบนี้ § สรรพนามและหน่วยสร้างวลีบางชนิดสามารถละได้ หากว่า ภายในกลุ่มยังสามารถอนุมานจากบริบทได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 16 สมชายฝากปลาทองไว้กับแม่ก่อนไปทะเล เพราะ φ1 อยากพักผ่อนโดยไม่ต้องห่วง φ2 npa1 npa2a1 a2 a3 because he wants to relax without worrying about it .
  • 17. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร § เราสามารถถอดรูปแทนความหมายระดับตื้นจากไวยากรณ์ได้ โดยใช้ Categorial Grammar และ Lambda Calculus 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 17 คำศัพท์ Categorial Grammar Lambda Calculus แม่, น้อง, ผ้า :- np mom’, sister’, clothes’ วาน :- snp1/(snp2)/np2 λx2 λf λx1.ask’(x1, x2, f(x2)) เก็บ :- snp1/np2 λx2 λx1.collect’(x1, x2)
  • 18. 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 18 แม่ วาน น้อง เก็บ ผ้า np : mom’ snp1/(snp2)/np2 : λx2 λf λx1.ask’(x1, x2, f(x2)) np : sister’ snp1/np2 : λx2 λx1.collect’(x1,x2) np : clothes’ snp1/(snp2) : λf λx1.ask’(x1, sister’, f(sister’)) snp1 : λx1.collect’(x1, clothes’) snp1 : λx1.ask’(x1, sister’, collect’(sister’ , clothes’)) s : ask’(mom’, sister’, collect’(sister’, clothes’))
  • 19. ¡ คำถาม 4: จะตีความรูปแทนความหมายอย่างไร (ต่อ) § การใช้ความหมายแฝงทำให้เราไม่สามารถระบุนิพจน์สโกเลม (Skolem’s term) และตัวบ่งปริมาณ (quantifier) ลงใน รูปแทนความหมายได้ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 19 แม่ วาน น้อง เก็บ ผ้า : ask’(mom’, sister’, collect’(sister’, clothes’)) ✍ ความกำกวม 1. ‘น้อง’ ที่ว่าหมายถึงน้องคนไหน: sister1’, sister2’, sister3’ … ฯลฯ ✍ ความกำกวม 2. ‘ผ้า’ ที่ว่าหมายถึงผ้าทุกผืนหรือผ้าบางผืน: ∀x. หรือ ∃x. clothes’(x)
  • 20. ¡ คำถาม 5: อ่านมาตั้งนาน สาระสำคัญอยู่ที่ไหน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 20 ระบบความคิดแบบรวมศูนย์ นิยมใช้ความหมายแฝงที่รู้กันเฉพาะกลุ่ม เน้นข้อแก้ตัวและการขออภัยที่มารบกวน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ระบบความคิดในสื่อสารมวลชนบางชนิด อาจใช้ความหมายแฝงเพื่อหลีกเลี่ยงการอ้างอิง ไม่จำเป็นต้องมีประเด็นที่ชัดเจน ข้ออ้าง 1 ข้ออ้าง 2 ข้ออ้าง 3 ข้ออ้าง 4 ข้ออ้าง 5 ข้ออ้าง 6 ข้ออ้าง 7 ข้ออ้าง 8 ประเด็น ?
  • 21. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 21 ตอนเช้าๆ คุณพ่อเพิ่งตื่นนอน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “แปดโมงยี่สิบค่ะ”
  • 22. ¡ คำถาม 6: ประโยคนี้หมายความว่าอะไรกันแน่ § ความหมายของประโยคจะขึ้นอยู่กับสถานการณ์ด้วย ซึ่งต้องใช้ ความรู้ทางโลก (world knowledge) และสามัญสำนึก 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 22 ณ เวลาตีสองสี่สิบห้านาที ลูกสาวเมากลับเข้าบ้าน คุณพ่อถามลูกสาวว่า “กี่โมงแล้ว” ลูกสาวตอบว่า “ตีสองกว่าค่ะพ่อ”
  • 23. ¡ ภาษาไทยในปัจจุบันได้รับอิทธิพลจากอินเตอร์เน็ตและ สังคมออนไลน์ § มีคำและความหมายเกิดใหม่ตลอดเวลา ทั้งที่เกิดจากการเทียบเคียง จากสถานการณ์ การสะกดผิดโดยรู้เท่าไม่ถึงการณ์ ความผิดพร่องใน การพิมพ์ และการพิมพ์ผิดอย่างจงใจ § มีแหล่งข้อมูลขนาดใหญ่ซึ่งสามารถค้นคืนได้ เช่น Facebook, Twitter, Instagram, หนังสือพิมพ์ และสื่อออนไลน์อื่นๆ § ไม่มั่นคง มีพลวัติสูงมาก เปลี่ยนแปลงตามสถานการณ์ได้อย่างรวดเร็ว 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 23
  • 24. ¡ การศึกษาแนวโน้มการใช้ภาษาในสื่อออนไลน์ § ศึกษาจากการระบุหัวเรื่องด้วย hashtag เช่น #ร้องไห้หนักมาก § เครื่องมือที่ช่วยศึกษาภาษาไทยในสื่อออนไลน์ http://pop.ssense.in.th 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 24
  • 25. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) § เราสามารถวิเคราะห์ขั้ว (polarity) และอารมณ์ (emotion) ของความคิดเห็นได้โดยพิจารณาจากการใช้รูปคำและบริบท 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 25 โทรศัพท์ XXXXXXX เต็มเปี่ยมไปด้วยความพรีเมี่ยมที่ยอดเยี่ยมกว่าเคย ไม่มีการติดต่อกลับมาใดๆ จนผมต้องเป็นฝ่ายอีเมล์ไปถามว่าเรื่องถึงไหนแล้ว + + + - - - - 1 2
  • 26. ¡ การวิเคราะห์ความคิดเห็น (sentiment analysis) (ต่อ) § ความคิดเห็นแบบการประชด (sarcasm) มีความหมายลึกมีขั้ว ตรงกันข้ามกับความหมายผิว (ambivalence) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 26 ร้าน XXXXX บริการสุดประทับใจ ไปทานอาหารสองครั้ง ออร์เดอร์หายทั้งสองครั้ง + - แถมครั้งสุดท้ายที่ไป เด็กเสิร์ฟยังคิดค่าอาหารผิด ไปรวมออร์เดอร์ที่หายไว้ในบิล - - -
  • 27. ¡ หัวข้อวิจัย § ระดับคำ: การตัดคำ การระบุคำประสม การกำกับชนิดของคำ § ระดับไวยากรณ์: การระบุก้อนหน่วยสร้างการวิเคราะห์โครงสร้างประโยค การแก้ปัญหาการละในระดับไวยากรณ์ § ระดับความหมาย: การกำกับบทบาทความหมาย การถอดรูปแทนความหมาย การตีความนิพจน์สโกเลมและตัวบ่งปริมาณการตีความคำเกิดใหม่ § ระดับปริจเฉท: การวิเคราะห์โครงสร้างเอกสารการสรุปเอกสารอัตโนมัติ § ระดับวัจนปฏิบัติ: การแก้ปัญหาความหมายแฝงการประมวลผลความรู้ทางโลก (เทรนด์ปัจจุบันคือ ontology) การวิเคราะห์ความคิดเห็นและการประชด 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 27
  • 28. ¡ ข้อแนะนำ § ความรู้เบื้องต้นสำหรับภาษาไทย: ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § ฝึกใช้ machine learning และเทคนิคที่เกี่ยวข้อง § ความแม่นยำของระบบขึ้นอยู่กับการออกแบบ “บริบท” เพื่อ แทนความหมายแฝง เช่น คำก่อนหน้า (n-gram) คำแวดล้อม (surrounding n-gram) โหนดแม่ในต้นไม้ไวยากรณ์ ฯลฯ 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 28
  • 29. ¡ ภาษาไทยมีความมหัศจรรย์5 ระดับ ซึ่งเป็นผลมาจาก กรอบความคิดแบบรวมศูนย์และการใช้ความหมายแฝง ¡ การใช้กฎผสมกับ machine learning และการออกแบบ รูปแทนบริบทจะช่วยแก้ปัญหาความหมายแฝงได้ ¡ กรุณาปรึกษาหัวข้อวิจัยกับอาจารย์ที่ปรึกษาของท่าน 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 29
  • 31. ¡ ความรู้เบื้องต้นสำหรับภาษาไทย § ไวยากรณ์ไทย (นววรรณ พันธุเมธา, พ.ศ. 2558 พิมพ์ครั้งที่ 7) § โครงสร้างภาษาไทย: ระบบไวยากรณ์ (วิจินตน์ ภาณุพงศ์, พ.ศ. 2520) § หลักภาษาไทย (กำชัย ทองหล่อ, 2515) 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 31
  • 32. ¡ Machine Learning § A First Course in Machine Learning (Simon Rogers and Mark Girolami, 2011) [เข้าใจง่าย] § Pattern Recognition and Machine Learning (Christopher Bishop, 2007) [ยากระดับกลาง] § Information Theory, Inference, and Learning Algorithms (David MacKay, 2003) [ยากและละเอียด] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 32
  • 33. ¡ Natural Language Processing § Speech and Language Processing (Daniel Jurafsky and James M. Martin, 2008) [ง่าย] § Foundations of Statistical Natural Language Processing (Manning, Prabhakar, and Schütze, 2008) [ยากระดับกลาง] § Natural Language Processing with Python (Bird, Klein, and Loper, 2009) [ง่าย, สอนใช้ NLTK ด้วย] 28 พฤษภาคม2559 มหัศจรรย์แห่งภาษาไทยและการประมวลผลภาษาธรรมชาติ (ปรัชญาบุญขวัญ) 33