แปลงร่างรัฐธรรมนูญ “ฉบับมีชัย” จาก PDF ให้เป็น Plain Text

แปลงร่างรัฐธรรมนูญ 
“ฉบับมีชัย” ให้เป็น PLAIN TEXT
เอาข้อมูลที่เปิดเป็น PDF มาใช้ก็ยากหน่อย
@bact อาทิตย์ สุริยะวงศ์กุล 
International Open Data Day — BarCamp Bangkok: Open Data 5 มีนาคม 2559

โจทย์
▸ “อยากให้ประชาชนมีส่วนร่วมในร่าง
รัฐธรรมนูญ”
▸ ก็ต้องให้คนได้อ่านก่อน
▸ อ่านแล้วก็ช่วยกันวิจารณ์ตัวบท
▸ เช่น เขียนโควตไปเขียนบล็อก
▸ แต่ PDF ที่ได้มา มัน copy & paste ยาก
▸ นอกจากนี้ยัง search ลำบาก analyse ยาก
▸ งั้นแปลงเป็น plain text เถอะ

TEXT
ขั้นตอน
1.ดาวน์โหลดต้นฉบับ ร่างรัฐธรรมนูญจาก www.parliament.go.th
2.แปลง PDF เป็น HTML (ด้วย Apache PDFBox)
3.แปลงอักขระ Private Use Areas (PUA) เป็นอักขระปกติ
4.แปลงเป็น plain text
5.สลับลำดับตัวอักษรให้ถูกต้อง
6.(optional) แปลงเลขไทยเป็นเลขอารบิก
7.(ยังไม่ได้ทำ) แปลงเป็น HTML + formatting (heading, div)

TEXT
แปลง PDF เป็น HTML ก่อน
▸ java -jar pdfbox-app.jar ExtractText -html
<ชื่อไฟล์PDF> <ชื่อไฟล์HTML>
▸ ที่ต้องแปลงเป็น HTML เพราะใน PDF ของเอกสาร มีการใช้โค้ด
ใน PUA (Private Use Areas) เพื่อความสวยงามของเอกสาร
▸ ซึ่งถ้าแปลงเป็น text ไปรวดเดียวเลย อักขระ PUA จะหาย (invalid
Unicode code point)

TEXT
แปลง HTML ENTITIES เป็นอักษรปกติ + แปลง PUA
▸ Apache PDFBox จะ
แปลงอักษรไทยเป็น
HTML Entities 
(“ร” -> บ) 
เราต้องแปลงมันอีกทีให้
เป็นอักษรที่คนอ่านออก
▸ พร้อมกันนี้ จะแปลง
อักขระในส่วน Private
Use Area (PUA) ด้วย

TEXT
สลับลำดับอักขระ (แก้การสะกด)
▸ ไม่แน่ใจว่าเพราะอะไร text
ที่สกัดออกมาจาก PDF ที่
เผยแพร่ สะกดคำไทยไม่
ตรงตามมาตรฐาน (<พญัช
นะ>+<สระบน/ล่าง>
+<วรรณยุกต์>)
▸ หรือมีช่องว่างหน้าสระบน/
ล่าง
▸ เขียนสคริปต์แก้

TEXT
จะได้ PLAIN TEXT ที่เอาไปใช้งานต่อได้
▸ (โค้ดปัจจุบันยังต้อง
มารวมย่อหน้าที่ถูก
แบ่งข้ามหน้าด้วย
มืออีกทีอยู่บ้าง)
▸ copy&paste ได้
▸ analyse ได้
▸ ดูที่ http://
pastebin.com/
Ue59e618

แต่ทำไมต้องลำบากแบบนี้ด้วย
ทำไมไม่เปิดข้อมูลเป็น MACHINE READABLE
มาตั้งแต่แรกล่ะครับเจ้านายย~
#น่าเบื่อ
TEXT

TEXT
ลองเล่นด้วยตัวเอง
▸ โค้ดอยู่ที่ 
https://www.facebook.com/arthit/notes
▸ คุยกันได้ที่ @bact

แปลงร่างรัฐธรรมนูญ “ฉบับมีชัย” จาก PDF ให้เป็น Plain Text

Recommended

Recommended

More Related Content

More from Arthit Suriyawongkul

More from Arthit Suriyawongkul (20)