วิธีสกัดข้อความออกจากไฟล์ PDF และวิธีแก้ไขปัญหาจาก encoding + การสะกดที่ผิดพลาด ด้วย regular expression ใน Python 3 โดยใช้ตัวอย่างไฟล์ PDF ร่างรัฐธรรมนูญ "ฉบับมีชัย" (29 ม.ค. 2559) ที่เผยแพร่บนเว็บไซต์ parliament.go.th จะเห็นว่าพอทำได้ แต่ก็เป็นขั้นตอนที่จริงๆ ไม่จำเป็นต้องเสียเวลาทำเลย ถ้าผู้เปิดเผยข้อมูล เผยแพร่ข้อมูลออกมาในรูปแบบที่อ่านด้วยเครื่อง (machine readable) ได้ทันทีมาตั้งแต่แรก (เอกสารถูกสร้างด้วยเครื่องคอมพิวเตอร์อยู่แล้ว) การสกัดข้อความจาก PDF ให้อยู่ในรูปแบบที่พร้อมเอาไปประมวลผลด้วยเครื่องต่อ โดยใช้ตัวอย่าง PDF ร่างรัฐธรรมนูญที่เผยแพร่บนเว็บไซต์ parliament.go.th จากการทดลองทำ ทำให้เห็นปัญหาจำนวนหนึ่งจากการสกัดข้อความออกจาก PDF เช่น - เพื่อความสวยงาม PDF มีการใช้ตัวอักขระในช่วง Private Use Areas - ซึ่งไม่ใช่ codepoint มาตรฐาน ทำให้อาจมีปัญหาในการประมวลผล (เช่น ใน Python จะแจ้งเป็น invalid codepoint และจะ throw exception เว้นว่าเราจะส่ง suppress มันทิ้ง ให้ข้ามมันไม่ไปเลยไม่ต้องสนใจ ซึ่งแปลว่าจะมีตัวอักษรจำนวนหนึ่งสูญหายไป และคำจะขาด) - การสะกดคำที่ไม่เป็นไปตามลำดับการสะกดภาษาไทยบนคอมพิวเตอร์ เช่น สะกดวรรณยุกต์ก่อนสระบน/ล่าง หรือมีช่องว่างแทรกระหว่างพยัญชนะกับสระ - เลขหน้าและหัวเอกสารถูกสกัดออกมาด้วย ต้องตัดทิ้งไป เพราะไม่ใช่เนื้อหาที่ต้องการ ในสไลด์แสดงวิธีแก้ไขด้วย regular expression บน Python 3 นำเสนอเมื่อวันที่ 5 มีนาคม 2559 ในงาน BarCamp Bangkok: Open Data - International Open Data Day 2016 ณ หอศิลปวัฒนธรรมแห่งกรุงเทพมหานคร (BACC)