SlideShare a Scribd company logo
การพัฒนาห้องสมุดดิจิทัลวชิรญาณ
มณฑล กาญจโนฬาร
คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย, ตุลาคม ๒๕๖๑
http://vajirayana.org | vajirayana.org@gmail.com
http://vajirayana.org
ข้อมูลโครงการ
• เริ่มต้นเมื่อ พ.ศ. ๒๕๕๗ โดยการจัดทำและเผยแพร่หนังสือสำคัญ ๖๐ เล่มเพื่อเฉลิมพระเกียรติิสมเด็จพระ
เทพรัตนราชสุดาฯ สยามบรมราชกุมารีในโอกาส ฉลองพระชนมายุ ๕ รอบ ๒ เมษายน ๒๕๕๘
• โดยได้รับความอนุเคราะห์จากสำนักวรรณกรรมและประวัติศาสตร์ กรมศิลปากรคัดเลือกหนังสือและเอื้อเฟื้อ
ต้นฉบับ
• ผู้ร่วมจัดทำโครงการ ๓ คน
• ปัจจุบันมีหนังสือเผยแพร่ในโครงการ ๑๘๘ เรื่อง
• กลุ่มเป้าหมายของโครงการ คือ นักเรียน นักศึกษา (น้อยกว่า ๒๔ ปี)
• เผยแพร่ในรูปแบบข้อความแทนรูปภาพ เพื่อให้เข้าถึงได้ง่ายในทุกอุปกรณ์ สามารถค้นคำได้
http://vajirayana.org
รูปแบบข้อความและรูปภาพ
• โหลดเร็ว
• ใช้งานง่ายในทุกอุปกรณ์ เช่น โทรศัพท์มือถือ
• ผู้พิการทางสายตาสามารถใช้งานผ่านเครื่องอ่าน
ออกเสียง
• ค้นคำได้ง่าย สามารถสร้างลิงก์ได้
• มีความถูกต้อง สมบูรณ์
• ใช้เวลาจัดทำน้อย
• อ้างอิงโดยใช้เลขหน้า
รูปแบบข้อความ รูปภาพ
เหมาะสำหรับการอ่านทั่วไปและการค้นคว้า เหมาะสำหรับการอนุรักษ์ การอ้างอิง และ
ใช้ในชั้นเรียน
http://vajirayana.org
• ร้อยกรอง บทละครเรื่องรามเกียรติ์ ในรัชกาลที่ ๑ บทละครเรื่องอิเหนา ในรัชกาลที่ ๒, ผลงาน
ทั้งหมดของสุนทรภู่ที่พบในปัจจุบัน, เสภาเรื่องขุนช้างขุนแผน, สมุทรโฆษคำฉันท์, พระนลคำหลวง,
ประชุมเพลงยาว, กลอนสวด
• ประวัติศาสตร์ ธรรมเนียมประเพณี พระราชพงศาวดารกรุงรัตนโกสินทร์รัชกาลที่ ๑ ถึงรัชกาลที่ ๕,
ประชุมพระราชนิพนธ์/ประกาศรัชกาลที่ ๔, ไกลบ้าน, พระราชพิธีสิบสองเดือน
• ศาสนา ไตรภูมิกถา, มหาชาติคำหลวง
• นวนิยายแปลอิงประวัติศาสตร์จีน สามก๊ก เลียดก๊ก ไซฮั่น ซ้องกั๋ง
หนังสือที่เผยแพร่แล้ว
http://vajirayana.org
• หนังสือหมวดอื่นๆ แพทยศาสตร์สงเคราะห์, ตำราโหร, ตำรากับข้าว, หนังสือเด็กและแบบเรียน
• วรรณกรรมท้องถิ่น พื้นเวียงจันทน์ นายดั่นวันคาร โคลงอุสาบารส...
• งานพระราชนิพนธ์พระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว, งานพระนิพนธ์สมเด็จกรมพระยาดำรง
ราชานุภาพ, สาส์นสมเด็จ
• นวนิยายและเรื่องสั้นไทยจากสมัยรัชกาลที่ ๗
หนังสือในระหว่างจัดทำ
http://vajirayana.org
• ได้รับความอนุเคราะห์จากสำนักวรรณกรรมฯ ช่วยคัดเลือก ๖๐ เล่มแรก (รามเกียรติ์, อิเหนา, ขุนช้าง
ขุนแผน)
• หนังสือที่ได้รับการยกย่องจากวรรณคดีสโมสร, ๑๐๐ เล่มที่คนไทยควรอ่านโดย สกว. (โคลงกลอนของ
ครูเทพ, หนังสือแสดงกิจจานุกิจ)
• หนังสือที่กล่าวถึงในหนังสือที่จัดทำ (โคลงนิราศหริภุญชัย, จดหมายหลวงอุดมสมบัติ)
• หนังสือแนะนำจากยูสเซอร์ (สรรพสิทธิ์คำฉันท์, ไตรภูมิกถา, ประชุมปกรณัม, โคลงนิราศพระพิพิธสาลี)
• หนังสือจัดพิมพ์โดยกรมศิลปากร (ประชุมสุภาษิตสอนหญิง, ประชุมวรรณคดีเรื่องพระพุทธบาท)
• พระราชนิพนธ์ในรัชกาลที่ ๒, ผลงานทั้งหมดของสุนทรภู่
การคัดเลือกหนังสือในโครงการ
http://vajirayana.org
สถิติการใช้งาน
• ในเดือนสิงหาคม 2561 มีผู้ใช้งาน 72,000 ราย โดย 43% อายุระหว่าง 18-24 ปี
• 59% mobile, 38% desktop, 3% tablet.
http://vajirayana.org
แหล่งข้อมูลหนังสือไทยออนไลน์
• full library features

• TH/FR/EN
• larger collection

• less features

• TH books only
• text format

• incomplete books
• สำนักงานวิทยทรัพยากร จุฬาลงกรณ์มหาวิทยาลัย
• หอสมุดมหาวิทยาลัยธรรมศาสตร์
• หอสมุดมหาวิทยาลัยเชียงใหม่
• คลังข้อมูลดิจิทัล กรมศิลปากร
• หอสมุดแห่งชาติ ส่วนภูมิภาค
• ศูนย์มานุษยวิทยาสิรินธร (องค์การมหาชน)
• Wikisource

• Ruern Thai
http://vajirayana.org
Book Digitisation
I. ไฟล์ pdf ที่เป็นข้อความ (Highlight ได้)
- copy/paste หรือ pdf2text tool

- Find/Replace encoded or
unrecognised symbols

- Use VBA script to replace symbols
cannot find/replace
II. ไฟล์สแกนหรือรูปถ่าย
- OCR with Tesseract

- Output files in .txt or .docx
http://vajirayana.org
1. Images Preprocessing
- Convert pdf to jpg
- Page split and clean up
2. OCR
- Tesseract 4.0

- Output files in .txt, .docx
3. Proof Correction
- Autocorrection scripts

- Human proofread

- Format html
OCR Workflow
http://vajirayana.org
1. Image Preprocessing
• Better OCR result images 300dpi, clear, black and white,
no watermark, no book border.

• Convert pdf to jpg/tif: ImageMagick convert

• ImageMagick textcleaner (crop, sharpening, b&w,
rotate, clean up)
• ScanTailor (split pages and clean up)
http://vajirayana.org
OCR Engines
ABBYY FineReader Tesseract 4.0 OCRopus
OS Windows, Mac OS X Windows, Linux, Mac OS X FreeBSD, Linux, Mac OS X
User Interface
GUI (with preprocessing,
language detection and
output formats)

CLI CLI
Glyph Training Limited Required large dataset Tools provided
License Commercial, Closed source Apache License v2.0 Apache License v2.0
Developed by A Russian based company Google
German Research Centre for
Artificial Intelligence
Thai language Yes Yes No
http://vajirayana.org
Tesseract Open Source OCR Engine
• Originally of HP, Since 2006 it has been developed by Google.

• Can recognise more than 100 languages (incl. Thai)

• Result in beta version 4.0 (LSTM based) is much better than stable
version 3 for Thai language.

• Better quality of image, better results.

• Can be trained to recognise other languages.

• Has basic command line usage with API for developers.

• https://github.com/tesseract-ocr/tesseract
http://vajirayana.org
2. Running Tesseract OCR
• Run Tesseract command for all page images in a folder

- To fix result with extra spaces use option preserve_interword_spaces=1

tesseract thatest.jpg thatest -l tha --psm 1 --oem 1 -c
preserve_interword_spaces=1 txt
- To fix extra lines from top vowels, increase line height by option textord_min_linesize=3.25

tesseract IMG_5339_L.tif IMG_5339 -l tha --psm 1 --oem 1 -c
textord_min_linesize=3.25 txt
- Multiple languages

tesseract 186.jpg 186 -l tha+eng --psm 1 --oem 1 -c textord_min_linesize=3.25
txt
For more Tesseract command options

tesseract —print-parameters
http://vajirayana.org
3. Proof Correction
• Auto-correction MS Word VBA scripts: Regular
Expressions and recorded find/replace words

• Manual proofread on 1st edition book, record replace
words for future autocorrection.

• Annotate page number
http://vajirayana.org
ข้อมูลด้านเทคนิกเวปไซต์
• CMS: Drupal 7 with built-in Book Module

• html2book: Automatic break chapters based on
Word heading style

• Google Custom Search

• Formatting text: footnotes (bigfootJS), วันขึ้นวันแรม (CSS),
มาตราเงินไทย (+), ปีกกาพ่วงบรรทัด ( } ) (MathJax)
http://vajirayana.org
ข้อสังเกตและปัญหาที่พบ
• ไฟล์สแกนไม่ครบหน้า

• หนังสือเก่ามักมีคำเดียวกันใช้ตัวสะกดหลายรูป 

• หนังสือฉบับพิมพ์ใหม่มีข้อความขาดหายทีละ 1-2 บรรทัด

• MS Word ไม่รู้จักคำเก่า

• Search Engine ไม่เข้าใจคำเก่า
http://vajirayana.org
งานพัฒนาด้านเทคนิก
• Faster and more accurate workflow: Tesseract model
training.

• Library Features: advanced search and indexing.

• UX Improvement: bookmarks, text highlights and notes.
http://vajirayana.org
iขอบคุณครับ
http://vajirayana.org
Resources
• Tesseract OCR [https://github.com/tesseract-ocr]

Command Line Usage [https://github.com/tesseract-ocr/tesseract/wiki/
Command-Line-Usage]

• ImageMagick [https://www.imagemagick.org]

• ImageMagick textcleaner [http://www.fmwconcepts.com/imagemagick/
textcleaner/index.php]

• Convert pdf files: XpdfReader [http://www.xpdfreader.com/]

• ScanTailor [http://scantailor.org/]

• Footnotes: bigfoot [www.bigfootjs.com/]

More Related Content

Similar to Vajirayana Digital Library Introduction

Web Accessibility
Web AccessibilityWeb Accessibility
Web Accessibility
Boonlert Aroonpiboon
 
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHSOAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
Boonlert Aroonpiboon
 
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
Satapon Yosakonkun
 
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยีห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
Boonlert Aroonpiboon
 
20100612 digital-metadata
20100612 digital-metadata20100612 digital-metadata
20100612 digital-metadata
Boonlert Aroonpiboon
 
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freewareการประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
Satapon Yosakonkun
 
Digital Content for Web
Digital Content for WebDigital Content for Web
Digital Content for Web
Boonlert Aroonpiboon
 
Greenstone from paper to digital collection
Greenstone from paper to digital collectionGreenstone from paper to digital collection
Greenstone from paper to digital collection
Boonlert Aroonpiboon
 
ICT with Web site
ICT with Web siteICT with Web site
ICT with Web site
Boonlert Aroonpiboon
 
Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day
Akarawuth Tamrareang
 
20170213 digital-archives
20170213 digital-archives20170213 digital-archives
20170213 digital-archives
Boonlert Aroonpiboon
 
How to manage e-Media
How to manage e-MediaHow to manage e-Media
How to manage e-Media
Boonlert Aroonpiboon
 

Similar to Vajirayana Digital Library Introduction (14)

Web Accessibility
Web AccessibilityWeb Accessibility
Web Accessibility
 
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHSOAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
 
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
การเพิ่มประสิทธิภาพและการสืบค้นทรัพยากรอิเล็กทรอนิกส์ด้วย Metadata (การจัดทำ ...
 
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยีห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
ห้องสมุดเปลี่ยนได้ด้วยเทคโนโลยี
 
20100612 digital-metadata
20100612 digital-metadata20100612 digital-metadata
20100612 digital-metadata
 
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freewareการประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
การประยุกต์ใช้โอเพนซอร์สซอฟต์แวร์ในองค์กร Open source software & Freeware
 
Digital Content for Web
Digital Content for WebDigital Content for Web
Digital Content for Web
 
บทที่ 3
บทที่  3บทที่  3
บทที่ 3
 
Greenstone from paper to digital collection
Greenstone from paper to digital collectionGreenstone from paper to digital collection
Greenstone from paper to digital collection
 
2
22
2
 
ICT with Web site
ICT with Web siteICT with Web site
ICT with Web site
 
Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day
 
20170213 digital-archives
20170213 digital-archives20170213 digital-archives
20170213 digital-archives
 
How to manage e-Media
How to manage e-MediaHow to manage e-Media
How to manage e-Media
 

More from Korakot Chaovavanich

Meetup 4 regexp
Meetup 4 regexpMeetup 4 regexp
Meetup 4 regexp
Korakot Chaovavanich
 
Build your own ASR engine
Build your own ASR engineBuild your own ASR engine
Build your own ASR engine
Korakot Chaovavanich
 
How Pantip manage its Thai Database
How Pantip manage its Thai DatabaseHow Pantip manage its Thai Database
How Pantip manage its Thai Database
Korakot Chaovavanich
 
Line hackathon
Line hackathonLine hackathon
Line hackathon
Korakot Chaovavanich
 
Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2
Korakot Chaovavanich
 
Thai NLP resources
Thai NLP resourcesThai NLP resources
Thai NLP resources
Korakot Chaovavanich
 

More from Korakot Chaovavanich (6)

Meetup 4 regexp
Meetup 4 regexpMeetup 4 regexp
Meetup 4 regexp
 
Build your own ASR engine
Build your own ASR engineBuild your own ASR engine
Build your own ASR engine
 
How Pantip manage its Thai Database
How Pantip manage its Thai DatabaseHow Pantip manage its Thai Database
How Pantip manage its Thai Database
 
Line hackathon
Line hackathonLine hackathon
Line hackathon
 
Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2
 
Thai NLP resources
Thai NLP resourcesThai NLP resources
Thai NLP resources
 

Vajirayana Digital Library Introduction

  • 2. http://vajirayana.org ข้อมูลโครงการ • เริ่มต้นเมื่อ พ.ศ. ๒๕๕๗ โดยการจัดทำและเผยแพร่หนังสือสำคัญ ๖๐ เล่มเพื่อเฉลิมพระเกียรติิสมเด็จพระ เทพรัตนราชสุดาฯ สยามบรมราชกุมารีในโอกาส ฉลองพระชนมายุ ๕ รอบ ๒ เมษายน ๒๕๕๘ • โดยได้รับความอนุเคราะห์จากสำนักวรรณกรรมและประวัติศาสตร์ กรมศิลปากรคัดเลือกหนังสือและเอื้อเฟื้อ ต้นฉบับ • ผู้ร่วมจัดทำโครงการ ๓ คน • ปัจจุบันมีหนังสือเผยแพร่ในโครงการ ๑๘๘ เรื่อง • กลุ่มเป้าหมายของโครงการ คือ นักเรียน นักศึกษา (น้อยกว่า ๒๔ ปี) • เผยแพร่ในรูปแบบข้อความแทนรูปภาพ เพื่อให้เข้าถึงได้ง่ายในทุกอุปกรณ์ สามารถค้นคำได้
  • 3. http://vajirayana.org รูปแบบข้อความและรูปภาพ • โหลดเร็ว • ใช้งานง่ายในทุกอุปกรณ์ เช่น โทรศัพท์มือถือ • ผู้พิการทางสายตาสามารถใช้งานผ่านเครื่องอ่าน ออกเสียง • ค้นคำได้ง่าย สามารถสร้างลิงก์ได้ • มีความถูกต้อง สมบูรณ์ • ใช้เวลาจัดทำน้อย • อ้างอิงโดยใช้เลขหน้า รูปแบบข้อความ รูปภาพ เหมาะสำหรับการอ่านทั่วไปและการค้นคว้า เหมาะสำหรับการอนุรักษ์ การอ้างอิง และ ใช้ในชั้นเรียน
  • 4. http://vajirayana.org • ร้อยกรอง บทละครเรื่องรามเกียรติ์ ในรัชกาลที่ ๑ บทละครเรื่องอิเหนา ในรัชกาลที่ ๒, ผลงาน ทั้งหมดของสุนทรภู่ที่พบในปัจจุบัน, เสภาเรื่องขุนช้างขุนแผน, สมุทรโฆษคำฉันท์, พระนลคำหลวง, ประชุมเพลงยาว, กลอนสวด • ประวัติศาสตร์ ธรรมเนียมประเพณี พระราชพงศาวดารกรุงรัตนโกสินทร์รัชกาลที่ ๑ ถึงรัชกาลที่ ๕, ประชุมพระราชนิพนธ์/ประกาศรัชกาลที่ ๔, ไกลบ้าน, พระราชพิธีสิบสองเดือน • ศาสนา ไตรภูมิกถา, มหาชาติคำหลวง • นวนิยายแปลอิงประวัติศาสตร์จีน สามก๊ก เลียดก๊ก ไซฮั่น ซ้องกั๋ง หนังสือที่เผยแพร่แล้ว
  • 5. http://vajirayana.org • หนังสือหมวดอื่นๆ แพทยศาสตร์สงเคราะห์, ตำราโหร, ตำรากับข้าว, หนังสือเด็กและแบบเรียน • วรรณกรรมท้องถิ่น พื้นเวียงจันทน์ นายดั่นวันคาร โคลงอุสาบารส... • งานพระราชนิพนธ์พระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว, งานพระนิพนธ์สมเด็จกรมพระยาดำรง ราชานุภาพ, สาส์นสมเด็จ • นวนิยายและเรื่องสั้นไทยจากสมัยรัชกาลที่ ๗ หนังสือในระหว่างจัดทำ
  • 6. http://vajirayana.org • ได้รับความอนุเคราะห์จากสำนักวรรณกรรมฯ ช่วยคัดเลือก ๖๐ เล่มแรก (รามเกียรติ์, อิเหนา, ขุนช้าง ขุนแผน) • หนังสือที่ได้รับการยกย่องจากวรรณคดีสโมสร, ๑๐๐ เล่มที่คนไทยควรอ่านโดย สกว. (โคลงกลอนของ ครูเทพ, หนังสือแสดงกิจจานุกิจ) • หนังสือที่กล่าวถึงในหนังสือที่จัดทำ (โคลงนิราศหริภุญชัย, จดหมายหลวงอุดมสมบัติ) • หนังสือแนะนำจากยูสเซอร์ (สรรพสิทธิ์คำฉันท์, ไตรภูมิกถา, ประชุมปกรณัม, โคลงนิราศพระพิพิธสาลี) • หนังสือจัดพิมพ์โดยกรมศิลปากร (ประชุมสุภาษิตสอนหญิง, ประชุมวรรณคดีเรื่องพระพุทธบาท) • พระราชนิพนธ์ในรัชกาลที่ ๒, ผลงานทั้งหมดของสุนทรภู่ การคัดเลือกหนังสือในโครงการ
  • 7. http://vajirayana.org สถิติการใช้งาน • ในเดือนสิงหาคม 2561 มีผู้ใช้งาน 72,000 ราย โดย 43% อายุระหว่าง 18-24 ปี • 59% mobile, 38% desktop, 3% tablet.
  • 8. http://vajirayana.org แหล่งข้อมูลหนังสือไทยออนไลน์ • full library features • TH/FR/EN • larger collection • less features • TH books only • text format • incomplete books • สำนักงานวิทยทรัพยากร จุฬาลงกรณ์มหาวิทยาลัย • หอสมุดมหาวิทยาลัยธรรมศาสตร์ • หอสมุดมหาวิทยาลัยเชียงใหม่ • คลังข้อมูลดิจิทัล กรมศิลปากร • หอสมุดแห่งชาติ ส่วนภูมิภาค • ศูนย์มานุษยวิทยาสิรินธร (องค์การมหาชน) • Wikisource • Ruern Thai
  • 9. http://vajirayana.org Book Digitisation I. ไฟล์ pdf ที่เป็นข้อความ (Highlight ได้) - copy/paste หรือ pdf2text tool - Find/Replace encoded or unrecognised symbols - Use VBA script to replace symbols cannot find/replace II. ไฟล์สแกนหรือรูปถ่าย - OCR with Tesseract - Output files in .txt or .docx
  • 10. http://vajirayana.org 1. Images Preprocessing - Convert pdf to jpg - Page split and clean up 2. OCR - Tesseract 4.0 - Output files in .txt, .docx 3. Proof Correction - Autocorrection scripts - Human proofread - Format html OCR Workflow
  • 11. http://vajirayana.org 1. Image Preprocessing • Better OCR result images 300dpi, clear, black and white, no watermark, no book border. • Convert pdf to jpg/tif: ImageMagick convert • ImageMagick textcleaner (crop, sharpening, b&w, rotate, clean up) • ScanTailor (split pages and clean up)
  • 12. http://vajirayana.org OCR Engines ABBYY FineReader Tesseract 4.0 OCRopus OS Windows, Mac OS X Windows, Linux, Mac OS X FreeBSD, Linux, Mac OS X User Interface GUI (with preprocessing, language detection and output formats) CLI CLI Glyph Training Limited Required large dataset Tools provided License Commercial, Closed source Apache License v2.0 Apache License v2.0 Developed by A Russian based company Google German Research Centre for Artificial Intelligence Thai language Yes Yes No
  • 13. http://vajirayana.org Tesseract Open Source OCR Engine • Originally of HP, Since 2006 it has been developed by Google. • Can recognise more than 100 languages (incl. Thai) • Result in beta version 4.0 (LSTM based) is much better than stable version 3 for Thai language. • Better quality of image, better results. • Can be trained to recognise other languages. • Has basic command line usage with API for developers. • https://github.com/tesseract-ocr/tesseract
  • 14. http://vajirayana.org 2. Running Tesseract OCR • Run Tesseract command for all page images in a folder - To fix result with extra spaces use option preserve_interword_spaces=1 tesseract thatest.jpg thatest -l tha --psm 1 --oem 1 -c preserve_interword_spaces=1 txt - To fix extra lines from top vowels, increase line height by option textord_min_linesize=3.25 tesseract IMG_5339_L.tif IMG_5339 -l tha --psm 1 --oem 1 -c textord_min_linesize=3.25 txt - Multiple languages tesseract 186.jpg 186 -l tha+eng --psm 1 --oem 1 -c textord_min_linesize=3.25 txt For more Tesseract command options tesseract —print-parameters
  • 15. http://vajirayana.org 3. Proof Correction • Auto-correction MS Word VBA scripts: Regular Expressions and recorded find/replace words • Manual proofread on 1st edition book, record replace words for future autocorrection. • Annotate page number
  • 16. http://vajirayana.org ข้อมูลด้านเทคนิกเวปไซต์ • CMS: Drupal 7 with built-in Book Module • html2book: Automatic break chapters based on Word heading style • Google Custom Search • Formatting text: footnotes (bigfootJS), วันขึ้นวันแรม (CSS), มาตราเงินไทย (+), ปีกกาพ่วงบรรทัด ( } ) (MathJax)
  • 17. http://vajirayana.org ข้อสังเกตและปัญหาที่พบ • ไฟล์สแกนไม่ครบหน้า • หนังสือเก่ามักมีคำเดียวกันใช้ตัวสะกดหลายรูป • หนังสือฉบับพิมพ์ใหม่มีข้อความขาดหายทีละ 1-2 บรรทัด • MS Word ไม่รู้จักคำเก่า • Search Engine ไม่เข้าใจคำเก่า
  • 18. http://vajirayana.org งานพัฒนาด้านเทคนิก • Faster and more accurate workflow: Tesseract model training. • Library Features: advanced search and indexing. • UX Improvement: bookmarks, text highlights and notes.
  • 20. http://vajirayana.org Resources • Tesseract OCR [https://github.com/tesseract-ocr] Command Line Usage [https://github.com/tesseract-ocr/tesseract/wiki/ Command-Line-Usage] • ImageMagick [https://www.imagemagick.org] • ImageMagick textcleaner [http://www.fmwconcepts.com/imagemagick/ textcleaner/index.php] • Convert pdf files: XpdfReader [http://www.xpdfreader.com/] • ScanTailor [http://scantailor.org/] • Footnotes: bigfoot [www.bigfootjs.com/]