SlideShare a Scribd company logo
1 of 20
Download to read offline
āļāļēāļĢāļžāļąāļ’āļ™āļēāļŦāđ‰āļ­āļ‡āļŠāļĄāļļāļ”āļ”āļīāļˆāļīāļ—āļąāļĨāļ§āļŠāļīāļĢāļāļēāļ“
āļĄāļ“āļ‘āļĨ āļāļēāļāļˆāđ‚āļ™āļŽāļēāļĢ
āļ„āļ“āļ°āļ­āļąāļāļĐāļĢāļĻāļēāļŠāļ•āļĢāđŒ āļˆāļļāļŽāļēāļĨāļ‡āļāļĢāļ“āđŒāļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒ, āļ•āļļāļĨāļēāļ„āļĄ āđ’āđ•āđ–āđ‘
http://vajirayana.org | vajirayana.org@gmail.com
http://vajirayana.org
āļ‚āđ‰āļ­āļĄāļđāļĨāđ‚āļ„āļĢāļ‡āļāļēāļĢ
â€Ē āđ€āļĢāļīāđˆāļĄāļ•āđ‰āļ™āđ€āļĄāļ·āđˆāļ­ āļž.āļĻ. āđ’āđ•āđ•āđ— āđ‚āļ”āļĒāļāļēāļĢāļˆāļąāļ”āļ—āļģāđāļĨāļ°āđ€āļœāļĒāđāļžāļĢāđˆāļŦāļ™āļąāļ‡āļŠāļ·āļ­āļŠāļģāļ„āļąāļ āđ–āđ āđ€āļĨāđˆāļĄāđ€āļžāļ·āđˆāļ­āđ€āļ‰āļĨāļīāļĄāļžāļĢāļ°āđ€āļāļĩāļĒāļĢāļ•āļīāļīāļŠāļĄāđ€āļ”āđ‡āļˆāļžāļĢāļ°
āđ€āļ—āļžāļĢāļąāļ•āļ™āļĢāļēāļŠāļŠāļļāļ”āļēāļŊ āļŠāļĒāļēāļĄāļšāļĢāļĄāļĢāļēāļŠāļāļļāļĄāļēāļĢāļĩāđƒāļ™āđ‚āļ­āļāļēāļŠ āļ‰āļĨāļ­āļ‡āļžāļĢāļ°āļŠāļ™āļĄāļēāļĒāļļ āđ• āļĢāļ­āļš āđ’ āđ€āļĄāļĐāļēāļĒāļ™ āđ’āđ•āđ•āđ˜
â€Ē āđ‚āļ”āļĒāđ„āļ”āđ‰āļĢāļąāļšāļ„āļ§āļēāļĄāļ­āļ™āļļāđ€āļ„āļĢāļēāļ°āļŦāđŒāļˆāļēāļāļŠāļģāļ™āļąāļāļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāđāļĨāļ°āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒ āļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢāļ„āļąāļ”āđ€āļĨāļ·āļ­āļāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļĨāļ°āđ€āļ­āļ·āđ‰āļ­āđ€āļŸāļ·āđ‰āļ­
āļ•āđ‰āļ™āļ‰āļšāļąāļš
â€Ē āļœāļđāđ‰āļĢāđˆāļ§āļĄāļˆāļąāļ”āļ—āļģāđ‚āļ„āļĢāļ‡āļāļēāļĢ āđ“ āļ„āļ™
â€Ē āļ›āļąāļˆāļˆāļļāļšāļąāļ™āļĄāļĩāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļœāļĒāđāļžāļĢāđˆāđƒāļ™āđ‚āļ„āļĢāļ‡āļāļēāļĢ āđ‘āđ˜āđ˜ āđ€āļĢāļ·āđˆāļ­āļ‡
â€Ē āļāļĨāđˆāļļāļĄāđ€āļ›āđ‰āļēāļŦāļĄāļēāļĒāļ‚āļ­āļ‡āđ‚āļ„āļĢāļ‡āļāļēāļĢ āļ„āļ·āļ­ āļ™āļąāļāđ€āļĢāļĩāļĒāļ™ āļ™āļąāļāļĻāļķāļāļĐāļē (āļ™āđ‰āļ­āļĒāļāļ§āđˆāļē āđ’āđ” āļ›āļĩ)
â€Ē āđ€āļœāļĒāđāļžāļĢāđˆāđƒāļ™āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāđāļ—āļ™āļĢāļđāļ›āļ āļēāļž āđ€āļžāļ·āđˆāļ­āđƒāļŦāđ‰āđ€āļ‚āđ‰āļēāļ–āļķāļ‡āđ„āļ”āđ‰āļ‡āđˆāļēāļĒāđƒāļ™āļ—āļļāļāļ­āļļāļ›āļāļĢāļ“āđŒ āļŠāļēāļĄāļēāļĢāļ–āļ„āđ‰āļ™āļ„āļģāđ„āļ”āđ‰
http://vajirayana.org
āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāđāļĨāļ°āļĢāļđāļ›āļ āļēāļž
â€Ē āđ‚āļŦāļĨāļ”āđ€āļĢāđ‡āļ§
â€Ē āđƒāļŠāđ‰āļ‡āļēāļ™āļ‡āđˆāļēāļĒāđƒāļ™āļ—āļļāļāļ­āļļāļ›āļāļĢāļ“āđŒ āđ€āļŠāđˆāļ™ āđ‚āļ—āļĢāļĻāļąāļžāļ—āđŒāļĄāļ·āļ­āļ–āļ·āļ­
â€Ē āļœāļđāđ‰āļžāļīāļāļēāļĢāļ—āļēāļ‡āļŠāļēāļĒāļ•āļēāļŠāļēāļĄāļēāļĢāļ–āđƒāļŠāđ‰āļ‡āļēāļ™āļœāđˆāļēāļ™āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļ­āđˆāļēāļ™
āļ­āļ­āļāđ€āļŠāļĩāļĒāļ‡
â€Ē āļ„āđ‰āļ™āļ„āļģāđ„āļ”āđ‰āļ‡āđˆāļēāļĒ āļŠāļēāļĄāļēāļĢāļ–āļŠāļĢāđ‰āļēāļ‡āļĨāļīāļ‡āļāđŒāđ„āļ”āđ‰
â€Ē āļĄāļĩāļ„āļ§āļēāļĄāļ–āļđāļāļ•āđ‰āļ­āļ‡ āļŠāļĄāļšāļđāļĢāļ“āđŒ
â€Ē āđƒāļŠāđ‰āđ€āļ§āļĨāļēāļˆāļąāļ”āļ—āļģāļ™āđ‰āļ­āļĒ
â€Ē āļ­āđ‰āļēāļ‡āļ­āļīāļ‡āđ‚āļ”āļĒāđƒāļŠāđ‰āđ€āļĨāļ‚āļŦāļ™āđ‰āļē
āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄ āļĢāļđāļ›āļ āļēāļž
āđ€āļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ­āđˆāļēāļ™āļ—āļąāđˆāļ§āđ„āļ›āđāļĨāļ°āļāļēāļĢāļ„āđ‰āļ™āļ„āļ§āđ‰āļē āđ€āļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ­āļ™āļļāļĢāļąāļāļĐāđŒ āļāļēāļĢāļ­āđ‰āļēāļ‡āļ­āļīāļ‡ āđāļĨāļ°
āđƒāļŠāđ‰āđƒāļ™āļŠāļąāđ‰āļ™āđ€āļĢāļĩāļĒāļ™
http://vajirayana.org
â€Ē āļĢāđ‰āļ­āļĒāļāļĢāļ­āļ‡ āļšāļ—āļĨāļ°āļ„āļĢāđ€āļĢāļ·āđˆāļ­āļ‡āļĢāļēāļĄāđ€āļāļĩāļĒāļĢāļ•āļīāđŒ āđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ‘ āļšāļ—āļĨāļ°āļ„āļĢāđ€āļĢāļ·āđˆāļ­āļ‡āļ­āļīāđ€āļŦāļ™āļē āđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ’, āļœāļĨāļ‡āļēāļ™
āļ—āļąāđ‰āļ‡āļŦāļĄāļ”āļ‚āļ­āļ‡āļŠāļļāļ™āļ—āļĢāļ āļđāđˆāļ—āļĩāđˆāļžāļšāđƒāļ™āļ›āļąāļˆāļˆāļļāļšāļąāļ™, āđ€āļŠāļ āļēāđ€āļĢāļ·āđˆāļ­āļ‡āļ‚āļļāļ™āļŠāđ‰āļēāļ‡āļ‚āļļāļ™āđāļœāļ™, āļŠāļĄāļļāļ—āļĢāđ‚āļ†āļĐāļ„āļģāļ‰āļąāļ™āļ—āđŒ, āļžāļĢāļ°āļ™āļĨāļ„āļģāļŦāļĨāļ§āļ‡,
āļ›āļĢāļ°āļŠāļļāļĄāđ€āļžāļĨāļ‡āļĒāļēāļ§, āļāļĨāļ­āļ™āļŠāļ§āļ”
â€Ē āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒ āļ˜āļĢāļĢāļĄāđ€āļ™āļĩāļĒāļĄāļ›āļĢāļ°āđ€āļžāļ“āļĩ āļžāļĢāļ°āļĢāļēāļŠāļžāļ‡āļĻāļēāļ§āļ”āļēāļĢāļāļĢāļļāļ‡āļĢāļąāļ•āļ™āđ‚āļāļŠāļīāļ™āļ—āļĢāđŒāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ‘ āļ–āļķāļ‡āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ•,
āļ›āļĢāļ°āļŠāļļāļĄāļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒ/āļ›āļĢāļ°āļāļēāļĻāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ”, āđ„āļāļĨāļšāđ‰āļēāļ™, āļžāļĢāļ°āļĢāļēāļŠāļžāļīāļ˜āļĩāļŠāļīāļšāļŠāļ­āļ‡āđ€āļ”āļ·āļ­āļ™
â€Ē āļĻāļēāļŠāļ™āļē āđ„āļ•āļĢāļ āļđāļĄāļīāļāļ–āļē, āļĄāļŦāļēāļŠāļēāļ•āļīāļ„āļģāļŦāļĨāļ§āļ‡
â€Ē āļ™āļ§āļ™āļīāļĒāļēāļĒāđāļ›āļĨāļ­āļīāļ‡āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒāļˆāļĩāļ™ āļŠāļēāļĄāļāđŠāļ āđ€āļĨāļĩāļĒāļ”āļāđŠāļ āđ„āļ‹āļŪāļąāđˆāļ™ āļ‹āđ‰āļ­āļ‡āļāļąāđ‹āļ‡
āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāđ€āļœāļĒāđāļžāļĢāđˆāđāļĨāđ‰āļ§
http://vajirayana.org
â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļŦāļĄāļ§āļ”āļ­āļ·āđˆāļ™āđ† āđāļžāļ—āļĒāļĻāļēāļŠāļ•āļĢāđŒāļŠāļ‡āđ€āļ„āļĢāļēāļ°āļŦāđŒ, āļ•āļģāļĢāļēāđ‚āļŦāļĢ, āļ•āļģāļĢāļēāļāļąāļšāļ‚āđ‰āļēāļ§, āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļ”āđ‡āļāđāļĨāļ°āđāļšāļšāđ€āļĢāļĩāļĒāļ™
â€Ē āļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāļ—āđ‰āļ­āļ‡āļ–āļīāđˆāļ™ āļžāļ·āđ‰āļ™āđ€āļ§āļĩāļĒāļ‡āļˆāļąāļ™āļ—āļ™āđŒ āļ™āļēāļĒāļ”āļąāđˆāļ™āļ§āļąāļ™āļ„āļēāļĢ āđ‚āļ„āļĨāļ‡āļ­āļļāļŠāļēāļšāļēāļĢāļŠ...
â€Ē āļ‡āļēāļ™āļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒāļžāļĢāļ°āļšāļēāļ—āļŠāļĄāđ€āļ”āđ‡āļˆāļžāļĢāļ°āļˆāļļāļĨāļˆāļ­āļĄāđ€āļāļĨāđ‰āļēāđ€āļˆāđ‰āļēāļ­āļĒāļđāđˆāļŦāļąāļ§, āļ‡āļēāļ™āļžāļĢāļ°āļ™āļīāļžāļ™āļ˜āđŒāļŠāļĄāđ€āļ”āđ‡āļˆāļāļĢāļĄāļžāļĢāļ°āļĒāļēāļ”āļģāļĢāļ‡
āļĢāļēāļŠāļēāļ™āļļāļ āļēāļž, āļŠāļēāļŠāđŒāļ™āļŠāļĄāđ€āļ”āđ‡āļˆ
â€Ē āļ™āļ§āļ™āļīāļĒāļēāļĒāđāļĨāļ°āđ€āļĢāļ·āđˆāļ­āļ‡āļŠāļąāđ‰āļ™āđ„āļ—āļĒāļˆāļēāļāļŠāļĄāļąāļĒāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ—
āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđƒāļ™āļĢāļ°āļŦāļ§āđˆāļēāļ‡āļˆāļąāļ”āļ—āļģ
http://vajirayana.org
â€Ē āđ„āļ”āđ‰āļĢāļąāļšāļ„āļ§āļēāļĄāļ­āļ™āļļāđ€āļ„āļĢāļēāļ°āļŦāđŒāļˆāļēāļāļŠāļģāļ™āļąāļāļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāļŊ āļŠāđˆāļ§āļĒāļ„āļąāļ”āđ€āļĨāļ·āļ­āļ āđ–āđ āđ€āļĨāđˆāļĄāđāļĢāļ (āļĢāļēāļĄāđ€āļāļĩāļĒāļĢāļ•āļīāđŒ, āļ­āļīāđ€āļŦāļ™āļē, āļ‚āļļāļ™āļŠāđ‰āļēāļ‡
āļ‚āļļāļ™āđāļœāļ™)
â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāđ„āļ”āđ‰āļĢāļąāļšāļāļēāļĢāļĒāļāļĒāđˆāļ­āļ‡āļˆāļēāļāļ§āļĢāļĢāļ“āļ„āļ”āļĩāļŠāđ‚āļĄāļŠāļĢ, āđ‘āđāđ āđ€āļĨāđˆāļĄāļ—āļĩāđˆāļ„āļ™āđ„āļ—āļĒāļ„āļ§āļĢāļ­āđˆāļēāļ™āđ‚āļ”āļĒ āļŠāļāļ§. (āđ‚āļ„āļĨāļ‡āļāļĨāļ­āļ™āļ‚āļ­āļ‡
āļ„āļĢāļđāđ€āļ—āļž, āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļŠāļ”āļ‡āļāļīāļˆāļˆāļēāļ™āļļāļāļīāļˆ)
â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāļāļĨāđˆāļēāļ§āļ–āļķāļ‡āđƒāļ™āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāļˆāļąāļ”āļ—āļģ (āđ‚āļ„āļĨāļ‡āļ™āļīāļĢāļēāļĻāļŦāļĢāļīāļ āļļāļāļŠāļąāļĒ, āļˆāļ”āļŦāļĄāļēāļĒāļŦāļĨāļ§āļ‡āļ­āļļāļ”āļĄāļŠāļĄāļšāļąāļ•āļī)
â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļ™āļ°āļ™āļģāļˆāļēāļāļĒāļđāļŠāđ€āļ‹āļ­āļĢāđŒ (āļŠāļĢāļĢāļžāļŠāļīāļ—āļ˜āļīāđŒāļ„āļģāļ‰āļąāļ™āļ—āđŒ, āđ„āļ•āļĢāļ āļđāļĄāļīāļāļ–āļē, āļ›āļĢāļ°āļŠāļļāļĄāļ›āļāļĢāļ“āļąāļĄ, āđ‚āļ„āļĨāļ‡āļ™āļīāļĢāļēāļĻāļžāļĢāļ°āļžāļīāļžāļīāļ˜āļŠāļēāļĨāļĩ)
â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļˆāļąāļ”āļžāļīāļĄāļžāđŒāđ‚āļ”āļĒāļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢ (āļ›āļĢāļ°āļŠāļļāļĄāļŠāļļāļ āļēāļĐāļīāļ•āļŠāļ­āļ™āļŦāļāļīāļ‡, āļ›āļĢāļ°āļŠāļļāļĄāļ§āļĢāļĢāļ“āļ„āļ”āļĩāđ€āļĢāļ·āđˆāļ­āļ‡āļžāļĢāļ°āļžāļļāļ—āļ˜āļšāļēāļ—)
â€Ē āļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒāđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ’, āļœāļĨāļ‡āļēāļ™āļ—āļąāđ‰āļ‡āļŦāļĄāļ”āļ‚āļ­āļ‡āļŠāļļāļ™āļ—āļĢāļ āļđāđˆ
āļāļēāļĢāļ„āļąāļ”āđ€āļĨāļ·āļ­āļāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđƒāļ™āđ‚āļ„āļĢāļ‡āļāļēāļĢ
http://vajirayana.org
āļŠāļ–āļīāļ•āļīāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™
â€Ē āđƒāļ™āđ€āļ”āļ·āļ­āļ™āļŠāļīāļ‡āļŦāļēāļ„āļĄ 2561 āļĄāļĩāļœāļđāđ‰āđƒāļŠāđ‰āļ‡āļēāļ™ 72,000 āļĢāļēāļĒ āđ‚āļ”āļĒ 43% āļ­āļēāļĒāļļāļĢāļ°āļŦāļ§āđˆāļēāļ‡ 18-24 āļ›āļĩ
â€Ē 59% mobile, 38% desktop, 3% tablet.
http://vajirayana.org
āđāļŦāļĨāđˆāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ„āļ—āļĒāļ­āļ­āļ™āđ„āļĨāļ™āđŒ
â€Ē full library features

â€Ē TH/FR/EN
â€Ē larger collection

â€Ē less features

â€Ē TH books only
â€Ē text format

â€Ē incomplete books
â€Ē āļŠāļģāļ™āļąāļāļ‡āļēāļ™āļ§āļīāļ—āļĒāļ—āļĢāļąāļžāļĒāļēāļāļĢ āļˆāļļāļŽāļēāļĨāļ‡āļāļĢāļ“āđŒāļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒ
â€Ē āļŦāļ­āļŠāļĄāļļāļ”āļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒāļ˜āļĢāļĢāļĄāļĻāļēāļŠāļ•āļĢāđŒ
â€Ē āļŦāļ­āļŠāļĄāļļāļ”āļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒāđ€āļŠāļĩāļĒāļ‡āđƒāļŦāļĄāđˆ
â€Ē āļ„āļĨāļąāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļ”āļīāļˆāļīāļ—āļąāļĨ āļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢ
â€Ē āļŦāļ­āļŠāļĄāļļāļ”āđāļŦāđˆāļ‡āļŠāļēāļ•āļī āļŠāđˆāļ§āļ™āļ āļđāļĄāļīāļ āļēāļ„
â€Ē āļĻāļđāļ™āļĒāđŒāļĄāļēāļ™āļļāļĐāļĒāļ§āļīāļ—āļĒāļēāļŠāļīāļĢāļīāļ™āļ˜āļĢ (āļ­āļ‡āļ„āđŒāļāļēāļĢāļĄāļŦāļēāļŠāļ™)
â€Ē Wikisource

â€Ē Ruern Thai
http://vajirayana.org
Book Digitisation
I. āđ„āļŸāļĨāđŒ pdf āļ—āļĩāđˆāđ€āļ›āđ‡āļ™āļ‚āđ‰āļ­āļ„āļ§āļēāļĄ (Highlight āđ„āļ”āđ‰)
- copy/paste āļŦāļĢāļ·āļ­ pdf2text tool

- Find/Replace encoded or
unrecognised symbols

- Use VBA script to replace symbols
cannot nd/replace
II. āđ„āļŸāļĨāđŒāļŠāđāļāļ™āļŦāļĢāļ·āļ­āļĢāļđāļ›āļ–āđˆāļēāļĒ
- OCR with Tesseract

- Output les in .txt or .docx
http://vajirayana.org
1. Images Preprocessing
- Convert pdf to jpg
- Page split and clean up
2. OCR
- Tesseract 4.0

- Output les in .txt, .docx
3. Proof Correction
- Autocorrection scripts

- Human proofread

- Format html
OCR Workow
http://vajirayana.org
1. Image Preprocessing
â€Ē Better OCR result images 300dpi, clear, black and white,
no watermark, no book border.

â€Ē Convert pdf to jpg/tif: ImageMagick convert

â€Ē ImageMagick textcleaner (crop, sharpening, b&w,
rotate, clean up)
â€Ē ScanTailor (split pages and clean up)
http://vajirayana.org
OCR Engines
ABBYY FineReader Tesseract 4.0 OCRopus
OS Windows, Mac OS X Windows, Linux, Mac OS X FreeBSD, Linux, Mac OS X
User Interface
GUI (with preprocessing,
language detection and
output formats)

CLI CLI
Glyph Training Limited Required large dataset Tools provided
License Commercial, Closed source Apache License v2.0 Apache License v2.0
Developed by A Russian based company Google
German Research Centre for
Articial Intelligence
Thai language Yes Yes No
http://vajirayana.org
Tesseract Open Source OCR Engine
â€Ē Originally of HP, Since 2006 it has been developed by Google.

â€Ē Can recognise more than 100 languages (incl. Thai)

â€Ē Result in beta version 4.0 (LSTM based) is much better than stable
version 3 for Thai language.

â€Ē Better quality of image, better results.

â€Ē Can be trained to recognise other languages.

â€Ē Has basic command line usage with API for developers.

â€Ē https://github.com/tesseract-ocr/tesseract
http://vajirayana.org
2. Running Tesseract OCR
â€Ē Run Tesseract command for all page images in a folder

- To x result with extra spaces use option preserve_interword_spaces=1

tesseract thatest.jpg thatest -l tha --psm 1 --oem 1 -c
preserve_interword_spaces=1 txt
- To x extra lines from top vowels, increase line height by option textord_min_linesize=3.25

tesseract IMG_5339_L.tif IMG_5339 -l tha --psm 1 --oem 1 -c
textord_min_linesize=3.25 txt
- Multiple languages

tesseract 186.jpg 186 -l tha+eng --psm 1 --oem 1 -c textord_min_linesize=3.25
txt
For more Tesseract command options

tesseract —print-parameters
http://vajirayana.org
3. Proof Correction
â€Ē Auto-correction MS Word VBA scripts: Regular
Expressions and recorded nd/replace words

â€Ē Manual proofread on 1st edition book, record replace
words for future autocorrection.

â€Ē Annotate page number
http://vajirayana.org
āļ‚āđ‰āļ­āļĄāļđāļĨāļ”āđ‰āļēāļ™āđ€āļ—āļ„āļ™āļīāļāđ€āļ§āļ›āđ„āļ‹āļ•āđŒ
â€Ē CMS: Drupal 7 with built-in Book Module

â€Ē html2book: Automatic break chapters based on
Word heading style

â€Ē Google Custom Search

â€Ē Formatting text: footnotes (bigfootJS), āļ§āļąāļ™āļ‚āļķāđ‰āļ™āļ§āļąāļ™āđāļĢāļĄ (CSS),
āļĄāļēāļ•āļĢāļēāđ€āļ‡āļīāļ™āđ„āļ—āļĒ (+), āļ›āļĩāļāļāļēāļžāđˆāļ§āļ‡āļšāļĢāļĢāļ—āļąāļ” ( } ) (MathJax)
http://vajirayana.org
āļ‚āđ‰āļ­āļŠāļąāļ‡āđ€āļāļ•āđāļĨāļ°āļ›āļąāļāļŦāļēāļ—āļĩāđˆāļžāļš
â€Ē āđ„āļŸāļĨāđŒāļŠāđāļāļ™āđ„āļĄāđˆāļ„āļĢāļšāļŦāļ™āđ‰āļē

â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļāđˆāļēāļĄāļąāļāļĄāļĩāļ„āļģāđ€āļ”āļĩāļĒāļ§āļāļąāļ™āđƒāļŠāđ‰āļ•āļąāļ§āļŠāļ°āļāļ”āļŦāļĨāļēāļĒāļĢāļđāļ› 

â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ‰āļšāļąāļšāļžāļīāļĄāļžāđŒāđƒāļŦāļĄāđˆāļĄāļĩāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāļ‚āļēāļ”āļŦāļēāļĒāļ—āļĩāļĨāļ° 1-2 āļšāļĢāļĢāļ—āļąāļ”

â€Ē MS Word āđ„āļĄāđˆāļĢāļđāđ‰āļˆāļąāļāļ„āļģāđ€āļāđˆāļē

â€Ē Search Engine āđ„āļĄāđˆāđ€āļ‚āđ‰āļēāđƒāļˆāļ„āļģāđ€āļāđˆāļē
http://vajirayana.org
āļ‡āļēāļ™āļžāļąāļ’āļ™āļēāļ”āđ‰āļēāļ™āđ€āļ—āļ„āļ™āļīāļ
â€Ē Faster and more accurate workow: Tesseract model
training.

â€Ē Library Features: advanced search and indexing.

â€Ē UX Improvement: bookmarks, text highlights and notes.
http://vajirayana.org
iāļ‚āļ­āļšāļ„āļļāļ“āļ„āļĢāļąāļš
http://vajirayana.org
Resources
â€Ē Tesseract OCR [https://github.com/tesseract-ocr]

Command Line Usage [https://github.com/tesseract-ocr/tesseract/wiki/
Command-Line-Usage]

â€Ē ImageMagick [https://www.imagemagick.org]

â€Ē ImageMagick textcleaner [http://www.fmwconcepts.com/imagemagick/
textcleaner/index.php]

â€Ē Convert pdf les: XpdfReader [http://www.xpdfreader.com/]

â€Ē ScanTailor [http://scantailor.org/]

â€Ē Footnotes: bigfoot [www.bigfootjs.com/]

More Related Content

Similar to Vajirayana Digital Library Introduction

āļšāļ—āļ—āļĩāđˆ 3
āļšāļ—āļ—āļĩāđˆ  3āļšāļ—āļ—āļĩāđˆ  3
āļšāļ—āļ—āļĩāđˆ 3
Kruya Pekkrue
 

Similar to Vajirayana Digital Library Introduction (14)

Web Accessibility
Web AccessibilityWeb Accessibility
Web Accessibility
 
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHSOAI-PMH with Drupal + XAMPP Portable + PKP OHS
OAI-PMH with Drupal + XAMPP Portable + PKP OHS
 
āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāđāļĨāļ°āļāļēāļĢāļŠāļ·āļšāļ„āđ‰āļ™āļ—āļĢāļąāļžāļĒāļēāļāļĢāļ­āļīāđ€āļĨāđ‡āļāļ—āļĢāļ­āļ™āļīāļāļŠāđŒāļ”āđ‰āļ§āļĒ Metadata (āļāļēāļĢāļˆāļąāļ”āļ—āļģ ...
āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāđāļĨāļ°āļāļēāļĢāļŠāļ·āļšāļ„āđ‰āļ™āļ—āļĢāļąāļžāļĒāļēāļāļĢāļ­āļīāđ€āļĨāđ‡āļāļ—āļĢāļ­āļ™āļīāļāļŠāđŒāļ”āđ‰āļ§āļĒ Metadata (āļāļēāļĢāļˆāļąāļ”āļ—āļģ ...āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāđāļĨāļ°āļāļēāļĢāļŠāļ·āļšāļ„āđ‰āļ™āļ—āļĢāļąāļžāļĒāļēāļāļĢāļ­āļīāđ€āļĨāđ‡āļāļ—āļĢāļ­āļ™āļīāļāļŠāđŒāļ”āđ‰āļ§āļĒ Metadata (āļāļēāļĢāļˆāļąāļ”āļ—āļģ ...
āļāļēāļĢāđ€āļžāļīāđˆāļĄāļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāđāļĨāļ°āļāļēāļĢāļŠāļ·āļšāļ„āđ‰āļ™āļ—āļĢāļąāļžāļĒāļēāļāļĢāļ­āļīāđ€āļĨāđ‡āļāļ—āļĢāļ­āļ™āļīāļāļŠāđŒāļ”āđ‰āļ§āļĒ Metadata (āļāļēāļĢāļˆāļąāļ”āļ—āļģ ...
 
āļŦāđ‰āļ­āļ‡āļŠāļĄāļļāļ”āđ€āļ›āļĨāļĩāđˆāļĒāļ™āđ„āļ”āđ‰āļ”āđ‰āļ§āļĒāđ€āļ—āļ„āđ‚āļ™āđ‚āļĨāļĒāļĩ
āļŦāđ‰āļ­āļ‡āļŠāļĄāļļāļ”āđ€āļ›āļĨāļĩāđˆāļĒāļ™āđ„āļ”āđ‰āļ”āđ‰āļ§āļĒāđ€āļ—āļ„āđ‚āļ™āđ‚āļĨāļĒāļĩāļŦāđ‰āļ­āļ‡āļŠāļĄāļļāļ”āđ€āļ›āļĨāļĩāđˆāļĒāļ™āđ„āļ”āđ‰āļ”āđ‰āļ§āļĒāđ€āļ—āļ„āđ‚āļ™āđ‚āļĨāļĒāļĩ
āļŦāđ‰āļ­āļ‡āļŠāļĄāļļāļ”āđ€āļ›āļĨāļĩāđˆāļĒāļ™āđ„āļ”āđ‰āļ”āđ‰āļ§āļĒāđ€āļ—āļ„āđ‚āļ™āđ‚āļĨāļĒāļĩ
 
20100612 digital-metadata
20100612 digital-metadata20100612 digital-metadata
20100612 digital-metadata
 
āļāļēāļĢāļ›āļĢāļ°āļĒāļļāļāļ•āđŒāđƒāļŠāđ‰āđ‚āļ­āđ€āļžāļ™āļ‹āļ­āļĢāđŒāļŠāļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒāđƒāļ™āļ­āļ‡āļ„āđŒāļāļĢ Open source software & Freeware
āļāļēāļĢāļ›āļĢāļ°āļĒāļļāļāļ•āđŒāđƒāļŠāđ‰āđ‚āļ­āđ€āļžāļ™āļ‹āļ­āļĢāđŒāļŠāļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒāđƒāļ™āļ­āļ‡āļ„āđŒāļāļĢ Open source software & FreewareāļāļēāļĢāļ›āļĢāļ°āļĒāļļāļāļ•āđŒāđƒāļŠāđ‰āđ‚āļ­āđ€āļžāļ™āļ‹āļ­āļĢāđŒāļŠāļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒāđƒāļ™āļ­āļ‡āļ„āđŒāļāļĢ Open source software & Freeware
āļāļēāļĢāļ›āļĢāļ°āļĒāļļāļāļ•āđŒāđƒāļŠāđ‰āđ‚āļ­āđ€āļžāļ™āļ‹āļ­āļĢāđŒāļŠāļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒāđƒāļ™āļ­āļ‡āļ„āđŒāļāļĢ Open source software & Freeware
 
Digital Content for Web
Digital Content for WebDigital Content for Web
Digital Content for Web
 
āļšāļ—āļ—āļĩāđˆ 3
āļšāļ—āļ—āļĩāđˆ  3āļšāļ—āļ—āļĩāđˆ  3
āļšāļ—āļ—āļĩāđˆ 3
 
Greenstone from paper to digital collection
Greenstone from paper to digital collectionGreenstone from paper to digital collection
Greenstone from paper to digital collection
 
2
22
2
 
ICT with Web site
ICT with Web siteICT with Web site
ICT with Web site
 
Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day Joomla 3.7 Workshop 1 Day
Joomla 3.7 Workshop 1 Day
 
20170213 digital-archives
20170213 digital-archives20170213 digital-archives
20170213 digital-archives
 
How to manage e-Media
How to manage e-MediaHow to manage e-Media
How to manage e-Media
 

More from Korakot Chaovavanich (6)

Meetup 4 regexp
Meetup 4 regexpMeetup 4 regexp
Meetup 4 regexp
 
Build your own ASR engine
Build your own ASR engineBuild your own ASR engine
Build your own ASR engine
 
How Pantip manage its Thai Database
How Pantip manage its Thai DatabaseHow Pantip manage its Thai Database
How Pantip manage its Thai Database
 
Line hackathon
Line hackathonLine hackathon
Line hackathon
 
Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2Speech-to-Text API - Thai NLP Meetup #2
Speech-to-Text API - Thai NLP Meetup #2
 
Thai NLP resources
Thai NLP resourcesThai NLP resources
Thai NLP resources
 

Vajirayana Digital Library Introduction

  • 2. http://vajirayana.org āļ‚āđ‰āļ­āļĄāļđāļĨāđ‚āļ„āļĢāļ‡āļāļēāļĢ â€Ē āđ€āļĢāļīāđˆāļĄāļ•āđ‰āļ™āđ€āļĄāļ·āđˆāļ­ āļž.āļĻ. āđ’āđ•āđ•āđ— āđ‚āļ”āļĒāļāļēāļĢāļˆāļąāļ”āļ—āļģāđāļĨāļ°āđ€āļœāļĒāđāļžāļĢāđˆāļŦāļ™āļąāļ‡āļŠāļ·āļ­āļŠāļģāļ„āļąāļ āđ–āđ āđ€āļĨāđˆāļĄāđ€āļžāļ·āđˆāļ­āđ€āļ‰āļĨāļīāļĄāļžāļĢāļ°āđ€āļāļĩāļĒāļĢāļ•āļīāļīāļŠāļĄāđ€āļ”āđ‡āļˆāļžāļĢāļ° āđ€āļ—āļžāļĢāļąāļ•āļ™āļĢāļēāļŠāļŠāļļāļ”āļēāļŊ āļŠāļĒāļēāļĄāļšāļĢāļĄāļĢāļēāļŠāļāļļāļĄāļēāļĢāļĩāđƒāļ™āđ‚āļ­āļāļēāļŠ āļ‰āļĨāļ­āļ‡āļžāļĢāļ°āļŠāļ™āļĄāļēāļĒāļļ āđ• āļĢāļ­āļš āđ’ āđ€āļĄāļĐāļēāļĒāļ™ āđ’āđ•āđ•āđ˜ â€Ē āđ‚āļ”āļĒāđ„āļ”āđ‰āļĢāļąāļšāļ„āļ§āļēāļĄāļ­āļ™āļļāđ€āļ„āļĢāļēāļ°āļŦāđŒāļˆāļēāļāļŠāļģāļ™āļąāļāļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāđāļĨāļ°āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒ āļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢāļ„āļąāļ”āđ€āļĨāļ·āļ­āļāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļĨāļ°āđ€āļ­āļ·āđ‰āļ­āđ€āļŸāļ·āđ‰āļ­ āļ•āđ‰āļ™āļ‰āļšāļąāļš â€Ē āļœāļđāđ‰āļĢāđˆāļ§āļĄāļˆāļąāļ”āļ—āļģāđ‚āļ„āļĢāļ‡āļāļēāļĢ āđ“ āļ„āļ™ â€Ē āļ›āļąāļˆāļˆāļļāļšāļąāļ™āļĄāļĩāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļœāļĒāđāļžāļĢāđˆāđƒāļ™āđ‚āļ„āļĢāļ‡āļāļēāļĢ āđ‘āđ˜āđ˜ āđ€āļĢāļ·āđˆāļ­āļ‡ â€Ē āļāļĨāđˆāļļāļĄāđ€āļ›āđ‰āļēāļŦāļĄāļēāļĒāļ‚āļ­āļ‡āđ‚āļ„āļĢāļ‡āļāļēāļĢ āļ„āļ·āļ­ āļ™āļąāļāđ€āļĢāļĩāļĒāļ™ āļ™āļąāļāļĻāļķāļāļĐāļē (āļ™āđ‰āļ­āļĒāļāļ§āđˆāļē āđ’āđ” āļ›āļĩ) â€Ē āđ€āļœāļĒāđāļžāļĢāđˆāđƒāļ™āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāđāļ—āļ™āļĢāļđāļ›āļ āļēāļž āđ€āļžāļ·āđˆāļ­āđƒāļŦāđ‰āđ€āļ‚āđ‰āļēāļ–āļķāļ‡āđ„āļ”āđ‰āļ‡āđˆāļēāļĒāđƒāļ™āļ—āļļāļāļ­āļļāļ›āļāļĢāļ“āđŒ āļŠāļēāļĄāļēāļĢāļ–āļ„āđ‰āļ™āļ„āļģāđ„āļ”āđ‰
  • 3. http://vajirayana.org āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāđāļĨāļ°āļĢāļđāļ›āļ āļēāļž â€Ē āđ‚āļŦāļĨāļ”āđ€āļĢāđ‡āļ§ â€Ē āđƒāļŠāđ‰āļ‡āļēāļ™āļ‡āđˆāļēāļĒāđƒāļ™āļ—āļļāļāļ­āļļāļ›āļāļĢāļ“āđŒ āđ€āļŠāđˆāļ™ āđ‚āļ—āļĢāļĻāļąāļžāļ—āđŒāļĄāļ·āļ­āļ–āļ·āļ­ â€Ē āļœāļđāđ‰āļžāļīāļāļēāļĢāļ—āļēāļ‡āļŠāļēāļĒāļ•āļēāļŠāļēāļĄāļēāļĢāļ–āđƒāļŠāđ‰āļ‡āļēāļ™āļœāđˆāļēāļ™āđ€āļ„āļĢāļ·āđˆāļ­āļ‡āļ­āđˆāļēāļ™ āļ­āļ­āļāđ€āļŠāļĩāļĒāļ‡ â€Ē āļ„āđ‰āļ™āļ„āļģāđ„āļ”āđ‰āļ‡āđˆāļēāļĒ āļŠāļēāļĄāļēāļĢāļ–āļŠāļĢāđ‰āļēāļ‡āļĨāļīāļ‡āļāđŒāđ„āļ”āđ‰ â€Ē āļĄāļĩāļ„āļ§āļēāļĄāļ–āļđāļāļ•āđ‰āļ­āļ‡ āļŠāļĄāļšāļđāļĢāļ“āđŒ â€Ē āđƒāļŠāđ‰āđ€āļ§āļĨāļēāļˆāļąāļ”āļ—āļģāļ™āđ‰āļ­āļĒ â€Ē āļ­āđ‰āļēāļ‡āļ­āļīāļ‡āđ‚āļ”āļĒāđƒāļŠāđ‰āđ€āļĨāļ‚āļŦāļ™āđ‰āļē āļĢāļđāļ›āđāļšāļšāļ‚āđ‰āļ­āļ„āļ§āļēāļĄ āļĢāļđāļ›āļ āļēāļž āđ€āļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ­āđˆāļēāļ™āļ—āļąāđˆāļ§āđ„āļ›āđāļĨāļ°āļāļēāļĢāļ„āđ‰āļ™āļ„āļ§āđ‰āļē āđ€āļŦāļĄāļēāļ°āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļ­āļ™āļļāļĢāļąāļāļĐāđŒ āļāļēāļĢāļ­āđ‰āļēāļ‡āļ­āļīāļ‡ āđāļĨāļ° āđƒāļŠāđ‰āđƒāļ™āļŠāļąāđ‰āļ™āđ€āļĢāļĩāļĒāļ™
  • 4. http://vajirayana.org â€Ē āļĢāđ‰āļ­āļĒāļāļĢāļ­āļ‡ āļšāļ—āļĨāļ°āļ„āļĢāđ€āļĢāļ·āđˆāļ­āļ‡āļĢāļēāļĄāđ€āļāļĩāļĒāļĢāļ•āļīāđŒ āđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ‘ āļšāļ—āļĨāļ°āļ„āļĢāđ€āļĢāļ·āđˆāļ­āļ‡āļ­āļīāđ€āļŦāļ™āļē āđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ’, āļœāļĨāļ‡āļēāļ™ āļ—āļąāđ‰āļ‡āļŦāļĄāļ”āļ‚āļ­āļ‡āļŠāļļāļ™āļ—āļĢāļ āļđāđˆāļ—āļĩāđˆāļžāļšāđƒāļ™āļ›āļąāļˆāļˆāļļāļšāļąāļ™, āđ€āļŠāļ āļēāđ€āļĢāļ·āđˆāļ­āļ‡āļ‚āļļāļ™āļŠāđ‰āļēāļ‡āļ‚āļļāļ™āđāļœāļ™, āļŠāļĄāļļāļ—āļĢāđ‚āļ†āļĐāļ„āļģāļ‰āļąāļ™āļ—āđŒ, āļžāļĢāļ°āļ™āļĨāļ„āļģāļŦāļĨāļ§āļ‡, āļ›āļĢāļ°āļŠāļļāļĄāđ€āļžāļĨāļ‡āļĒāļēāļ§, āļāļĨāļ­āļ™āļŠāļ§āļ” â€Ē āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒ āļ˜āļĢāļĢāļĄāđ€āļ™āļĩāļĒāļĄāļ›āļĢāļ°āđ€āļžāļ“āļĩ āļžāļĢāļ°āļĢāļēāļŠāļžāļ‡āļĻāļēāļ§āļ”āļēāļĢāļāļĢāļļāļ‡āļĢāļąāļ•āļ™āđ‚āļāļŠāļīāļ™āļ—āļĢāđŒāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ‘ āļ–āļķāļ‡āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ•, āļ›āļĢāļ°āļŠāļļāļĄāļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒ/āļ›āļĢāļ°āļāļēāļĻāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ”, āđ„āļāļĨāļšāđ‰āļēāļ™, āļžāļĢāļ°āļĢāļēāļŠāļžāļīāļ˜āļĩāļŠāļīāļšāļŠāļ­āļ‡āđ€āļ”āļ·āļ­āļ™ â€Ē āļĻāļēāļŠāļ™āļē āđ„āļ•āļĢāļ āļđāļĄāļīāļāļ–āļē, āļĄāļŦāļēāļŠāļēāļ•āļīāļ„āļģāļŦāļĨāļ§āļ‡ â€Ē āļ™āļ§āļ™āļīāļĒāļēāļĒāđāļ›āļĨāļ­āļīāļ‡āļ›āļĢāļ°āļ§āļąāļ•āļīāļĻāļēāļŠāļ•āļĢāđŒāļˆāļĩāļ™ āļŠāļēāļĄāļāđŠāļ āđ€āļĨāļĩāļĒāļ”āļāđŠāļ āđ„āļ‹āļŪāļąāđˆāļ™ āļ‹āđ‰āļ­āļ‡āļāļąāđ‹āļ‡ āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāđ€āļœāļĒāđāļžāļĢāđˆāđāļĨāđ‰āļ§
  • 5. http://vajirayana.org â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļŦāļĄāļ§āļ”āļ­āļ·āđˆāļ™āđ† āđāļžāļ—āļĒāļĻāļēāļŠāļ•āļĢāđŒāļŠāļ‡āđ€āļ„āļĢāļēāļ°āļŦāđŒ, āļ•āļģāļĢāļēāđ‚āļŦāļĢ, āļ•āļģāļĢāļēāļāļąāļšāļ‚āđ‰āļēāļ§, āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļ”āđ‡āļāđāļĨāļ°āđāļšāļšāđ€āļĢāļĩāļĒāļ™ â€Ē āļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāļ—āđ‰āļ­āļ‡āļ–āļīāđˆāļ™ āļžāļ·āđ‰āļ™āđ€āļ§āļĩāļĒāļ‡āļˆāļąāļ™āļ—āļ™āđŒ āļ™āļēāļĒāļ”āļąāđˆāļ™āļ§āļąāļ™āļ„āļēāļĢ āđ‚āļ„āļĨāļ‡āļ­āļļāļŠāļēāļšāļēāļĢāļŠ... â€Ē āļ‡āļēāļ™āļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒāļžāļĢāļ°āļšāļēāļ—āļŠāļĄāđ€āļ”āđ‡āļˆāļžāļĢāļ°āļˆāļļāļĨāļˆāļ­āļĄāđ€āļāļĨāđ‰āļēāđ€āļˆāđ‰āļēāļ­āļĒāļđāđˆāļŦāļąāļ§, āļ‡āļēāļ™āļžāļĢāļ°āļ™āļīāļžāļ™āļ˜āđŒāļŠāļĄāđ€āļ”āđ‡āļˆāļāļĢāļĄāļžāļĢāļ°āļĒāļēāļ”āļģāļĢāļ‡ āļĢāļēāļŠāļēāļ™āļļāļ āļēāļž, āļŠāļēāļŠāđŒāļ™āļŠāļĄāđ€āļ”āđ‡āļˆ â€Ē āļ™āļ§āļ™āļīāļĒāļēāļĒāđāļĨāļ°āđ€āļĢāļ·āđˆāļ­āļ‡āļŠāļąāđ‰āļ™āđ„āļ—āļĒāļˆāļēāļāļŠāļĄāļąāļĒāļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ— āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđƒāļ™āļĢāļ°āļŦāļ§āđˆāļēāļ‡āļˆāļąāļ”āļ—āļģ
  • 6. http://vajirayana.org â€Ē āđ„āļ”āđ‰āļĢāļąāļšāļ„āļ§āļēāļĄāļ­āļ™āļļāđ€āļ„āļĢāļēāļ°āļŦāđŒāļˆāļēāļāļŠāļģāļ™āļąāļāļ§āļĢāļĢāļ“āļāļĢāļĢāļĄāļŊ āļŠāđˆāļ§āļĒāļ„āļąāļ”āđ€āļĨāļ·āļ­āļ āđ–āđ āđ€āļĨāđˆāļĄāđāļĢāļ (āļĢāļēāļĄāđ€āļāļĩāļĒāļĢāļ•āļīāđŒ, āļ­āļīāđ€āļŦāļ™āļē, āļ‚āļļāļ™āļŠāđ‰āļēāļ‡ āļ‚āļļāļ™āđāļœāļ™) â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāđ„āļ”āđ‰āļĢāļąāļšāļāļēāļĢāļĒāļāļĒāđˆāļ­āļ‡āļˆāļēāļāļ§āļĢāļĢāļ“āļ„āļ”āļĩāļŠāđ‚āļĄāļŠāļĢ, āđ‘āđāđ āđ€āļĨāđˆāļĄāļ—āļĩāđˆāļ„āļ™āđ„āļ—āļĒāļ„āļ§āļĢāļ­āđˆāļēāļ™āđ‚āļ”āļĒ āļŠāļāļ§. (āđ‚āļ„āļĨāļ‡āļāļĨāļ­āļ™āļ‚āļ­āļ‡ āļ„āļĢāļđāđ€āļ—āļž, āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļŠāļ”āļ‡āļāļīāļˆāļˆāļēāļ™āļļāļāļīāļˆ) â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāļāļĨāđˆāļēāļ§āļ–āļķāļ‡āđƒāļ™āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ—āļĩāđˆāļˆāļąāļ”āļ—āļģ (āđ‚āļ„āļĨāļ‡āļ™āļīāļĢāļēāļĻāļŦāļĢāļīāļ āļļāļāļŠāļąāļĒ, āļˆāļ”āļŦāļĄāļēāļĒāļŦāļĨāļ§āļ‡āļ­āļļāļ”āļĄāļŠāļĄāļšāļąāļ•āļī) â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđāļ™āļ°āļ™āļģāļˆāļēāļāļĒāļđāļŠāđ€āļ‹āļ­āļĢāđŒ (āļŠāļĢāļĢāļžāļŠāļīāļ—āļ˜āļīāđŒāļ„āļģāļ‰āļąāļ™āļ—āđŒ, āđ„āļ•āļĢāļ āļđāļĄāļīāļāļ–āļē, āļ›āļĢāļ°āļŠāļļāļĄāļ›āļāļĢāļ“āļąāļĄ, āđ‚āļ„āļĨāļ‡āļ™āļīāļĢāļēāļĻāļžāļĢāļ°āļžāļīāļžāļīāļ˜āļŠāļēāļĨāļĩ) â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļˆāļąāļ”āļžāļīāļĄāļžāđŒāđ‚āļ”āļĒāļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢ (āļ›āļĢāļ°āļŠāļļāļĄāļŠāļļāļ āļēāļĐāļīāļ•āļŠāļ­āļ™āļŦāļāļīāļ‡, āļ›āļĢāļ°āļŠāļļāļĄāļ§āļĢāļĢāļ“āļ„āļ”āļĩāđ€āļĢāļ·āđˆāļ­āļ‡āļžāļĢāļ°āļžāļļāļ—āļ˜āļšāļēāļ—) â€Ē āļžāļĢāļ°āļĢāļēāļŠāļ™āļīāļžāļ™āļ˜āđŒāđƒāļ™āļĢāļąāļŠāļāļēāļĨāļ—āļĩāđˆ āđ’, āļœāļĨāļ‡āļēāļ™āļ—āļąāđ‰āļ‡āļŦāļĄāļ”āļ‚āļ­āļ‡āļŠāļļāļ™āļ—āļĢāļ āļđāđˆ āļāļēāļĢāļ„āļąāļ”āđ€āļĨāļ·āļ­āļāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđƒāļ™āđ‚āļ„āļĢāļ‡āļāļēāļĢ
  • 7. http://vajirayana.org āļŠāļ–āļīāļ•āļīāļāļēāļĢāđƒāļŠāđ‰āļ‡āļēāļ™ â€Ē āđƒāļ™āđ€āļ”āļ·āļ­āļ™āļŠāļīāļ‡āļŦāļēāļ„āļĄ 2561 āļĄāļĩāļœāļđāđ‰āđƒāļŠāđ‰āļ‡āļēāļ™ 72,000 āļĢāļēāļĒ āđ‚āļ”āļĒ 43% āļ­āļēāļĒāļļāļĢāļ°āļŦāļ§āđˆāļēāļ‡ 18-24 āļ›āļĩ â€Ē 59% mobile, 38% desktop, 3% tablet.
  • 8. http://vajirayana.org āđāļŦāļĨāđˆāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ„āļ—āļĒāļ­āļ­āļ™āđ„āļĨāļ™āđŒ â€Ē full library features â€Ē TH/FR/EN â€Ē larger collection â€Ē less features â€Ē TH books only â€Ē text format â€Ē incomplete books â€Ē āļŠāļģāļ™āļąāļāļ‡āļēāļ™āļ§āļīāļ—āļĒāļ—āļĢāļąāļžāļĒāļēāļāļĢ āļˆāļļāļŽāļēāļĨāļ‡āļāļĢāļ“āđŒāļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒ â€Ē āļŦāļ­āļŠāļĄāļļāļ”āļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒāļ˜āļĢāļĢāļĄāļĻāļēāļŠāļ•āļĢāđŒ â€Ē āļŦāļ­āļŠāļĄāļļāļ”āļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒāđ€āļŠāļĩāļĒāļ‡āđƒāļŦāļĄāđˆ â€Ē āļ„āļĨāļąāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨāļ”āļīāļˆāļīāļ—āļąāļĨ āļāļĢāļĄāļĻāļīāļĨāļ›āļēāļāļĢ â€Ē āļŦāļ­āļŠāļĄāļļāļ”āđāļŦāđˆāļ‡āļŠāļēāļ•āļī āļŠāđˆāļ§āļ™āļ āļđāļĄāļīāļ āļēāļ„ â€Ē āļĻāļđāļ™āļĒāđŒāļĄāļēāļ™āļļāļĐāļĒāļ§āļīāļ—āļĒāļēāļŠāļīāļĢāļīāļ™āļ˜āļĢ (āļ­āļ‡āļ„āđŒāļāļēāļĢāļĄāļŦāļēāļŠāļ™) â€Ē Wikisource â€Ē Ruern Thai
  • 9. http://vajirayana.org Book Digitisation I. āđ„āļŸāļĨāđŒ pdf āļ—āļĩāđˆāđ€āļ›āđ‡āļ™āļ‚āđ‰āļ­āļ„āļ§āļēāļĄ (Highlight āđ„āļ”āđ‰) - copy/paste āļŦāļĢāļ·āļ­ pdf2text tool - Find/Replace encoded or unrecognised symbols - Use VBA script to replace symbols cannot nd/replace II. āđ„āļŸāļĨāđŒāļŠāđāļāļ™āļŦāļĢāļ·āļ­āļĢāļđāļ›āļ–āđˆāļēāļĒ - OCR with Tesseract - Output les in .txt or .docx
  • 10. http://vajirayana.org 1. Images Preprocessing - Convert pdf to jpg - Page split and clean up 2. OCR - Tesseract 4.0 - Output les in .txt, .docx 3. Proof Correction - Autocorrection scripts - Human proofread - Format html OCR Workow
  • 11. http://vajirayana.org 1. Image Preprocessing â€Ē Better OCR result images 300dpi, clear, black and white, no watermark, no book border. â€Ē Convert pdf to jpg/tif: ImageMagick convert â€Ē ImageMagick textcleaner (crop, sharpening, b&w, rotate, clean up) â€Ē ScanTailor (split pages and clean up)
  • 12. http://vajirayana.org OCR Engines ABBYY FineReader Tesseract 4.0 OCRopus OS Windows, Mac OS X Windows, Linux, Mac OS X FreeBSD, Linux, Mac OS X User Interface GUI (with preprocessing, language detection and output formats) CLI CLI Glyph Training Limited Required large dataset Tools provided License Commercial, Closed source Apache License v2.0 Apache License v2.0 Developed by A Russian based company Google German Research Centre for Articial Intelligence Thai language Yes Yes No
  • 13. http://vajirayana.org Tesseract Open Source OCR Engine â€Ē Originally of HP, Since 2006 it has been developed by Google. â€Ē Can recognise more than 100 languages (incl. Thai) â€Ē Result in beta version 4.0 (LSTM based) is much better than stable version 3 for Thai language. â€Ē Better quality of image, better results. â€Ē Can be trained to recognise other languages. â€Ē Has basic command line usage with API for developers. â€Ē https://github.com/tesseract-ocr/tesseract
  • 14. http://vajirayana.org 2. Running Tesseract OCR â€Ē Run Tesseract command for all page images in a folder - To x result with extra spaces use option preserve_interword_spaces=1 tesseract thatest.jpg thatest -l tha --psm 1 --oem 1 -c preserve_interword_spaces=1 txt - To x extra lines from top vowels, increase line height by option textord_min_linesize=3.25 tesseract IMG_5339_L.tif IMG_5339 -l tha --psm 1 --oem 1 -c textord_min_linesize=3.25 txt - Multiple languages tesseract 186.jpg 186 -l tha+eng --psm 1 --oem 1 -c textord_min_linesize=3.25 txt For more Tesseract command options tesseract —print-parameters
  • 15. http://vajirayana.org 3. Proof Correction â€Ē Auto-correction MS Word VBA scripts: Regular Expressions and recorded nd/replace words â€Ē Manual proofread on 1st edition book, record replace words for future autocorrection. â€Ē Annotate page number
  • 16. http://vajirayana.org āļ‚āđ‰āļ­āļĄāļđāļĨāļ”āđ‰āļēāļ™āđ€āļ—āļ„āļ™āļīāļāđ€āļ§āļ›āđ„āļ‹āļ•āđŒ â€Ē CMS: Drupal 7 with built-in Book Module â€Ē html2book: Automatic break chapters based on Word heading style â€Ē Google Custom Search â€Ē Formatting text: footnotes (bigfootJS), āļ§āļąāļ™āļ‚āļķāđ‰āļ™āļ§āļąāļ™āđāļĢāļĄ (CSS), āļĄāļēāļ•āļĢāļēāđ€āļ‡āļīāļ™āđ„āļ—āļĒ (+), āļ›āļĩāļāļāļēāļžāđˆāļ§āļ‡āļšāļĢāļĢāļ—āļąāļ” ( } ) (MathJax)
  • 17. http://vajirayana.org āļ‚āđ‰āļ­āļŠāļąāļ‡āđ€āļāļ•āđāļĨāļ°āļ›āļąāļāļŦāļēāļ—āļĩāđˆāļžāļš â€Ē āđ„āļŸāļĨāđŒāļŠāđāļāļ™āđ„āļĄāđˆāļ„āļĢāļšāļŦāļ™āđ‰āļē â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āđ€āļāđˆāļēāļĄāļąāļāļĄāļĩāļ„āļģāđ€āļ”āļĩāļĒāļ§āļāļąāļ™āđƒāļŠāđ‰āļ•āļąāļ§āļŠāļ°āļāļ”āļŦāļĨāļēāļĒāļĢāļđāļ› â€Ē āļŦāļ™āļąāļ‡āļŠāļ·āļ­āļ‰āļšāļąāļšāļžāļīāļĄāļžāđŒāđƒāļŦāļĄāđˆāļĄāļĩāļ‚āđ‰āļ­āļ„āļ§āļēāļĄāļ‚āļēāļ”āļŦāļēāļĒāļ—āļĩāļĨāļ° 1-2 āļšāļĢāļĢāļ—āļąāļ” â€Ē MS Word āđ„āļĄāđˆāļĢāļđāđ‰āļˆāļąāļāļ„āļģāđ€āļāđˆāļē â€Ē Search Engine āđ„āļĄāđˆāđ€āļ‚āđ‰āļēāđƒāļˆāļ„āļģāđ€āļāđˆāļē
  • 18. http://vajirayana.org āļ‡āļēāļ™āļžāļąāļ’āļ™āļēāļ”āđ‰āļēāļ™āđ€āļ—āļ„āļ™āļīāļ â€Ē Faster and more accurate workow: Tesseract model training. â€Ē Library Features: advanced search and indexing. â€Ē UX Improvement: bookmarks, text highlights and notes.
  • 20. http://vajirayana.org Resources â€Ē Tesseract OCR [https://github.com/tesseract-ocr] Command Line Usage [https://github.com/tesseract-ocr/tesseract/wiki/ Command-Line-Usage] â€Ē ImageMagick [https://www.imagemagick.org] â€Ē ImageMagick textcleaner [http://www.fmwconcepts.com/imagemagick/ textcleaner/index.php] â€Ē Convert pdf les: XpdfReader [http://www.xpdfreader.com/] â€Ē ScanTailor [http://scantailor.org/] â€Ē Footnotes: bigfoot [www.bigfootjs.com/]