Thai NLP resources
- 4. Corpus
• Common Crawl (Thai) 115 GB
data.statmt.org/ngrams/raw/
• Wikipedia 1.5 GB (dumps.wikimedia.org/thwiki/)
• HSE Thai (50M), TNC (32M)
• InterBEST (5M) ตัดคำ, Orchid (335K) มี PoS
• Treebank: PUD(23K), THCG(8.5K)
- 5. Dictionary, Word List
• ท-ท: ราชบัณฑิตฯ
• Lexitron, Wiktionary, LongDo, Volubilis
• คำคล้าย: Thai WordNet, Google Translate API
• TNC, Thai Textbook Corpus มีความถี่, G-count
• Vector: Thai2Vec, fastText
- 6. Library
• PyThaiNLP, TLTK
• ตัดคำ
• Part of Speech
• ตัดประโยค, พยางค์
• Named Entity Recognition
• ตัดคำ: Swath, Lexto, ICU, deepcut, Vee…
• OCR: Tesseract
- 7. API
• Google:
• Speech ⇄ Text, Translate, OCR
• Dialogflow ทำ chatbot, ใช้ทำ classification ก็ได้
• รอคอย Natural Langauge API: PoS, Dep, NER
• TTS: วาจา, Nuance, Bing, Vocalware, ResponsiveVoice
• NER: polyglot, repustate, dandelion
• Sentiment: ParallelDots, repustate