Релативно једноставан за употребу, једини подразумева лематизацију међу одабраним програмима, али нема алат за генерисање лексикона
Корпус се задаје у вертикалном формату (једна лексема по линији, раздвојена белим размаком од етикете – и опционо, леме)
Синтакса команде за етикетирање: tree-tagger {-options-} <parameter file> {<input file> {<output file>}}
TnT - Trigrams'n'Tags
Учење: HMM (Витерби и варијанте)
Веома једноставан за употребу, најбрже учење и етикетирање међу свим одабраним програмима,
Корпус се задаје такође у вертикалном формату
Синтакса команди за учење и етикетирање: tnt-para [opcije] korpus.tt tnt [opcije] model korpus.tt > korpus.tts
Brill - Rule Based Tagger
Учење правила трансформације вођено минимализацијом грешке (лексичка правила за почетно одређивање етикете, контекстна правила трансформације етикета ради повећања тачности)
Прилично сложен и доста спор постпупак учења са припремним међукорацима
Корпус се задаје хоризонталном формату (традицоиналан PTB формат: реченица по линији, лексема и етикета раздвојене са ,,/”)
SVMTool
Учење: SVM класификација
Изузетно спор постпупак учења, али зато најбогатији опцијама и могућностима прилагођавања алгоритма учења од свих одабраних програма
Корпус се задаје вертикалном формату
Синтакса команди за учење и етикетирање: SVMTlearn [opcije] bin/config.short.svmt SVMTagger [opcije] model
MXPOST
Учење: принцип максимума ентропије, алат још увек користи пробни поступак (фиксно 100 итерaција)
Донекле спор постпупак учења
Корпус се задаје хоризонталном формату (реченица по линији, лексема и етикета раздвојене са ,,_”)
Синтакса команди за учење и етикетирање: trainmxpost projectdir traindata mxpost projectdir < wordfile
Резултати и закључак
Резултати
Резултати – наставак Успешност препознавања познатих и непознатих речи у тест корпусу
Закључци
Tree Tagger се понаша нешто боље од других с мањим бројем етикета (корпус 2), али са већим бројем етикета (корпус 3) TnТ је очигледно успешнији. Такође, TnТ је и најбржи (учење, етикетирање) и најједноставнији за употребу
Корпус веће дужине неопходан за боље резултате
Крајњи домети ових програма нису испитани - SVMTool је близак у резултатима, и нуди много веће могућности додатног прилагођавања програма у односу на остале
0 comments
Post a comment