Tag

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    Favorites, Groups & Events

    Tag - Presentation Transcript

    1. Евалуација програма за етикетирање текста на српском језику Поповић Зоран Математички факултет Универзитет у Београду
    2. Обрада природног језика (NLP) и етикетирање
    3. Основни појмови
      • Корпус (дужина, број лексема/токена и лема)
      • Морфо-синтаксна обележја (етикете) и класе етикета (отворене, затворене)
      • Етикетирање граматичких делова реченице ( PoS , Part-of-Speech Tagging ):
      • Vinston / Npmsn--y je / Va-p3s-an-y---p
      • uveče / Rgp imao / Vmps-sman-n---p
      • više / Rgp posla / Ncmsg--n nego / C-s
      • ikad / Rgp . / SENT
    4. Основни појмови
      • Лексикон
      • N-грами
      • Језички модел:
        • ,,традиционалан”, формално описан, по угледу на формалне граматике Ноама Чомског (типови)
        • и статистички, Шенонов (Шенонове игре; Колмогоров, Чаитин, алгоритамска комплексност, статистичка теорија индукције Р. Соломонова, Голдова идентификација језика)
        • као и нека врста везе између ова два (нпр. стохастичке контекстно-слободне граматике)
      • TEI (Text Encoding Initiative, www.tei-c.org)
    5. TEI <TEI.2 id=&quot;Osr&quot; lang=&quot;sr&quot;> <teiHeader creator=&quot;CK&quot; status=&quot;update&quot; ... id=&quot;Osr.teiHeader&quot;> <fileDesc> <titleStmt> ... </fileDesc> <encodingDesc> <projectDesc> ... </encodingDesc> <revisionDesc> ... </revisionDesc> </teiHeader> <text lang=&quot;sr&quot; id=&quot;Osr.&quot;> <body> <div id=&quot;Osr.1&quot; type=&quot;part&quot; n=&quot;1&quot;> <div id=&quot;Osr.1.2&quot; type=&quot;chapter&quot; n=&quot;1&quot;> <p id=&quot;Osr.1.2.2&quot;> <s id=&quot;Osr.1.2.2.1&quot;> <w lemma=&quot;biti&quot; ana=&quot;Vmps-sman-n---p&quot;>Bio</w> <w lemma=&quot;jesam&quot; ana=&quot;Va-p3s-an-y---p&quot;>je</w> <w lemma=&quot;vedar&quot; ana=&quot;Afpmsnn&quot;>vedar</w> <w lemma=&quot;i&quot; ana=&quot;C-s&quot;>i</w> ... ... <w lemma=&quot;hladan&quot; ana=&quot;Afpmsnn&quot;>hladan</w> <w lemma=&quot;aprilski&quot; ana=&quot;Aopmpn&quot;>aprilski</w> <w lemma=&quot;dan&quot; ana=&quot;Ncmsn--n&quot;>dan</w> <c>;</c> <w lemma=&quot;na&quot; ana=&quot;Spsa&quot;>na</w> <w lemma=&quot;&#x10D;asovnik&quot; ana=&quot;Ncmsa--n&quot;>&#x10D;asovnicima</w> <w lemma=&quot;jesam&quot; ana=&quot;Va-p3s-an-y---p&quot;>je</w> <w lemma=&quot;izbijati&quot; ana=&quot;Vmps-snan-n---e&quot;>izbijalo</w> <w lemma=&quot;trinaest&quot; ana=&quot;Mc---l&quot;>trinaest</w> <c>.</c> </s> <s id=&quot;Osr.1.2.2.2&quot;> <w lemma=&quot;Vinston&quot; ana=&quot;Npmsn--y&quot;>Vinston</w> <w lemma=&quot;Smit&quot; ana=&quot;Npmsn--y&quot;>Smit</w> <c>,</c> ... <!-- pb n=283 --> </p> </div> </body> </text> </TEI.2>
    6. Примери корпуса
      • Неколико познатих корпуса са особинама у поређењу са корпусима употребљеним у раду:
      • Класе етикета: Penn TreeBank (PTB) Tagset, ICE
      • MSD (TEI): Ncfsg: Noun common feminine singular genitive
    7. Неке примене у областима обраде природног језика
      • Сегментација (речи и реченица)
      • Лематизација (stemming)
      • Word Sense Disambiguation
      • Прикључење израза с предлогом (Prepositional Phraze Attachment)
      • Синтаксна и семантичка анализа (парсирање)
      • Аутоматско превођење (добар пример тежине ове класе проблема: ,,Out of sight, out of mind”)
      • Претраживање информација (Information Retrieval)
      • Препознавање и синтеза говора
    8. Различтити програми за етикетирање и методе машинског учења
    9. Перформансе програма за етикетирање
      • Грешка етикетирања: број погрешно етикетираних речи у односу на укупан број речи тест корпуса (као дати низ реченица и речи)
      • Десетострука унакрсна валидација (10-fold cross-validation) као тест: 9/10 + 1/10 (корпуси за обучавање + тест)
      • Тестирање се ради аутоматизовано
    10. Машинско учење
      • Методе машинског учења:
        • надгледане (скупу обучавања одговара етикетирани корпус)
        • ненадгледане (примери интегрисаних система где семантика етикета није битна, аутоматска лематизација и учење)
      • Проблем презасићења (overfitting) учења и способности генерализације, Окамова оштрица
    11. Примери програма за етикетирање
      • State-of-the-Art (WSJ 0-18/22-24):
      • CLAWS, R. Garside, G. Leech, G.Sampson (1987), HMM
      • MBT (Memory Based Tagger), TiMBL, Daelemans (1999), kNN + CBR
      • MXPOST, Adwait Ratnaparkhi (1998), MEP
      • Rule Based Tagger, Eric Brill (1992/93): 97.2% WSJ
      • TnT – Thorsten Brants (2000), HMM: 96.7% PTB
      • Tree Tagger, Helmut Schmid (1994), Decision Tree: 96.36% PTB
    12. Методе машинског учења
      • Бајесове мреже
      • статистички модели:
        • MLE (Maximum Likelihood Estimation),
        • MAP (Maximum a posteriori),
        • MEP (Maximum Enthropy Principle)
      • HMM (скривени ланци Маркова као уопштење регуларних граматика; Баум-Велч, Витерби)
      • методе класификације: SVM (Support Vector Machine), наивни Бајесов / Гибсов класификатор
      • Учење инстанцама: kNN, RBF, CBR
      • Учење дрветом одлуке (ID3, C4.5)
      • Неуронске мреже
    13. Одабрана решења и програми
    14. Tree Tagger
      • Учење дрветом одлуке
      • Релативно једноставан за употребу, једини подразумева лематизацију међу одабраним програмима, али нема алат за генерисање лексикона
      • Корпус се задаје у вертикалном формату (једна лексема по линији, раздвојена белим размаком од етикете – и опционо, леме)
      • Синтакса команде за етикетирање: tree-tagger {-options-} <parameter file> {<input file> {<output file>}}
    15. TnT - Trigrams'n'Tags
      • Учење: HMM (Витерби и варијанте)
      • Веома једноставан за употребу, најбрже учење и етикетирање међу свим одабраним програмима,
      • Корпус се задаје такође у вертикалном формату
      • Синтакса команди за учење и етикетирање: tnt-para [opcije] korpus.tt tnt [opcije] model korpus.tt > korpus.tts
    16. Brill - Rule Based Tagger
      • Учење правила трансформације вођено минимализацијом грешке (лексичка правила за почетно одређивање етикете, контекстна правила трансформације етикета ради повећања тачности)
      • Прилично сложен и доста спор постпупак учења са припремним међукорацима
      • Корпус се задаје хоризонталном формату (традицоиналан PTB формат: реченица по линији, лексема и етикета раздвојене са ,,/”)
    17. SVMTool
      • Учење: SVM класификација
      • Изузетно спор постпупак учења, али зато најбогатији опцијама и могућностима прилагођавања алгоритма учења од свих одабраних програма
      • Корпус се задаје вертикалном формату
      • Синтакса команди за учење и етикетирање: SVMTlearn [opcije] bin/config.short.svmt SVMTagger [opcije] model
    18. MXPOST
      • Учење: принцип максимума ентропије, алат још увек користи пробни поступак (фиксно 100 итерaција)
      • Донекле спор постпупак учења
      • Корпус се задаје хоризонталном формату (реченица по линији, лексема и етикета раздвојене са ,,_”)
      • Синтакса команди за учење и етикетирање: trainmxpost projectdir traindata mxpost projectdir < wordfile
    19. Резултати и закључак
    20. Резултати
    21. Резултати – наставак Успешност препознавања познатих и непознатих речи у тест корпусу
    22. Закључци
      • Tree Tagger се понаша нешто боље од других с мањим бројем етикета (корпус 2), али са већим бројем етикета (корпус 3) TnТ је очигледно успешнији. Такође, TnТ је и најбржи (учење, етикетирање) и најједноставнији за употребу
      • Корпус веће дужине неопходан за боље резултате
      • Крајњи домети ових програма нису испитани - SVMTool је близак у резултатима, и нуди много веће могућности додатног прилагођавања програма у односу на остале
    23. Питања ?
    SlideShare Zeitgeist 2009

    + shoom013shoom013 Nominate

    custom

    335 views, 0 favs, 0 embeds more stats

    Tagger evaluation applied on Serbian texts

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 335
      • 335 on SlideShare
      • 0 from embeds
    • Comments 0
    • Favorites 0
    • Downloads 6
    Most viewed embeds

    more

    All embeds

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories