A Magyar WordNet (HuWN) a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.). A HuWN szabadon hozzáférhető.
1. A Magyar WordNet
Miháltz Márton
mmihaltz@gmail.com
MTA NYTI Nyelvtechnológiai Kutatócsoport
Hungarian Natural Language Processing Meetup, 2015.04.29.
8. HuWN tervezett munka
• HuWN
– Definíciók átírása
– Teljessé tétel 50-100 leggyakoribb szóra
– Összekapcsolás más ontológiákkal
• HuWN.RDF
– URI dereference, SPARQL endpoint implementációja
– Saját ontológia: PWN ontológia + magyar szemantikai
relációk
– Linkelés W3C és VU WN-ekhez