SlideShare a Scribd company logo
1 of 9
A Magyar WordNet
Miháltz Márton
mmihaltz@gmail.com
MTA NYTI Nyelvtechnológiai Kutatócsoport
Hungarian Natural Language Processing Meetup, 2015.04.29.
A WordNetről
• George Miller, Princeton Uni. 1985-
• Mentális lexikon szerveződése,
pszicholingvisztikai modell
• Lexikális szemantikai hálózat
• Tartalmas szóosztályok: fn, ige, mn, hat.szó
• Szójelentések, szinonímia, synsetek
{ ló:1, háziló:1} vs. { ló:2, huszár:2}
• Szemantikai relációk
{ ló:1, háziló:1} is-a { páratlanujjú patás:1}
{ ló:2, huszár:2} is-a { sakkfigura:1 }
Princeton WordNet példa
{temperature}
{physical property}
{property}
{attribute}
{abstraction}
{space}
{outer space}
{interplanetary
space}
{interstellar
space}
{hot} {cold}
{baking hot}
{burning}
{fiery}
{ice-cold}
{frosty}
{cool}
{abstract}
{see, consider, reckon}
{think, believe}
{judge}
{cryogenics}
{absolute zero}
{convict}
attribute
instance
hypernym
domain
entails
antonym
Part (holonym)
derivative
similar
A WN felhasználásai az NLP-ben
• Nem formális ontológia, de…
• Jelentésegyértelműsítés (Leacock-
Chodorow 1999, Rigau et al 1998)
• Információ-visszakeresés (Voorhees 2001)
• Koreferenciafeloldás (Uryupina 2007)
• Keresztrejtvény-generálás (GWC 2006)
• …
Magyar WordNet (HuWN)
• 2005-2007: MTA Nyelvtudományi Intézet, SZTE
Informatikai Tanszékcsoport, MorphoLogic Kft. (GVOP-
AKF)
• BalkaNet / EuroWordNet többnyelvű modell
• Natív WN-ek között angol WN synsetjei az interlingva
• Közösen lefedett magrész: Base Concepts Set (8K synset)
• Erőforrások integrációja
– Magyar Értelmező Kéziszótár jelentésazonosítók
– MorphoLogic/NYTI igei vonzatkeret-adatbázis azonosítók
• Speciális magyar szemantikai relációk
– Melléknevek: middle
– Igék: is/has_consequent_state, is/has_preparatory_state,
is/has_telos, temporal_precondition, has_consequence,
partitions, aktionsart, converse
HuWN
• 42K synset, 60K szójelentés, 50K szó
• Princeton WN 2.0, 3.0 megfelelések (27K synset)
• XML formátum
https://github.com/ dlt-rilmta /huwn
• Python API
https://github.com/ppke-nlpg/pywnxml
• C++ API (hamarosan)
• VisDic editor/browser
• META-SHARE Commons BY NC ND License v1.0
HuWN.RDF
• HuWN mint Linked Open Data
• Modell: Princeton WordNet RDF
http://wordnet-rdf.princeton.edu/ontology#
• Lemon modellt (is) használja
http://lemon-model.net/lemon#
• Linkek PWN RDF 2.0, 3.0 synsetekhez Cornetto ekvivalencia-relációkkal
http://purl.org/vocabularies/cornetto/cornetto-schema.ttl
– eqSynonym, eqNearSynonym, xposNearSynonym, eqHasHypernym stb.
• Namespace: http://corpus.nytud.hu/huwn/
– Synset: <http://corpus.nytud.hu/huwn/ENG20-00002540-b>
– LexicalSense: <http://corpus.nytud.hu/huwn/kutya-n#1>
– LexicalEntry: http://corpus.nytud.hu/huwn/kutya-n
• Elérhetőségek:
– https://github.com/dlt-rilmta/huwn.rdf (RDF Turtle, vagy RDF/XML, NT, N3)
– http://corpus.nytud.hu/huwn/
– http://datahub.io/dataset/hungarian-wordnet-rdf
HuWN tervezett munka
• HuWN
– Definíciók átírása
– Teljessé tétel 50-100 leggyakoribb szóra
– Összekapcsolás más ontológiákkal
• HuWN.RDF
– URI dereference, SPARQL endpoint implementációja
– Saját ontológia: PWN ontológia + magyar szemantikai
relációk
– Linkelés W3C és VU WN-ekhez
Köszönöm a figyelmet!
http://corpus.nytud.hu/huwn/

More Related Content

Viewers also liked

Презентация к конкурсу "Школьный урок технологии - 2035"
Презентация к конкурсу "Школьный урок технологии - 2035"Презентация к конкурсу "Школьный урок технологии - 2035"
Презентация к конкурсу "Школьный урок технологии - 2035"Tatiana Volkova
 
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישה
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישהמחדד הרעיונות 14.7.2016 - טכנולוגיה לבישה
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישהLeo Burnett Israel
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakZoltan Varju
 
スケールするシステムにおけるエンティティの扱いと 分散ID生成
スケールするシステムにおけるエンティティの扱いと 分散ID生成スケールするシステムにおけるエンティティの扱いと 分散ID生成
スケールするシステムにおけるエンティティの扱いと 分散ID生成TanUkkii
 
My life and i want to do sara monroy
My life and i want to do   sara  monroyMy life and i want to do   sara  monroy
My life and i want to do sara monroysara yurley monroy
 
Elecciones 2016, la espera agonizante del triunfo
Elecciones 2016, la espera agonizante del triunfoElecciones 2016, la espera agonizante del triunfo
Elecciones 2016, la espera agonizante del triunfoUNMSM
 
Uso profesional de Linkedin para formadores
Uso profesional de Linkedin para formadoresUso profesional de Linkedin para formadores
Uso profesional de Linkedin para formadoresGrup Pitagora
 
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONS
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONSBEYOND CULTURE - BUILDING WINNING ORGANIZATIONS
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONSMax Lamers
 
Perubahan soial dan pembangunan
Perubahan soial dan pembangunanPerubahan soial dan pembangunan
Perubahan soial dan pembangunanvirmannsyah
 
Ejemplo de planeación argumentada con los 10 enunciados guía
Ejemplo de planeación argumentada con los 10 enunciados guíaEjemplo de planeación argumentada con los 10 enunciados guía
Ejemplo de planeación argumentada con los 10 enunciados guíahugomedina36
 

Viewers also liked (14)

Презентация к конкурсу "Школьный урок технологии - 2035"
Презентация к конкурсу "Школьный урок технологии - 2035"Презентация к конкурсу "Школьный урок технологии - 2035"
Презентация к конкурсу "Школьный урок технологии - 2035"
 
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישה
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישהמחדד הרעיונות 14.7.2016 - טכנולוגיה לבישה
מחדד הרעיונות 14.7.2016 - טכנולוגיה לבישה
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
スケールするシステムにおけるエンティティの扱いと 分散ID生成
スケールするシステムにおけるエンティティの扱いと 分散ID生成スケールするシステムにおけるエンティティの扱いと 分散ID生成
スケールするシステムにおけるエンティティの扱いと 分散ID生成
 
My life and i want to do sara monroy
My life and i want to do   sara  monroyMy life and i want to do   sara  monroy
My life and i want to do sara monroy
 
Ashyana
AshyanaAshyana
Ashyana
 
Elecciones 2016, la espera agonizante del triunfo
Elecciones 2016, la espera agonizante del triunfoElecciones 2016, la espera agonizante del triunfo
Elecciones 2016, la espera agonizante del triunfo
 
Uso profesional de Linkedin para formadores
Uso profesional de Linkedin para formadoresUso profesional de Linkedin para formadores
Uso profesional de Linkedin para formadores
 
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONS
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONSBEYOND CULTURE - BUILDING WINNING ORGANIZATIONS
BEYOND CULTURE - BUILDING WINNING ORGANIZATIONS
 
Juegos edcativos
Juegos edcativosJuegos edcativos
Juegos edcativos
 
Perubahan soial dan pembangunan
Perubahan soial dan pembangunanPerubahan soial dan pembangunan
Perubahan soial dan pembangunan
 
Building blocks
Building blocksBuilding blocks
Building blocks
 
Byte Size Potential 2015 Workshop
Byte Size Potential 2015 WorkshopByte Size Potential 2015 Workshop
Byte Size Potential 2015 Workshop
 
Ejemplo de planeación argumentada con los 10 enunciados guía
Ejemplo de planeación argumentada con los 10 enunciados guíaEjemplo de planeación argumentada con los 10 enunciados guía
Ejemplo de planeación argumentada con los 10 enunciados guía
 

More from Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidZoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxZoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleZoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseZoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesZoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanZoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
SzövegbányászatZoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatZoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelvZoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédZoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekZoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésZoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...Zoltan Varju
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasniZoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaZoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeZoltan Varju
 

More from Zoltan Varju (20)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)Mókus (Koncsik Anita, Varjú Zoltán)
Mókus (Koncsik Anita, Varjú Zoltán)
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 

Miháltz Márton: Magyar wordnet

  • 1. A Magyar WordNet Miháltz Márton mmihaltz@gmail.com MTA NYTI Nyelvtechnológiai Kutatócsoport Hungarian Natural Language Processing Meetup, 2015.04.29.
  • 2. A WordNetről • George Miller, Princeton Uni. 1985- • Mentális lexikon szerveződése, pszicholingvisztikai modell • Lexikális szemantikai hálózat • Tartalmas szóosztályok: fn, ige, mn, hat.szó • Szójelentések, szinonímia, synsetek { ló:1, háziló:1} vs. { ló:2, huszár:2} • Szemantikai relációk { ló:1, háziló:1} is-a { páratlanujjú patás:1} { ló:2, huszár:2} is-a { sakkfigura:1 }
  • 3. Princeton WordNet példa {temperature} {physical property} {property} {attribute} {abstraction} {space} {outer space} {interplanetary space} {interstellar space} {hot} {cold} {baking hot} {burning} {fiery} {ice-cold} {frosty} {cool} {abstract} {see, consider, reckon} {think, believe} {judge} {cryogenics} {absolute zero} {convict} attribute instance hypernym domain entails antonym Part (holonym) derivative similar
  • 4. A WN felhasználásai az NLP-ben • Nem formális ontológia, de… • Jelentésegyértelműsítés (Leacock- Chodorow 1999, Rigau et al 1998) • Információ-visszakeresés (Voorhees 2001) • Koreferenciafeloldás (Uryupina 2007) • Keresztrejtvény-generálás (GWC 2006) • …
  • 5. Magyar WordNet (HuWN) • 2005-2007: MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport, MorphoLogic Kft. (GVOP- AKF) • BalkaNet / EuroWordNet többnyelvű modell • Natív WN-ek között angol WN synsetjei az interlingva • Közösen lefedett magrész: Base Concepts Set (8K synset) • Erőforrások integrációja – Magyar Értelmező Kéziszótár jelentésazonosítók – MorphoLogic/NYTI igei vonzatkeret-adatbázis azonosítók • Speciális magyar szemantikai relációk – Melléknevek: middle – Igék: is/has_consequent_state, is/has_preparatory_state, is/has_telos, temporal_precondition, has_consequence, partitions, aktionsart, converse
  • 6. HuWN • 42K synset, 60K szójelentés, 50K szó • Princeton WN 2.0, 3.0 megfelelések (27K synset) • XML formátum https://github.com/ dlt-rilmta /huwn • Python API https://github.com/ppke-nlpg/pywnxml • C++ API (hamarosan) • VisDic editor/browser • META-SHARE Commons BY NC ND License v1.0
  • 7. HuWN.RDF • HuWN mint Linked Open Data • Modell: Princeton WordNet RDF http://wordnet-rdf.princeton.edu/ontology# • Lemon modellt (is) használja http://lemon-model.net/lemon# • Linkek PWN RDF 2.0, 3.0 synsetekhez Cornetto ekvivalencia-relációkkal http://purl.org/vocabularies/cornetto/cornetto-schema.ttl – eqSynonym, eqNearSynonym, xposNearSynonym, eqHasHypernym stb. • Namespace: http://corpus.nytud.hu/huwn/ – Synset: <http://corpus.nytud.hu/huwn/ENG20-00002540-b> – LexicalSense: <http://corpus.nytud.hu/huwn/kutya-n#1> – LexicalEntry: http://corpus.nytud.hu/huwn/kutya-n • Elérhetőségek: – https://github.com/dlt-rilmta/huwn.rdf (RDF Turtle, vagy RDF/XML, NT, N3) – http://corpus.nytud.hu/huwn/ – http://datahub.io/dataset/hungarian-wordnet-rdf
  • 8. HuWN tervezett munka • HuWN – Definíciók átírása – Teljessé tétel 50-100 leggyakoribb szóra – Összekapcsolás más ontológiákkal • HuWN.RDF – URI dereference, SPARQL endpoint implementációja – Saját ontológia: PWN ontológia + magyar szemantikai relációk – Linkelés W3C és VU WN-ekhez