SlideShare a Scribd company logo
NyelvtechnológiaiCsoport
A Szeged Korpusz és
Treebank
Vincze Veronika
NyelvtechnológiaiCsoport A Szeged Korpusz és Treebank
• Teljes egészében kézzel annotált (gold standard) magyar
nyelvű adatbázis
• Több műfajból származó szövegek: irodalom, újságcikkek,
jogi szövegek, iskolás fogalmazások, számítástechnikai
szövegek, üzleti rövidhírek, webes szövegek
• 84 000 mondat
• 1,2M token, doménenként kb. 200K (kivéve web)
• Számos annotációs réteg
– Mondatra és szövegszóra bontás
– Morfológiai elemzés
– Szófaji egyértelműsítés
– Összetevős (konstituens) elemzés
– Függőségi elemzés
– Koreferencia
– Tulajdonnevek
– Félig kompozicionális szerkezetek
– Események/szemantikai keretek
– Nyelvi bizonytalanság
NyelvtechnológiaiCsoport
Morfológia
• Minden egyes szóhoz az összes
lehetséges elemzés meg van adva
tűznek: Nc-sg, Nc-sd, Vmip3p---n
• 1.0 és 2.0 verziók: MSD kódrendszer
alapján
• 2.5 verzió: KR-MSD harmonizált
kódrendszer alapján
• Szófaji egyértelműsítés: minden egyes
szóhoz a kontextusnak megfelelő
elemzés van megadva
NyelvtechnológiaiCsoport
Szintaktikai elemzés
• Minden egyes mondathoz összetevős és
függőségi elemzés is tartozik
• Nyelvtani szerepek jelölve vannak a
mondatokon belül (ki mit csinált kivel
stb.)
• Függőségi annotáció:
– Virtuális csomópontok kezelésére
több módszer
– Univerzális dependencia projekt elvei
alapján készülő annotáció
NyelvtechnológiaiCsoport
NyelvtechnológiaiCsoport
Szemantikai annotációk
• Koreferencia:
– Azonos entitásra utaló nyelvi elemek
összekötése
– Iskolás fogalmazások és újságcikkek
Az úton sok ismerőssel találkoztunk, akik újságolták
proOBJ nekünk, hogy milyen jó a hangulat a majálison.
Amikor leérkeztünk, már nagy volt a nyüzsgés, finom
illatok szálltak a levegőben, és folytak a koncert
előkészületei, ugyanis - ha még nem írtam proOBJ volna
– a Bestiák énekeltek aznap nekünk. Én ugyan nem
nagyon szeretem ezt az együttest, de miattuk nem
hagyhattam ki ezt az eseményt.
NyelvtechnológiaiCsoport
Szemantikai annotációk 2.
• Tulajdonnevek
– Személy, hely, szervezet, egyéb
– Üzleti rövidhírek + web
– Az OTPORG új fiókot nyitott EgerbenLOC.
• Félig kompozicionális szerkezetek
– Többszavas kifejezés
– Több szóból áll, de egy szemantikai
egység
– Az OTP döntést hozott az egri fiók
bezárásáról.
NyelvtechnológiaiCsoport
Szemantikai annotációk 3.
• Események/szemantikai keretek
– Üzleti események és szereplőik
– Üzleti rövidhírek
– A Nagyhal Rt. és a Kishal Bt. együttműködési
megállapodást kötött.
• Nyelvi bizonytalanság
– Tény vs. tagadott információ vs. bizonytalan
információ elkülönítése
– A bizonytalanság több típusa van jelölve
– Webes szövegek
– de sztem az arab se helyes ugy mert ottis van
nyelvtan. feltetelezem
NyelvtechnológiaiCsoport Felhasználhatóság
• Számos NLP-alkalmazásban
hasznosítható információk
• Algoritmusok tanítása és kiértékelése:
morfológiai elemző, POS-tagger,
szintaktikai elemzők, NER stb.
• Sok annotáció azonos szövegeken:
segíthetik egymást!
• Oktatási és kutatási célra szabadon
felhasználható (licencszerződés aláírása
után)
http://rgai.inf.u-szeged.hu/nlp/SzegedTreebank

More Related Content

Viewers also liked

Merész Gergő: Tudománymetriai adatok elemzése
Merész Gergő: Tudománymetriai adatok elemzéseMerész Gergő: Tudománymetriai adatok elemzése
Merész Gergő: Tudománymetriai adatok elemzése
Zoltan Varju
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Zoltan Varju
 
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális TartalomelemzőPólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Zoltan Varju
 
De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14
Zoltan Varju
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Zoltan Varju
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
Zoltan Varju
 
Munkanélküliség jelenbecslése
Munkanélküliség jelenbecsléseMunkanélküliség jelenbecslése
Munkanélküliség jelenbecslése
Zoltan Varju
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
Zoltan Varju
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Zoltan Varju
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Zoltan Varju
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
Zoltan Varju
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
Zoltan Varju
 

Viewers also liked (12)

Merész Gergő: Tudománymetriai adatok elemzése
Merész Gergő: Tudománymetriai adatok elemzéseMerész Gergő: Tudománymetriai adatok elemzése
Merész Gergő: Tudománymetriai adatok elemzése
 
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszédBalogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti - Szűcs Krisztina: Képes beszéd
 
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális TartalomelemzőPólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
 
De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14De tartalomelemzés 2014_10_14
De tartalomelemzés 2014_10_14
 
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
 
Érzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzésÉrzelmek hálójában – hálózat- és tartalomelemzés
Érzelmek hálójában – hálózat- és tartalomelemzés
 
Munkanélküliség jelenbecslése
Munkanélküliség jelenbecsléseMunkanélküliség jelenbecslése
Munkanélküliség jelenbecslése
 
Kisvilágunk, a nyelv
Kisvilágunk, a nyelvKisvilágunk, a nyelv
Kisvilágunk, a nyelv
 
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
 
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshezSimon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
 
Ács Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárakÁcs Judit: Online soknyelvű szótárak
Ács Judit: Online soknyelvű szótárak
 
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: PrecognoxNLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
 

More from Zoltan Varju

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
Zoltan Varju
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
Zoltan Varju
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Zoltan Varju
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
Zoltan Varju
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
Zoltan Varju
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
Zoltan Varju
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
Zoltan Varju
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Zoltan Varju
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Zoltan Varju
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
Zoltan Varju
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Zoltan Varju
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Zoltan Varju
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
Zoltan Varju
 
Felhívás
FelhívásFelhívás
Felhívás
Zoltan Varju
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
Zoltan Varju
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Zoltan Varju
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójában
Zoltan Varju
 
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
Zoltan Varju
 
Balogh Kitti: A magyar politikai blogszféra
Balogh Kitti: A magyar politikai blogszféraBalogh Kitti: A magyar politikai blogszféra
Balogh Kitti: A magyar politikai blogszféra
Zoltan Varju
 

More from Zoltan Varju (19)

NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroidNLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
 
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: NeticleNLP meetup 2016.10.05 - Szekeres Péter: Neticle
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
 
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzéseBalogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
 
Babak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entitiesBabak Rasolzadeh: The importance of entities
Babak Rasolzadeh: The importance of entities
 
Szövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatbanSzövegbányászat a gyakorlatban
Szövegbányászat a gyakorlatban
 
Szövegbányászat
SzövegbányászatSzövegbányászat
Szövegbányászat
 
Balogh Kitti: Szövegbányászat
Balogh Kitti: SzövegbányászatBalogh Kitti: Szövegbányászat
Balogh Kitti: Szövegbányászat
 
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzésekBalogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
 
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...Szabó - Varjú: Automatikus  értékelés- és érzelemelemzés magyar nyelvű szöveg...
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
 
Sorok között olvasni
Sorok között olvasniSorok között olvasni
Sorok között olvasni
 
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
 
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útjaRasztik Zita: A стартовать jövevényszó fejlődési útja
Rasztik Zita: A стартовать jövevényszó fejlődési útja
 
Kontextus és a hivatkozások ereje
Kontextus és a hivatkozások erejeKontextus és a hivatkozások ereje
Kontextus és a hivatkozások ereje
 
Felhívás
FelhívásFelhívás
Felhívás
 
Miháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnetMiháltz Márton: Magyar wordnet
Miháltz Márton: Magyar wordnet
 
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezetSass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
Sass Bálint: 28 millió szintaktikailag elemzett mondat és 500000 igei szerkezet
 
Textus; szövegek hálójában
Textus; szövegek hálójábanTextus; szövegek hálójában
Textus; szövegek hálójában
 
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és...
Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésének elméleti és...
 
Balogh Kitti: A magyar politikai blogszféra
Balogh Kitti: A magyar politikai blogszféraBalogh Kitti: A magyar politikai blogszféra
Balogh Kitti: A magyar politikai blogszféra
 

Vincze Veronika: Korpuszok az információkinyerésben

  • 1. NyelvtechnológiaiCsoport A Szeged Korpusz és Treebank Vincze Veronika
  • 2. NyelvtechnológiaiCsoport A Szeged Korpusz és Treebank • Teljes egészében kézzel annotált (gold standard) magyar nyelvű adatbázis • Több műfajból származó szövegek: irodalom, újságcikkek, jogi szövegek, iskolás fogalmazások, számítástechnikai szövegek, üzleti rövidhírek, webes szövegek • 84 000 mondat • 1,2M token, doménenként kb. 200K (kivéve web) • Számos annotációs réteg – Mondatra és szövegszóra bontás – Morfológiai elemzés – Szófaji egyértelműsítés – Összetevős (konstituens) elemzés – Függőségi elemzés – Koreferencia – Tulajdonnevek – Félig kompozicionális szerkezetek – Események/szemantikai keretek – Nyelvi bizonytalanság
  • 3. NyelvtechnológiaiCsoport Morfológia • Minden egyes szóhoz az összes lehetséges elemzés meg van adva tűznek: Nc-sg, Nc-sd, Vmip3p---n • 1.0 és 2.0 verziók: MSD kódrendszer alapján • 2.5 verzió: KR-MSD harmonizált kódrendszer alapján • Szófaji egyértelműsítés: minden egyes szóhoz a kontextusnak megfelelő elemzés van megadva
  • 4. NyelvtechnológiaiCsoport Szintaktikai elemzés • Minden egyes mondathoz összetevős és függőségi elemzés is tartozik • Nyelvtani szerepek jelölve vannak a mondatokon belül (ki mit csinált kivel stb.) • Függőségi annotáció: – Virtuális csomópontok kezelésére több módszer – Univerzális dependencia projekt elvei alapján készülő annotáció
  • 6. NyelvtechnológiaiCsoport Szemantikai annotációk • Koreferencia: – Azonos entitásra utaló nyelvi elemek összekötése – Iskolás fogalmazások és újságcikkek Az úton sok ismerőssel találkoztunk, akik újságolták proOBJ nekünk, hogy milyen jó a hangulat a majálison. Amikor leérkeztünk, már nagy volt a nyüzsgés, finom illatok szálltak a levegőben, és folytak a koncert előkészületei, ugyanis - ha még nem írtam proOBJ volna – a Bestiák énekeltek aznap nekünk. Én ugyan nem nagyon szeretem ezt az együttest, de miattuk nem hagyhattam ki ezt az eseményt.
  • 7. NyelvtechnológiaiCsoport Szemantikai annotációk 2. • Tulajdonnevek – Személy, hely, szervezet, egyéb – Üzleti rövidhírek + web – Az OTPORG új fiókot nyitott EgerbenLOC. • Félig kompozicionális szerkezetek – Többszavas kifejezés – Több szóból áll, de egy szemantikai egység – Az OTP döntést hozott az egri fiók bezárásáról.
  • 8. NyelvtechnológiaiCsoport Szemantikai annotációk 3. • Események/szemantikai keretek – Üzleti események és szereplőik – Üzleti rövidhírek – A Nagyhal Rt. és a Kishal Bt. együttműködési megállapodást kötött. • Nyelvi bizonytalanság – Tény vs. tagadott információ vs. bizonytalan információ elkülönítése – A bizonytalanság több típusa van jelölve – Webes szövegek – de sztem az arab se helyes ugy mert ottis van nyelvtan. feltetelezem
  • 9. NyelvtechnológiaiCsoport Felhasználhatóság • Számos NLP-alkalmazásban hasznosítható információk • Algoritmusok tanítása és kiértékelése: morfológiai elemző, POS-tagger, szintaktikai elemzők, NER stb. • Sok annotáció azonos szövegeken: segíthetik egymást! • Oktatási és kutatási célra szabadon felhasználható (licencszerződés aláírása után) http://rgai.inf.u-szeged.hu/nlp/SzegedTreebank