Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Szöveg alapú dokumentumok
összehasonlításának optimális
paraméterei
KISS ANDRÁS KÁROLY
BUDAPESTI CORVINUS EGYETEM
KISS.AND...
Amiről szó lesz
u Bevezetés
u Irodalmi áttekintés és kutatási rés
u Hipotézisek megfogalmazása
u Kutatás módszertana
u Kut...
3Bevezetés
BSc (2011 – 2014)
MSc (2014 – 2016)
PhD (2016 – ?)
Irodalmi áttekintés és kutatási rés 4
Előnyök Hátrányok
Szavak
Statisztikai szempontból
előnyös, szinonimák
problémája kez...
Alapfogalmak 5
Ez itt egy dokumentum teljes szövege.
Szövegkörnyezetbeli sorrend
Forrás dokumentum
Tokenek halmaza
2. toke...
Kutatási kérdések
1. A tokenek hosszúsága befolyásolja-e azok halmazának
dokumentum reprezentáló képességét?
2. A tokenizá...
Teszthalmaz 7
Forrás és egyben
kontroll dokumentum
Teszthalmaz
Összesen Másolt Egyezés
dokumentum 1 152 20 0,13
dokumentum...
Az algoritmus 8
Kontroll és teszt dokumentum halmaz
Dokumentumok tartalmának beolvasása Java nyelvi elemekkel
Szöveg szava...
Eredmények kiértékelése 9
-60.00
-50.00
-40.00
-30.00
-20.00
-10.00
0.00
10.00
20.00
30.00
1 2 3 4 5 6 7 8 9 10
Eltérés%-b...
Kutatási eredmények ismertetése
u Tokenek hosszúsága erősen befolyásol
u Szavak szövegkörnyezetbeli sorrendjének elhagyása...
Összegzés
u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes
elvégezni
u A szavak sorrendisége a szöveg eg...
Szöveg alapú dokumentumok
összehasonlításának optimális
paraméterei
KISS ANDRÁS KÁROLY
BUDAPESTI CORVINUS EGYETEM
KISS.AND...
Upcoming SlideShare
Loading in …5
×

Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

284 views

Published on

Budapesti Corvinus Egyetem, Informatikai Intézet
Előadás az OGIK 2016 konferencián, Dunaújvárosban, 2016 nov 11-12.

Published in: Business
  • Be the first to comment

  • Be the first to like this

Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

  1. 1. Szöveg alapú dokumentumok összehasonlításának optimális paraméterei KISS ANDRÁS KÁROLY BUDAPESTI CORVINUS EGYETEM KISS.ANDRAS.KAROLY@OUTLOOK.COM
  2. 2. Amiről szó lesz u Bevezetés u Irodalmi áttekintés és kutatási rés u Hipotézisek megfogalmazása u Kutatás módszertana u Kutatási eredmények ismertetése u Konklúziók levonása, összegzés 2
  3. 3. 3Bevezetés BSc (2011 – 2014) MSc (2014 – 2016) PhD (2016 – ?)
  4. 4. Irodalmi áttekintés és kutatási rés 4 Előnyök Hátrányok Szavak Statisztikai szempontból előnyös, szinonimák problémája kezelhető Hiányzik a kontextus, szófordulatok szétesnek Frázisok elemezhető kontextus, szemantika nem veszik el, megmaradó szófordulatok Statisztikai szempontból nem előnyös A. Stavrianou, P. Andritsos & N. Nicoloyannis: Hogyan valósítható mindez meg? Mit jelent ez számokban? KOPI működési elve:
  5. 5. Alapfogalmak 5 Ez itt egy dokumentum teljes szövege. Szövegkörnyezetbeli sorrend Forrás dokumentum Tokenek halmaza 2. token N = 5 hosszúságú token (Reprezentáló képesség)
  6. 6. Kutatási kérdések 1. A tokenek hosszúsága befolyásolja-e azok halmazának dokumentum reprezentáló képességét? 2. A tokenizálás során a szavak szövegkörnyezetbeli sorrendjének elhagyása befolyásolja-e a tokenek halmazának dokumentum reprezentáló képességét? 3. A tokenek súlyozása befolyásolja-e azok halmazának dokumentum reprezentáló képességét? 6
  7. 7. Teszthalmaz 7 Forrás és egyben kontroll dokumentum Teszthalmaz Összesen Másolt Egyezés dokumentum 1 152 20 0,13 dokumentum 2 145 86 0,59 dokumentum 3 154 31 0,20 dokumentum 4 185 59 0,32 dokumentum 5 137 33 0,24 dokumentum 6 57 25 0,44 dokumentum 7 100 21 0,21 dokumentum 8 80 15 0,19 dokumentum 9 83 20 0,24 dokumentum 10 79 30 0,38 kontroll dokumentum 167
  8. 8. Az algoritmus 8 Kontroll és teszt dokumentum halmaz Dokumentumok tartalmának beolvasása Java nyelvi elemekkel Szöveg szavakká tördelése a sorrendiség megőrzése mellett Tokenizálás elvégzése eltérő logikák mentén (N = 1,2,3,4 illetve random sorrend esetén) Kontroll és teszt dokumentum közös tokeneinek keresése
  9. 9. Eredmények kiértékelése 9 -60.00 -50.00 -40.00 -30.00 -20.00 -10.00 0.00 10.00 20.00 30.00 1 2 3 4 5 6 7 8 9 10 Eltérés%-ban Axis Title N=1 N=2 N=3 N=4 random N=2
  10. 10. Kutatási eredmények ismertetése u Tokenek hosszúsága erősen befolyásol u Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett eredményre u Tokenek súlyozása nem megfelelő megoldás a problémára: u Nincsenek fontosabb szókapcsolatok u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét 10
  11. 11. Összegzés u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi 11
  12. 12. Szöveg alapú dokumentumok összehasonlításának optimális paraméterei KISS ANDRÁS KÁROLY BUDAPESTI CORVINUS EGYETEM KISS.ANDRAS.KAROLY@OUTLOOK.COM

×