SlideShare a Scribd company logo
1 of 12
Download to read offline
Szöveg alapú dokumentumok
összehasonlításának optimális
paraméterei
KISS ANDRÁS KÁROLY
BUDAPESTI CORVINUS EGYETEM
KISS.ANDRAS.KAROLY@OUTLOOK.COM
Amiről szó lesz
u Bevezetés
u Irodalmi áttekintés és kutatási rés
u Hipotézisek megfogalmazása
u Kutatás módszertana
u Kutatási eredmények ismertetése
u Konklúziók levonása, összegzés
2
3Bevezetés
BSc (2011 – 2014)
MSc (2014 – 2016)
PhD (2016 – ?)
Irodalmi áttekintés és kutatási rés 4
Előnyök Hátrányok
Szavak
Statisztikai szempontból
előnyös, szinonimák
problémája kezelhető
Hiányzik a
kontextus,
szófordulatok
szétesnek
Frázisok
elemezhető kontextus,
szemantika nem veszik
el, megmaradó
szófordulatok
Statisztikai
szempontból
nem előnyös
A. Stavrianou, P. Andritsos & N. Nicoloyannis:
Hogyan valósítható mindez meg?
Mit jelent ez számokban?
KOPI működési elve:
Alapfogalmak 5
Ez itt egy dokumentum teljes szövege.
Szövegkörnyezetbeli sorrend
Forrás dokumentum
Tokenek halmaza
2. token
N = 5 hosszúságú token
(Reprezentáló képesség)
Kutatási kérdések
1. A tokenek hosszúsága befolyásolja-e azok halmazának
dokumentum reprezentáló képességét?
2. A tokenizálás során a szavak szövegkörnyezetbeli
sorrendjének elhagyása befolyásolja-e a tokenek
halmazának dokumentum reprezentáló képességét?
3. A tokenek súlyozása befolyásolja-e azok halmazának
dokumentum reprezentáló képességét?
6
Teszthalmaz 7
Forrás és egyben
kontroll dokumentum
Teszthalmaz
Összesen Másolt Egyezés
dokumentum 1 152 20 0,13
dokumentum 2 145 86 0,59
dokumentum 3 154 31 0,20
dokumentum 4 185 59 0,32
dokumentum 5 137 33 0,24
dokumentum 6 57 25 0,44
dokumentum 7 100 21 0,21
dokumentum 8 80 15 0,19
dokumentum 9 83 20 0,24
dokumentum 10 79 30 0,38
kontroll dokumentum 167
Az algoritmus 8
Kontroll és teszt dokumentum halmaz
Dokumentumok tartalmának beolvasása Java nyelvi elemekkel
Szöveg szavakká tördelése a sorrendiség
megőrzése mellett
Tokenizálás elvégzése eltérő logikák mentén
(N = 1,2,3,4 illetve random sorrend esetén)
Kontroll és teszt dokumentum közös tokeneinek keresése
Eredmények kiértékelése 9
-60.00
-50.00
-40.00
-30.00
-20.00
-10.00
0.00
10.00
20.00
30.00
1 2 3 4 5 6 7 8 9 10
Eltérés%-ban
Axis Title
N=1 N=2 N=3 N=4 random N=2
Kutatási eredmények ismertetése
u Tokenek hosszúsága erősen befolyásol
u Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett
eredményre
u Tokenek súlyozása nem megfelelő megoldás a problémára:
u Nincsenek fontosabb szókapcsolatok
u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos
témában íródtak
u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés
mértékét
10
Összegzés
u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes
elvégezni
u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet
nem érdemes heurisztika alkalmazásával megtörni
u A tokenek között nincsen olyan, ami több információt hordoz a
dokumentumra nézve, mint a többi
11
Szöveg alapú dokumentumok
összehasonlításának optimális
paraméterei
KISS ANDRÁS KÁROLY
BUDAPESTI CORVINUS EGYETEM
KISS.ANDRAS.KAROLY@OUTLOOK.COM

More Related Content

More from Informatikai Intézet

FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...Informatikai Intézet
 
FinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererFinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererInformatikai Intézet
 
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...Informatikai Intézet
 
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesDávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesInformatikai Intézet
 
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsGabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsInformatikai Intézet
 
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Informatikai Intézet
 
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...Informatikai Intézet
 
Agnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITAgnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITInformatikai Intézet
 
Szabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásSzabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásInformatikai Intézet
 
Tóth Lajos - Személyes élmények az ITIL bevezetésével
Tóth Lajos - Személyes élmények az ITIL bevezetésévelTóth Lajos - Személyes élmények az ITIL bevezetésével
Tóth Lajos - Személyes élmények az ITIL bevezetésévelInformatikai Intézet
 
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)Informatikai Intézet
 
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákon
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákonMohácsi László: Gazdasági alkalmazások párhuzamos architektúrákon
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákonInformatikai Intézet
 
Török Mátyás: Organizational knowledge extraction from business process models
Török Mátyás: Organizational knowledge extraction from business process modelsTörök Mátyás: Organizational knowledge extraction from business process models
Török Mátyás: Organizational knowledge extraction from business process modelsInformatikai Intézet
 
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...Informatikai Intézet
 
Szommer Károly: Internetes profilok - lehetőségek és veszélyek
Szommer Károly: Internetes profilok - lehetőségek és veszélyekSzommer Károly: Internetes profilok - lehetőségek és veszélyek
Szommer Károly: Internetes profilok - lehetőségek és veszélyekInformatikai Intézet
 

More from Informatikai Intézet (20)

FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
FinTech Workshop 04: Csóka Péter - The Effects of Blockchain on central cle...
 
FinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency ClustererFinTech Workshop D01: Horváth András - Currency Clusterer
FinTech Workshop D01: Horváth András - Currency Clusterer
 
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
FinTech Workshop D02: Kádár Bence - Pénzes Gábor: Blockchain technológia ...
 
Digitális Üzleti Átalakulás 2016
Digitális Üzleti Átalakulás 2016Digitális Üzleti Átalakulás 2016
Digitális Üzleti Átalakulás 2016
 
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processesDávid Burka: Comparing different scenarios of Hungarian demographic processes
Dávid Burka: Comparing different scenarios of Hungarian demographic processes
 
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General SkillsGabriella Baksa-Haskó - Ilona Béres: Development of General Skills
Gabriella Baksa-Haskó - Ilona Béres: Development of General Skills
 
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
Blanka Láng, László Kovács and László Mohácsi: Linear regression model select...
 
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
Brunner Csaba: Behatolási adatok feldolgozása gépi tanulás és MapReduce segít...
 
Agnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the ITAgnes Dede: Bureaucratic processes and the IT
Agnes Dede: Bureaucratic processes and the IT
 
Varga Krisztián: ITSM kutatás 2016
Varga Krisztián: ITSM kutatás 2016Varga Krisztián: ITSM kutatás 2016
Varga Krisztián: ITSM kutatás 2016
 
Szabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti ÁtalakulásSzabó Zoltán: Digitális Üzleti Átalakulás
Szabó Zoltán: Digitális Üzleti Átalakulás
 
Fehér Péter - IT kontrolling
Fehér Péter - IT kontrollingFehér Péter - IT kontrolling
Fehér Péter - IT kontrolling
 
Tóth Lajos - Személyes élmények az ITIL bevezetésével
Tóth Lajos - Személyes élmények az ITIL bevezetésévelTóth Lajos - Személyes élmények az ITIL bevezetésével
Tóth Lajos - Személyes élmények az ITIL bevezetésével
 
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)
APEX Corvinus 2014 Esettanulmány verseny felvezető (a GE támogatásával)
 
Akadémia Informatikai Vezetőknek
Akadémia Informatikai VezetőknekAkadémia Informatikai Vezetőknek
Akadémia Informatikai Vezetőknek
 
Ostrom alatt
Ostrom alattOstrom alatt
Ostrom alatt
 
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákon
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákonMohácsi László: Gazdasági alkalmazások párhuzamos architektúrákon
Mohácsi László: Gazdasági alkalmazások párhuzamos architektúrákon
 
Török Mátyás: Organizational knowledge extraction from business process models
Török Mátyás: Organizational knowledge extraction from business process modelsTörök Mátyás: Organizational knowledge extraction from business process models
Török Mátyás: Organizational knowledge extraction from business process models
 
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...
Varga Krisztián: A szemantikus folyamatmenedzsment eszközeinek hasznosítása a...
 
Szommer Károly: Internetes profilok - lehetőségek és veszélyek
Szommer Károly: Internetes profilok - lehetőségek és veszélyekSzommer Károly: Internetes profilok - lehetőségek és veszélyek
Szommer Károly: Internetes profilok - lehetőségek és veszélyek
 

Kiss András Károly: Szöveg alapú dokumentumok összehasonlításának optimális paraméterei

  • 1. Szöveg alapú dokumentumok összehasonlításának optimális paraméterei KISS ANDRÁS KÁROLY BUDAPESTI CORVINUS EGYETEM KISS.ANDRAS.KAROLY@OUTLOOK.COM
  • 2. Amiről szó lesz u Bevezetés u Irodalmi áttekintés és kutatási rés u Hipotézisek megfogalmazása u Kutatás módszertana u Kutatási eredmények ismertetése u Konklúziók levonása, összegzés 2
  • 3. 3Bevezetés BSc (2011 – 2014) MSc (2014 – 2016) PhD (2016 – ?)
  • 4. Irodalmi áttekintés és kutatási rés 4 Előnyök Hátrányok Szavak Statisztikai szempontból előnyös, szinonimák problémája kezelhető Hiányzik a kontextus, szófordulatok szétesnek Frázisok elemezhető kontextus, szemantika nem veszik el, megmaradó szófordulatok Statisztikai szempontból nem előnyös A. Stavrianou, P. Andritsos & N. Nicoloyannis: Hogyan valósítható mindez meg? Mit jelent ez számokban? KOPI működési elve:
  • 5. Alapfogalmak 5 Ez itt egy dokumentum teljes szövege. Szövegkörnyezetbeli sorrend Forrás dokumentum Tokenek halmaza 2. token N = 5 hosszúságú token (Reprezentáló képesség)
  • 6. Kutatási kérdések 1. A tokenek hosszúsága befolyásolja-e azok halmazának dokumentum reprezentáló képességét? 2. A tokenizálás során a szavak szövegkörnyezetbeli sorrendjének elhagyása befolyásolja-e a tokenek halmazának dokumentum reprezentáló képességét? 3. A tokenek súlyozása befolyásolja-e azok halmazának dokumentum reprezentáló képességét? 6
  • 7. Teszthalmaz 7 Forrás és egyben kontroll dokumentum Teszthalmaz Összesen Másolt Egyezés dokumentum 1 152 20 0,13 dokumentum 2 145 86 0,59 dokumentum 3 154 31 0,20 dokumentum 4 185 59 0,32 dokumentum 5 137 33 0,24 dokumentum 6 57 25 0,44 dokumentum 7 100 21 0,21 dokumentum 8 80 15 0,19 dokumentum 9 83 20 0,24 dokumentum 10 79 30 0,38 kontroll dokumentum 167
  • 8. Az algoritmus 8 Kontroll és teszt dokumentum halmaz Dokumentumok tartalmának beolvasása Java nyelvi elemekkel Szöveg szavakká tördelése a sorrendiség megőrzése mellett Tokenizálás elvégzése eltérő logikák mentén (N = 1,2,3,4 illetve random sorrend esetén) Kontroll és teszt dokumentum közös tokeneinek keresése
  • 9. Eredmények kiértékelése 9 -60.00 -50.00 -40.00 -30.00 -20.00 -10.00 0.00 10.00 20.00 30.00 1 2 3 4 5 6 7 8 9 10 Eltérés%-ban Axis Title N=1 N=2 N=3 N=4 random N=2
  • 10. Kutatási eredmények ismertetése u Tokenek hosszúsága erősen befolyásol u Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett eredményre u Tokenek súlyozása nem megfelelő megoldás a problémára: u Nincsenek fontosabb szókapcsolatok u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos témában íródtak u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés mértékét 10
  • 11. Összegzés u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes elvégezni u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet nem érdemes heurisztika alkalmazásával megtörni u A tokenek között nincsen olyan, ami több információt hordoz a dokumentumra nézve, mint a többi 11
  • 12. Szöveg alapú dokumentumok összehasonlításának optimális paraméterei KISS ANDRÁS KÁROLY BUDAPESTI CORVINUS EGYETEM KISS.ANDRAS.KAROLY@OUTLOOK.COM