2. Amiről szó lesz
u Bevezetés
u Irodalmi áttekintés és kutatási rés
u Hipotézisek megfogalmazása
u Kutatás módszertana
u Kutatási eredmények ismertetése
u Konklúziók levonása, összegzés
2
4. Irodalmi áttekintés és kutatási rés 4
Előnyök Hátrányok
Szavak
Statisztikai szempontból
előnyös, szinonimák
problémája kezelhető
Hiányzik a
kontextus,
szófordulatok
szétesnek
Frázisok
elemezhető kontextus,
szemantika nem veszik
el, megmaradó
szófordulatok
Statisztikai
szempontból
nem előnyös
A. Stavrianou, P. Andritsos & N. Nicoloyannis:
Hogyan valósítható mindez meg?
Mit jelent ez számokban?
KOPI működési elve:
5. Alapfogalmak 5
Ez itt egy dokumentum teljes szövege.
Szövegkörnyezetbeli sorrend
Forrás dokumentum
Tokenek halmaza
2. token
N = 5 hosszúságú token
(Reprezentáló képesség)
6. Kutatási kérdések
1. A tokenek hosszúsága befolyásolja-e azok halmazának
dokumentum reprezentáló képességét?
2. A tokenizálás során a szavak szövegkörnyezetbeli
sorrendjének elhagyása befolyásolja-e a tokenek
halmazának dokumentum reprezentáló képességét?
3. A tokenek súlyozása befolyásolja-e azok halmazának
dokumentum reprezentáló képességét?
6
8. Az algoritmus 8
Kontroll és teszt dokumentum halmaz
Dokumentumok tartalmának beolvasása Java nyelvi elemekkel
Szöveg szavakká tördelése a sorrendiség
megőrzése mellett
Tokenizálás elvégzése eltérő logikák mentén
(N = 1,2,3,4 illetve random sorrend esetén)
Kontroll és teszt dokumentum közös tokeneinek keresése
10. Kutatási eredmények ismertetése
u Tokenek hosszúsága erősen befolyásol
u Szavak szövegkörnyezetbeli sorrendjének elhagyása nem vezetett
eredményre
u Tokenek súlyozása nem megfelelő megoldás a problémára:
u Nincsenek fontosabb szókapcsolatok
u A leggyakoribb szókapcsolatok csak azt bizonyítják, hogy azonos
témában íródtak
u Nem meghatározható, hogy a súlyok miként befolyásolják az átfedés
mértékét
10
11. Összegzés
u A szövegek összehasonlítását N = 2 hosszúságú tokenekkel érdemes
elvégezni
u A szavak sorrendisége a szöveg egy fontos tulajdonsága, melyet
nem érdemes heurisztika alkalmazásával megtörni
u A tokenek között nincsen olyan, ami több információt hordoz a
dokumentumra nézve, mint a többi
11