Új keresési lehetőségek a Nemzeti Kutatásnyilvántartási Rendszerben Tichy-Rács Ádám osztályvezető
Tartalom Keresőkérdések építése, tárolása, használata, generálása Találati halmazok Keresési módszerek Boole-algebrai keresés relevancia, és hasonlóság szerinti rendezés Az NKR tezauruszának jellemzői Az NKR működésének gyakorlati bemutatása
Keresőkérdés összeállítása Szabadon megadott szöveggel vagy listaelemek beillesztésével Kétszintű Boole-algebrai kifejezések Lehetőség a keresőkérdés tárolására és újrafelhasználására Következmény: többszintű Boole-algebrai kifejezés is építhető Nanotechnológia – nyolcvan elemből álló összetett kifejezés
Találati halmazok Alapbeállítás: a keresési feltételeknek megfelelő  projektek  halmaza Új megoldás: a keresési feltételeknek megfelelő projektekben közreműködő   szervezetek/szervezeti  egységek , illetve  kutatók  halmaza A BME projektjeiben közreműködő szervezetek a BME szervezeti egységei és azok konzorciumi partnerei A találati halmaz elemeire kattintva új lekérdezést hozunk létre, és hajtunk végre automatikusan
Keresési eljárások Boole-algebrai keresés szabad tárgyszavas rendszerben Azokat a projekteket keressük, amelyek adott tárgyszavakkal összeállított logikai kifejezéssel leírhatók Boole-algebrai keresés tezaurusz segítségével Azokat a projekteket keressük, melyek adott fogalmakkal vagy azok alá rendelt tárgyszavakkal összeállított logikai kifejezéssel írhatók le A találati halmaz elemei a kereséstől független, a keresési szempontokhoz képest mellékes tulajdonság szerint rendezhetők Betűrend, projekt kezdése, befejezése, támogatási összeg stb.
Tezaurusz több fölérendelttel Osztályozórendszerekben minden elemnek egy és csak egy fölérendeltje lehet Ellenkező esetben nem lehetne lineárisan elrendezni a katalóguscédulákat! Utalókat kell használni tartományok összekapcsolására Egy témakört esetleg több irányból is kereshetnek – számítógép „járja be a fát tetszőleges kiindulási pontból Tudománytörténet Történelem Fizikatörténet Humán tudományok Fizika Élettelen természettudományok
Relevancia alapú keresés A projekteket aszerint rangsoroljuk, hogy az A projekteket közvetlenül leíró tárgyszavakból és azok fölérendelt fogalmaiból előállított {A} halmaz mennyire hasonlít a Q keresőkifejezésben szereplő tárgyszavakból és azok fölérendeltjeiből előállított {Q} halmazra r(A,Q)=n({A} ∩ {Q})/[n({A})* n({Q})]^(1/2)  Tulajdonsága 0 ≤  r(A,Q) ≤  1
Bináris tezaurusz a módszer illusztrálására
„A” projekt n({A})=13
„B” projekt n({B})=12
„C” projekt n({C})=5
„Q” kérdés n({Q})=5
„Q” és „A” n({Q} ∩{A})=2 r(A,B)=2/(5*13)^(1/2)=24,81%
„Q” és „B” n({Q} ∩{B})=2 r(Q,B)=2/(5*12)^(1/2)=25,82%
„Q” és „C” n({Q} ∩{C})=2 r(A,B)=2/(5*5)^(1/2)=40,00%
„ Keresésre optimalizált” „O” projekt n({B})=5
A projektek „Q” relevanciája szerint rendezve 24,81% „ A” 25,82% „ B” 33,33% [n({Q}/n({O}]^0,5 „ O” 40,00% „ C” Relevancia Projekt
Projektek hasonlóság szerinti rangsorolása A Q keresőkérdést a „D” projektet pontosan leíró kifejezésből is generálhatjuk r(A,Q(D))=s(A;D) Tulajdonságai: 0 ≤ s(A,D) ≤  1 s(A,D)= s(D,A) s(A,A)=s(D,D)=1 Továbbá, ha s(A,D) =0, akkor „A” ortogonális „D”-re
„A” és „B” hasonlósága n({A} ∩{B})=5 s(A,B)=5/(13*12)^(1/2)=40,03%
„A” és „C” hasonlósága n({A} ∩{C})=5 s(A,C)=2/(13*5)^(1/2)=24,81%
„B” és „C” hasonlósága n({B} ∩{C})=1 s(A,B)=1/(12*5)^(1/2)=12,91%
Projektek hasonlósága az NKR-ben I.
Projektek hasonlósága az NKR-ben II.
A relevancia alapú keresés előnyei A találati halmazt lényegi szempont szerint rendezi Magától – a tezaurusz logikája szerint - hajtja végre a fogalmi általánosítást Ha egy projekt mindenhez hasonlít, akkor semmihez sem hasonlít igazán – nagy a nevező! Nem „keresés-optimalizálhatók” a projektek Nagyon általános kérdés csak a nagyon általános projektekre nézve igazán releváns Nagyon speciális kérdés nem túl releváns a nagyon általános projektre
Kombinált keresés Csak azokat a projekteket rendezi relevancia szerint, amik a Boole-algebrai keresés szerint is a találati halmazban lettek volna „ B” nem eleme a találati halmaznak! 24,81% „ B” 40,00% „ C”
Az NKR tezaurusza A tezaurusz Jelenleg 17000 elemű, folyamatosan fejlődik 6 legfelső szintű elemet tartalmaz Mélysége egyenetlen 5-10 szintű Egy fogalomnak akárhány alárendeltje lehet Egy fogalomnak több fölérendeltje is lehet!
Tezaurusz több fölérendelttel
„B” projekt n({B})=12
MS Internet Explorer Mozilla Firefox Opera Google Chrome Apple Safari Nézzük meg a módszer alkalmazását a gyakorlatban, a Nemzeti Kutatásnyilvántartási Rendszerben!

Uj_keresesi_eljaras_az_NKR-ben

  • 1.
    Új keresési lehetőségeka Nemzeti Kutatásnyilvántartási Rendszerben Tichy-Rács Ádám osztályvezető
  • 2.
    Tartalom Keresőkérdések építése,tárolása, használata, generálása Találati halmazok Keresési módszerek Boole-algebrai keresés relevancia, és hasonlóság szerinti rendezés Az NKR tezauruszának jellemzői Az NKR működésének gyakorlati bemutatása
  • 3.
    Keresőkérdés összeállítása Szabadonmegadott szöveggel vagy listaelemek beillesztésével Kétszintű Boole-algebrai kifejezések Lehetőség a keresőkérdés tárolására és újrafelhasználására Következmény: többszintű Boole-algebrai kifejezés is építhető Nanotechnológia – nyolcvan elemből álló összetett kifejezés
  • 4.
    Találati halmazok Alapbeállítás:a keresési feltételeknek megfelelő projektek halmaza Új megoldás: a keresési feltételeknek megfelelő projektekben közreműködő szervezetek/szervezeti egységek , illetve kutatók halmaza A BME projektjeiben közreműködő szervezetek a BME szervezeti egységei és azok konzorciumi partnerei A találati halmaz elemeire kattintva új lekérdezést hozunk létre, és hajtunk végre automatikusan
  • 5.
    Keresési eljárások Boole-algebraikeresés szabad tárgyszavas rendszerben Azokat a projekteket keressük, amelyek adott tárgyszavakkal összeállított logikai kifejezéssel leírhatók Boole-algebrai keresés tezaurusz segítségével Azokat a projekteket keressük, melyek adott fogalmakkal vagy azok alá rendelt tárgyszavakkal összeállított logikai kifejezéssel írhatók le A találati halmaz elemei a kereséstől független, a keresési szempontokhoz képest mellékes tulajdonság szerint rendezhetők Betűrend, projekt kezdése, befejezése, támogatási összeg stb.
  • 6.
    Tezaurusz több fölérendelttelOsztályozórendszerekben minden elemnek egy és csak egy fölérendeltje lehet Ellenkező esetben nem lehetne lineárisan elrendezni a katalóguscédulákat! Utalókat kell használni tartományok összekapcsolására Egy témakört esetleg több irányból is kereshetnek – számítógép „járja be a fát tetszőleges kiindulási pontból Tudománytörténet Történelem Fizikatörténet Humán tudományok Fizika Élettelen természettudományok
  • 7.
    Relevancia alapú keresésA projekteket aszerint rangsoroljuk, hogy az A projekteket közvetlenül leíró tárgyszavakból és azok fölérendelt fogalmaiból előállított {A} halmaz mennyire hasonlít a Q keresőkifejezésben szereplő tárgyszavakból és azok fölérendeltjeiből előállított {Q} halmazra r(A,Q)=n({A} ∩ {Q})/[n({A})* n({Q})]^(1/2) Tulajdonsága 0 ≤ r(A,Q) ≤ 1
  • 8.
    Bináris tezaurusz amódszer illusztrálására
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
    „Q” és „A”n({Q} ∩{A})=2 r(A,B)=2/(5*13)^(1/2)=24,81%
  • 14.
    „Q” és „B”n({Q} ∩{B})=2 r(Q,B)=2/(5*12)^(1/2)=25,82%
  • 15.
    „Q” és „C”n({Q} ∩{C})=2 r(A,B)=2/(5*5)^(1/2)=40,00%
  • 16.
    „ Keresésre optimalizált”„O” projekt n({B})=5
  • 17.
    A projektek „Q”relevanciája szerint rendezve 24,81% „ A” 25,82% „ B” 33,33% [n({Q}/n({O}]^0,5 „ O” 40,00% „ C” Relevancia Projekt
  • 18.
    Projektek hasonlóság szerintirangsorolása A Q keresőkérdést a „D” projektet pontosan leíró kifejezésből is generálhatjuk r(A,Q(D))=s(A;D) Tulajdonságai: 0 ≤ s(A,D) ≤ 1 s(A,D)= s(D,A) s(A,A)=s(D,D)=1 Továbbá, ha s(A,D) =0, akkor „A” ortogonális „D”-re
  • 19.
    „A” és „B”hasonlósága n({A} ∩{B})=5 s(A,B)=5/(13*12)^(1/2)=40,03%
  • 20.
    „A” és „C”hasonlósága n({A} ∩{C})=5 s(A,C)=2/(13*5)^(1/2)=24,81%
  • 21.
    „B” és „C”hasonlósága n({B} ∩{C})=1 s(A,B)=1/(12*5)^(1/2)=12,91%
  • 22.
  • 23.
  • 24.
    A relevancia alapúkeresés előnyei A találati halmazt lényegi szempont szerint rendezi Magától – a tezaurusz logikája szerint - hajtja végre a fogalmi általánosítást Ha egy projekt mindenhez hasonlít, akkor semmihez sem hasonlít igazán – nagy a nevező! Nem „keresés-optimalizálhatók” a projektek Nagyon általános kérdés csak a nagyon általános projektekre nézve igazán releváns Nagyon speciális kérdés nem túl releváns a nagyon általános projektre
  • 25.
    Kombinált keresés Csakazokat a projekteket rendezi relevancia szerint, amik a Boole-algebrai keresés szerint is a találati halmazban lettek volna „ B” nem eleme a találati halmaznak! 24,81% „ B” 40,00% „ C”
  • 26.
    Az NKR tezauruszaA tezaurusz Jelenleg 17000 elemű, folyamatosan fejlődik 6 legfelső szintű elemet tartalmaz Mélysége egyenetlen 5-10 szintű Egy fogalomnak akárhány alárendeltje lehet Egy fogalomnak több fölérendeltje is lehet!
  • 27.
  • 28.
  • 29.
    MS Internet ExplorerMozilla Firefox Opera Google Chrome Apple Safari Nézzük meg a módszer alkalmazását a gyakorlatban, a Nemzeti Kutatásnyilvántartási Rendszerben!