SlideShare a Scribd company logo
Реализација окружења за
сарадничко претраживање
информација
варијантом методе најближег
суседа
и профилима мултиграма
Поповић Зоран
Центар за мултидисциплинарне
студије
Универзитет у Београду
http://www.cms.bg.ac.rs
О раду
● Основни циљ овог рада је конструкција прототипа
система за претраживање информација (ПИ) који
користи СПИ, употребом одабраних метода и алата.
● Неопходно је да прототип буде практично
употребљив, предвидљиво ефикасан и флексибилан.
● Mотив за то је конструкција окружења за СПИ које
нуди практичне примене и могуће комерцијалне
примере у даљем развоју, које се може интегрисати
са другим информационим системима, као и даље
испитивање модела и метода који се користе у раду.
О раду
● Према циљевима, одабраним методама и
њиховим математичким основама које се даље
образлажу, као начини решавања одабрани су:
– модуларна и слојевита структура прототипа која
– подразумева базу података као слој којим се реализује
Булов модел ПИ и модел профила мултиграма
– развојни алати, хардверска и извршна програмска
платформа оријентисана ка решењима отвореног кôда
– пробни подаци и методе мерења перформанси
Сарадничко претраживање 
информација (СПИ)
Основни појмови
● Информација је релевантан податак (корисник му
даје значaj, није неопходна интерпретација у
односу на неки контекст тј. знање).
● Домен претраге: документи, објекти претраге (О).
● Потреба (Need): упити (Q), имплицитно задате
информације (I) специфичне за сваког корисника
(U) посебно, и изведене информације L(I).
● Претраживање информација (ПИ) је релација
релевантности: ρ⊆O×Q×LI 
Основни појмови
● Ако корисничка потреба за информацијама
(Information Need) не зависи од
корисника, у питању је класично ПИ (Content
Filtering), у супротном је сарадничко ПИ
(Collaborative Filtering).
● Резултат је подскуп домена претраге, скуп
релевантних докумената према одабраној методи
у односу на дати упит или корисничку потребу.
● У општијем случају, релација релевантности
може бити фази (корисно и као метод рангирања
резултата). Рангирање је посебан процес.
IN=Q×LI 
Модел корисник-О-А-В
● или модел корисник-документ-особина-вредност
(проширени О-А-В модел), где документ има
особине (атрибуте), на пример:
– субјективна оцена релевантности документа за корисника
(потреба),
– садржај документа (нпр. речи, N-грами), као и изведене
особине (плитко или дубоко структуриране),
– мета-особине (нпр. описане веб онтологијама), итд.
● У таквом моделу, конкретна инстанца документа
има конкретне вредности својих особина (могу
бити и вишеструке), за сваког корисника понаособ.
Примери система СПИ на вебу
● Аутоматско предлагање садржаја
(Aumatic Content Recommendation):
Google, Amazon, Pandora, Last.fm, Ebay, ...
● Друштвене мреже: Facebook, Twitter, LinkedIn, ...
Профили мултиграма и 
репрезентација докумената
N-грами и профили мултиграма
● Документ као ниска речи дужине L.
● Свака његова подниска дужине N
зове се (i-ти) N-грам:
– има их L-N+1 у датој нисци,
– једнаки (исти) су ако су једнаки као ниске,
– број понављања истог N-грама је његова фреквенција у
документу, односно у колекцији докумената
t1 ,... ,tL
ti ,... , tiN −1
N-грами и профили мултиграма
● Пресликавање N-грама документа (или колекције
докумената) у њихове фреквенције јесте профил
N-грама документа (или глобални профил у
случају колекције докумената).
● Ако то пресликавање користи различите дужине
N-грама (N=1,2,3,...) онда је у питању профил
мултиграма.
● Прототип користи и инверзну фреквенцију N-грама
(однос броја докумената који га садрже и укупног броја
докумената у колекцији) поред опсега рангова (као праг
одсецања профила код класификације)
Репрезентација документа
● Скуп кластера докумената:
● и одговарајући скуп D
репрезената кластера се
ради једноставности често
поистовећују и зову документима:
● Репрезенти код прототипа су профили мултиграма
D
D={D1, ..., Dm }⊆PO
D
O1
O2
Om
...
...
D1
D2
Dm
D={ O1, ..., Om }
N-грами као особине докумената
● Редослед речи у упиту код Буловог модела не
утиче на резултат
● N-грами подразумевају и редослед речи:
За упит ,,Винстон је увече”, прототип са профилима
мултиграма који укључују N=3 наградиће (1) више него
(2), у супротном ће бити једнако рангирани. Редослед
речи упита ће имати значаја и са , док са N=1 неће.
(1) Винстон је увече имао више посла него икад ...
(2) Винстон је стајао окренут телекрану леђима ...
      Oбично je увече код куће ...
(3) Винстон крете ка степеницама ... То можда не би било опасније
     него један изостанак увече из центра ... Улица је била ћорсокак ...
N≤2
Метода најближих суседа
МНС класификација
Oдaбирaњeм из скупа обучавања
нajближих k сусeдa (инстанци) пo
нeкoj мeтрици (на пример
Eуклидскoj) вeктoру кojи сe
тeстирa, бирa сe кaтeгoриja кoja je
нajбрojниja кao oцeнa кaтeгoриje.
f : X= X1×...×Xn  В={vi }
S={xi , yi ∣ xi∈X , yi∈B}
f xq =argmaxv∈B ∑i=1
k
wi v , f xi,
xq ∉{xi∣xi , yi∈S }, wi≡
1
d xq , xi
2
xq
(скуп обучавања)
МНС као метода оцене
релевантности документа
● У непрекидном случају , важи:
● Оцене релевантности документа j корисника u
могу се посматрати као ова врста проблема
класификације. Ако је скуп (околина корисника u)
и сличност међу корисницима
, где је:
● тада је оцена
релевантности по МНС:
● уместо k (за МНС)
Du, v=
∑i=1
∣D∣
Ru, i−Rv,i
2
∣D∣
Wi, j=1−
Di, j
2
Ru , j=
∑i∈Su
Wu ,i Ri, j
∑i∈Su
W u, i
Su={v∣Du ,v 
2
}
B=ℝ f  xq =
∑i=1
k
wi f  xi 
∑i=1
k
wi
Ru , j

Модификована МНС
● За потребе прототипа, рангирање се врши према
следећем изразу, за корисника u и документ
резултата ј, сортирањем у опадајућем редоследу:
где је фреквенција N-грама i у документу j, а
је ранг тог N-грама ( ) у глобалном
профилу.
Su, j=maxk rangk ∑
i=1
n
[f i j1Ru, j]N i
rangi
f ij
rangi N=Ni
Претраживање интернета као 
претраживање информација
  Интерфејс  Интерфејс
  Репозиторијум  Репозиторијум
Претраживање интернета
 Модул за
 индексирање
 Модул за
 индексирање
ШетачШетач
упит
потреба
 Модул за
 упитивање
 Модул за
 упитивање
 Модул за
 рангирање
 Модул за
 рангирање ИндексиИндекси
КорисникКорисник
 WWW
резултат
● Класичне методе - инверзни индекс:
● Језички ресурси: зауставна листа, речници, стеминг
● Канонски модел претраживања веба:
реч: документ: <позиција, позиција,...> ; документ: <позиција,... >; ...
Булов модел ПИ
● Механизам реализације Буловог модела ПИ је
нешто што се подразумева у већини данашњих
веб претраживача, као и код класичних система
за управљање релационим базама података.
● Прототип користи упите само у облику простих
коњункција (без негативних литерала) и
реализацију Буловог модела ПИ проширену
мултиграмима (уместо литерала).
● Реализација се ослања на базу података која као
слој игра улогу инверзног индекса и
репозиторијума у канонском прототипу ПИ.
Позната решења за ПИ
● Решења отвореног кôда:
– Apache Lucene - систем за текстуелно ПИ
– Terrier (TERabyte RetrIEveR) - комплетан систем ПИ
реализован потпуно у Java окружењу
– Xapian - комплетан класичан систем ПИ за Posix
платформе (могуће га је портирати на cygwin/gcc)
– ht://Dig - класичан систем ПИ на вебу за Posix OS
● Комерцијална решења:
– SAP TREX, Oracle UltraSearch, MS Indexing Service /
Desktop Search, ...
– EDMS: EMC Documentum, Oracle UCM, SAP Content
Server, PBS, Knowledge Tree, ...
MuSE – Multigram Search Engine
Окружење
● Прототип одликују мултигтрами као особине уместо
речи и релевантност резултата по кориснику
● Развојни алати и извршно окружење:
– Eclipse 3.4.0, Oracle/Sun Java SDK 1.5 (RMI/IIOP)
– Weka 3.5.8, jchardet (Mozilla alg. port)
– Oracle 10g XE RDBMS / APEX
– Apache Tomcat 5.5
– Selenic Mercurial (hg)
● Решења отвореног кôда:
– многи произвођачи (Oracle, SAP) их подржавају
(захтев за отворениим стандардима, заједница)
– ефикаснији развој и интеграција са ИС
  Интерфејс q  Интерфејс q
  Интерфејс 1  Интерфејс 1
MuSE - прототип
● Структура - слојеви:
– База
– Сервер: шетач (Crawler), ажурирање профила
(индекса), део ф-налности модула за упитивање, ...
– Интерфејс (JSP)
– browser
qServer 1
qServer 2
qServer p
База КориснициКорисници
orbd
База – релациони модел
● Модели: профила мултиграма (фразни индекс,
профили мултиграма), к-О-А-В, Булов модел
URLS
N
ID
NGRAM
TAG
COUNT
RANK
SELECTED
NTYPE
N
NGRAM_ID
BAG_ID
COUNT
NTYPE
CATEGORY
USERNAME
BAG_ID
ATTRIBUTE
CATEGORY
ATYPE
RANK
BAG_ID
URL
HASH
DATUM
NTYPE
HUB
AUTHORITY
DESCR
TITLE
BAG_ID
URL
HASH
DATUM
NTYPE
HUB
AUTHORITY
DESCR
TITLE
PROPERTIESTSHARED
NSHARED
LURLS
LINKS
from_id bag_id
URL
DEPTH
EXECUTED
SUCCESS
WORD
STOPWORDS
QUEUE
Демонстрација
Демонстрација
Преглед резултата и 
могућих побољшања
Резултати
● Мерења:
– Укупан број преузетих страна (време извршавања
шетача варира највише у односу на платформу) – око
1000 докумената (веб страница са сликама)
– Укупан пораст заузећа простора у бази (у приближно
једнаким размацима)
– Време извршења базног упита (модула за упитивање)
● Мерење 2 је са оптимизованим базним
индексима, за разлику од мерења 1.
Резултати
● Заузеће простора у бази у односу на број докумената
(од тога бинарне датотеке најмање 50%, индекси 60%):
(30% укупне величине преузетог садржаја код Apache Lucene-а)
0M 0.65M 15.35M 34.65M 47.7M 63.2М 83.7М
0
50
100
150
200
250
300
350
400
Мерење 1. (M)
Мерење 2. (M)
100% (M)
Резултати
● Динамички базни упит се са истим подацима извршава за 0.06
секунди (и далеко мање зависи од броја кључних речи):
0.65M 15.35M 34.65M 47.7M 63.2M
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Мерење 1.
Мерење 2.
(секунде)
Побољшања
● Одсецање профила (према информационом добитку,
потреби корисника, евалуацијом, итд), простор у бази
директно утиче на перформансе.
● Класификација и додатне особине (проширена МНС где
се оцењује и релевантност атрибута):
N idf Max rang % исправних / не N-грама секунди
4 0.34 500 98.48 / 1.52 2094646 6.27
4 0.5 500 94.83 / 5.16 2094646 6.16
4 0.5 500 94.83 / 5.16 1048576 6.28
3 0.34 500 97.17 / 2.83 1807820 6.81
4 0.34 800 98.10 / 1.90 2094646 8.14
5 0.34 800 97.12 / 2.88 2247852 8.38
4 0.34 1000 94.76 / 5.24 2094646 8.28
2 0.34 800 92.16 / 7.84 65536 7.25
1 0.34 800 93.10 / 6.90 256 1.73
1 0.66 800 73.68 / 26.32 256 0.77
4 0.25 250 96.37 / 3.63 2094646 6.47
Побољшања
● Побољшања сервера: зауставне листе, формална
евалуација резултата, експанзија упита, рангирање
и конективизам (HITS, SALSA, PageRank)
● Језички алати (етикете и стемови уместо речи)
● Техничка побољшања:
– рачунање у меморији, JADE уместо RMI/IIOP, HA
– употреба напредних опција Oracle RDBMS
(партиционисање и паралелизам, RAC, компресија)
– дедупликација на нивоу уређаја за складиштење
податакa (virtual appliance уместо специјалног хардвера)
– обављање периодичних послова на серверу
Закључак
Закључак
● Показује се да је прототип веома погодан код претраге
великих мултимедијалних датотека (нпр. систем за
одржавање медијатеке) ако се упит може постављати
подношењем (једног дела) датотеке преко веб клијента.
● Техничка архитектура прототипа омогућава и употребу
уређаја који не морају бити специјализовани.
● Решења отвореног кôда и Java платформа омогућавају
једноставну интеграцију са неким пословним системима.
● Могуће је проучавање особина предложеног модела ПИ,
и даљи развој и истраживање.
● Добијени резултати показују да се прототип и
предложена методологија могу практично користити.
Дискусија - питања
?

More Related Content

Similar to Magistarska teza - prezentacija

Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3
Nikola Reljin
 
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
Milan Zdravković
 
слободан софтвер и локализација
слободан софтвер и локализацијаслободан софтвер и локализација
слободан софтвер и локализацијаИван Старчевић
 
0 osnovni pojmovi
0 osnovni pojmovi0 osnovni pojmovi
0 osnovni pojmovi
senokraljevo
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)Milos Ilic
 
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
DuanTijani
 
UPRO - BPMN – Notacija za modeliranje poslovnih procesa
UPRO - BPMN – Notacija za modeliranje poslovnih procesaUPRO - BPMN – Notacija za modeliranje poslovnih procesa
UPRO - BPMN – Notacija za modeliranje poslovnih procesa
Milan Zdravković
 
Наставни план и програм 2012 - Рачунарство и информатика - 2. разред
Наставни план и програм 2012 - Рачунарство и информатика - 2. разредНаставни план и програм 2012 - Рачунарство и информатика - 2. разред
Наставни план и програм 2012 - Рачунарство и информатика - 2. разред
NašaŠkola.Net
 
Наставни план и програм 2012 - Рачунарство и информатика - 1. разред
Наставни план и програм 2012 - Рачунарство и информатика - 1. разредНаставни план и програм 2012 - Рачунарство и информатика - 1. разред
Наставни план и програм 2012 - Рачунарство и информатика - 1. разред
NašaŠkola.Net
 
Наставни план и програм 2012 - Рачунарство и информатика - 4. разред
Наставни план и програм 2012 - Рачунарство и информатика - 4. разредНаставни план и програм 2012 - Рачунарство и информатика - 4. разред
Наставни план и програм 2012 - Рачунарство и информатика - 4. разред
NašaŠkola.Net
 
Primjena veb tehnologija u geografskim informacionim sistemima
Primjena veb tehnologija u geografskim informacionim sistemimaPrimjena veb tehnologija u geografskim informacionim sistemima
Primjena veb tehnologija u geografskim informacionim sistemima
chiwchy
 
Uvod u funkcionalno programiranje
Uvod u funkcionalno programiranjeUvod u funkcionalno programiranje
Uvod u funkcionalno programiranje
Damjan Pavlica
 
OKAT1.3 Postupak gradnje prototipa
OKAT1.3 Postupak gradnje prototipaOKAT1.3 Postupak gradnje prototipa
OKAT1.3 Postupak gradnje prototipa
Milan Zdravković
 
Web дизајн (it), део 6, школска 2010 11, триместар 3
Web дизајн (it), део 6, школска 2010 11, триместар 3Web дизајн (it), део 6, школска 2010 11, триместар 3
Web дизајн (it), део 6, школска 2010 11, триместар 3
Nikola Reljin
 
Izbegavanje prepreka kod implementacije SharePoint-a
Izbegavanje prepreka kod implementacije SharePoint-aIzbegavanje prepreka kod implementacije SharePoint-a
Izbegavanje prepreka kod implementacije SharePoint-a
Bojan Buhac
 
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan Buhac
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan BuhacSPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan Buhac
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan BuhacSharePoint User Grupa Srbija
 

Similar to Magistarska teza - prezentacija (18)

Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3Web дизајн (it), део 1, школска 2010 11, триместар 3
Web дизајн (it), део 1, школска 2010 11, триместар 3
 
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
UPRO - Rad sa softverom za modeliranje procesa - Together Workflow Editor (TWE)
 
слободан софтвер и локализација
слободан софтвер и локализацијаслободан софтвер и локализација
слободан софтвер и локализација
 
0 osnovni pojmovi
0 osnovni pojmovi0 osnovni pojmovi
0 osnovni pojmovi
 
Master rad A. Pavic
Master rad A. PavicMaster rad A. Pavic
Master rad A. Pavic
 
Pitanja kss (1)
Pitanja  kss (1)Pitanja  kss (1)
Pitanja kss (1)
 
Slobodan_Zivancevic_cv
Slobodan_Zivancevic_cvSlobodan_Zivancevic_cv
Slobodan_Zivancevic_cv
 
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
Дефинисање-типског-захвата-обраде-грубог-и-завршног-стругања-у-модулу-CManufa...
 
UPRO - BPMN – Notacija za modeliranje poslovnih procesa
UPRO - BPMN – Notacija za modeliranje poslovnih procesaUPRO - BPMN – Notacija za modeliranje poslovnih procesa
UPRO - BPMN – Notacija za modeliranje poslovnih procesa
 
Наставни план и програм 2012 - Рачунарство и информатика - 2. разред
Наставни план и програм 2012 - Рачунарство и информатика - 2. разредНаставни план и програм 2012 - Рачунарство и информатика - 2. разред
Наставни план и програм 2012 - Рачунарство и информатика - 2. разред
 
Наставни план и програм 2012 - Рачунарство и информатика - 1. разред
Наставни план и програм 2012 - Рачунарство и информатика - 1. разредНаставни план и програм 2012 - Рачунарство и информатика - 1. разред
Наставни план и програм 2012 - Рачунарство и информатика - 1. разред
 
Наставни план и програм 2012 - Рачунарство и информатика - 4. разред
Наставни план и програм 2012 - Рачунарство и информатика - 4. разредНаставни план и програм 2012 - Рачунарство и информатика - 4. разред
Наставни план и програм 2012 - Рачунарство и информатика - 4. разред
 
Primjena veb tehnologija u geografskim informacionim sistemima
Primjena veb tehnologija u geografskim informacionim sistemimaPrimjena veb tehnologija u geografskim informacionim sistemima
Primjena veb tehnologija u geografskim informacionim sistemima
 
Uvod u funkcionalno programiranje
Uvod u funkcionalno programiranjeUvod u funkcionalno programiranje
Uvod u funkcionalno programiranje
 
OKAT1.3 Postupak gradnje prototipa
OKAT1.3 Postupak gradnje prototipaOKAT1.3 Postupak gradnje prototipa
OKAT1.3 Postupak gradnje prototipa
 
Web дизајн (it), део 6, школска 2010 11, триместар 3
Web дизајн (it), део 6, школска 2010 11, триместар 3Web дизајн (it), део 6, школска 2010 11, триместар 3
Web дизајн (it), део 6, школска 2010 11, триместар 3
 
Izbegavanje prepreka kod implementacije SharePoint-a
Izbegavanje prepreka kod implementacije SharePoint-aIzbegavanje prepreka kod implementacije SharePoint-a
Izbegavanje prepreka kod implementacije SharePoint-a
 
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan Buhac
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan BuhacSPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan Buhac
SPUG Srbija - Izbegavanje prepreka kod implementacije SharePointa - Bojan Buhac
 

More from Zoran Popovic

Veštačka inteligencija 2
Veštačka inteligencija 2Veštačka inteligencija 2
Veštačka inteligencija 2
Zoran Popovic
 
Veštačka inteligencija 1
Veštačka inteligencija 1Veštačka inteligencija 1
Veštačka inteligencija 1
Zoran Popovic
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
Zoran Popovic
 
Ekspertni sistemi
Ekspertni sistemiEkspertni sistemi
Ekspertni sistemi
Zoran Popovic
 
Soft Computing
Soft ComputingSoft Computing
Soft Computing
Zoran Popovic
 
Tag
TagTag
SAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... ItaniumSAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... Itanium
Zoran Popovic
 
SSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle loginSSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle login
Zoran Popovic
 
Migration to 9i
Migration to 9iMigration to 9i
Migration to 9i
Zoran Popovic
 
ETRAN 2008
ETRAN 2008ETRAN 2008
ETRAN 2008
Zoran Popovic
 
SISY 2008
SISY 2008SISY 2008
SISY 2008
Zoran Popovic
 

More from Zoran Popovic (11)

Veštačka inteligencija 2
Veštačka inteligencija 2Veštačka inteligencija 2
Veštačka inteligencija 2
 
Veštačka inteligencija 1
Veštačka inteligencija 1Veštačka inteligencija 1
Veštačka inteligencija 1
 
Machine Learning
Machine LearningMachine Learning
Machine Learning
 
Ekspertni sistemi
Ekspertni sistemiEkspertni sistemi
Ekspertni sistemi
 
Soft Computing
Soft ComputingSoft Computing
Soft Computing
 
Tag
TagTag
Tag
 
SAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... ItaniumSAP, Linux, Virtualization and ... Itanium
SAP, Linux, Virtualization and ... Itanium
 
SSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle loginSSO secure communication flow for web Oracle login
SSO secure communication flow for web Oracle login
 
Migration to 9i
Migration to 9iMigration to 9i
Migration to 9i
 
ETRAN 2008
ETRAN 2008ETRAN 2008
ETRAN 2008
 
SISY 2008
SISY 2008SISY 2008
SISY 2008
 

Magistarska teza - prezentacija

  • 1. Реализација окружења за сарадничко претраживање информација варијантом методе најближег суседа и профилима мултиграма Поповић Зоран Центар за мултидисциплинарне студије Универзитет у Београду http://www.cms.bg.ac.rs
  • 2. О раду ● Основни циљ овог рада је конструкција прототипа система за претраживање информација (ПИ) који користи СПИ, употребом одабраних метода и алата. ● Неопходно је да прототип буде практично употребљив, предвидљиво ефикасан и флексибилан. ● Mотив за то је конструкција окружења за СПИ које нуди практичне примене и могуће комерцијалне примере у даљем развоју, које се може интегрисати са другим информационим системима, као и даље испитивање модела и метода који се користе у раду.
  • 3. О раду ● Према циљевима, одабраним методама и њиховим математичким основама које се даље образлажу, као начини решавања одабрани су: – модуларна и слојевита структура прототипа која – подразумева базу података као слој којим се реализује Булов модел ПИ и модел профила мултиграма – развојни алати, хардверска и извршна програмска платформа оријентисана ка решењима отвореног кôда – пробни подаци и методе мерења перформанси
  • 5. Основни појмови ● Информација је релевантан податак (корисник му даје значaj, није неопходна интерпретација у односу на неки контекст тј. знање). ● Домен претраге: документи, објекти претраге (О). ● Потреба (Need): упити (Q), имплицитно задате информације (I) специфичне за сваког корисника (U) посебно, и изведене информације L(I). ● Претраживање информација (ПИ) је релација релевантности: ρ⊆O×Q×LI 
  • 6. Основни појмови ● Ако корисничка потреба за информацијама (Information Need) не зависи од корисника, у питању је класично ПИ (Content Filtering), у супротном је сарадничко ПИ (Collaborative Filtering). ● Резултат је подскуп домена претраге, скуп релевантних докумената према одабраној методи у односу на дати упит или корисничку потребу. ● У општијем случају, релација релевантности може бити фази (корисно и као метод рангирања резултата). Рангирање је посебан процес. IN=Q×LI 
  • 7. Модел корисник-О-А-В ● или модел корисник-документ-особина-вредност (проширени О-А-В модел), где документ има особине (атрибуте), на пример: – субјективна оцена релевантности документа за корисника (потреба), – садржај документа (нпр. речи, N-грами), као и изведене особине (плитко или дубоко структуриране), – мета-особине (нпр. описане веб онтологијама), итд. ● У таквом моделу, конкретна инстанца документа има конкретне вредности својих особина (могу бити и вишеструке), за сваког корисника понаособ.
  • 8. Примери система СПИ на вебу ● Аутоматско предлагање садржаја (Aumatic Content Recommendation): Google, Amazon, Pandora, Last.fm, Ebay, ... ● Друштвене мреже: Facebook, Twitter, LinkedIn, ...
  • 10. N-грами и профили мултиграма ● Документ као ниска речи дужине L. ● Свака његова подниска дужине N зове се (i-ти) N-грам: – има их L-N+1 у датој нисци, – једнаки (исти) су ако су једнаки као ниске, – број понављања истог N-грама је његова фреквенција у документу, односно у колекцији докумената t1 ,... ,tL ti ,... , tiN −1
  • 11. N-грами и профили мултиграма ● Пресликавање N-грама документа (или колекције докумената) у њихове фреквенције јесте профил N-грама документа (или глобални профил у случају колекције докумената). ● Ако то пресликавање користи различите дужине N-грама (N=1,2,3,...) онда је у питању профил мултиграма. ● Прототип користи и инверзну фреквенцију N-грама (однос броја докумената који га садрже и укупног броја докумената у колекцији) поред опсега рангова (као праг одсецања профила код класификације)
  • 12. Репрезентација документа ● Скуп кластера докумената: ● и одговарајући скуп D репрезената кластера се ради једноставности често поистовећују и зову документима: ● Репрезенти код прототипа су профили мултиграма D D={D1, ..., Dm }⊆PO D O1 O2 Om ... ... D1 D2 Dm D={ O1, ..., Om }
  • 13. N-грами као особине докумената ● Редослед речи у упиту код Буловог модела не утиче на резултат ● N-грами подразумевају и редослед речи: За упит ,,Винстон је увече”, прототип са профилима мултиграма који укључују N=3 наградиће (1) више него (2), у супротном ће бити једнако рангирани. Редослед речи упита ће имати значаја и са , док са N=1 неће. (1) Винстон је увече имао више посла него икад ... (2) Винстон је стајао окренут телекрану леђима ...       Oбично je увече код куће ... (3) Винстон крете ка степеницама ... То можда не би било опасније      него један изостанак увече из центра ... Улица је била ћорсокак ... N≤2
  • 15. МНС класификација Oдaбирaњeм из скупа обучавања нajближих k сусeдa (инстанци) пo нeкoj мeтрици (на пример Eуклидскoj) вeктoру кojи сe тeстирa, бирa сe кaтeгoриja кoja je нajбрojниja кao oцeнa кaтeгoриje. f : X= X1×...×Xn  В={vi } S={xi , yi ∣ xi∈X , yi∈B} f xq =argmaxv∈B ∑i=1 k wi v , f xi, xq ∉{xi∣xi , yi∈S }, wi≡ 1 d xq , xi 2 xq (скуп обучавања)
  • 16. МНС као метода оцене релевантности документа ● У непрекидном случају , важи: ● Оцене релевантности документа j корисника u могу се посматрати као ова врста проблема класификације. Ако је скуп (околина корисника u) и сличност међу корисницима , где је: ● тада је оцена релевантности по МНС: ● уместо k (за МНС) Du, v= ∑i=1 ∣D∣ Ru, i−Rv,i 2 ∣D∣ Wi, j=1− Di, j 2 Ru , j= ∑i∈Su Wu ,i Ri, j ∑i∈Su W u, i Su={v∣Du ,v  2 } B=ℝ f  xq = ∑i=1 k wi f  xi  ∑i=1 k wi Ru , j 
  • 17. Модификована МНС ● За потребе прототипа, рангирање се врши према следећем изразу, за корисника u и документ резултата ј, сортирањем у опадајућем редоследу: где је фреквенција N-грама i у документу j, а је ранг тог N-грама ( ) у глобалном профилу. Su, j=maxk rangk ∑ i=1 n [f i j1Ru, j]N i rangi f ij rangi N=Ni
  • 19.   Интерфејс  Интерфејс   Репозиторијум  Репозиторијум Претраживање интернета  Модул за  индексирање  Модул за  индексирање ШетачШетач упит потреба  Модул за  упитивање  Модул за  упитивање  Модул за  рангирање  Модул за  рангирање ИндексиИндекси КорисникКорисник  WWW резултат ● Класичне методе - инверзни индекс: ● Језички ресурси: зауставна листа, речници, стеминг ● Канонски модел претраживања веба: реч: документ: <позиција, позиција,...> ; документ: <позиција,... >; ...
  • 20. Булов модел ПИ ● Механизам реализације Буловог модела ПИ је нешто што се подразумева у већини данашњих веб претраживача, као и код класичних система за управљање релационим базама података. ● Прототип користи упите само у облику простих коњункција (без негативних литерала) и реализацију Буловог модела ПИ проширену мултиграмима (уместо литерала). ● Реализација се ослања на базу података која као слој игра улогу инверзног индекса и репозиторијума у канонском прототипу ПИ.
  • 21. Позната решења за ПИ ● Решења отвореног кôда: – Apache Lucene - систем за текстуелно ПИ – Terrier (TERabyte RetrIEveR) - комплетан систем ПИ реализован потпуно у Java окружењу – Xapian - комплетан класичан систем ПИ за Posix платформе (могуће га је портирати на cygwin/gcc) – ht://Dig - класичан систем ПИ на вебу за Posix OS ● Комерцијална решења: – SAP TREX, Oracle UltraSearch, MS Indexing Service / Desktop Search, ... – EDMS: EMC Documentum, Oracle UCM, SAP Content Server, PBS, Knowledge Tree, ...
  • 23. Окружење ● Прототип одликују мултигтрами као особине уместо речи и релевантност резултата по кориснику ● Развојни алати и извршно окружење: – Eclipse 3.4.0, Oracle/Sun Java SDK 1.5 (RMI/IIOP) – Weka 3.5.8, jchardet (Mozilla alg. port) – Oracle 10g XE RDBMS / APEX – Apache Tomcat 5.5 – Selenic Mercurial (hg) ● Решења отвореног кôда: – многи произвођачи (Oracle, SAP) их подржавају (захтев за отворениим стандардима, заједница) – ефикаснији развој и интеграција са ИС
  • 24.   Интерфејс q  Интерфејс q   Интерфејс 1  Интерфејс 1 MuSE - прототип ● Структура - слојеви: – База – Сервер: шетач (Crawler), ажурирање профила (индекса), део ф-налности модула за упитивање, ... – Интерфејс (JSP) – browser qServer 1 qServer 2 qServer p База КориснициКорисници orbd
  • 25. База – релациони модел ● Модели: профила мултиграма (фразни индекс, профили мултиграма), к-О-А-В, Булов модел URLS N ID NGRAM TAG COUNT RANK SELECTED NTYPE N NGRAM_ID BAG_ID COUNT NTYPE CATEGORY USERNAME BAG_ID ATTRIBUTE CATEGORY ATYPE RANK BAG_ID URL HASH DATUM NTYPE HUB AUTHORITY DESCR TITLE BAG_ID URL HASH DATUM NTYPE HUB AUTHORITY DESCR TITLE PROPERTIESTSHARED NSHARED LURLS LINKS from_id bag_id URL DEPTH EXECUTED SUCCESS WORD STOPWORDS QUEUE
  • 29. Резултати ● Мерења: – Укупан број преузетих страна (време извршавања шетача варира највише у односу на платформу) – око 1000 докумената (веб страница са сликама) – Укупан пораст заузећа простора у бази (у приближно једнаким размацима) – Време извршења базног упита (модула за упитивање) ● Мерење 2 је са оптимизованим базним индексима, за разлику од мерења 1.
  • 30. Резултати ● Заузеће простора у бази у односу на број докумената (од тога бинарне датотеке најмање 50%, индекси 60%): (30% укупне величине преузетог садржаја код Apache Lucene-а) 0M 0.65M 15.35M 34.65M 47.7M 63.2М 83.7М 0 50 100 150 200 250 300 350 400 Мерење 1. (M) Мерење 2. (M) 100% (M)
  • 31. Резултати ● Динамички базни упит се са истим подацима извршава за 0.06 секунди (и далеко мање зависи од броја кључних речи): 0.65M 15.35M 34.65M 47.7M 63.2M 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Мерење 1. Мерење 2. (секунде)
  • 32. Побољшања ● Одсецање профила (према информационом добитку, потреби корисника, евалуацијом, итд), простор у бази директно утиче на перформансе. ● Класификација и додатне особине (проширена МНС где се оцењује и релевантност атрибута): N idf Max rang % исправних / не N-грама секунди 4 0.34 500 98.48 / 1.52 2094646 6.27 4 0.5 500 94.83 / 5.16 2094646 6.16 4 0.5 500 94.83 / 5.16 1048576 6.28 3 0.34 500 97.17 / 2.83 1807820 6.81 4 0.34 800 98.10 / 1.90 2094646 8.14 5 0.34 800 97.12 / 2.88 2247852 8.38 4 0.34 1000 94.76 / 5.24 2094646 8.28 2 0.34 800 92.16 / 7.84 65536 7.25 1 0.34 800 93.10 / 6.90 256 1.73 1 0.66 800 73.68 / 26.32 256 0.77 4 0.25 250 96.37 / 3.63 2094646 6.47
  • 33. Побољшања ● Побољшања сервера: зауставне листе, формална евалуација резултата, експанзија упита, рангирање и конективизам (HITS, SALSA, PageRank) ● Језички алати (етикете и стемови уместо речи) ● Техничка побољшања: – рачунање у меморији, JADE уместо RMI/IIOP, HA – употреба напредних опција Oracle RDBMS (партиционисање и паралелизам, RAC, компресија) – дедупликација на нивоу уређаја за складиштење податакa (virtual appliance уместо специјалног хардвера) – обављање периодичних послова на серверу
  • 35. Закључак ● Показује се да је прототип веома погодан код претраге великих мултимедијалних датотека (нпр. систем за одржавање медијатеке) ако се упит може постављати подношењем (једног дела) датотеке преко веб клијента. ● Техничка архитектура прототипа омогућава и употребу уређаја који не морају бити специјализовани. ● Решења отвореног кôда и Java платформа омогућавају једноставну интеграцију са неким пословним системима. ● Могуће је проучавање особина предложеног модела ПИ, и даљи развој и истраживање. ● Добијени резултати показују да се прототип и предложена методологија могу практично користити.