Irdb

1,114 views

Published on

0 Comments
0 Likes
Statistics
Notes
 • Be the first to comment

 • Be the first to like this

No Downloads
Views
Total views
1,114
On SlideShare
0
From Embeds
0
Number of Embeds
192
Actions
Shares
0
Downloads
15
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Irdb

 1. 1. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ Àëåêñàíäð Ìîðîçîâ Ôèëôàê ÑÏáÃÓ, 9 ôåâðàëÿ 2008 ãîäà Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 2. 2. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ïëàí 1 Ââåäåíèå 2 Ïåðâîå ïðèáëèæåíèå 3 Ôîðìàëèçàöèÿ 4 Ðåàëèçàöèÿ 5 Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 3. 3. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ââåäåíèå Êîäåêñ - èíôîðìàöèîííûå ñèñòåìû. Áîëüøèå êîëëåêöèè îôèöèàëüíûõ äîêóìåíòîâ (òûñÿ÷è, ñîòíè òûñÿ÷ äîêóìåíòîâ). Èíôîðìàöèîííûé ïðîäóêò - íàáîð áàç äîêóìåíòîâ, ïîñòàâëÿåòñÿ ïîëüçîâàòåëÿì. Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 4. 4. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Áàíê äîêóìåíòîâ Denition Áàíê äîêóìåíòîâ - óïîðÿäî÷åííàÿ è óïðàâëÿåìàÿ êîëëåêöèÿ äîêóìåíòîâ, ðàñïðîñòðàíÿåìàÿ ìîäóëüíûì îáðàçîâ è èñïîëüçóåìàÿ íåïîñðåäñòâåííî ó ïîëüçîâàòåëÿ. Íàêëàäûâàåìûå òðåáîâàíèÿ: Êîìïàêòíûé ðàçìåð Âîçìîæíîñòü îáíîâëÿòü íåáîëüøèìè ïîðöèÿìè áåç îáðàáîòêè âñåãî áàíêà Ýôôåêòèâíûé è íåòðåáîâàòåëüíûé ê ðåñóðñàì ïðîãðàììíûé êîìïëåêñ äëÿ ðàáîòû ñ áàíêîì Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 5. 5. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ïîèñê äàííûõ Denition Ïîèñê äàííûõ - äåòåðìèíèðîâàííûé ïîèñê òî÷íî óêàçàííûõ äàííûõ Example Ïîèñê ïî íàèìåíîâàíèþ Êîíñòèòóöèÿ ÐÔ Ïîèñê ïî íîìåðó 38-Ô3 (Ôåäåðàëüíûé çàêîí Î ðåêëàìå) Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 6. 6. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Èíôîðìàöèîííûé ïîèñê Denition Èíôîðìàöèîííûé ïîèñê - âåðîÿòíîñòíûé ïîèñê èíôîðìàöèè, îòíîñÿùåéñÿ ê çàïðîñó Example Íàëîãîîáëîæåíèå ìàëûõ ïðåäïðèÿòèé Ïîëó÷åíèå ãðàæäàíñòâà ÐÔ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 7. 7. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ñõåìà èíôîðìàöèîííîãî ïîèñêà Èíôîðìàöèîííàÿ ïîòðåáíîñòü ïîëüçîâàòåëÿ Ïîèñêîâûé çàïðîñ Àíàëèç çàïðîñà Ïîèñê ðåëåâàíòíûõ äîêóìåíòîâ Âûäà÷à ðåçóëüòàòîâ Denition Ðåëåâàíòíîñòü - ñòåïåíü ñîîòâåòñòâèÿ çàïðîñà è íàéäåííûõ äîêóìåíòîâ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 8. 8. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Èíòåðôåéñ ïîèñêà Ââîä çàïðîñà Ïîäñêàçêè âàðèàíòîâ ñëîâ Ïîäñêàçêè âàðèàíòîâ ñëîâîñî÷åòàíèé Ïðåäóïðåæäåíèÿ îá îøèáêàõ èëè ïëîõèõ ôîðìóëèðîâêàõ Âûâîä ðåçóëüòàòîâ Âçâåøåííûé ñïèñîê Îãðàíè÷åíèå ðàçìåðîâ ñïèñêà Ïîêàç íàèáîëåå ïîäõîäÿùèõ ôðàãìåíòîâ äîêóìåíòîâ Ïîêàç ñòàòèñòèêè âñòðå÷àåìîñòè ñëîâ Ïðåäëîæåíèÿ ïî èñïðàâëåíèþ çàïðîñà â ñïîðíûõ ñëó÷àÿõ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 9. 9. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Îöåíêà êà÷åñòâà íàéäåííûå ðåëåâàíòíûå Òî÷íîñòü P= âñå íàéäåííûå íàéäåííûå ðåëåâàíòíûå Ïîëíîòà R= âñå ðåëåâàíòíûå N gi Discounted Cumulated Gain DCG = g1 + i=2 log i Îöåíêà ýêñïåðòîì êà÷åñòâà Îöåíêà íà îñíîâå ïîñòðîåííîãî ýêñïåðòîì èäåàëüíîãî îòâåòà Q= |Rsys ∧ Ruser | Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 10. 10. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Êàê èñêàòü? Èñêàòü ïî êëþ÷åâûì ñëîâàì Èñêàòü ïî ðóáðèêàòîðó èëè òåìàòè÷åñêèì ãðóïïàì Èñêàòü ïî âñåìó òåêñòó êàæäîãî äîêóìåíòà - ïîëíîòåêñòîâûé ïîèñê Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 11. 11. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ìîäåëè ïîèñêà Îñíîâíàÿ ãèïîòåçà - ðåëåâàíòíûé äîêóìåíò ñîäåðæèò òå æå òåðìèíû, ÷òî è çàïðîñ. Òåîðåòè÷åñêèå ìîäåëè Áèíàðíàÿ Âåêòîðíàÿ Âåðîÿòíîñòíàÿ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 12. 12. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Òèïîâàÿ ðåàëèçàöèÿ  îñíîâå ëåæèò ïðåäñòàâëåíèå äîêóìåíòà, êàê íàáîðà âçâåøåííûõ òåðìèíîâ. Ìåðà ðåëåâàíòíîñòè äîêóìåíòà - ñóììà âåñîâ òåðìèíîâ, êîòîðûå âñòðå÷àþòñÿ è â äîêóìåíòå, è â çàïðîñå. Îñíîâíûå ôóíêöèè ðàñ÷åòà âåñà äîêóìåíòà TF-IDF: n D Rj = fi,j · log di i=1 Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 13. 13. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Îñíîâíûå ôóíêöèè ðàñ÷åòà âåñà äîêóìåíòà BM25 (Best match 25): n fi,j · (k1 + 1) Rj = Lj · i=1 fi,j + k1 · (1 − b + b · Lavg ) (ri + 0.5) · (D − di − R + ri + 0.5) log (di − ri + 0.5) · (R − ri + 0.5) Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 14. 14. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Îñîáåííîñòè âûäåëåíèÿ òåðìèíîâ èç äîêóìåíòîâ Âûäåëåíèå ñëîâ èç òåêñòà Óäàëåíèå øóìîâûõ ñëîâ Ñëîâîôîðìû Ñèíîíèìèÿ Îìîíèìèÿ Ñèíòàêñè÷åñêàÿ íåîïðåäåëåííîñòü Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 15. 15. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Óñëîæíåíèå ìîäåëè âçâåøåííûõ òåðìèíîâ Ó÷åò ñòðóêòóðû äîêóìåíòà Ó÷åò ñòèëåé îôîðìëåíèÿ Ó÷åò âçàèìíîãî ðàñïîëîæåíèÿ ñëîâ Ó÷åò ìåòàäàííûõ Ó÷åò ñâÿçåé ìåæäó äîêóìåíòàìè Ó÷åò âíåøíèõ ñóùíîñòåé (êëàññèôèêàöèÿ, îáúåäèíåíèÿ ïî òåìàì) Ðàñøèðåíèå çàïðîñà (ñòàòèñòèêà, òåçàóðóñ) Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 16. 16. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ðåàëèçàöèÿ ïîèñêà â òåêñòå Íåïîñðåäñòâåííûé ïîèñê â òåêñòå Ïîèñê ñ èñïîëüçîâàíèåì èíäåêñà (èíâåðòèðîâàííûé èíäåêñ) Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 17. 17. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ìîðôîëîãèÿ Óäàëåíèå îêîí÷àíèé Ñëîâàðíàÿ (ÀÎÒ) Îñíîâàííàÿ íà ïðàâèëàõ (snowball, stemka) Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 18. 18. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ïîèñê ñëîâîñî÷åòàíèé Èíäåêñèðîâàíèå ñëîâîñî÷åòàíèé Îòñëåæèâàíèå ñëîâîñî÷åòàíèé íà ýòàïå ïîèñêà Îòñëåæèâàíèå ñîâìåñòíîé âñòðå÷àåìîñòè òåðìèíîâ âî ôðàãìåíòàõ òåêñòà Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 19. 19. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Îðãàíèçàöèÿ áàçû äîêóìåíòîâ Ñæàòûå òåêñòû Ìåòàäàííûå Èíäåêñû ïî ìåòàäàííûì Ïîëíîòåêñòîâûé èíäåêñ (ñæàòûé èíâåðòèðîâàííûé èíäåêñ ñ ïîçèöèÿìè ñëîâ) Âåñà òåðìèíîâ íå õðàíÿòñÿ Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 20. 20. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Äîïîëíèòåëüíûå îáúåêòû Òåìàòèêè Òåðìèíû Ñèòóàöèè Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 21. 21. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Ñõåìà ïîèñêà Ðàçáîð çàïðîñà Ðàñøèðåíèå îáëàñòè ïîèñêà Ïîñòðîåíèå ñïèñêîâ íàéäåííûõ äîêóìåíòîâ äëÿ êàæäîãî òåðìèíà Îáúåäèíåíèå ñïèñêîâ Ïîäñ÷åò âåñîâ äîêóìåíòîâ Îòäåëåíèå äîïîëíèòåëüíûõ îáúåêòîâ îò ñïèñêà ðåçóëüòàòîâ Êîððåêòèðîâêà âåñîâ ñ ó÷åòîì ññûëîê Äîïîëíèòåëüíàÿ îáðàáîòêà ñïèñêà ðåçóëüòàòîâ Àíàëèç ðåäêî âñòðå÷àþùèõñÿ ñëîâ çàïðîñà íà ïðåäìåò îøèáîê îøèáêà ñâÿçàíà ñî âñòàâêîé ëèøíåé áóêâû îøèáêà ñâÿçàíà ñ íàæàòèåì íà ñîñåäíþþ êëàâèøó îøèáêà ñâÿçàíà ñî ââîäîì ïîõîæåé áóêâû îøèáêà ñâÿçàíà ñ íàðóøåíèåì ïîðÿäêà ñëåäîâàíèÿ äâóõ ñîñåäíèõ áóêâ îøèáêà ñâÿçàíà ñ ïðîïóñêîì îäíîé áóêâû Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ
 22. 22. Ââåäåíèå Ïåðâîå ïðèáëèæåíèå Ôîðìàëèçàöèÿ Ðåàëèçàöèÿ Ðåàëèçàöèÿ â ¾Êîäåêñå¿ Âûâîä ðåçóëüòàòîâ Âûâîä ñòàòèñòèêè âñòðå÷àåìîñòè ñëîâ çàïðîñà Âûâîä ïðåäëîæåíèé èíîé èíòåðïðåòàöèè òåðìèíîâ Âûâîä ïðåäëîæåíèé èñïðàâëåíèé îøèáîê â ñëîâàõ Âûâîä óñå÷åííîãî ñïèñêà ðåçóëüòàòîâ, âûâîä ïîëíîãî ïî òðåáîâàíèþ Âûâîä êîíòåêñòíûõ àííîòàöèé ñ âîçìîæíîñòüþ ïåðåõîäà íà ïîêàçàííûå ôðàãìåíòû Àëåêñàíäð Ìîðîçîâ Èíôîðìàöèîííûé ïîèñê â áàíêàõ òåêñòîâûõ äîêóìåíòîâ

×