Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
INFORMATION RETRIEVAL AND DATA
EXTRACTION IN WEB
Sahib Babaliyev | rəh. Dr.Abzetdin Adamov
İnformasiya axtarışı
Data Mining
(relevantlıq)
İnternetdə axtarış zamanı əldə olunan məlumatın sorğuya nə
qədər uyğun olma...
Data Mining
• böyük miqdarda verilənlərin işlənilməsi
• böyük həcmli verilənlər çoxluğunda gizli vəziyyətdə
olan obyekt və...
Açar sözləri
Açar sözləri
• mətnin nədən bəhs etdiyini deməyə imkan verir
• sənədlərin siniflərə bölünməsi(klassifikasiyası)
• sürətli ...
Qraf modelləri
(TextRank)
Qraf modellərinə əsaslanan alqoritmlər universallığı və
effektivliyi ilə seçilir.
TextRank modeli
• qrafın qurulması
• Mənalı sözlərin təyin edilməsi (isim, sifət)
• Əlaqələrin qurulması (çəkilərinin hesa...
TextRank modeli (əlaqələr)
Qrafı 𝐺 = (𝐷, 𝐸).
𝐷 — qrafın düyünləri, sözlər çoxluğudur, 𝐸 — həmin sözlər
arasında əlaqələr ç...
TextRank modeli (alqoritm)
𝑉𝑖 düyünü üçün 𝐼𝑛 𝑉𝑖 - ona gələn,
𝑂𝑢𝑡 𝑉𝑖 - ondan çıxan əlaqələ çoxluğudur.
𝑇𝑅 𝑉𝑖 = 1 − 𝑑 + 𝑑 ∗
...
TextRank modeli (alqoritm)
B sözünə çoxlu sayda digər söz qoşulduğundan TextRank qiyməti böyükdür. E
sözünə daha çox söz q...
TextRank modeli (alqoritm)
TextRank modeli (seçim)
• qrafı final qiymətlərinin azalması sırasına görə düzürük
• ilk 𝑇 sayda sözü açar söz kimi seçiri...
Təcrübə
Nüvə hüceyrənin mərkəzində yerləşən ən əsas hissəsidir. Nüvəni ilk dəfə 1831-ci ildə
ingilis botaniki R.Braun kəşf...
Qrafın vizual təsvirinin qurulmasında Gephi proqram təminatından istifadə olunmuşdur. http://gephi.org
Açar sözləri
Ən yüksək qiymətləndirilmiş sözlər
• Hüceyrə
• Nüvə
• Mərkəz
• Heyvan
• Botanik
• R. Braun
Açar sözləri
Ən yüksək qiymətləndirilmiş
• Hüceyrə
• Nüvə
• Mərkəz
• Heyvan
• Botanik
• R. Braun
Ən çox təkrarlanan sözlər...
Mətnin xülasəsinin
avtomatik tərtibi
(açar cümlələr)
TextRank alqoritmi ilə açar cümlələrin də tapılması
mümkündür. (autom...
Qısa xülasə
• lazımi informasiyanı tez tapmaq
• oxşar mətnləri klasterlərə ayırmaq (kitabxana işi)
• axtarış sistemləri WE...
Qısa xülasə
Qısa xülasə (TextRank)
• qrafın düyünlərində cümlələr olur
• cümlələr arasında əlaqələr oxşarlıq əlamətinə görə qurulur
(c...
Cümlələrin yaxınlığı
(üst-üstə düşməsi)
Cümləni sözlər oxluğu kimi göstərmək olar
𝑆𝑖 = {𝜔1
𝑖
, 𝜔2
𝑖
, 𝜔3
𝑖
, 𝜔4
𝑖
, 𝜔5
𝑖
,...
Təcrübə
Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes...
Ən yüksək qiymətləndirilmiş
cümlələr
1. Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər
çoxluğuna iş p...
İstinadlar
• NLPub — каталог лингвистических ресурсов для обработки русского
языка http://nlpub.ru/
• Grineva, M., Grinev,...
TextRank
TextRank
TextRank
Upcoming SlideShare
Loading in …5
×
Upcoming SlideShare
Hüceyrənin ümumi quruluşu
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

TextRank

Download to read offline

Text Rank alqoritmi

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

TextRank

  1. 1. INFORMATION RETRIEVAL AND DATA EXTRACTION IN WEB Sahib Babaliyev | rəh. Dr.Abzetdin Adamov
  2. 2. İnformasiya axtarışı Data Mining (relevantlıq) İnternetdə axtarış zamanı əldə olunan məlumatın sorğuya nə qədər uyğun olması
  3. 3. Data Mining • böyük miqdarda verilənlərin işlənilməsi • böyük həcmli verilənlər çoxluğunda gizli vəziyyətdə olan obyekt və meylləri ortaya çıxarmaq • (mətnin içində açar sözlərin müəyyənləşdirilməsi)
  4. 4. Açar sözləri
  5. 5. Açar sözləri • mətnin nədən bəhs etdiyini deməyə imkan verir • sənədlərin siniflərə bölünməsi(klassifikasiyası) • sürətli indeksləşdirmə
  6. 6. Qraf modelləri (TextRank) Qraf modellərinə əsaslanan alqoritmlər universallığı və effektivliyi ilə seçilir.
  7. 7. TextRank modeli • qrafın qurulması • Mənalı sözlərin təyin edilməsi (isim, sifət) • Əlaqələrin qurulması (çəkilərinin hesablanması) • qrafın qiymətləndirilməsi (TextRank) • qrafdan açar sözlərin seçilməsi (T sayda)
  8. 8. TextRank modeli (əlaqələr) Qrafı 𝐺 = (𝐷, 𝐸). 𝐷 — qrafın düyünləri, sözlər çoxluğudur, 𝐸 — həmin sözlər arasında əlaqələr çoxluğudur. 𝑘1 və 𝑘2 sözləri arasındakı əlaqənin çəkisi onların arasındakı məsafə nə qədər az olsa, o qədər çox olur: 𝑊𝐸 𝑘1, 𝑘2 = 1 − 𝑑 𝑘1, 𝑘2 − 1 𝑁 − 1 , ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ∈ (1, 𝑁) 0, ə𝑔ə𝑟 𝑑 𝑘1, 𝑘2 ≥ 𝑁 𝑁 ölçüdə parça hüdudundakı sözlərə baxılır.
  9. 9. TextRank modeli (alqoritm) 𝑉𝑖 düyünü üçün 𝐼𝑛 𝑉𝑖 - ona gələn, 𝑂𝑢𝑡 𝑉𝑖 - ondan çıxan əlaqələ çoxluğudur. 𝑇𝑅 𝑉𝑖 = 1 − 𝑑 + 𝑑 ∗ 𝑉 𝑘∈𝐼𝑛 𝑉 𝑖 𝜔 𝑘,𝑖 𝑉 𝑗∈𝑂𝑢𝑡 𝑉 𝑘 𝜔 𝑘,𝑗 𝑇𝑅(𝑉𝑘) 𝜔 𝑘,𝑖 — 𝑉𝑘 və 𝑉𝑖 düyünlərini birləşdirən əlaqənin çəkisidir, 𝑑 — sönmə faktorudur (0.85). 𝑇𝑅 𝑘+1 𝑉𝑖 − 𝑇𝑅 𝑘 𝑉𝑖 < 𝜀 − 𝑖𝑡𝑒𝑟𝑎𝑠𝑖𝑦𝑎𝑙𝑎𝑟𝚤 𝑑𝑎𝑦𝑎𝑛𝑑𝚤𝑟𝑚𝑎𝑞 𝑜𝑙𝑎𝑟
  10. 10. TextRank modeli (alqoritm) B sözünə çoxlu sayda digər söz qoşulduğundan TextRank qiyməti böyükdür. E sözünə daha çox söz qoşulmasına baxmayaraq, C sözünün TextRank qiyməti E -dən böyükdür. Bu, C sözünün daha vacib sözlə əlaqələndiyindən və bu əlaqənin yeganəliyindən irəli gəlir.
  11. 11. TextRank modeli (alqoritm)
  12. 12. TextRank modeli (seçim) • qrafı final qiymətlərinin azalması sırasına görə düzürük • ilk 𝑇 sayda sözü açar söz kimi seçirik 𝑇 = 1 3 𝑉
  13. 13. Təcrübə Nüvə hüceyrənin mərkəzində yerləşən ən əsas hissəsidir. Nüvəni ilk dəfə 1831-ci ildə ingilis botaniki R.Braun kəşf etmişdir. Birhüceyrəli və çoxhüceyrəli bitki və heyvanların hüceyrələrində həmişə nüvə olur. Yalnız bakteriya və göy-yaşıl yosunların hüceyrəsində formalaşmış nüvə yoxdur. Nüvə maddələr mübadiləsinin idarə mərkəzi və digər orqanoidlərin fəaliyyətinin tənzimetmə mərkəzidir. Nüvənin forma və ölçüsü hüceyrənin forma və ölçüsündən asılıdır. Nüvə əksərən şar və ellips formasında, az hallarda isə linzavarıdır. Nüvənin böyüklüyü orqanizmlərin növündən və hüceyrələrinin yaşından asılıdır. Hüceyrə böyüdükcə nüvə də irəliləşir. Hüceyrələrdə nüvələrin sayı müxtəlif olur. Normal halda əksər hüceyrələrin bir nüvəsi olur. Bunlar birnüvəli hüceyrələr adlanır. İki, üç və hətta yüzlərlə nüvəli hüceyrələr də var. Məsələn, infuzor tərlikdə iki, onurğalı heyvanların qaraciyərində, sümük iliyində və əzələ hüceyrələrində onlarca nüvə olur. Mətn parçası Vikipediyadan götürülmüşdür. http://az.wikipedia.org/wiki/Hüceyrə_nüvəsi
  14. 14. Qrafın vizual təsvirinin qurulmasında Gephi proqram təminatından istifadə olunmuşdur. http://gephi.org
  15. 15. Açar sözləri Ən yüksək qiymətləndirilmiş sözlər • Hüceyrə • Nüvə • Mərkəz • Heyvan • Botanik • R. Braun
  16. 16. Açar sözləri Ən yüksək qiymətləndirilmiş • Hüceyrə • Nüvə • Mərkəz • Heyvan • Botanik • R. Braun Ən çox təkrarlanan sözlər • Nüvə • Hüceyrə • Forma • Mərkəz • Ölçü • Heyvan
  17. 17. Mətnin xülasəsinin avtomatik tərtibi (açar cümlələr) TextRank alqoritmi ilə açar cümlələrin də tapılması mümkündür. (automatic summarization)
  18. 18. Qısa xülasə • lazımi informasiyanı tez tapmaq • oxşar mətnləri klasterlərə ayırmaq (kitabxana işi) • axtarış sistemləri WEB səhifələrinin qısa xülasəsini saxlayır
  19. 19. Qısa xülasə
  20. 20. Qısa xülasə (TextRank) • qrafın düyünlərində cümlələr olur • cümlələr arasında əlaqələr oxşarlıq əlamətinə görə qurulur (cümlələrin yaxınlığı)
  21. 21. Cümlələrin yaxınlığı (üst-üstə düşməsi) Cümləni sözlər oxluğu kimi göstərmək olar 𝑆𝑖 = {𝜔1 𝑖 , 𝜔2 𝑖 , 𝜔3 𝑖 , 𝜔4 𝑖 , 𝜔5 𝑖 , … 𝜔 𝑁 𝑖 𝑖 } Cümlələr arasında oxşarlıq 𝑂𝑥ş𝑎𝑟𝑙ı𝑞(𝑆𝑖, 𝑆𝑖) = 𝜔 𝑘, 𝜔 𝑘 ∈ 𝑆𝑖 & 𝜔 𝑘 ∈ 𝑆𝑗 𝑆𝑖 + 𝑆𝑖 eyni anlayışlarla bölüşən iki cümlə arasında əlaqə olur
  22. 22. Təcrübə Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes proses deyilir. Biznes proses adətən bir neçə mərhələdə, addımda tamamlanır. Həmin addımlar qeyd olunmuş müəyyən bir ardıcıllıqla yerinə yetirilməlidir. Məsələn, tutaq ki satıcı alıcılara öz mallarını satmaq istəyir. Bunun üçün əvvəlcə o özü həmin malları əldə etməlidir. Yəni ki müəyyən bir prosesi yerinə yetirərək məqsədəçatmaq istənilirsə, bu zaman əməliyyatlar arasında müəyyən bir ardıcıllıq gözlənilməlidir. Eyni zamanda müəyyən əməliyyatlar işin görülmə məntiqindən asılı olaraq lazım gələrsə paralel şəkildə də yerinə yetirilə bilər. Biznes Prosesin İdarə Edilməsi (Business Process Management-BPM) biznes prosesi layihələndirmək, idarə etmək və analiz etmək üçün lazım olan alətlərin, texnologiyaların və metodların birləşməsidir. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan sistematik yanaşmadır. BPM informasiyanın vaxtında düzgün formada yerinə çatdırılmasını təmin edir. Bu o deməkdir ki, daxili sistem, insanlar və ya xarici partnyorlar işlərini tamalamaq üçün lazım olan informasiyanı müvafiq vaxtda əldə edə bilirlər. Yəni ki, BPM təşkilatda insanlar arasında, onun daxili sistemleri arasında qarşılıqlı əlaqəni təmin edir. Əgər BPM-dən istifadə olunmasa müvafiq biznes prosesi tamamlamaq üçün olan əməliyyatların bəziləri unudula və ya vaxtında yerinə yetirilməyə bilər. Buna görə də təşkilat üçün BPM-in rolu böyükdür. Hər hansı bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq müxtəlif şöbələrə ayrılır. Texnologiyanın inkişafı ilə əlaqədar olaraq təşkilatlarda avtomatlaşdırılmış sistemlərdən istifadə edildiyindən və bu sahədə görüləcək işlərə böyük ehtiyac olduğundan hazırda şirkətlərin ayrıca İT şöbələri var. Hər hansı bir təşkilatda İT şöbəsinin məqsədi texnologiya ilə bağlı olan bütün məsələlərlə məşğul olmaqdır. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı nöqtəsidir. Yəni ki, BPM İT və digər şöbələr arasında körpü rolunu oynayır. Onlar arasında əlaqəni asanlaşdırmaq üçün biznes prosesi modelləşdirirlər. Modelləşmə dedikdə təşkilat daxilində biznes prosesin analitik, qrafik təsviri başa düşülür. Bu məqsədlə daha çox BPMN dən, business process modeling notation, istifadə olunur. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem İT departamentinin işçiləri və digər departamentlərin işçiləri arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı anlaşılmazlıqlardır. Çünki digər şöbələrin işçiləri İT-nin işini anlamaqda çətinlik çəkirlər. Bu da öz növbəsində təşkilat daxilində işlərin görülməsində problemlərə yol açır, bir sıra çətinliklər törədir. Müəyyən anlaşılmazlıqlar əmələ gəlir ki, bu da təşkilatın işinin tam, vaxtında və düzgün yerinə yetirilməsində maneələr törədir. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı üçün ümumi olan bir struktura ehtiyac duyulur. İŞPROSESİZAMANI YARANA BİLƏCƏK PROBLEMLƏR VƏ ONLARIN HƏLLİ ÜÇÜN TƏKLİF OLUNAN ARXİTEKTURA Abzetdin ADAMOV, Aytən ZODOROVA. Gənc tədqiqatçıların II beynəlxalq elmi konfransı. 18.04.2014, Bakı
  23. 23. Ən yüksək qiymətləndirilmiş cümlələr 1. Bir qurumun və ya təşkilatın məqsədlərinə çatmaq üçün gördüyü işlər çoxluğuna iş prosesi, business process, biznes proses deyilir. (1.671) 2. Təşkilat daxilində biznes prosesin idarə edilməsində olan əsas problem İT departamentinin işçiləri və digər departamentlərin işçiləri arasındakı əlaqənin çətinliyi, bir sözlə onlar arasındakı anlaşılmazlıqlardır. (1.557) 3. Hər hansı bir təşkilatın strukturunu təsəvvür etsək, bildiyimiz kimi təşkilat daxilində görüləcək işlərin məqsədlərinə uyğun olaraq müxtəlif şöbələrə ayrılır. (1.366) 4. BPM təşkilat daxilində İT şöbəsi ilə digər şöbələr arasında bağlantı nöqtəsidir. (1.285) 5. İT şöbəsinin işi digər şöbələrin işləri ilə sıx əlaqədə olduğundan hamı üçün ümumi olan bir struktura ehtiyac duyulur. (1.245) 6. BPM təşkilatın işini daha effektiv, daha səmərəli etmək üçün olan sistematik yanaşmadır. (1.201)
  24. 24. İstinadlar • NLPub — каталог лингвистических ресурсов для обработки русского языка http://nlpub.ru/ • Grineva, M., Grinev, M., Lizorkin, D. Extracting Key Terms From Noisy and Multi-theme Documents. Proceedings of the 18th International Conference on World Wide Web. — 2009. — P. 661–670. • Mihalcea, R., Tarau, P. TextRank: Bringing Order into Texts. Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. — 2004. — Vol. 4. — № 4. — P. 404–411. • S. Brin and L. Page. 1998. The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30(1–7). • Усталов Дмитрий Алексеевич, УрФУ, Екатеринбург, Россия Извлечение терминов из русскоязычных текстов при помощи графовых моделей

Text Rank alqoritmi

Views

Total views

766

On Slideshare

0

From embeds

0

Number of embeds

6

Actions

Downloads

5

Shares

0

Comments

0

Likes

0

×