SlideShare a Scribd company logo
1 of 15
Download to read offline
Detekcia a sledovanie spravodajských tém na
Webe inšpirované sociálnym hmyzom
Štefan Sabo
školiteľ: prof. Pavol Návrat
sabo@fiit.stuba.sk
Prehľad
• Metóda na dynamickú identifikáciu a sledovanie spravodajských
príbehov, ktoré sa momentálne odvíjajú na Webe.
• Používame skupinu agentov inšpirovaných správaním sa včiel
medonosných pri zbere potravy v prírode.
• Súvislosti medzi článkami vyhodnocujeme postupne, na základe
jednotlivých príbehových slov, pričom najsľubnejšie príbehové
slová, ktoré umožňujú identifikovať prepojenia medzi článkami
sú propagované, menej vhodné slová sú opúšťané.
• Výsledkom činnosti agentov je graf súvislostí medzi článkami,
ktorý následne analyzujeme za účelom získania jednotlivých
spravodajských príbehov.
2 / 15
Motivácia
• Dynamická identifikácia príbehov umožňuje identifikovať
spravodajské príbehy a sledovať ich zároveň s tým, ako sa
odvíjajú.
• Identifikácia príbehu je výzvou, keďže je náročné
definovať, čo spravodajský príbeh predstavuje.
• Využiteľné pre záujemcu o aktuálne dianie, ale aj pre
potreby spravodajskej analýzy.
3 / 15
Výzvy
• Problematickou oblasťou je reprezentácia príbehu vhodná
pre dynamické sledovanie.
• Bežne využívané postupy detekcie a sledovania tém (TDT)
sa spoliehajú na globálu analýzu článkov, napríklad term
frequency – inverse document frequency.
• Korpus všetkých článkov nie je za behu k dispozícii.
• Na zaznamenávanie nových aktuálnych článkov a
sledovanie zmien v článkoch starších je potrebný
dynamický systém.
4 / 15
Inšpirácia sociálnym hmyzom
5 / 15
• Populárny prístup k riešeniu optimalizačných /
vyhľadávacích problémov.
• Prevažne stochastické systémy.
• Dôraz na jednoduchosť agentov, komplexita systému
vyplýva z interakcií, nie zo správania jednotlivcov.
• Okrem včiel využívané aj mravce, termity, svätojánske
mušky a mnohé iné.
Včelí tanec
6 / 15
• decentralizovaný
• koordinovaný na
systémovej úrovni
• umožňuje dynamickú
reakciu
Príbehové slová
• Spravodajské príbehy je často možné reprezentovať
jednoduchými výrazmi, ktoré vystihujú podstatu príbehu,
alebo slúžia ako krátky popis príbehu.
• Tieto príbehové slová sú zaujímavé z pohľadu navigácie v
priestore spravodajských príbehov.
• Slúžia nám ako zdroje, ktoré je individuálne možné
jednoducho sledovať pomocou agentov.
7 / 15
Metóda – získavanie príbehových slov
• Príbehové slovo predstavuje výraz relevantný k určitej
skupine článkov, ktorý tieto články prepája na základe ich
relevancie k spoločnému spravodajskému príbehu.
• Namiesto priamej identifikácie príbehov relevantných k
danému článku sa snažíme pre daný článok identifikovať
len skupinu relevantných príbehových slov.
• Výhoda tohto prístupu spočíva v tom, že určiť relevanciu
dvoch článkov vzhľadom na zvolené príbehové slovo
môžeme aj bez znalosti širšieho kontextu.
• Príbehy získavame ako výsledok emergentného správania
sa roja agentov.
8 / 15
Metóda – získavanie príbehových slov
• Agenti sa presúvajú medzi článkami a snažia sa v nich
identifikovať význačné príbehové slová.
• Ak je jedno príbehové slovo súčasne relevantné k
viacerým článkom, medzi týmito článkami vzniká väzba na
základe tohto príbehového slova.
• Porovnanie všetkých možných dvojíc článkov vzhľadom na
každé potenciálne príbehové slovo by bolo nepraktické,
preto využívame stratégiu výberu založenú na správaní sa
včiel medonosných.
9 / 15
Stratégia výberu príbehových slov
• Každý agent nesie nanajvýš jedno príbehové slovo
• Tri činnosti, ktorým sa agenti môžu venovať:
 Zber potravy
 Včelí tanec
 Sledovanie
• Pri zbere potravy agenti príbehové slová vyhodnocujú.
• Počas včelieho tanca agenti príbehové slová propagujú.
• Sledovanie agenti zahajujú v prípade, že opustili svoje
príbehové slovo a chcú si vybrať nové.
10 / 15
Metóda – identifikácia príbehu
• Využíva grafovú reprezentáciu získaných údajov, pričom
články a príbehové slová predstavujú uzly a relácie
relevancie predstavujú hrany.
11 / 15
Metóda – identifikácia príbehu
• Graf je dynamicky konštruovaný agentmi počas toho, ako
sú články skúmané.
• Články sú zoskupené do príbehov pomocou Louvainovho
algoritmu na detekciu komunít.
• Po prvotnej identifikácii príbehov je možné nové články
klasifikovať za behu bez nutnosti prepočítavať komunity od
základu.
• Detekciu komunít je potrebné vykonávať jedine v prípade,
že chceme aktualizovať celú sadu príbehov.
12 / 15
príbeh príbehových slov článkov presnosť [%]
Bombové útoky v Bostone 18 64 96.88
Investičné správy 4 16 93.75
Cyperský dlh 10 56 89.29
Zrážky v Egypte 2 9 88.89
Bank of Japan 10 26 88.46
Voľby v Taliansku 11 37 83.78
Dlhová kríza 5 24 83.33
Napätie v Severnej Kórei 13 71 74.65
Voľby v Iraku 4 12 58.33
Zbrojné zákony v USA 11 49 55.10
Zemetrasenie v Iráne 12 37 18.92
Spolu 100 401 75.56
Výsledky – presnosť identifikácie
13 / 15
14
14 / 15
Zhrnutie
• Navrhovaný prístup využíva agentov na identifikáciu
príbehových slov pre skupinu spravodajských článkov.
• Články sú porovnávané a ich príbuznosť je vyhodnocovaná na
základe rôznych príbehových slov, pomocou stratégie založenej
na správaní sa včiel medonosných.
• Dynamická povaha tohto procesu umožňuje agentom flexibilne
reagovať na nové články, alebo na zmeny v článkoch už
spracovaných.
• Príbehy sú identifikované za behu na základe identifikácie
komunít v grafe článkov.
• Tento prístup nevyžaduje natrénovanie agentov, alebo globálnu
analýzu korpusu.
15 / 15

More Related Content

Viewers also liked

Admixtio_servicios detergencia y desinfección
Admixtio_servicios detergencia y desinfecciónAdmixtio_servicios detergencia y desinfección
Admixtio_servicios detergencia y desinfecciónMaria Minguet
 
Moviment animalista d'Algemesí. Becerrades mai mes!!!
Moviment animalista d'Algemesí.  Becerrades mai mes!!!Moviment animalista d'Algemesí.  Becerrades mai mes!!!
Moviment animalista d'Algemesí. Becerrades mai mes!!!Jesús Frare Garcia
 
День единства
День единстваДень единства
День единстваesvetlana
 
Näin tuotat vaikuttavaa verkkosisältöä -slidet
Näin tuotat vaikuttavaa verkkosisältöä -slidetNäin tuotat vaikuttavaa verkkosisältöä -slidet
Näin tuotat vaikuttavaa verkkosisältöä -slidetlansisuomenhelmet
 
Categorising Facial Expressions
Categorising Facial ExpressionsCategorising Facial Expressions
Categorising Facial Expressionsemily_bunker
 
Promoting and supporting language development in multilingual and multicultu...
Promoting and supporting language development in multilingual and  multicultu...Promoting and supporting language development in multilingual and  multicultu...
Promoting and supporting language development in multilingual and multicultu...cutrimschmid
 
Jelena Tomasevic OGAE SPAN
Jelena Tomasevic OGAE SPANJelena Tomasevic OGAE SPAN
Jelena Tomasevic OGAE SPANGabrielOGAE
 
Ott Lepland OGAE SPAIN
Ott Lepland OGAE SPAINOtt Lepland OGAE SPAIN
Ott Lepland OGAE SPAINGabrielOGAE
 
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry Commission
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry CommissionConfor Show Sept 2013 tree health seminar Ben Jones, Forestry Commission
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry CommissionForestry Commission
 
Pengukuran Kinerja Perusahaan
Pengukuran Kinerja PerusahaanPengukuran Kinerja Perusahaan
Pengukuran Kinerja PerusahaanSaferian
 
ICVP CREATIS Presentation April 2012
ICVP CREATIS Presentation April 2012ICVP CREATIS Presentation April 2012
ICVP CREATIS Presentation April 2012CREATIS
 
CONSIDERAR ALTERNATIVAS
CONSIDERAR ALTERNATIVASCONSIDERAR ALTERNATIVAS
CONSIDERAR ALTERNATIVASMaria Fernanda
 

Viewers also liked (15)

Malachibyrd.
Malachibyrd.Malachibyrd.
Malachibyrd.
 
Admixtio_servicios detergencia y desinfección
Admixtio_servicios detergencia y desinfecciónAdmixtio_servicios detergencia y desinfección
Admixtio_servicios detergencia y desinfección
 
Personal project - animotion
Personal project - animotionPersonal project - animotion
Personal project - animotion
 
Air Vice-Marshal Phil Osborn - Defence Information in the Future Operating En...
Air Vice-Marshal Phil Osborn - Defence Information in the Future Operating En...Air Vice-Marshal Phil Osborn - Defence Information in the Future Operating En...
Air Vice-Marshal Phil Osborn - Defence Information in the Future Operating En...
 
Moviment animalista d'Algemesí. Becerrades mai mes!!!
Moviment animalista d'Algemesí.  Becerrades mai mes!!!Moviment animalista d'Algemesí.  Becerrades mai mes!!!
Moviment animalista d'Algemesí. Becerrades mai mes!!!
 
День единства
День единстваДень единства
День единства
 
Näin tuotat vaikuttavaa verkkosisältöä -slidet
Näin tuotat vaikuttavaa verkkosisältöä -slidetNäin tuotat vaikuttavaa verkkosisältöä -slidet
Näin tuotat vaikuttavaa verkkosisältöä -slidet
 
Categorising Facial Expressions
Categorising Facial ExpressionsCategorising Facial Expressions
Categorising Facial Expressions
 
Promoting and supporting language development in multilingual and multicultu...
Promoting and supporting language development in multilingual and  multicultu...Promoting and supporting language development in multilingual and  multicultu...
Promoting and supporting language development in multilingual and multicultu...
 
Jelena Tomasevic OGAE SPAN
Jelena Tomasevic OGAE SPANJelena Tomasevic OGAE SPAN
Jelena Tomasevic OGAE SPAN
 
Ott Lepland OGAE SPAIN
Ott Lepland OGAE SPAINOtt Lepland OGAE SPAIN
Ott Lepland OGAE SPAIN
 
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry Commission
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry CommissionConfor Show Sept 2013 tree health seminar Ben Jones, Forestry Commission
Confor Show Sept 2013 tree health seminar Ben Jones, Forestry Commission
 
Pengukuran Kinerja Perusahaan
Pengukuran Kinerja PerusahaanPengukuran Kinerja Perusahaan
Pengukuran Kinerja Perusahaan
 
ICVP CREATIS Presentation April 2012
ICVP CREATIS Presentation April 2012ICVP CREATIS Presentation April 2012
ICVP CREATIS Presentation April 2012
 
CONSIDERAR ALTERNATIVAS
CONSIDERAR ALTERNATIVASCONSIDERAR ALTERNATIVAS
CONSIDERAR ALTERNATIVAS
 

Searching Sessions 2013

  • 1. Detekcia a sledovanie spravodajských tém na Webe inšpirované sociálnym hmyzom Štefan Sabo školiteľ: prof. Pavol Návrat sabo@fiit.stuba.sk
  • 2. Prehľad • Metóda na dynamickú identifikáciu a sledovanie spravodajských príbehov, ktoré sa momentálne odvíjajú na Webe. • Používame skupinu agentov inšpirovaných správaním sa včiel medonosných pri zbere potravy v prírode. • Súvislosti medzi článkami vyhodnocujeme postupne, na základe jednotlivých príbehových slov, pričom najsľubnejšie príbehové slová, ktoré umožňujú identifikovať prepojenia medzi článkami sú propagované, menej vhodné slová sú opúšťané. • Výsledkom činnosti agentov je graf súvislostí medzi článkami, ktorý následne analyzujeme za účelom získania jednotlivých spravodajských príbehov. 2 / 15
  • 3. Motivácia • Dynamická identifikácia príbehov umožňuje identifikovať spravodajské príbehy a sledovať ich zároveň s tým, ako sa odvíjajú. • Identifikácia príbehu je výzvou, keďže je náročné definovať, čo spravodajský príbeh predstavuje. • Využiteľné pre záujemcu o aktuálne dianie, ale aj pre potreby spravodajskej analýzy. 3 / 15
  • 4. Výzvy • Problematickou oblasťou je reprezentácia príbehu vhodná pre dynamické sledovanie. • Bežne využívané postupy detekcie a sledovania tém (TDT) sa spoliehajú na globálu analýzu článkov, napríklad term frequency – inverse document frequency. • Korpus všetkých článkov nie je za behu k dispozícii. • Na zaznamenávanie nových aktuálnych článkov a sledovanie zmien v článkoch starších je potrebný dynamický systém. 4 / 15
  • 5. Inšpirácia sociálnym hmyzom 5 / 15 • Populárny prístup k riešeniu optimalizačných / vyhľadávacích problémov. • Prevažne stochastické systémy. • Dôraz na jednoduchosť agentov, komplexita systému vyplýva z interakcií, nie zo správania jednotlivcov. • Okrem včiel využívané aj mravce, termity, svätojánske mušky a mnohé iné.
  • 6. Včelí tanec 6 / 15 • decentralizovaný • koordinovaný na systémovej úrovni • umožňuje dynamickú reakciu
  • 7. Príbehové slová • Spravodajské príbehy je často možné reprezentovať jednoduchými výrazmi, ktoré vystihujú podstatu príbehu, alebo slúžia ako krátky popis príbehu. • Tieto príbehové slová sú zaujímavé z pohľadu navigácie v priestore spravodajských príbehov. • Slúžia nám ako zdroje, ktoré je individuálne možné jednoducho sledovať pomocou agentov. 7 / 15
  • 8. Metóda – získavanie príbehových slov • Príbehové slovo predstavuje výraz relevantný k určitej skupine článkov, ktorý tieto články prepája na základe ich relevancie k spoločnému spravodajskému príbehu. • Namiesto priamej identifikácie príbehov relevantných k danému článku sa snažíme pre daný článok identifikovať len skupinu relevantných príbehových slov. • Výhoda tohto prístupu spočíva v tom, že určiť relevanciu dvoch článkov vzhľadom na zvolené príbehové slovo môžeme aj bez znalosti širšieho kontextu. • Príbehy získavame ako výsledok emergentného správania sa roja agentov. 8 / 15
  • 9. Metóda – získavanie príbehových slov • Agenti sa presúvajú medzi článkami a snažia sa v nich identifikovať význačné príbehové slová. • Ak je jedno príbehové slovo súčasne relevantné k viacerým článkom, medzi týmito článkami vzniká väzba na základe tohto príbehového slova. • Porovnanie všetkých možných dvojíc článkov vzhľadom na každé potenciálne príbehové slovo by bolo nepraktické, preto využívame stratégiu výberu založenú na správaní sa včiel medonosných. 9 / 15
  • 10. Stratégia výberu príbehových slov • Každý agent nesie nanajvýš jedno príbehové slovo • Tri činnosti, ktorým sa agenti môžu venovať:  Zber potravy  Včelí tanec  Sledovanie • Pri zbere potravy agenti príbehové slová vyhodnocujú. • Počas včelieho tanca agenti príbehové slová propagujú. • Sledovanie agenti zahajujú v prípade, že opustili svoje príbehové slovo a chcú si vybrať nové. 10 / 15
  • 11. Metóda – identifikácia príbehu • Využíva grafovú reprezentáciu získaných údajov, pričom články a príbehové slová predstavujú uzly a relácie relevancie predstavujú hrany. 11 / 15
  • 12. Metóda – identifikácia príbehu • Graf je dynamicky konštruovaný agentmi počas toho, ako sú články skúmané. • Články sú zoskupené do príbehov pomocou Louvainovho algoritmu na detekciu komunít. • Po prvotnej identifikácii príbehov je možné nové články klasifikovať za behu bez nutnosti prepočítavať komunity od základu. • Detekciu komunít je potrebné vykonávať jedine v prípade, že chceme aktualizovať celú sadu príbehov. 12 / 15
  • 13. príbeh príbehových slov článkov presnosť [%] Bombové útoky v Bostone 18 64 96.88 Investičné správy 4 16 93.75 Cyperský dlh 10 56 89.29 Zrážky v Egypte 2 9 88.89 Bank of Japan 10 26 88.46 Voľby v Taliansku 11 37 83.78 Dlhová kríza 5 24 83.33 Napätie v Severnej Kórei 13 71 74.65 Voľby v Iraku 4 12 58.33 Zbrojné zákony v USA 11 49 55.10 Zemetrasenie v Iráne 12 37 18.92 Spolu 100 401 75.56 Výsledky – presnosť identifikácie 13 / 15
  • 15. Zhrnutie • Navrhovaný prístup využíva agentov na identifikáciu príbehových slov pre skupinu spravodajských článkov. • Články sú porovnávané a ich príbuznosť je vyhodnocovaná na základe rôznych príbehových slov, pomocou stratégie založenej na správaní sa včiel medonosných. • Dynamická povaha tohto procesu umožňuje agentom flexibilne reagovať na nové články, alebo na zmeny v článkoch už spracovaných. • Príbehy sú identifikované za behu na základe identifikácie komunít v grafe článkov. • Tento prístup nevyžaduje natrénovanie agentov, alebo globálnu analýzu korpusu. 15 / 15