Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach

624 views

Published on

4. výročie Centra vizuálnej histórie Malach

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach

  1. 1. Evaluácia tematického vyhľadávania v audiovizuálnych nahrávkach Mgr. Petra Galuščáková Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzita Karlova v Praze 27. 1. 2014
  2. 2. Tématická anotácia archívu Malach ● 357 českých nahrávok z archívu Malach ● Vyznačené boli úseky v ktorých sa hovorí o vybranej téme ● Manuálne anotácie ● Vybrané témy (116 tém), podrobne definované – Napr. Detské umění v Terezíne, Židovské děti na školách, Kolaborace místních obyvatel ● Anotátori naštudovali témy, počúvali nahrávky a označovali relevantné useky vo výpovediach ● Spolu 5436 anotovaných segmentov
  3. 3. Ukážka anotovaných tém Názov témy Description Narrator Hudba v holokaustu Svědectví o tom, zda hudba pomáhala (duševně nebo i jinak) nebo překážela vězňům internovaným v koncentračních táborech. Popis toho, jakou roli hrála hudba v životě vězňů. Posilování víry Posilování náboženské víry jako důsledek holokaustu. Většina Židů, kteří byli před příchodem do tábora silně nábožensky založení, ztratila v důsledku svých zážitků svou víru v Boha. Hledáme opačné případy: lidi, jejichž víra byla v důsledku zážitků posílena.
  4. 4. Tématické vyhľadávanie ● Máme: ● Kolekciu audio alebo audio-vizuálnych dokumentov ● Tému ● Chceme: ● Dokument, ktorý tému obsahuje ● Presne označený relevantný úsek v dokumente (začiatok úseku)
  5. 5. Speech Retrieval ● Information Retrieval (IR) sa zaoberá vyhľadávaním určitých materiálov (väčšinou dokumentov), ktoré majú neštrukturovanú podobu (teda sú to väčšinou texty) a ktoré napĺňajú nejakú potrebu získania informácií vo veľkej skupine dát (ktorá je väčšinou uložená na počítači) na základe používateľom zadanej požiadavky* ● Speech Retrieval je špeciálny prípad IR, pri ktorom sú dokumenty v hovorenej podobe ● Keyword spotting sa líši od Speech Retrieval – hľadanie výskytov slova v prepisoch * Manning, C. D. , Raghavan, P. Schütze, H: Introduction to Information Retrieval, New York, NY, USA , Cambridge University Press, 2008
  6. 6. Vyhodnotenie vyhľadávania dokumentov ● Precision = počet relevantných vrátených dokumentov / počet všetkých vrátených dokumentov ● Recall = počet relevantných vrátených dokumentov / počet všetkých relevantných dokumentov ● Average Precision - aritmetický priemer hodnôt precision. Počíta sa pre každý nový relevantný dokument, ktorý vyhľadávací systém vráti. ● Mean Average Precision - priemer hodnôt Average Precision pre množinu zadaných požiadaviek
  7. 7. Vyhodnotenie vyhľadávania relevantných segmentov ● Prevod na vyhľadávanie dokumentov ● Rozdelíme nahrávku na segmenty a k tým pristupujeme ako ku dokumentom v predchádzajúcom prípade ● Metrika mGAP ● Nahrávky nemusia byť segmentované ● Kombinuje relevantnosť vyhľadaných dokumentov a presnosť odpovedí systému ● Začiatok nájdeného segmentu nesmie byť príliš vzdialený od začiatku relevantného segmentu – Kvalita vyhľadávacieho systému závisí na vzdialenosti týchto dvoch bodov ● Vhodný pre audio-vizuálne vyhľadávacie systémy
  8. 8. Metrika mGAP ● Kvalita vyhľadávacieho systému závisí na vzdialenosti začiatku relevantného segmentu a začiatku nájdeného segmentu ● Je určená pomocou penalizačnej funkcie
  9. 9. Ciele práce ● Overiť vhodnosť použitia metriky mGAP ● Často používaná, ale neexistuje žiadne overenie, že mGAP zodpovedá správaniu ľudí ● Tvar funkcie – napr. symetria ● Šírka okna – od akej vzdialenosti je nájdený segment nerelevantný? ● Ak to je potrebné, upraviť penalizačnú funkciu
  10. 10. Postup práce I ● Užívateľský prieskum ● Ako užívatelia vnímajú rôzne postavenie nájdeného segmentu vzhľadom na relevantný začiatok segmentu? ● Špeciálne upravený prehrávač dát ● Dáta z projektu Malach – ručne anotované začiatky tém ● Simulácia vyhľadávacích systémov – Náhodne generované body namiesto reálnych odpovedí vyhľadávacieho systému (playback point)
  11. 11. Postup práce II ● Užívateľom sme predložili playback point (simulovaný začiatok) ● Blízko pri ručne označenom začiatku relevantného segmentu ● Užívatelia sa pohybovali v nahrávke a označili bod, kde relevantný úsek začína podľa nich ● Merali sme ako rýchlo boli schopní tento bod určiť ● Následne určili ako boli s vyhľadaným (simulovaným) bodom spokojní
  12. 12. Užívateľské rozhranie
  13. 13. Užívateľský prieskum Priebeh prieskumu 3. 3. 2011 - 18. 3. 2011 Počet účastníkov 24 Počet získaných hodnotení 263 Priemerný počet hodnotení na jedného užívateľa 11 Priemerný čas strávený jedným užívateľom pri prieskume 59,95 min
  14. 14. Výsledky prieskumu – rýchlosť hodnotenia ● Čas od spustenia prehrávania do času keď užívateľ označí začiatok relevantného úseku ● Užívatelia označia začiatok rýchlejšie keď sa playback point nachádza pred začiatkom relevantného segmentu
  15. 15. Výsledky prieskumu – subjektívne hodnotenie ● Užívatelia označili, ako sú spokojní so simulovaným začiatkom segmentu ● Najspokojnejší sú keď playback point leží blízko pred začiatkom relevantného segmentu, ale funkcia klesá pomalšie keď playback point leží za začiatkom relevantného segmentu
  16. 16. Výsledky prieskumu - závery ● Užívatelia preferujú začiatky vyhľadané pred skutočnými začiatkami tém → penalizačná funkcia je asymetrická ● Ak je vyhľadaný bod vzdialený nanajvýš minútu od začiatku témy, nemá to vplyv na kvalitu vyhľadávania → tieto body by nemali byť penalizované ● Užívatelia sú ochotní hľadať začiatok témy aj v prípadoch, keď je vyhľadaný bod vo väčšej vzdialenosti od začiatku témy → penalizačná funkcia by mala byť širšia
  17. 17. Návrh penalizačnej funkcie Pôvodná penalizačná funkcia Upravená penalizačná funkcia
  18. 18. Korelácia penalizačných funkcií ● Korelácia penalizačných funkcií získaná na dátach reálnych vyhľadávacích systémov (15 systémov)
  19. 19. Záver ● Vyhľadávanie relevantného segmentu v audio- vizuálnych nahrávkach ● Vyhodnotenie vyhľadávania: metrika mGAP ● Chýbajúce empirické výskumy v tejto oblasti ● Vyhodnotenie správania užívateľov vyhľadávacích systémov ● Na kolekcii Malach ● Metrika mGAP koreluje so správaním respondentov, je vyhovujúca ... ale môže byť ďalej vylepšená
  20. 20. Ďakujem za pozornosť

×