spraak als metadata spraaktechnologie voor de ontsluiting van audiovisuele content Roeland Ordelman Universiteit Twente Hu...
 
DIGITALISERING (HISTORISCH) MATERIAAL
DAGELIJKSE PROFESSIONELE AANWAS <ul><li>zowel uitgezonden als niet uitgezonden </li></ul>
USER GENERATED CONTENT
gesproken <ul><li>getuigenissen </li></ul><ul><li>interviews </li></ul><ul><li>vergaderingen </li></ul><ul><li>lezingen </...
GEBRUIKERS <ul><li>producers – hergebruik van content (remix, on demand), context linking </li></ul><ul><li>journalisten –...
EEN STUDENT VINDT EEN FRAGMENT UIT EEN COLLEGE DAT DIEPER INGAAT OP EVALUATIE VAN ZOEKTECHNOLOGIE
EEN BASISSCHOOL LEERLING COMMUNICEERT VIA HET ARCHIEF MET EEN OVERLEVENDE OVER HET BOMBARDEMENT OP ROTTERDAM
EEN WETENSCHAPPER CITEERT EEN FRAGMENT UIT EEN INTERVIEW OVER DE FEMINISTISCHE GOLF, EEN COLLEGA KAN DIT EENVOUDIG VERIFIE...
EEN RECENSENT PUT UIT HET RADIO-INTERVIEWARCHIEF VAN EEN OMROEP EN VERWIJST ERNAAR IN DE BESPREKING VAN DE NIEUWE ROMAN VA...
EEN JOURNALIST VERZAMELT ALLE UITSPRAKEN VAN EEN POLITICUS DE AFGELOPEN DRIE JAAR OVER FILEBESTRIJDING
HANDMATIG BESCHRIJVEN? <ul><li>kostbaar & per definitie beperkt </li></ul>
 
materiaal beschrijven <ul><li>handmatig </li></ul><ul><li>hulp van ‘het publiek’ (crowdsourcing) </li></ul><ul><li>beschik...
SLIM GEBRUIK MAKEN VAN BESCHIKBARE DATA <ul><li>Radio Oranje Project </li></ul>
INFORMATIE IN AUDIOSIGNAAL <ul><li>toegankelijk maken van materiaal door exploiteren van </li></ul>
STRUCTUUR <ul><li>om makkelijker door AV te kunnen  browsen  maak gebruik van </li></ul><ul><li>(ook belangrijk voor verde...
gesproken woord
LINK spraakherkenning kranten artikelen
sprekerkarakteristieken <ul><li>man/vrouw </li></ul><ul><li>leeftijd </li></ul><ul><li>spreekstijl  </li></ul><ul><li>soci...
SPRAAK DATA p pak b bak d dak t tak k kap I pit A pat a: naam Z garage S show ... KLANK MODEL eh handmatig annoteren van e...
tekst data TAAL MODEL
TAAL MODEL KLANK MODEL UITSPRAAK WOORDENBOEK
SHOUT <ul><li>Spraak Herkennings Onderzoek Universiteit Twente </li></ul>http://shout-toolkit.sourceforge.net/   <ul><li>o...
hoe goed werkt spraakherkenning? <ul><li>beter passend bij training data geeft betere resultaten (klankmodel/taalmodel) </...
 
performance in relatie tot zoeken <ul><li>rule of thumb: ~ 50% accuracy nodig </li></ul><ul><li>(langere) inhoudswoorden: ...
conclusie <ul><li>zeer grote hoeveelheid rijke content </li></ul><ul><li>handmatig beschrijven kostbaar en beperkt </li></...
demo’s <ul><li>Radio Oranje </li></ul><ul><li>NOS 8 uur journaal in context </li></ul><ul><li>Praten met het verleden:  </...
Upcoming SlideShare
Loading in …5
×

CMC - Ordelman - Universiteit Twente

818 views

Published on

CMC, Frankwatching, Universiteit Twente

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
818
On SlideShare
0
From Embeds
0
Number of Embeds
138
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • :
  • .
  • .
  • CMC - Ordelman - Universiteit Twente

    1. 1. spraak als metadata spraaktechnologie voor de ontsluiting van audiovisuele content Roeland Ordelman Universiteit Twente Human Media Interaction
    2. 3. DIGITALISERING (HISTORISCH) MATERIAAL
    3. 4. DAGELIJKSE PROFESSIONELE AANWAS <ul><li>zowel uitgezonden als niet uitgezonden </li></ul>
    4. 5. USER GENERATED CONTENT
    5. 6. gesproken <ul><li>getuigenissen </li></ul><ul><li>interviews </li></ul><ul><li>vergaderingen </li></ul><ul><li>lezingen </li></ul><ul><li>telefoon gesprekken </li></ul>
    6. 7. GEBRUIKERS <ul><li>producers – hergebruik van content (remix, on demand), context linking </li></ul><ul><li>journalisten – wat zei wie wanneer in welke context </li></ul><ul><li>onderzoekers – history at your fingertips, dwarsverbanden, verificatie </li></ul><ul><li>algemeen publiek – onderwijs, praten met het verleden, content on demand </li></ul>
    7. 8. EEN STUDENT VINDT EEN FRAGMENT UIT EEN COLLEGE DAT DIEPER INGAAT OP EVALUATIE VAN ZOEKTECHNOLOGIE
    8. 9. EEN BASISSCHOOL LEERLING COMMUNICEERT VIA HET ARCHIEF MET EEN OVERLEVENDE OVER HET BOMBARDEMENT OP ROTTERDAM
    9. 10. EEN WETENSCHAPPER CITEERT EEN FRAGMENT UIT EEN INTERVIEW OVER DE FEMINISTISCHE GOLF, EEN COLLEGA KAN DIT EENVOUDIG VERIFIEREN DOOR HET FRAGMENT TERUG TE LUISTEREN
    10. 11. EEN RECENSENT PUT UIT HET RADIO-INTERVIEWARCHIEF VAN EEN OMROEP EN VERWIJST ERNAAR IN DE BESPREKING VAN DE NIEUWE ROMAN VAN LULU WANG
    11. 12. EEN JOURNALIST VERZAMELT ALLE UITSPRAKEN VAN EEN POLITICUS DE AFGELOPEN DRIE JAAR OVER FILEBESTRIJDING
    12. 13. HANDMATIG BESCHRIJVEN? <ul><li>kostbaar & per definitie beperkt </li></ul>
    13. 15. materiaal beschrijven <ul><li>handmatig </li></ul><ul><li>hulp van ‘het publiek’ (crowdsourcing) </li></ul><ul><li>beschikbare tekstuele bronnen </li></ul><ul><ul><li>ondertiteling (888) </li></ul></ul><ul><ul><li>notulen vergadering </li></ul></ul><ul><ul><li>slides, presentatie aantekeningen </li></ul></ul><ul><li>automatische informatie extractie </li></ul><ul><ul><li>visuele kenmerken </li></ul></ul><ul><ul><li>informatie uit audio </li></ul></ul>
    14. 16. SLIM GEBRUIK MAKEN VAN BESCHIKBARE DATA <ul><li>Radio Oranje Project </li></ul>
    15. 17. INFORMATIE IN AUDIOSIGNAAL <ul><li>toegankelijk maken van materiaal door exploiteren van </li></ul>
    16. 18. STRUCTUUR <ul><li>om makkelijker door AV te kunnen browsen maak gebruik van </li></ul><ul><li>(ook belangrijk voor verdere analyse zoals spraakherkenning) </li></ul>spraak/niet-spraak taal sprekerwisselingen studio/live
    17. 19. gesproken woord
    18. 20. LINK spraakherkenning kranten artikelen
    19. 21. sprekerkarakteristieken <ul><li>man/vrouw </li></ul><ul><li>leeftijd </li></ul><ul><li>spreekstijl </li></ul><ul><li>sociolect </li></ul><ul><li>identiteit </li></ul><ul><li>emotie </li></ul>
    20. 22. SPRAAK DATA p pak b bak d dak t tak k kap I pit A pat a: naam Z garage S show ... KLANK MODEL eh handmatig annoteren van eh spraak is nodig voor
    21. 23. tekst data TAAL MODEL
    22. 24. TAAL MODEL KLANK MODEL UITSPRAAK WOORDENBOEK
    23. 25. SHOUT <ul><li>Spraak Herkennings Onderzoek Universiteit Twente </li></ul>http://shout-toolkit.sourceforge.net/ <ul><li>open-source toolkit </li></ul><ul><ul><li>spraak/niet spraak detectie </li></ul></ul><ul><ul><li>sprekersegmentatie </li></ul></ul><ul><ul><li>spraakherkenning </li></ul></ul><ul><ul><li>trainingsoftware </li></ul></ul><ul><li>low-cost server erfgoedsector in ontwikkeling in kader CATCH project </li></ul><ul><li>toepassing op maat (spraakherkenning met search) ism UT spin-off X-MI </li></ul>
    24. 26. hoe goed werkt spraakherkenning? <ul><li>beter passend bij training data geeft betere resultaten (klankmodel/taalmodel) </li></ul><ul><ul><li>geen informatie vooraf: surprise data </li></ul></ul><ul><ul><li>(un/semi)supervised adaptatie </li></ul></ul><ul><li>afhankelijkheden: </li></ul><ul><ul><li>audio kwaliteit (prof/non-prof, historisch) </li></ul></ul><ul><ul><li>spraak (voorgelezen, spontaan, emotioneel, dialect, overlappend) </li></ul></ul><ul><ul><li>achtergrond </li></ul></ul>
    25. 28. performance in relatie tot zoeken <ul><li>rule of thumb: ~ 50% accuracy nodig </li></ul><ul><li>(langere) inhoudswoorden: worden typisch gebruikt bij het zoeken </li></ul><ul><li>(meestal kortere) functiewoorden: moeilijk voor spraakherkenning </li></ul><ul><li>leren van collectiespecifieke inhoudswoorden! (jargon, namen) </li></ul>
    26. 29. conclusie <ul><li>zeer grote hoeveelheid rijke content </li></ul><ul><li>handmatig beschrijven kostbaar en beperkt </li></ul><ul><li>verbeteren toegankelijkheid AV content door gebruik nieuwe technologie </li></ul><ul><li>audio signaal bevat waardevolle informatie </li></ul><ul><li>spraakherkenning heeft zich bewezen als nuttige tool </li></ul>
    27. 30. demo’s <ul><li>Radio Oranje </li></ul><ul><li>NOS 8 uur journaal in context </li></ul><ul><li>Praten met het verleden: </li></ul><ul><ul><li>interviews met overlevenden kamp Buchenwald </li></ul></ul><ul><ul><li>interviews met ooggetuigen bombardement Rotterdam </li></ul></ul>

    ×