Presentatie van Roeland Ordelman tijdens het Cross Media Café 'Video Formats' op dinsdag 2 februari 2016.
Meer informatie? http://www.immovator.nl/agenda/cross-media-cafe-video-formats
14. Multi-modale systemen
Immovator Cross Media Café
The prime minister claimed yesterday that he was not aware ...VERBAL (SPEECH)
VISUAL
AURAL (SOUND)
SPATIALTEMPORAL
17. Van binnen naar buiten linken
Radio Archief Beeldbank Nationaal
Archief
Immovator Cross Media Café
18. Via-Via
(bv. ARTIS – BEELD EN GELUID)
Van buiten naar binnen
Websites/blogs Video ArchiefImmovator Cross Media Café
19. Van buiten naar binnen
News feedsVideo ArchiefImmovator Cross Media Café
20. This work was funded by the Dutch National Research Programme COMMIT/
roelandordelman.nl
videohyperlinking.com
Immovator Cross Media Café
Editor's Notes
Goedemiddag. Ik mag vandaag wat vertellen over een onderwerp waar ik de laatste jaren intensief mee bezig ben vanuit mijn onderzoek bij de Universiteit Twente: video hyperlinking. U weet natuurlijk allemaal wat een hyperlink is. Intuitief heeft u een vermoeden wat er gebeurt als u op de links hierboven klikt. De vraag is of en hoe we dit concept ook kunnen gebruiken voor video.
Iedereen die zich bezig houdt met video kent de sisco cijfers over het grote aandeel van video in internet traffic. Dat er heel veel video data op diverse soorten platforms beschikbaar is iedereen ook wel duidelijk.
Wat we echter vaak zien is dat gebruikers moeite hebben hun weg te vinden in die inmense zee aan video data. Recent onderzoek dat we bij de BBC hebben uitgevoerd liet zien dat gebruikers van state-of-the-art zoeksystemen op basis van spraakherkenning en video analyse eigenlijk niet goed wisten waar ze naar moesten zoeken behalve dingen als de eigen woonplaats, hobbies en bekende personen.
Zoeken is prima maar gebruikers moeten kunnen “exploreren” hoor ik vaak. Maar wat is dat dan precies?
Is dit hoe we exploreren moeten zien? Het aanbevelen van video’s op basis van wat iemand kijkt? Dat kan, maar ik denk dat de manier zoals het hier gebeurd niet de manier is. Wanneer je naar Londen op vakantie gaat wil je niet weten dat er ook leuke dingen te doen zijn in Parijs, Barcelona of New York
Nee dan wil je wellicht meer weten over de onderwerpen die genoemd worden zoals de details van een fish and chips recept naar aanleiding van een item over fish & chips in Londen of wat meer achtergrond bij de geschiedens van het Engelse Parlement of die Rode Telefooncellen in Londen.
Als je allemaal van dit soort connecties kunt leggen tussen video’s met behulp van hyperlinks wordt het ‘visuele web’ mogelijk, een netwerk van aan elkaar gelinkte video segmenten, die exploratief browsen door immense hoeveelheden video mogelijk maakt.
Je kunt dan ook denken aan het automatische genereren van ‘verhalen’ door video fragmenten in een bepaalde volgorde aan te bieden. STORYTELLING.
Wat we hierbij vermoedelijk niet willen zijn links tussen video fragmenten die over ‘hetzelfde’ gaan. Misschien is een koppeling tussen een video over poezen en tijgers nog relevant
Maar als je denkt in termen van exploreren of misschien zelfs storytelling dan is ‘meer van hetzelfde’ niet zo interessant
Een lastig punt in video hyperlinking is de vraag, wat nu precies de elementen in video zijn die moeten bijdragen aan de link. In een documantaire over middeleeuwse kastelen in Engeland is de Rolls-Royce niet relevant. We zeggen dan ‘in de context van de video’ is de RR geen goede ‘anchor’. We noemen deze vorm van hyperlinking ‘authored hyperlinking’. Als deze video still het startpunt is dan verwacht je een link target zoiets als:
Een andere manier om ernaar te kijken is wat we noemen ‘Ad-hoc’ hyperlinking’: alles wat een gebruiker interessant zou kunnen vinden –misschien wel gebaseerd op gegevens over de gebruiker die een systeem heeft– kan een anker zijn om door te linken, naar bijvoorbeeld in dit geval:
De voorbeelden die ik net gaf zijn vooral visueel maar bij video hyperlinking systemen proberen op basis van multi-modale informatie automatisch te achterhalen: (i) wat mogelijk interessante ankers zijn, en (ii) wat relevante link targets zouden kunnen zijn gegeven die ankers. Multi-modale informatie halen die system uit de audio: geluid en spraak (ondertitles of spraakherkenning), en uit de video waarbij zowel het temporele en spatiele aspecten een rol spelen.
Modaliteit is “state that determines the way information is interpreted to convey meaning”
Vorig jaar voor het eerst een grote benchmark evaluatie gedaan met diverse onderzoeksgroepen uit de hele wereld bij TRECVid in de VS. De beste resultaten zitten iets boven de 0,25 wat zoiets betekent als dat gemiddeld 2,5 van de 10 door systemen gesuggereerde link targets ook echt relevant zijn. Dat is nog niet heel goed, maar voor het eerste jaar een goed begin. We zijn erg benieuwd hoe goed de systemen het dit jaar gaan doen.