TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

•

0 likes•750 views

MediaEval2012

This document summarizes two projects presented by Delft University of Technology at the TUD MediaEval 2012 Tagging Task. The first project used one-vs-all classifiers and feature fusion to perform multi-modality video categorization. The second project compared different models for predicting tags based on automatic speech recognition output, including support vector machines, dynamic Bayesian networks, and conditional random fields. The dynamic Bayesian network model achieved the best performance overall.

Outline

•  TUD-MM: Multi-modality video categorization with one-
vs-all classifiers
•  Peng Xu, Yangyang Shi, Martha A. Larson

•  MediaEval 2012 Tagging Task: Prediction based on One Best
List and Confusion Networks
•  Yangyang Shi, Martha A. Larson, Catholijn M. Jonker

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
2

TUD-MM:Multi-modality video
categorization with one-vs-all
classifiers
Peng Xu, Yangyang Shi, Martha A. Larson
05-10-2012

Delft
University of
Technology

Challenge the future

Introduction
•  Features from different modalities
•  Visual feature
•  Visual Words based representation & Global video representation

•  Text features
•  ASR, Metadata

•  Term-frequency, LDA

•  Classification and Fusion
•  One-vs-all linear SVMs
•  Reciprocal Rank Fusion
•  Post-processing procedure to assign one category label for each video

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
4

Visual representations
•  Visual words based video representation
•  SIFT features are extracted from each key-frame
•  Visual vocabulary is build by hierarchical k-means clustering
•  The normalized term-frequency of the entire video

•  Global video representation
•  Edit features
•  Content features

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
5

Classification and Fusion

•  One-vs-all linear SVM
•  C is determined by the 5-folder cross-validation

•  Reciprocal Rank Fusion (RRF)*

•  K=60 is to balance the importance of the lower ranked items
•  The weights w(r) are determined by the cross-validation errors
from each modalities

•  Post-processing procedure
* G. V. Cormack, C. L. A. Clarke, and S. Buettcher. Reciprocal rank fusion outperforms
Condorcet and individual rank learning methods. SIGIR '09, pages 758-759..
• 

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
6

Result analysis
•  MAP of different runs

Run_1 Run_2 Run_3 Run_4 Run_5 *Run_6 *Run_7

MAP 0.0061 0.3127 0.2279 0.3675 0.2157 0.0577 0.0047

•  Run_1 to Run_5 are official runs
•  Run_6 is the visual-only run without post-processing
•  Run_7 is the visual-only run with global feature

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
7

Performance of visual features

Random basline VW Global
0,025

0,02

0,015

0,01

0,005

0

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
8

MediaEval 2012 Tagging Task:
Prediction based on One Best List and
Confusion Networks
Yangyang Shi, Martha A. Larson, Catholijn M. Jonker
05-10-2012

Delft
University of
Technology

Challenge the future

Models for One-best list and
Confusion Networks

Dynamic
Bayesian
Networks
Support Conditional
vector random
machine fields

ASR

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
10

One-best List SVM

Linear
Cut-off 3 kernel multi-
TF-IDF
vocabulary class SVM
(c=0.5)

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
11

One-best List DBN
E1 E2 E3

T1 T2 T3

W1 W2 W3

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
12

One-best List DBN

• 

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
13

Results on Only ASR Run
Models MAP
Run2-one-best SVM 0.23
Run2-one-best DBN 0.25
Run2-one-best CRF 0.10
Run2-CN-CRF 0.09

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
14

Average Precision on Each Genre
0,8
0,7
0,6
0,5
0,4
DBN
0,3
0,2 SVM
0,1
0

TUD MediaEval 2012 Tagging Task
Visual similarity measures for semantic video retrieval
15

Discussion and Future work
•  Discussion
•  Visual only methods can be improved in several ways
•  Features selection or dimensional reduction methods can be applied.
•  Genre-level video representation

•  CRF failure
•  A document is treated as a item rather than one word.
•  Feature size is too big to converge.

• DBN outperforms SVM: The sequence order information probably helps
prediction

•  Potentials
•  Generate clear and useful labels
Visual similarity measures MediaEval 2012 Tagging Task
Video Search Reranking for Genre retrieval
TUD for semantic video Tagging
16

Thank you!

Visual similarity measures for semantic Genre retrieval
Video Search Reranking for video Tagging
17

eArtius has developed a multi-objectve optimization technology which is not sensitive to the model dimension because it performs optimization in a sub-space of the design space related to the most significant design variables. All non-significant design variables are dynamically recognized in runtime, and simply ignored.Thus, eArtius algorithms are equally efficient for low-dimensional and high-dimensional tasks.

3D User Experience3Dominick Maino

+15 team v3drewz lin

OSGi Applications Clustering using Distributed Shared MemoryAnthony Gelibert

Innovation voucher overview

Jim Crocco

HddkdsKrishan Jagtiani

Jagannath Basu July 2016Jagannath Basu

Project by Koushikmrkoushikmondal

GTTS System for the Spoken Web Search Task at MediaEval 2012MediaEval2012

The TUM Cumulative DTW Approach for the Mediaeval 2012 Spoken Web Search TaskMediaEval2012

The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Tr...MediaEval2012

Como hacer una pagina web en wix sharonSharon Jimenez

Brave New Task: User Account MatchingMediaEval2012

14 10 21_презентация стуStanislav Litvinenko

The L2F Spoken Web Search system for Mediaeval 2012MediaEval2012

What's hot

Introduction to OSLC and Linked Data

openservices

Bitstream and hybrid-based video quality assessment for IPTV monitoringFörderverein Technische Fakultät

GY-HM750EAVNed

Introduction to OSLC

openservices

D25014017

IJERA Editor

Introducing LCS to Digital Design Verification

Daniele Loiacono

Lifecycle

Petros Maragkoudakis

eArtius HMGE Algorithm Applied to Optimization Tasks with 10,000 Design Varia...

eArtius, Inc.

3D User Experience3Dominick Maino

+15 team v3drewz lin

OSGi Applications Clustering using Distributed Shared MemoryAnthony Gelibert

Innovation voucher overview

Jim Crocco

HddkdsKrishan Jagtiani

Jagannath Basu July 2016Jagannath Basu

Project by Koushikmrkoushikmondal

What's hot (15)

Introduction to OSLC and Linked Data

Bitstream and hybrid-based video quality assessment for IPTV monitoring

GY-HM750E

Introduction to OSLC

D25014017

Introducing LCS to Digital Design Verification

Lifecycle

eArtius HMGE Algorithm Applied to Optimization Tasks with 10,000 Design Varia...

3D User Experience3

+15 team v3

OSGi Applications Clustering using Distributed Shared Memory

Innovation voucher overview

Hddkds

Jagannath Basu July 2016

Project by Koushik

Viewers also liked

GTTS System for the Spoken Web Search Task at MediaEval 2012MediaEval2012

The TUM Cumulative DTW Approach for the Mediaeval 2012 Spoken Web Search TaskMediaEval2012

The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Tr...MediaEval2012

Como hacer una pagina web en wix sharonSharon Jimenez

Brave New Task: User Account MatchingMediaEval2012

14 10 21_презентация стуStanislav Litvinenko

The L2F Spoken Web Search system for Mediaeval 2012MediaEval2012

KIT at MediaEval 2012 – Content–based Genre Classification with Visual CuesMediaEval2012

Intro totransportphenomenanewilovepurin

How Spatial Segmentation improves the Multimodal Geo-TaggingMediaEval2012

Activities for journalistic skillsJNavarro0321

MediaEval 2012 Visual Privacy Task: Applying Transform-domain Scrambling to A...MediaEval2012

TUB @ MediaEval 2012 Tagging Task: Feature Selection Methods for Bag-of-(visu...MediaEval2012

ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywo...MediaEval2012

Ghent and Cardiff University at the 2012 Placing TaskMediaEval2012

2010 Marketing Plan

JPemberton15

TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVMMediaEval2012

6dicas– veda 4

souzadea1

Papiloma humano

alexitolindoo

Designinteração– veda 3

souzadea1

Viewers also liked (20)

GTTS System for the Spoken Web Search Task at MediaEval 2012

The TUM Cumulative DTW Approach for the Mediaeval 2012 Spoken Web Search Task

The Shanghai-Hongkong Team at MediaEval2012: Violent Scene Detection Using Tr...

Como hacer una pagina web en wix sharon

Brave New Task: User Account Matching

14 10 21_презентация сту

The L2F Spoken Web Search system for Mediaeval 2012

KIT at MediaEval 2012 – Content–based Genre Classification with Visual Cues

Intro totransportphenomenanew

How Spatial Segmentation improves the Multimodal Geo-Tagging

Activities for journalistic skills

MediaEval 2012 Visual Privacy Task: Applying Transform-domain Scrambling to A...

TUB @ MediaEval 2012 Tagging Task: Feature Selection Methods for Bag-of-(visu...

ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywo...

Ghent and Cardiff University at the 2012 Placing Task

2010 Marketing Plan

TUKE MediaEval 2012: Spoken Web Search using DTW and Unsupervised SVM

6dicas– veda 4

Papiloma humano

Designinteração– veda 3

Similar to TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

最终版Top100summit 耿晓倩-automation test framework continue improvementdrewz lin

Towards Using Semantic Features for Near-Duplicate Video Detection

Wesley De Neve

ICSM12.pptPtidej Team

Icsm12.ppt

Yann-Gaël Guéhéneuc

Workshop APM in a Cloud & Virtualized environment

PerformanceVision (previously SecurActive)

Top100summit christinaChristina Geng

A Multimodal Approach for Video Geocoding MediaEval2012

Developing and-benchmarking-native-linux-applications-on-androidElvis Jon Freddy Sitinjak

Bdd for legacy system

Spin Lai

Debugging TV Frame 0x10

Dmitry Vostokov

Евгений Варфоломеев "Hibernate vs my batis vs jdbc: is there a silver bullet?"Anna Shymchenko

Unit03: Process and Business ModelsDSBW 2011/2002 - Carles Farré - Barcelona Tech

CCDE Experience

Himawan Nugroho

Estimating packaged software - Eric van der Vliet - NESMA najaarsbijeenkomst ...Nesma

MediaEval 2017 - Satellite Task: Visual and textual analysis of social media ...

multimediaeval

Presenter: Konstantinos Avgerinakis, Centre for Research & Technology Hellas - Information Technologies Institute, Greece Paper: http://ceur-ws.org/Vol-1984/Mediaeval_2017_paper_31.pdf Video: https://youtu.be/IRUxoWsCP2c Authors: Konstantinos Avgerinakis, Anastasia Moumtzidou, Stelios Andreadis, Emmanouil Michail, Ilias Gialampoukidis, Stefanos Vrochidis, Ioannis Kompatsiaris Abstract: This paper presents the algorithms that CERTH team deployed in order to tackle disaster recognition tasks and more specifically Disaster Image Retrieval from Social Media (DIRSM) and Flood-Detection in Satellite images (FDSI). Visual and textual analysis, as well as late fusion of their similarity scores, were deployed in social media images, while color analysis in the RGB and near-infrared channel of satellite images was performed in order to discriminate flooded from non-flooded images. Deep Convolutional Neural Network (DCNN), DBpedia Spotlight and combMAX was implemented to tackle DIRSM, while Mahalanobis Distance-based classification and morphological post-processing were applied to deal with FDSI.

Automated BI Modernizations

dlautzenheiser

RTF - Prasad bhattRoopa Nadkarni

A study of the characteristics of Behaviour Driven Development

Carlos Solís

Do Workflow-Based Systems Satisfy the Demands of the Agile Enterprise of the ...

Ilia Bider

Presentation at ACM 2012 workshop http://acm2012.blogs.dsv.su.se attached to BPM 2012 conference in Tallinn http://bpm2012.ut.ee/ Abstract.Workflow-based systems dominate the theory and practice of Business Process Management (BPM) leaving little space to other directions, including Adaptive Case Management. While there are reasons for such dominance in today's enterprise environment, it is time the BPM community studied this dominance in the light of the requirements of the enterprises of the future. This paper analyzes whether workflow-based systems will be able to satisfy business needs in the future based on the assumption that the essential property of the enterprise of the future is agility. The paper identifies properties that a business process should possess in order to be suitable for employing a workflow-based system to support it. Then, it analyzes whether these properties are compatible with the needs of the enterprise of the future and shows why workflow-based systems may become obsolete in the future.

Novidades natural e adabas

Software AG

Similar to TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks (20)

最终版Top100summit 耿晓倩-automation test framework continue improvement

Towards Using Semantic Features for Near-Duplicate Video Detection

ICSM12.ppt

Icsm12.ppt

Workshop APM in a Cloud & Virtualized environment

Top100summit christina

A Multimodal Approach for Video Geocoding

Developing and-benchmarking-native-linux-applications-on-android

Bdd for legacy system

Debugging TV Frame 0x10

Евгений Варфоломеев "Hibernate vs my batis vs jdbc: is there a silver bullet?"

Unit03: Process and Business Models

CCDE Experience

Estimating packaged software - Eric van der Vliet - NESMA najaarsbijeenkomst ...

MediaEval 2017 - Satellite Task: Visual and textual analysis of social media ...

Automated BI Modernizations

RTF - Prasad bhatt

A study of the characteristics of Behaviour Driven Development

Do Workflow-Based Systems Satisfy the Demands of the Agile Enterprise of the ...

Novidades natural e adabas

More from MediaEval2012

MediaEval 2012 OpeningMediaEval2012

ClosingMediaEval2012

Brave New Task: Musiclef Multimodal Music TaggingMediaEval2012

Search and Hyperlinking Task at MediaEval 2012MediaEval2012

CUNI at MediaEval 2012: Search and Hyperlinking TaskMediaEval2012

DCU Search Runs at MediaEval 2012: Search and Hyperlinking TaskMediaEval2012

Ghent University-IBBT at MediaEval 2012 Search and Hyperlinking: Semantic Sim...MediaEval2012

The CLEF Initiative From 2010 to 2012 and OnwardsMediaEval2012

Overview of MediaEval 2012 Visual Privacy TaskMediaEval2012

MediaEval 2012 Visual Privacy Task: Privacy and Intelligibility through Pixel...MediaEval2012

Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature...MediaEval2012

mevd2012 esra_MediaEval2012

Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene...MediaEval2012

The MediaEval 2012 Affect Task: Violent Scenes DetectioMediaEval2012

NII, Japan at MediaEval 2012 Violent Scenes Detection Affect TaskMediaEval2012

LIG at MediaEval 2012 affect task: use of a generic methodMediaEval2012

Violence Detection in Video by Large Scale Multi-Scale Local Binary Pattern D...MediaEval2012

UNICAMP-UFMG at MediaEval 2012: Genre Tagging TaskMediaEval2012

ARF @ MediaEval 2012: Multimodal Video ClassificationMediaEval2012

Overview of the MediaEval 2012 Tagging TaskMediaEval2012

More from MediaEval2012 (20)

MediaEval 2012 Opening

Closing

Brave New Task: Musiclef Multimodal Music Tagging

Search and Hyperlinking Task at MediaEval 2012

CUNI at MediaEval 2012: Search and Hyperlinking Task

DCU Search Runs at MediaEval 2012: Search and Hyperlinking Task

Ghent University-IBBT at MediaEval 2012 Search and Hyperlinking: Semantic Sim...

The CLEF Initiative From 2010 to 2012 and Onwards

Overview of MediaEval 2012 Visual Privacy Task

MediaEval 2012 Visual Privacy Task: Privacy and Intelligibility through Pixel...

Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature...

mevd2012 esra_

Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene...

The MediaEval 2012 Affect Task: Violent Scenes Detectio

NII, Japan at MediaEval 2012 Violent Scenes Detection Affect Task

LIG at MediaEval 2012 affect task: use of a generic method

Violence Detection in Video by Large Scale Multi-Scale Local Binary Pattern D...

UNICAMP-UFMG at MediaEval 2012: Genre Tagging Task

ARF @ MediaEval 2012: Multimodal Video Classification

Overview of the MediaEval 2012 Tagging Task

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

1. TUD MediaEval 2012 Tagging Task Reporter: Martha A. Larson Multimedia Information Retrieval Lab Delft University of Technology 05-10-2012 Delft University of Technology Challenge the future

2. Outline •  TUD-MM: Multi-modality video categorization with one- vs-all classifiers •  Peng Xu, Yangyang Shi, Martha A. Larson •  MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks •  Yangyang Shi, Martha A. Larson, Catholijn M. Jonker TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 2

3. TUD-MM:Multi-modality video categorization with one-vs-all classifiers Peng Xu, Yangyang Shi, Martha A. Larson 05-10-2012 Delft University of Technology Challenge the future

4. Introduction •  Features from different modalities •  Visual feature •  Visual Words based representation & Global video representation •  Text features •  ASR, Metadata •  Term-frequency, LDA •  Classification and Fusion •  One-vs-all linear SVMs •  Reciprocal Rank Fusion •  Post-processing procedure to assign one category label for each video TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 4

5. Visual representations •  Visual words based video representation •  SIFT features are extracted from each key-frame •  Visual vocabulary is build by hierarchical k-means clustering •  The normalized term-frequency of the entire video •  Global video representation •  Edit features •  Content features TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 5

6. Classification and Fusion •  One-vs-all linear SVM •  C is determined by the 5-folder cross-validation •  Reciprocal Rank Fusion (RRF)* •  K=60 is to balance the importance of the lower ranked items •  The weights w(r) are determined by the cross-validation errors from each modalities •  Post-processing procedure * G. V. Cormack, C. L. A. Clarke, and S. Buettcher. Reciprocal rank fusion outperforms Condorcet and individual rank learning methods. SIGIR '09, pages 758-759.. •  TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 6

7. Result analysis •  MAP of different runs Run_1 Run_2 Run_3 Run_4 Run_5 *Run_6 *Run_7 MAP 0.0061 0.3127 0.2279 0.3675 0.2157 0.0577 0.0047 •  Run_1 to Run_5 are official runs •  Run_6 is the visual-only run without post-processing •  Run_7 is the visual-only run with global feature TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 7

8. Performance of visual features Random basline VW Global 0,025 0,02 0,015 0,01 0,005 0 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 8

9. MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks Yangyang Shi, Martha A. Larson, Catholijn M. Jonker 05-10-2012 Delft University of Technology Challenge the future

10. Models for One-best list and Confusion Networks Dynamic Bayesian Networks Support Conditional vector random machine fields ASR TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 10

11. One-best List SVM Linear Cut-off 3 kernel multi- TF-IDF vocabulary class SVM (c=0.5) TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 11

12. One-best List DBN E1 E2 E3 T1 T2 T3 W1 W2 W3 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 12

13. One-best List DBN •  TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 13

14. Results on Only ASR Run Models MAP Run2-one-best SVM 0.23 Run2-one-best DBN 0.25 Run2-one-best CRF 0.10 Run2-CN-CRF 0.09 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 14

15. Average Precision on Each Genre 0,8 0,7 0,6 0,5 0,4 DBN 0,3 0,2 SVM 0,1 0 TUD MediaEval 2012 Tagging Task Visual similarity measures for semantic video retrieval 15

16. Discussion and Future work •  Discussion •  Visual only methods can be improved in several ways •  Features selection or dimensional reduction methods can be applied. •  Genre-level video representation •  CRF failure •  A document is treated as a item rather than one word. •  Feature size is too big to converge. • DBN outperforms SVM: The sequence order information probably helps prediction •  Potentials •  Generate clear and useful labels Visual similarity measures MediaEval 2012 Tagging Task Video Search Reranking for Genre retrieval TUD for semantic video Tagging 16

17. Thank you! Visual similarity measures for semantic Genre retrieval Video Search Reranking for video Tagging 17

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Viewers also liked

Viewers also liked (20)

Similar to TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks

Similar to TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks (20)

More from MediaEval2012

More from MediaEval2012 (20)

TUD at MediaEval 2012 genre tagging task: Multi-modality video categorization with one-vs-all classifiers & MediaEval 2012 Tagging Task: Prediction based on One Best List and Confusion Networks