SlideShare a Scribd company logo
1 of 55
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
TEHNICI INTELIGENTE PENTRU 
ANALIZA ȘI CLASIFICAREA DUPĂ 
CONȚINUT A COLECȚIILOR DE BAZE 
DE DATE MULTIMEDIA 
Doctorand: ing. Ionuț MIRONICĂ 
Conducător de doctorat: prof. dr. ing. Radu DOGARU 
LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației, 
Universitatea Politehnica București 
Romania 
Universitatea Politehnica 
Bucureşti 
Stagiu 6 luni „University 
of Trento”, Italia
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
2
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
3
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
4
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Informație vizuală 
- culoare 
- textură 
- forme 
- trăsături 
Informație de 
mișcare 
Informație audio 
- muzică 
- vorbire 
- sunete 
Informație textuală 
5 
Scopul tezei de doctorat 
Date multimedia 
[www.youtube.com]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
6 
Cuprins 
• Prezentare concepte 
• Trăsături propuse pentru descrierea documentelor video 
• reprezentarea „Fisher kernel” 
• Metode de Relevance Feedback propuse 
• Trecerea în revistă a principalelor contribuții originale 
• Concluzii și perspective de dezvoltare
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
7 
I. Prezentare concepte 
(On-line) 
Calcul 
Descriptori 
Comparaţie 
Rezultate 
Relevance feedback 
Baza de date 
multimedia 
(Off-line) 
Calcul 
Descriptori 
Interogare 
Descriptori 
multimedia 
(vectori cu 
componente) 
Antrenare/ 
clasificare 
Căutare similaritate 
Căutare concepte 
Căutare în conținut
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
8 
I. Prezentare concepte 
• “Semantic gap” (paradigma semantică) - diferenţa dintre 
informaţia computaţională extrasă din documentul multimedia 
şi interpretarea semantică a acestuia.
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Capitolul II 
Trăsături pentru descrierea 
documentelor video
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Detecție de puncte de interes Creare dicționar Generare 
histograme 
Antrenare 
clasificator 
[Czurka et al., ECCV 2004] 
10 
II. Trăsături pentru descrierea video 
Modelul „Bag of Words” („State-of-the-Art”)
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Modelul „Bag of Words” 
• conține apartenența fiecărui punct 
de interes către un element al unui 
dicționar (histogramă de cuvinte) 
Rezultat: D = [0;0;0;1]; 
Dimensiune: K (numărul de cuvinte din 
dicționar) 
[Czurka et al., ECCV 2004] 
11
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Dezavantaje model „Bag of Words” 
• nu există nici o metodă riguroasă de reprezentare a 
distribuției spațiale dintre anumite perechi de cuvinte. 
• există multe cuvinte care nu sunt relevante 
• procesul de cuantizare a cuvintelor generează zgomot de 
cuantizare. 
• costul computațional crește foarte mult odată cu 
dimensiunea vocabularului de cuvinte. 
12
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
13 
II. Trăsături pentru descrierea video 
Teoria reprezentării „Fisher kernel” 
- conceptul a fost introdus de [Jaakkola et al.,: Exploiting generative models in 
discriminative classifiers. NIPS’99] pentru detecția de proteine. 
- introdus în Computer Vision de [Perronnin et al.,: "Fisher kernels on visual 
vocabularies for image categorization." CVPR’07] pentru clasificarea de imagini. 
- combină beneficiile algoritmilor generativi cu cei discriminativi. 
- reprezintă un semnal ca și gradientul funcției de densitate de probabilitate care 
este învățată ca un model generativ al unui semnal. 
(1) 
(2)
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Reprezentarea „Fisher kernel” 
• Calculează probabilitățile de 
apartenență la un cuvânt din 
dicționar 
Rezultat: D = [0.3;0.1;0.1;0.5]; 
- calculează gradientul mediei și 
a varianței probabilităților de 
apartenență la un cuvânt din dicționar. 
Dimensiune: 2*D*K 
2 – medie + varianță 
K – numărul de cuvinte din dicționar 
D – lungimea trăsăturii 
14
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
15 
II. Trăsături pentru descrierea video 
Contribuții 
(1) am introdus reprezentarea Fisher pentru modelarea variației de timp în cadrul 
documentelor video 
(2) am demonstrat că modelul propus are un caracter general în funcție de problema 
selectată: de la recunoaștere de gen, la recunoaștere de secvențe sportive și acțiuni 
cotidiene. 
(3) am arătat generalitatea metodei în funcție de trăsăturile alese: de la descriptori 
vizuali, la descriptori de mișcare și trăsături audio 
(4) cu metoda propusă am obținut rezultate similare sau mai bune decât cele 
propuse în literatură, deși am utilizat un set de trăsături mai ușor de calculat. 
[Mironică et al., Multimedia’13 ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
16 
Calcul a vectorilor 
Fisher 
Pas de antrenare 
și clasificare 
Reducere dimensiune 
descriptori 
Extragere dicționar 
Secțiune generativă 
Secțiune 
discriminativă 
II. Trăsături pentru descrierea video 
Arhitectura reprezentării „Fisher kernel” 
[Mironică et al., ICMR’13 ACM] 
X = {x1 ... xm} 
Extragere trăsături
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., Multimedia’13 ACM] 
17 
II. Trăsături pentru descrierea video 
Agregarea cadrelor cu reprezentarea „Fisher kernel” 
Cadrele similare vor 
face parte din aceeași 
componentă, modelând 
variațiile subtile de 
timp. 
Reprezentare „Fisher kernel” 
[Mironică et al., ICMR’13 ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Reprezentare „Fisher kernel” [Mironică et al., Multimedia’13 ACM] 
18 
II. Trăsături pentru descrierea video 
Agregarea cadrelor cu reprezentarea „Fisher kernel” 
Cadrele nesimilare vor 
face parte din 
componente separate, 
prevenind amestecarea 
conceptelor nesimilare. 
[Mironică et al., ICMR’13 ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
19 
II. Trăsături pentru descrierea video 
Scor 1 
(normalizat) 
Scor 2 
(normalizat) 
Scor n 
(normalizat) 
Normalizarea scorurilor 
de încredere 
Vector Fisher 1 
VVeeccttoorr FFiisshheerr 22 
VVeeccttoorr FFiisshheerr nn 
Generare vectori 
Fisher 
clasificator 
1 
clasificator 
2 
clasificator 
n 
Clasificare 
DDeecciizziiee 
Scor de încredere 
global 
Obținerea unui scor de încredere 
global 
Fuziunea trăsăturilor – „Late Fusion” 
[Mironică et al., CBMI 2013, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
20 
II. Trăsături pentru descrierea video 
Detecția genului documentelor video 
[http://www.multimediaeval.org/mediaeval2012] 
• Programe de televiziune 
– știri, sport, documentare, talk show, … 
• Filme 
– drame, comedii, thriller, … 
• Înregistrări 
– conferințe, video teleconferințe, ... 
• Altele 
– camere de supraveghere, înregistrări personale, …
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
21 
II. Trăsături pentru descrierea video 
Baza de date „MediaEval 2012”, Tagging Task 
• 14.838 episoade ~ aproximativ 3.260 ore de conținut video 
o 5.288 documente pentru antrenare 
o 9.550 documente pentru testare 
• conține documente video semi-profesionale de pe internet grupate în 
26 de genuri: artă, autovehicule, afaceri, jurnalism, comedie, 
documentare, educațional, bucătărie 
[http://www.multimediaeval.org/mediaeval2012]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
22 
II. Trăsături pentru descrierea video 
Histograme de gradienți orientați (HoG) 
•Împarte imaginea în 3x3 regiuni și pentru 
fiecare zonă calculează o histogramă 
de orientări de pixeli 
[Ludwig et al, CITS 2009] 
Trăsături vizuale 
Histograma de culoare „Color naming” 
•Proiectează culorile în 11 culori universale: 
negru, albastru, maro, gri, verde, portocaliu, 
roz, purpuriu, roșu, alb și galben 
[Weijer et al, IEEE TIP’ 2009]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
• Zero-Crossing Rate, 
• Spectral centroid, flux, rolloff și 
kurtosis 
[Mathieu et al., Yaafe toolbox, ISMIR’10, IEEE] 
23 
Trăsături audio 
• Linear Predictive Coefficients, 
• Line Spectral Pairs, 
• Mel-Frequency Cepstral Coefficients, 
+ toate împărțite la varianța globală a 
trăsăturii 
Trăsături audio bazate pe blocuri audio 
f1 ff … n 2 
time 
+ var{f2} var{fn} 
Parametrii extrași: 
[Mironică et al., CBMI 2013, IEEE/ACM] 
[Mironică et al., ICMR 2013, ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Comparație rezultate cu MediaEval 2012 Genre Retrieval 
Tip trăsătură Metodă raportată la 
MediaEval 2012 
MAP metodă 
raportată 
MediaEval 2012 
MAP 
metodă 
propusă 
Audio Descriptori pe bază de 
blocuri audio & SVM Liniar 
0,192 0,475 
Vizual descriptori vizuali 
(Color,Texture, rgbSIFT) 
0,350 0,460 
Audio & Vizual - - 0,550 
Text Bag of Words - Metadata & 
Text ASR 
0,522 - 
Audio & Vizual 
& Text 
- - 0,66 
24 
Indicator performantă: MAP (valoare maximă = 1) 
[Mironică et al., Multimedia’13 ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
III. Trăsături pentru descrierea video 
Recunoașterea de acțiuni sportive 
25 
Baza Sport UCF 50 
•6500 documente video preluate de pe Youtube împărțite în 50 de acțiuni: 
•baseball, aruncări, biliard, înot, ridicare de greutăți, scufundări, bătut la tobă, scrima, 
golf, cântat la chitară, sărituri cu prăjina,curse de cai, aruncarea suliței, sărituri în 
lungime, caiac, exerciții de încălzire, cal cu mânere, tracțiuni, box, urcări pe pereți 
artificiali, urcare pe frânghie, canotaj, salsa, skate boarding, sky etc 
[Reddy et al., MVAP, 2012]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Recunoașterea de acțiuni sportive – Trăsături utilizate 
26 
Trăsături vizuale 
•Histograme de gradienţi orientaţi 
(HOG - 2x2, 3x3, 4x4) 
•Histograme „Color Naming” 
(2x2, 3x3, 4x4) 
Trăsături de mișcare 
•Histograme de flux optic (HOF) 
(2x2, 3x3, 4x4) 
Piramide Spațiale [Lazebnik et al., CVPR, 2006] 
Fuziune cu „Late Fusion” 
[Mironică et al., Multimedia’13 ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Recunoașterea de acțiuni sportive – Comparație „State-of-the-Art” 
Metodă Acuratețe 
Reddy et al. MVAP 2012 76,9% 
Metoda propusă 74,7% 
Solmaz et al. MVAP 2012 73,7% 
Everts et al. CVPR 2012 72,9% 
Kliper-Gross et al. ECCV 2012 72,6% 
GIST3D - Solmaz et al. MVAP 2012 65,3% 
[Mironică et al., Multimedia’13 ACM] 
27
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Recunoașterea de acțiuni cotidiene 
28 
Baza de date „University of Rochester Activities of Daily Living Dataset” 
Răspuns la telefon 
Tocat de banane 
Formare de numere 
la telefon 
A bea apă 
Utilizare furculiță 
A mânca biscuiți 
Desfacere banane 
Citire agendă telefonică 
A mânca banane 
Scris pe tablă 
[www.cs.rochester.edu/rmessing/uradl]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Recunoașterea de acțiuni cotidiene – metoda propusă 
[Ramanan, et. al. CVPR 2007] 
[Rostamzadeh, Zen, Mironică, Uijlings, Sebe, ICIAP 2013, IEEE] 
29
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
II. Trăsături pentru descrierea video 
Recunoașterea de acțiuni cotidiene – comparație „State-of-the-Art” 
Metodă Acuratețe 
Metodă propusă 97,3% 
Wang et al. CVPR 2012 96,0% 
Lin et al. ICCV 2011 95,0% 
Messing et al. ICCV 2009 89,0% 
[Mironică et al., Multimedia’13 ACM] 
30
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Capitolul III 
Algoritmi de „Relevance 
Feedback” 
31
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
32 
Se utilizează exemplele pozitive şi negative preluate de la 
utilizator pentru a îmbunătăţi performanţa sistemului. 
Feedback 
Utilizator 
Afişare 
Estimare a noilor 
documente 
Afişare 
Feedback 
Utilizator 
III. Relevance Feedback 
Arhitectura algoritmilor de Relevance Feedback
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
III. Relevance Feedback 
• viteza de procesare (sisteme în timp real) 
33 
Provocările algoritmilor de Relevance Feedback 
• numărul de documente pe care se oferă feedback este 
mult mai redus decât spațiul descriptorilor 
• dezechilibru în modul de a acorda feedback între 
utilizatori diferiți 
• dezechilibru între numărul de documente relevante și 
nerelevante
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
34 
III. Relevance Feedback 
Algoritmi clasici de „Relevance feedback” 
Căutare inițială 
Feedback utilizator 
Antrenare 
[Tao et al., PAMI’07, IEEE Trans.] 
Document de interogare 
Documente relevante 
Documente nerelevante 
Documente fără feedback
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
35 
III. Relevance Feedback 
„Relevance feedback” cu clusterizare ierarhică 
Calculează gradul de similaritate intre 
oricare două combinații de documente 
Crează un cluster cu cele mai 
similare 2 grupuri de documente 
Calculează gradul de similaritate între 
clusterul creat și restul clusterelor 
Condiție 
de 
încheiere 
Clasificare documente 
din baza de date utilizând 
dendograma antrenată 
Stop 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
36 
Interogare 
Inițială 
III. Relevance Feedback 
„Relevance feedback” cu clusterizare ierarhică 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
37 
III. Relevance Feedback 
„Relevance feedback” cu clusterizare ierarhică 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
38 
III. Relevance Feedback 
„Relevance feedback” cu clusterizare ierarhică 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
39 
III. Relevance Feedback 
Condiție de încheiere 
Varianta 1: Numărul fix de clustere 
Varianta 2: Număr adaptiv de clustere – criteriul arcului 
Număr de centroizi 
Procentul de varianță 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
40 
III. Relevance Feedback 
Calculul similarității dintre clusteri 
Distanța dintre centroizi 
+ 
+ 
C1 
Centroid 
C2 
Centroid 
Distanța Minimă 
+ 
+ 
C1 
C2 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
[Mironică et al., ISSCS’11, IEEE] 
41 
Distanța Medie 
C1 
C2 
Gradul de similaritate = Media 
distanțelor posibile dintre 2 clustere 
Distanța Maximă + 
+ 
C1 
C2 
III. Relevance Feedback 
Calculul similarității dintre clusteri 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
42 
III. Relevance Feedback 
Evaluare – Comparație cu „State-of-the-Art” 
Metoda propusă a fost comparată cu o serie de algoritmi 
„State-of-the-Art”: 
-Rocchio 
-Nearest Neighbor RF - NB 
-Boost RF 
-SVM RF 
-Random Forest RF - (RF) 
-Decision Trees RF 
-Relevance Feature Estimation - (RFE) 
[Mironică et al., CBMI’12, IEEE/ACM]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
III. Relevance Feedback 
Comparație cu „State-of-the-Art” (baze de date de imagini) 
Curbele Precizie – Reamintire pentru bazele de date Caltech 101 și Microsoft 
utilizând descriptorii de culoare, MPEG7 și Bag of Words (SURF) 
11/02/14 
[Mironică et al., CBMI’12, IEEE/ACM] 
43
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
III. Relevance Feedback 
Comparație cu „State-of-the-Art” – mai multe iterații feedback 
11/02/14 
[Mironică et al., CBMI’12, IEEE/ACM] 
44
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
III. Relevance Feedback 
Comparație cu „State-of-the-Art” – baze de date video 
(MediaEval 2011) 
11/02/14 
Grafice Precizie – Reaminitire pentru o sesiune de relevance feedback 
pe patru ferestre de afisare (20, 30, 40 si 50 de documente afișate) 
[Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] 
45
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
Capitolul IV 
Alte contribuții originale 
Interfață
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
47 
IV. Alte contribuții originale 
• Descrierea conținutului de textură folosind automate celulare 
[Mironică et al., Buletin UPB, ‘13] 
• Analiza influenței metricilor asupra performanțelor sistemelor de indexare 
[Mironică et al., EUSIPCO ’12, IEEE ] 
• Algoritm de „Relevance Feedback" cu estimare a importanței trăsăturilor 
[Mironică et al., SPAMEC ’11, EURASIP] 
• Algoritm de „Relevance Feedback" cu reprezentare „Fisher kernel" 
[Mironică et al., ICMR ’13, ACM] 
• Metode multimodale de clasificare a documentelor video web prin integrarea 
acestora cu algoritmi de relevance feedback 
[Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] 
[Ionescu, Seyerlehner, Mironică, Vertan, EUSIPCO’12, IEEE] 
• Sistem de indexare multimedia după conținut 
[Mironică, Raport cercetare 2011]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
48 
IV. Alte contribuții originale 
• Catalogarea imaginilor ORL 
[Mironică et al., EHB ’11, IEEE] 
• Catalogarea imaginilor microscopice 
[Mironică et al., COMM ’10, IEEE] 
[Mironică et al., ISSCS ’11, IEEE] 
• Catalogarea după gen a documentelor video 
Competiție MediaEval 2012 - Poziția 2 / 29 sisteme 
[Mironică et al., CBMI’13, ACM/IEEE] 
• Catalogarea conținutului de violență în filme (analiza și implementarea de trăsături 
vizuale) 
Competiție MediaEval 2012 - Poziția 1 / 35 sisteme 
[Ionescu, Schlüter, Mironică, Schedl ICMR’13, ACM] 
• Catalogarea gesturilor (pozițiilor) statice ale mâinii 
[Vieriu, Mironică, Goraș, ISSCS’13, IEEE]
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
IV. Lista de lucrări originale 
Articole publicate în reviste de specialitate 
[1] Ionuț Mironică, Radu Dogaru, „A novel feature-extraction algorithm for efficient 
classification of texture images", în Scientific Bulletin of UPB, Series C - Electrical 
Engineering, 2012. 
[2] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick 
Lambert, „An Audio-Visual Approach to Web Video Categorization", Multimedia 
Tools and Applications, 2012 (factor impact ISI 0.91). 
Cărți 
[3] Bogdan Ionescu, Ionuț Mironică, „Conceptul de Indexare Automată după 
Conținut în Contextul Datelor Multimedia", trimisă spre publicare (103 pagini). 
49 11/02/14 
49
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
IV. Lista de lucrări originale 
Articole publicate în conferințe internaționale (18) 
[4] Ionuț Mironică, Constantin Vertan, „Relevance feedback approaches for MPEG-7 content-based biomedical image 
retrieval", Communications (COMM), iunie 2010, Bucucurești, Romania. 
[5] Ionuț Mironică, Radu Dogaru, „A comparison between various classification methods for image classification stage in 
CBIR", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași Romania 
[6] Ionuț Mironică, Constantin Vertan „An adaptive hierarchical clustering approach for relevance feedback in content-based 
image retrieval systems", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași, Romania. 
[7] Ionuț Mironică, Constantin Vertan „A Modified Feature Relevance Estimation Approach to Relevance Feedback in 
Content-Based Image Retrieval Systems", Signal Processing and Applied Mathematics for Electronics and Communications, 
26-28 august, 2011, Cluj-Napoca, Romania. 
[8] Ionuț Mironică, Constantin Vertan, Bogdan Ionescu „A Relevance Feedback Approach to Video Genre Retrieval", 
International Conference on Intelligent Computer Communication and Processing august, 2011, Cluj-Napoca, Romania. 
[9] Ionuț Mironică, Constantin Vertan, Dan Cristian Gheorghe „Automatic Pediatric Otitis Detection by Classification of Global 
Image Features", International Conference on e-Health and Bioengineering, EHB, noembrie, 2011, Iași, Romania. 
[10] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „Hierarchical Clustering Relevance Feedback for Content-Based 
Image Retrieval", IEEE/ACM 10th International Workshop on Content-Based Multimedia Indexing, 27-29 iunie, Franța, 2012. 
[11] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick Lambert, "Automatic Web Video 
Categorization using Audio-Visual Information and Hierarchical Clustering Relevance Feedback", 20th European Signal 
Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania. 
[12] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „The Influence of the Similarity Measure to Relevance Feedback", 
20th European Signal Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania, 2012. 
[13] Jan Schlüter, Bogdan Ionescu, Ionuț Mironică, Markus Schedl, „ARF @ MediaEval 2012: An Uninformed Approach to 
Violence Detection in Hollywood Movies", MediaEval Benchmarking Initiative for Multimedia Evaluation workshopItalia 2012. 
[14] Bogdan Ionescu, Ionuț Mironică, Klaus Seyerlehner, Peter Knees, Jan Schlüter, Markus Schedl, Horia Cucu, Andi Buzo, 
Patrick Lambert, „ARF @ MediaEval 2012: Multimodal Video Classification", MediaEval workshop, Italia, 4-5 octombrie, 2012. 
[15] Bogdan Ionescu, Jan Schlüter, Ionuț Mironică, Markus Schedl, „A Naive Mid-level Concept-based Fusion Approach to 
Violence Detection in Hollywood Movies", ACM International Conference on Multimedia Retrieval - ICMR 2013, SUA, 2013. 
11/02/14 
ICMR ISSCS EHB 
50
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
IV. Lista de lucrări originale 
11/02/14 
51 
Articole publicate în conferințe internaționale 
[16] Ionuț Mironică, Bogdan Ionescu, Jasper Uijlings, Nicu Sebe, „Fisher Kernel based Relevance Feedback for Multimodal 
Video Retrieval", ACM International Conference on Multimedia Retrieval - ICMR 2013, Dallas, Texas, SUA, 2013. 
[17] Ionuț Mironică, Bogdan Ionescu, Peter Knees, Patrick Lambert, „An In-Depth Evaluation of Multimodal Video Genre 
Categorization", IEEE/ACM 11th International Workshop on Content-Based Multimedia Indexing CBMI, iunie, Veszprém, 
Ungaria, 2013. 
[18] Ionuț Mironică, Bogdan Ionescu, Christoph Rasche, Patrick Lambert, „A Visual-based Late-Fusion Framework for Video 
Genre Classification" Signals, Circuits and Systems (ISSCS), iunie 2013, Iași, Romania. 
[19] Ionuț Mironică, Jasper Uijlings, Negar Rostamzadeh, Bogdan Ionescu, Nicu Sebe „Time Matters! Capturing Temporal 
Variation in Video using Fisher Kernels", ACM Multimedia - ACM MM 2013, Barcelona, Spania, octombrie 2013. 
[20] Negar Rostamzadeh, Gloria Zen, Ionuț Mironică, Jasper Uijlings, Nicu Sebe, „Daily Living Activities Recognition via 
Efficient High and Low Level Cues Combination and Fisher Kernel Representation", International Conference on Image 
Analysis and Processing, ICIAP, Napoli, Italia, 2013. 
[21] Radu-Laurențiu Vieriu, Ionuț Mironică, Bogdan-Tudor Goraș, „Background Invariant Static Hand Gesture Recognition 
based on Hidden Markov Models", Signals, Circuits and Systems (ISSCS), iunie 2013, Iași, Romania. 
Competiții (3) 
[22] participare MediaEval 2012 – secțiunea Tagging Task – membru în cadrul echipei ARF, cu membrii: Bogdan Ionescu, 
Ionuț Mironică, Klaus Seyerlehner, Peter Knees, Jan Schlüter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert 
Am obținut locul 2 pentru pentru cel mai bun sistem (din 29 de sisteme propuse) 
[23] participare MediaEval 2012 – secțiunea Violence Detection – membru în cadrul echipei ARF, cu membrii: Jan Schlüter, 
Bogdan Ionescu, Ionuț Mironică, Markus Schedl Am obținut locul 1 pentru pentru cel mai bun sistem (din 35 de sisteme 
propuse) 
[24] organizare Mediaeval 2013 - secțiunea Diversity Task - membru organizator în echipa formată de: Bogdan Ionescu, Maria 
Menéndez, Adrian Popescu, Henning Müller, Anca-Livia Radu, Ionuț Mironică și Bogdan Boteanu
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
IV. Lista de lucrări originale 
11/02/14 
52 
Citări 
- 1 citare într-o revistă ISI (MTAP) 
- 5 citări în conferințe internaționale de prestigiu (ACM MM, CBMI, MMSys, 
ICASSP )
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
V. Concluzii și direcții de dezvoltare 
53 
Contribuții principale 
- propunere de algoritmi pentru indexarea conținutului multimedia (baze de 
date de imagini și video) 
- algoritmi de relevance feedback 
- particularizarea conceptelor pentru diferite probleme de aplicație 
Direcții de dezvoltare 
- extinderea reprezentării „Fisher kernel” către alte modalități 
- (text) prin crearea de metrici bazate pe ontologii semantice 
- puncte de interes de mișcare 
-îmbunătățirea performanței sistemelor multimodale prin utilizarea de algoritmi 
de reducere a dimensionalității 
-implementarea algoritmilor de relevance feedback pentru baze de date de 
dimensiuni foarte mari (large scale)
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
54 
Intrebări?
Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 
55 
Vă mulţumesc!

More Related Content

Similar to Prezentare Doctorat Ionut Mironica

Caravana Etti 2009
Caravana Etti 2009Caravana Etti 2009
Caravana Etti 2009crystian123
 
IT & C, Volumul 1, Numărul 2, Decembrie 2022
IT & C, Volumul 1, Numărul 2, Decembrie 2022IT & C, Volumul 1, Numărul 2, Decembrie 2022
IT & C, Volumul 1, Numărul 2, Decembrie 2022Nicolae Sfetcu
 
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - Rezumate
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - RezumateIT & C, Volumul 2, Numărul 3, Septembrie 2023 - Rezumate
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - RezumateNicolae Sfetcu
 
Programa scolara tic-st-sociale_11
Programa scolara tic-st-sociale_11Programa scolara tic-st-sociale_11
Programa scolara tic-st-sociale_11profadeinfo41
 
Program, 17 mai 2018
Program, 17 mai 2018Program, 17 mai 2018
Program, 17 mai 2018DIB ULIM
 
Virtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiSVirtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiSAdrian Adascalitei
 

Similar to Prezentare Doctorat Ionut Mironica (7)

Caravana Etti 2009
Caravana Etti 2009Caravana Etti 2009
Caravana Etti 2009
 
IT & C, Volumul 1, Numărul 2, Decembrie 2022
IT & C, Volumul 1, Numărul 2, Decembrie 2022IT & C, Volumul 1, Numărul 2, Decembrie 2022
IT & C, Volumul 1, Numărul 2, Decembrie 2022
 
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - Rezumate
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - RezumateIT & C, Volumul 2, Numărul 3, Septembrie 2023 - Rezumate
IT & C, Volumul 2, Numărul 3, Septembrie 2023 - Rezumate
 
Plan1 Unitate Ep
Plan1 Unitate EpPlan1 Unitate Ep
Plan1 Unitate Ep
 
Programa scolara tic-st-sociale_11
Programa scolara tic-st-sociale_11Programa scolara tic-st-sociale_11
Programa scolara tic-st-sociale_11
 
Program, 17 mai 2018
Program, 17 mai 2018Program, 17 mai 2018
Program, 17 mai 2018
 
Virtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiSVirtual Technical Univ Iasi, RO, VIRTUiS
Virtual Technical Univ Iasi, RO, VIRTUiS
 

Prezentare Doctorat Ionut Mironica

  • 1. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației TEHNICI INTELIGENTE PENTRU ANALIZA ȘI CLASIFICAREA DUPĂ CONȚINUT A COLECȚIILOR DE BAZE DE DATE MULTIMEDIA Doctorand: ing. Ionuț MIRONICĂ Conducător de doctorat: prof. dr. ing. Radu DOGARU LAPI, Departamentul de Electronică Aplicată și Tehnologia Informației, Universitatea Politehnica București Romania Universitatea Politehnica Bucureşti Stagiu 6 luni „University of Trento”, Italia
  • 2. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 2
  • 3. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 3
  • 4. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 4
  • 5. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Informație vizuală - culoare - textură - forme - trăsături Informație de mișcare Informație audio - muzică - vorbire - sunete Informație textuală 5 Scopul tezei de doctorat Date multimedia [www.youtube.com]
  • 6. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 6 Cuprins • Prezentare concepte • Trăsături propuse pentru descrierea documentelor video • reprezentarea „Fisher kernel” • Metode de Relevance Feedback propuse • Trecerea în revistă a principalelor contribuții originale • Concluzii și perspective de dezvoltare
  • 7. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 7 I. Prezentare concepte (On-line) Calcul Descriptori Comparaţie Rezultate Relevance feedback Baza de date multimedia (Off-line) Calcul Descriptori Interogare Descriptori multimedia (vectori cu componente) Antrenare/ clasificare Căutare similaritate Căutare concepte Căutare în conținut
  • 8. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 8 I. Prezentare concepte • “Semantic gap” (paradigma semantică) - diferenţa dintre informaţia computaţională extrasă din documentul multimedia şi interpretarea semantică a acestuia.
  • 9. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Capitolul II Trăsături pentru descrierea documentelor video
  • 10. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Detecție de puncte de interes Creare dicționar Generare histograme Antrenare clasificator [Czurka et al., ECCV 2004] 10 II. Trăsături pentru descrierea video Modelul „Bag of Words” („State-of-the-Art”)
  • 11. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Modelul „Bag of Words” • conține apartenența fiecărui punct de interes către un element al unui dicționar (histogramă de cuvinte) Rezultat: D = [0;0;0;1]; Dimensiune: K (numărul de cuvinte din dicționar) [Czurka et al., ECCV 2004] 11
  • 12. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Dezavantaje model „Bag of Words” • nu există nici o metodă riguroasă de reprezentare a distribuției spațiale dintre anumite perechi de cuvinte. • există multe cuvinte care nu sunt relevante • procesul de cuantizare a cuvintelor generează zgomot de cuantizare. • costul computațional crește foarte mult odată cu dimensiunea vocabularului de cuvinte. 12
  • 13. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 13 II. Trăsături pentru descrierea video Teoria reprezentării „Fisher kernel” - conceptul a fost introdus de [Jaakkola et al.,: Exploiting generative models in discriminative classifiers. NIPS’99] pentru detecția de proteine. - introdus în Computer Vision de [Perronnin et al.,: "Fisher kernels on visual vocabularies for image categorization." CVPR’07] pentru clasificarea de imagini. - combină beneficiile algoritmilor generativi cu cei discriminativi. - reprezintă un semnal ca și gradientul funcției de densitate de probabilitate care este învățată ca un model generativ al unui semnal. (1) (2)
  • 14. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Reprezentarea „Fisher kernel” • Calculează probabilitățile de apartenență la un cuvânt din dicționar Rezultat: D = [0.3;0.1;0.1;0.5]; - calculează gradientul mediei și a varianței probabilităților de apartenență la un cuvânt din dicționar. Dimensiune: 2*D*K 2 – medie + varianță K – numărul de cuvinte din dicționar D – lungimea trăsăturii 14
  • 15. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 15 II. Trăsături pentru descrierea video Contribuții (1) am introdus reprezentarea Fisher pentru modelarea variației de timp în cadrul documentelor video (2) am demonstrat că modelul propus are un caracter general în funcție de problema selectată: de la recunoaștere de gen, la recunoaștere de secvențe sportive și acțiuni cotidiene. (3) am arătat generalitatea metodei în funcție de trăsăturile alese: de la descriptori vizuali, la descriptori de mișcare și trăsături audio (4) cu metoda propusă am obținut rezultate similare sau mai bune decât cele propuse în literatură, deși am utilizat un set de trăsături mai ușor de calculat. [Mironică et al., Multimedia’13 ACM]
  • 16. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 16 Calcul a vectorilor Fisher Pas de antrenare și clasificare Reducere dimensiune descriptori Extragere dicționar Secțiune generativă Secțiune discriminativă II. Trăsături pentru descrierea video Arhitectura reprezentării „Fisher kernel” [Mironică et al., ICMR’13 ACM] X = {x1 ... xm} Extragere trăsături
  • 17. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., Multimedia’13 ACM] 17 II. Trăsături pentru descrierea video Agregarea cadrelor cu reprezentarea „Fisher kernel” Cadrele similare vor face parte din aceeași componentă, modelând variațiile subtile de timp. Reprezentare „Fisher kernel” [Mironică et al., ICMR’13 ACM]
  • 18. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Reprezentare „Fisher kernel” [Mironică et al., Multimedia’13 ACM] 18 II. Trăsături pentru descrierea video Agregarea cadrelor cu reprezentarea „Fisher kernel” Cadrele nesimilare vor face parte din componente separate, prevenind amestecarea conceptelor nesimilare. [Mironică et al., ICMR’13 ACM]
  • 19. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 19 II. Trăsături pentru descrierea video Scor 1 (normalizat) Scor 2 (normalizat) Scor n (normalizat) Normalizarea scorurilor de încredere Vector Fisher 1 VVeeccttoorr FFiisshheerr 22 VVeeccttoorr FFiisshheerr nn Generare vectori Fisher clasificator 1 clasificator 2 clasificator n Clasificare DDeecciizziiee Scor de încredere global Obținerea unui scor de încredere global Fuziunea trăsăturilor – „Late Fusion” [Mironică et al., CBMI 2013, IEEE/ACM]
  • 20. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 20 II. Trăsături pentru descrierea video Detecția genului documentelor video [http://www.multimediaeval.org/mediaeval2012] • Programe de televiziune – știri, sport, documentare, talk show, … • Filme – drame, comedii, thriller, … • Înregistrări – conferințe, video teleconferințe, ... • Altele – camere de supraveghere, înregistrări personale, …
  • 21. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 21 II. Trăsături pentru descrierea video Baza de date „MediaEval 2012”, Tagging Task • 14.838 episoade ~ aproximativ 3.260 ore de conținut video o 5.288 documente pentru antrenare o 9.550 documente pentru testare • conține documente video semi-profesionale de pe internet grupate în 26 de genuri: artă, autovehicule, afaceri, jurnalism, comedie, documentare, educațional, bucătărie [http://www.multimediaeval.org/mediaeval2012]
  • 22. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 22 II. Trăsături pentru descrierea video Histograme de gradienți orientați (HoG) •Împarte imaginea în 3x3 regiuni și pentru fiecare zonă calculează o histogramă de orientări de pixeli [Ludwig et al, CITS 2009] Trăsături vizuale Histograma de culoare „Color naming” •Proiectează culorile în 11 culori universale: negru, albastru, maro, gri, verde, portocaliu, roz, purpuriu, roșu, alb și galben [Weijer et al, IEEE TIP’ 2009]
  • 23. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video • Zero-Crossing Rate, • Spectral centroid, flux, rolloff și kurtosis [Mathieu et al., Yaafe toolbox, ISMIR’10, IEEE] 23 Trăsături audio • Linear Predictive Coefficients, • Line Spectral Pairs, • Mel-Frequency Cepstral Coefficients, + toate împărțite la varianța globală a trăsăturii Trăsături audio bazate pe blocuri audio f1 ff … n 2 time + var{f2} var{fn} Parametrii extrași: [Mironică et al., CBMI 2013, IEEE/ACM] [Mironică et al., ICMR 2013, ACM]
  • 24. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Comparație rezultate cu MediaEval 2012 Genre Retrieval Tip trăsătură Metodă raportată la MediaEval 2012 MAP metodă raportată MediaEval 2012 MAP metodă propusă Audio Descriptori pe bază de blocuri audio & SVM Liniar 0,192 0,475 Vizual descriptori vizuali (Color,Texture, rgbSIFT) 0,350 0,460 Audio & Vizual - - 0,550 Text Bag of Words - Metadata & Text ASR 0,522 - Audio & Vizual & Text - - 0,66 24 Indicator performantă: MAP (valoare maximă = 1) [Mironică et al., Multimedia’13 ACM]
  • 25. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației III. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive 25 Baza Sport UCF 50 •6500 documente video preluate de pe Youtube împărțite în 50 de acțiuni: •baseball, aruncări, biliard, înot, ridicare de greutăți, scufundări, bătut la tobă, scrima, golf, cântat la chitară, sărituri cu prăjina,curse de cai, aruncarea suliței, sărituri în lungime, caiac, exerciții de încălzire, cal cu mânere, tracțiuni, box, urcări pe pereți artificiali, urcare pe frânghie, canotaj, salsa, skate boarding, sky etc [Reddy et al., MVAP, 2012]
  • 26. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive – Trăsături utilizate 26 Trăsături vizuale •Histograme de gradienţi orientaţi (HOG - 2x2, 3x3, 4x4) •Histograme „Color Naming” (2x2, 3x3, 4x4) Trăsături de mișcare •Histograme de flux optic (HOF) (2x2, 3x3, 4x4) Piramide Spațiale [Lazebnik et al., CVPR, 2006] Fuziune cu „Late Fusion” [Mironică et al., Multimedia’13 ACM]
  • 27. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Recunoașterea de acțiuni sportive – Comparație „State-of-the-Art” Metodă Acuratețe Reddy et al. MVAP 2012 76,9% Metoda propusă 74,7% Solmaz et al. MVAP 2012 73,7% Everts et al. CVPR 2012 72,9% Kliper-Gross et al. ECCV 2012 72,6% GIST3D - Solmaz et al. MVAP 2012 65,3% [Mironică et al., Multimedia’13 ACM] 27
  • 28. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene 28 Baza de date „University of Rochester Activities of Daily Living Dataset” Răspuns la telefon Tocat de banane Formare de numere la telefon A bea apă Utilizare furculiță A mânca biscuiți Desfacere banane Citire agendă telefonică A mânca banane Scris pe tablă [www.cs.rochester.edu/rmessing/uradl]
  • 29. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene – metoda propusă [Ramanan, et. al. CVPR 2007] [Rostamzadeh, Zen, Mironică, Uijlings, Sebe, ICIAP 2013, IEEE] 29
  • 30. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației II. Trăsături pentru descrierea video Recunoașterea de acțiuni cotidiene – comparație „State-of-the-Art” Metodă Acuratețe Metodă propusă 97,3% Wang et al. CVPR 2012 96,0% Lin et al. ICCV 2011 95,0% Messing et al. ICCV 2009 89,0% [Mironică et al., Multimedia’13 ACM] 30
  • 31. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Capitolul III Algoritmi de „Relevance Feedback” 31
  • 32. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 32 Se utilizează exemplele pozitive şi negative preluate de la utilizator pentru a îmbunătăţi performanţa sistemului. Feedback Utilizator Afişare Estimare a noilor documente Afişare Feedback Utilizator III. Relevance Feedback Arhitectura algoritmilor de Relevance Feedback
  • 33. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației III. Relevance Feedback • viteza de procesare (sisteme în timp real) 33 Provocările algoritmilor de Relevance Feedback • numărul de documente pe care se oferă feedback este mult mai redus decât spațiul descriptorilor • dezechilibru în modul de a acorda feedback între utilizatori diferiți • dezechilibru între numărul de documente relevante și nerelevante
  • 34. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 34 III. Relevance Feedback Algoritmi clasici de „Relevance feedback” Căutare inițială Feedback utilizator Antrenare [Tao et al., PAMI’07, IEEE Trans.] Document de interogare Documente relevante Documente nerelevante Documente fără feedback
  • 35. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 35 III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică Calculează gradul de similaritate intre oricare două combinații de documente Crează un cluster cu cele mai similare 2 grupuri de documente Calculează gradul de similaritate între clusterul creat și restul clusterelor Condiție de încheiere Clasificare documente din baza de date utilizând dendograma antrenată Stop [Mironică et al., CBMI’12, IEEE/ACM]
  • 36. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 36 Interogare Inițială III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică [Mironică et al., CBMI’12, IEEE/ACM]
  • 37. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 37 III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică [Mironică et al., CBMI’12, IEEE/ACM]
  • 38. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 38 III. Relevance Feedback „Relevance feedback” cu clusterizare ierarhică [Mironică et al., CBMI’12, IEEE/ACM]
  • 39. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 39 III. Relevance Feedback Condiție de încheiere Varianta 1: Numărul fix de clustere Varianta 2: Număr adaptiv de clustere – criteriul arcului Număr de centroizi Procentul de varianță [Mironică et al., CBMI’12, IEEE/ACM]
  • 40. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 40 III. Relevance Feedback Calculul similarității dintre clusteri Distanța dintre centroizi + + C1 Centroid C2 Centroid Distanța Minimă + + C1 C2 [Mironică et al., CBMI’12, IEEE/ACM]
  • 41. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației [Mironică et al., ISSCS’11, IEEE] 41 Distanța Medie C1 C2 Gradul de similaritate = Media distanțelor posibile dintre 2 clustere Distanța Maximă + + C1 C2 III. Relevance Feedback Calculul similarității dintre clusteri [Mironică et al., CBMI’12, IEEE/ACM]
  • 42. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 42 III. Relevance Feedback Evaluare – Comparație cu „State-of-the-Art” Metoda propusă a fost comparată cu o serie de algoritmi „State-of-the-Art”: -Rocchio -Nearest Neighbor RF - NB -Boost RF -SVM RF -Random Forest RF - (RF) -Decision Trees RF -Relevance Feature Estimation - (RFE) [Mironică et al., CBMI’12, IEEE/ACM]
  • 43. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației III. Relevance Feedback Comparație cu „State-of-the-Art” (baze de date de imagini) Curbele Precizie – Reamintire pentru bazele de date Caltech 101 și Microsoft utilizând descriptorii de culoare, MPEG7 și Bag of Words (SURF) 11/02/14 [Mironică et al., CBMI’12, IEEE/ACM] 43
  • 44. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației III. Relevance Feedback Comparație cu „State-of-the-Art” – mai multe iterații feedback 11/02/14 [Mironică et al., CBMI’12, IEEE/ACM] 44
  • 45. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației III. Relevance Feedback Comparație cu „State-of-the-Art” – baze de date video (MediaEval 2011) 11/02/14 Grafice Precizie – Reaminitire pentru o sesiune de relevance feedback pe patru ferestre de afisare (20, 30, 40 si 50 de documente afișate) [Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] 45
  • 46. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației Capitolul IV Alte contribuții originale Interfață
  • 47. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 47 IV. Alte contribuții originale • Descrierea conținutului de textură folosind automate celulare [Mironică et al., Buletin UPB, ‘13] • Analiza influenței metricilor asupra performanțelor sistemelor de indexare [Mironică et al., EUSIPCO ’12, IEEE ] • Algoritm de „Relevance Feedback" cu estimare a importanței trăsăturilor [Mironică et al., SPAMEC ’11, EURASIP] • Algoritm de „Relevance Feedback" cu reprezentare „Fisher kernel" [Mironică et al., ICMR ’13, ACM] • Metode multimodale de clasificare a documentelor video web prin integrarea acestora cu algoritmi de relevance feedback [Ionescu, Seyerlehner, Mironică, Vertan, MTAP ’12] [Ionescu, Seyerlehner, Mironică, Vertan, EUSIPCO’12, IEEE] • Sistem de indexare multimedia după conținut [Mironică, Raport cercetare 2011]
  • 48. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 48 IV. Alte contribuții originale • Catalogarea imaginilor ORL [Mironică et al., EHB ’11, IEEE] • Catalogarea imaginilor microscopice [Mironică et al., COMM ’10, IEEE] [Mironică et al., ISSCS ’11, IEEE] • Catalogarea după gen a documentelor video Competiție MediaEval 2012 - Poziția 2 / 29 sisteme [Mironică et al., CBMI’13, ACM/IEEE] • Catalogarea conținutului de violență în filme (analiza și implementarea de trăsături vizuale) Competiție MediaEval 2012 - Poziția 1 / 35 sisteme [Ionescu, Schlüter, Mironică, Schedl ICMR’13, ACM] • Catalogarea gesturilor (pozițiilor) statice ale mâinii [Vieriu, Mironică, Goraș, ISSCS’13, IEEE]
  • 49. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației IV. Lista de lucrări originale Articole publicate în reviste de specialitate [1] Ionuț Mironică, Radu Dogaru, „A novel feature-extraction algorithm for efficient classification of texture images", în Scientific Bulletin of UPB, Series C - Electrical Engineering, 2012. [2] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick Lambert, „An Audio-Visual Approach to Web Video Categorization", Multimedia Tools and Applications, 2012 (factor impact ISI 0.91). Cărți [3] Bogdan Ionescu, Ionuț Mironică, „Conceptul de Indexare Automată după Conținut în Contextul Datelor Multimedia", trimisă spre publicare (103 pagini). 49 11/02/14 49
  • 50. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației IV. Lista de lucrări originale Articole publicate în conferințe internaționale (18) [4] Ionuț Mironică, Constantin Vertan, „Relevance feedback approaches for MPEG-7 content-based biomedical image retrieval", Communications (COMM), iunie 2010, Bucucurești, Romania. [5] Ionuț Mironică, Radu Dogaru, „A comparison between various classification methods for image classification stage in CBIR", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași Romania [6] Ionuț Mironică, Constantin Vertan „An adaptive hierarchical clustering approach for relevance feedback in content-based image retrieval systems", Signals, Circuits and Systems (ISSCS), iulie 2011, Iași, Romania. [7] Ionuț Mironică, Constantin Vertan „A Modified Feature Relevance Estimation Approach to Relevance Feedback in Content-Based Image Retrieval Systems", Signal Processing and Applied Mathematics for Electronics and Communications, 26-28 august, 2011, Cluj-Napoca, Romania. [8] Ionuț Mironică, Constantin Vertan, Bogdan Ionescu „A Relevance Feedback Approach to Video Genre Retrieval", International Conference on Intelligent Computer Communication and Processing august, 2011, Cluj-Napoca, Romania. [9] Ionuț Mironică, Constantin Vertan, Dan Cristian Gheorghe „Automatic Pediatric Otitis Detection by Classification of Global Image Features", International Conference on e-Health and Bioengineering, EHB, noembrie, 2011, Iași, Romania. [10] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „Hierarchical Clustering Relevance Feedback for Content-Based Image Retrieval", IEEE/ACM 10th International Workshop on Content-Based Multimedia Indexing, 27-29 iunie, Franța, 2012. [11] Bogdan Ionescu, Klaus Seyerlehner, Ionuț Mironică, Constantin Vertan, Patrick Lambert, "Automatic Web Video Categorization using Audio-Visual Information and Hierarchical Clustering Relevance Feedback", 20th European Signal Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania. [12] Ionuț Mironică, Bogdan Ionescu, Constantin Vertan, „The Influence of the Similarity Measure to Relevance Feedback", 20th European Signal Processing Conference - EUSIPCO 2012, 27-31 august, București, Romania, 2012. [13] Jan Schlüter, Bogdan Ionescu, Ionuț Mironică, Markus Schedl, „ARF @ MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywood Movies", MediaEval Benchmarking Initiative for Multimedia Evaluation workshopItalia 2012. [14] Bogdan Ionescu, Ionuț Mironică, Klaus Seyerlehner, Peter Knees, Jan Schlüter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert, „ARF @ MediaEval 2012: Multimodal Video Classification", MediaEval workshop, Italia, 4-5 octombrie, 2012. [15] Bogdan Ionescu, Jan Schlüter, Ionuț Mironică, Markus Schedl, „A Naive Mid-level Concept-based Fusion Approach to Violence Detection in Hollywood Movies", ACM International Conference on Multimedia Retrieval - ICMR 2013, SUA, 2013. 11/02/14 ICMR ISSCS EHB 50
  • 51. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației IV. Lista de lucrări originale 11/02/14 51 Articole publicate în conferințe internaționale [16] Ionuț Mironică, Bogdan Ionescu, Jasper Uijlings, Nicu Sebe, „Fisher Kernel based Relevance Feedback for Multimodal Video Retrieval", ACM International Conference on Multimedia Retrieval - ICMR 2013, Dallas, Texas, SUA, 2013. [17] Ionuț Mironică, Bogdan Ionescu, Peter Knees, Patrick Lambert, „An In-Depth Evaluation of Multimodal Video Genre Categorization", IEEE/ACM 11th International Workshop on Content-Based Multimedia Indexing CBMI, iunie, Veszprém, Ungaria, 2013. [18] Ionuț Mironică, Bogdan Ionescu, Christoph Rasche, Patrick Lambert, „A Visual-based Late-Fusion Framework for Video Genre Classification" Signals, Circuits and Systems (ISSCS), iunie 2013, Iași, Romania. [19] Ionuț Mironică, Jasper Uijlings, Negar Rostamzadeh, Bogdan Ionescu, Nicu Sebe „Time Matters! Capturing Temporal Variation in Video using Fisher Kernels", ACM Multimedia - ACM MM 2013, Barcelona, Spania, octombrie 2013. [20] Negar Rostamzadeh, Gloria Zen, Ionuț Mironică, Jasper Uijlings, Nicu Sebe, „Daily Living Activities Recognition via Efficient High and Low Level Cues Combination and Fisher Kernel Representation", International Conference on Image Analysis and Processing, ICIAP, Napoli, Italia, 2013. [21] Radu-Laurențiu Vieriu, Ionuț Mironică, Bogdan-Tudor Goraș, „Background Invariant Static Hand Gesture Recognition based on Hidden Markov Models", Signals, Circuits and Systems (ISSCS), iunie 2013, Iași, Romania. Competiții (3) [22] participare MediaEval 2012 – secțiunea Tagging Task – membru în cadrul echipei ARF, cu membrii: Bogdan Ionescu, Ionuț Mironică, Klaus Seyerlehner, Peter Knees, Jan Schlüter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert Am obținut locul 2 pentru pentru cel mai bun sistem (din 29 de sisteme propuse) [23] participare MediaEval 2012 – secțiunea Violence Detection – membru în cadrul echipei ARF, cu membrii: Jan Schlüter, Bogdan Ionescu, Ionuț Mironică, Markus Schedl Am obținut locul 1 pentru pentru cel mai bun sistem (din 35 de sisteme propuse) [24] organizare Mediaeval 2013 - secțiunea Diversity Task - membru organizator în echipa formată de: Bogdan Ionescu, Maria Menéndez, Adrian Popescu, Henning Müller, Anca-Livia Radu, Ionuț Mironică și Bogdan Boteanu
  • 52. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației IV. Lista de lucrări originale 11/02/14 52 Citări - 1 citare într-o revistă ISI (MTAP) - 5 citări în conferințe internaționale de prestigiu (ACM MM, CBMI, MMSys, ICASSP )
  • 53. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației V. Concluzii și direcții de dezvoltare 53 Contribuții principale - propunere de algoritmi pentru indexarea conținutului multimedia (baze de date de imagini și video) - algoritmi de relevance feedback - particularizarea conceptelor pentru diferite probleme de aplicație Direcții de dezvoltare - extinderea reprezentării „Fisher kernel” către alte modalități - (text) prin crearea de metrici bazate pe ontologii semantice - puncte de interes de mișcare -îmbunătățirea performanței sistemelor multimodale prin utilizarea de algoritmi de reducere a dimensionalității -implementarea algoritmilor de relevance feedback pentru baze de date de dimensiuni foarte mari (large scale)
  • 54. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 54 Intrebări?
  • 55. Universitatea Politehnica Bucure ti – Facultatea de Electronica, Telecomunica ii ș ț și Ingineria Informației 55 Vă mulţumesc!