SlideShare a Scribd company logo
1
Prelucrari Digitale de Semnale
Felix Albu
2
• Semnal: cantitate masurabila si variabila in timp a carei
variatie, in mod normal, contine informatie.
• Adesea este o tensiune (de exemplu cea preluata de la un
microfon)
• Se pot defini doua tipuri de semnal:
• Continuu in timp (analog)
• Discret in timp
2012 3
• Semnale Analogice: sunt functii continue de timp (t) masurate in
secunde, si exista pentru toate valorile de timp in intervalul (-, +).
• Exemple:
(i) 5sin(62.82t) : sinusoida cu frecventa de 62.82 radiani/secunda
(aproximativ 10 Hz)
 0 : t < 0
(ii) u(t) =  functia treapta
 1 : t  0
• Graficul lor ca functie de timp indica o continuitate a formei de unda :
t
Voltaj
0.1
-0.1
5
t
Voltaj
1
4
• Semnale discrete in timp : exista numai in momente
discrete de timp
• Sunt deseori obtinute prin esantionarea unui semnal
analogic prin masurarea valorilor in momente discrete de
timp.
• Punctele de esantionare sunt de obicei separate prin
intervale egale de timp (de exemplu T secunde).
• Fie semnalul analog x(t), x[n] = valoarea lui x(t) cand t = nT.
• Procesul de esantionare produce o secventa de numere
x[n] :
{ ..., x[-2], x[-1], x[0], x[1], x[2], ..... }
• Secventa exista pentru toate numerele intregi n in intervalul
(-,).
5
• Exemple de semnale discrete in timp :
(i) {..., -4, -2, 0, 2, 4, 6, ....}
o secventa definita prin formula x[n] = 2n.
Esantionul corespunzator n = 0 are o importanta deosebita.
(ii) { ..., -4.75, -2.94, 0, 2.94, 4.75, 4.76, ...}
Secventa definita prin x[n] = 5 sin(62.82t) cu t=nT si T=0.01.
(iii) { ..., 0, ..., 0. 0, 1, 1, 1, ..., 1, ...}
secventa “treapta unitate”cu elementul n definit prin :
 0 : n < 0
u[n] = 
 1 : n  0
• Graficul (i):
6
n
x[n]
1 2 3 4
-3 -2 -1
2 -
-2-
7
clear all;
T = 0.01; % interval de esantionare (secunde)
% Genereaza 80 esantioane a unei sinusoide de 10 Hz de
amplitudine 5
% 5 sin(2*pi*10*t) cu t=nT pentru n=1,2, ... 200
for n=1:80
s(n) = 5 * sin(2 * pi * 10 * n * T);
end;
plot (s);
Program MATLAB
Genereaza si afiseaza 80 esantioane ale unei sinusoide :
0 10 20 30 40 50 60 70 80
-5
0
5
8
• Semnalele discrete in timp sunt deseori generate prin
convertoarele analog digitale ADC.
• Se obtin numere binare care reprezinta tensiuni sau curenti.
• Acuratetea conversiei este determinata de lungimea
cuvantului dispozitivului ADC, adica de numarul de biti
disponibili pentru fiecare numar.
• Cuantizarea: Procesul de trunchiere sau rotunjire al valorii
esantionate la cel mai apropiat numar binar.
• Rezultatul este o secventa de numere cuantizate numita
semnal digital.
.
• Un semnal digital este un semnal discret in timp cu fiecare
esantion digitizat
9
10
Prelucrari de semnal:
• Semnalele analogice pot fi procesate prin circuite care contin rezistoare,
condensatoare, bobine, tranzistoare si amplificatoare operationale
• Semnalele numerice pot fi procesate folosind microcomputere sau
hardware digital specializat.
• Exemple de prelucrari :
(i) amplificari sau atenuari : tensiunea formei de unda poate fi facuta mai
mare sau mai mica.
(ii) filtrari: se filtreaza anumite zone nedorite ale semnalului.
(iii) rectificari: forma de unda devine pozitiva (de exemplu prin anularea
valorilor negative).
(iv) modulare: multiplicarea semnalului cu un alt semnal (de exemplu cu o
sinusoida de inalta frecventa.
11
clear all;
fs = 8000; %rata de esantionare in Hz
T = 1/fs; % intervalul de esantionare (secunde)
% Genereaza 10000 esantioane sinusoida de 500 Hz
for n=1:10000
s(n) = 4000 * sin(2 * pi * 500 * n * T);
end;
% Scrie intr-un fisier binar
OFid=fopen('newsin.pcm','wb');
fwrite(OFid, s, 'int16');
fclose('all');
Scrie un bloc de esantioane sinusoidale in MATLAB
12
clear all;
%semnal vocal
fs = 8000; % frecventa de esantionare in Hz
IFid=fopen('operator.pcm','rb');
Inspeech = fread(IFid, 'int16');
%Proiectarea unui filtru numeric FIR
fc = 1000; % frecventa de taiere in Hz
[a b] = fir1(20, fc/(0.5*fs) );
freqz(a,b);
%Filtrarea semnalului vocal
Outspeech = filter(a, b, Inspeech);
% Scrierea semnalului intr-un fisier
OFid=fopen('newop.pcm','wb');
fwrite(OFid, Outspeech, 'int16'); fclose('all');
Filtrarea unui semnal vocal in MATLAB
13
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-1000
-800
-600
-400
-200
0
Normalized Frequency (
prad/sample)
Phase
(degrees)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-100
-80
-60
-40
-20
0
Normalized Frequency (
prad/sample)
Magnitude
(dB)
14
IFid=fopen('newop.pcm','rb');
speech = fread(IFid,'int16');
maxamp = max(abs(speech));
sound(speech/maxamp,8000,16);
fclose('all');
Ascultarea unui semnal vocal in MATLAB
15
clear all;
fs = 8000; % frecventa de esantionare in Hz
IFid=fopen(’newsin.pcm','rb');
Insin = fread(IFid, 'int16');
%Rectificare full-wave
for n=1:10000
Outsin(n) = abs ( Insin(n) ) ;
end;
% Scriere intr-un fisier
OFid=fopen('newop.pcm','wb');
fwrite(OFid, Outsin, 'int16');
fclose('all');
Rectificarea unei sinusoide in MATLAB
16
Modulatie
Generati 320 esantioane ale unei sinusoide de 50 Hz
esantionate la 8 kHz si multiplicati cu o sinusoida de 1 kHz
esantionata la 8kHz.
Afisati forma de unda rezultata
Simularea filtrarii unui semnal vocal in MATLAB
O linie telefonica obisnuita tranmite frecventele dintre 300Hz
si 3 kHz din semnalul vocal. Proiectati filtre TJ si TS care sa
simuleze efectul restrictiilor de banda
17
clear all; fs = 8000;
T=1/fs;
for n=1:320
s50(n) = sin(2*pi*50*n*T);
end;
figure(1); plot (s50);
for n=1:320
smod(n) = s50(n)*sin(2*pi*1000*n*T);
end;
figure(2); plot (smod);
0 50 100 150 200 250 300 350
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
18
19
% Solutie MATLAB Exercitiul 2
clear all;
fs = 8000; % rata esantionare in Hz
IFid=fopen('operator.pcm','rb');
Inspeech = fread(IFid, 'int16');
%Proiectarea unui FTB FIR
fU = 3000; % frecventa superioara de taiere in Hz
fL = 300; % frecventa inferioara de taiere
[a b] = fir1(100, [fL/(0.5*fs) fU/(0.5*fs)] );
freqz(a,b);
%Filtrare
Outspeech = filter(a, b, Inspeech);
% Scriere intr-un fisier
OFid=fopen('newop.pcm','wb');
fwrite(OFid, Outspeech, 'int16'); fclose('all');
Ton de 3300Hz suprapus intre 0. 2 secunde si 0.5 secunde
23
Filtru opreste banda intre frecventele 3200 si 3400 Hz. Filtru de tip eliptic de ordinul
5 avand riplul in banda de trecere 0.1 dB, riplul in banda de oprire de 60 dB
24
25
Aplicatii ale DSP-urilor:
• Prelucrarea ’Real time' :
•Un telefon mobil contine un procesor 'DSP' care este rapid si destul de
puternic (de exemplu pentru a efectua operatiile matematice cerute de
filtrarea semnalului vocal in timp ce semnalul este receptionat).
• Prelucrarea ‘Non real time’ :
• Un PC standard poate efectua prelucrari 'non-real time' pe inregistrarile
de muzica si are nevoie de timp pentru a termina aceste prelucrari.
• Prelucrarea “non real time” este extreme de folositoare (de exemplu
comprimarea MP3).
•Este folosita pentru simularea software-lui pentru procesoarele in timp
real inainte de a fi incluse intr-un hardware specific.
•Sistemele DSP simulate pot fi testate pe segmente de voce
reprezentative pentru situatiile reale asteptate cand oamenii vorbesc la
telefon
26
• Sistemele DSP in timp real sunt deseori implementate folosid
microprocesoare in “virgula fixa” deoarece consuma mai putina putere si
sunt mai ieftine decat dispozitivele in “virgula mobila”.
•Un procesor in virgula fixa foloseste numere intregi si deseori lungimea
cuvantului este restrictionata la 16 biti.
•Overflow-ul (numerele care sunt prea mare pentru o reprezentare pe 16
biti) poate conduce la situatii dezastruoase pentru calitatea sunetului.
• Daca incercam sa evitam posibilitatea depasirilor prin scalarea
numerelor pentru a le micsora amplitudinea, am putea avea pierderi de
precizie datorita cuantizarii. In acest caz eroarea de cuantizarea poate
reprezenta un procent ridicat din valoarea esantionului.
•Programarea unui procesor DSP in virgula fixa este o sarcina dificila. Un
PC foloseste prelucrarea in virgula mobile cu lungimi ale cuvantului mai
mari de 16 biti.
•Din fericire este posibila simularea unei prelucrari in virgula fixa pe PC
prin restrictionarea programului pentru aritmetica de intregi.
Aplicatii in automatizari
• Controlul industrial si automatizarea (de ex.
Controlul vitezei si pozitiei unui obiect)
• Se folosesc:
– Solutia in domeniul timp a ecuatiilor diferentiale
– Functii de transfer (Transformata Laplace)
– Stabilitatea
Aplicatii in Comunicatii
• Transmiterea informatiei (semnal) pe un
canal (in aer, cablu coaxial, cablu de fibra
optica)
• O componenta cheie a transmisiei:
Modulatia (Comunicatii Analogice si
Digitale)
Modulatia Digitala
• Se foloseste in telefonie mobila, fixa, etc.
• Avantaje:
– Poate fi criptata
– Capacitate de inmagazinare
– Multimedia
Aplicatii ale procesarii de
semnale
• Procesare de semnale = Algoritmi care modifica
semnalele pentru a le face mai utile.
• Scop:
– Transmisie eficienta, inmagazinare si afisare de
informatie
– Extragerea de informatie si imbunatatirea semnalelor
Aplicatii Multimedia
• Compresie: Transmisie rapida si
inmagazinare de date
• Aplicate semnalelor audio/ imagini/video
pentru transmisie pe internet
• Exemple: CD, DVD, MP3, MPEG4, JPEG
• Metode matematice: Transformata
Fourier, Cuantizare, Modulatie
Exemplu JPEG
43K 13K 3.5K
• JPEG foloseste Transformarea Cosinus
Discreta (similara transformarii Fourier)
Analiza semnalelor biologice
• Exemple:
– Semnale ale creierului (EEG)
– Semnale cardiace (ECG)
– Imagini medicale (raze X, MRI)
• Scop:
– Detectarea unor activitati anormale (infarct,
lesin)
– Ajuta in diagnosticarea bolilor
• Se foloseste: Filtrarea, Transformarea
Fourier etc.
Exemplu
• Undele cerebrale sunt in general contaminate
de zgomot si dificil de interpretat
35
Sisteme biometrice de recunoastere
Biometrie
Comportamentale
Fiziologice
Amprente
Forma
palmei
Fata Iris
Geometria
mainii Voce Keystrokes
Semnatura
◼ Biometrie : folosirea automata a
caracteristicilor fiziologice si de comportament
pentru a verifica sau determina identitatea
unei persoane
Exemple
Recunoasterea vorbirii
• Stadiul actual
•AT&T Bell Labs
•Bolt, Beranek and Newman Inc. (BBN) - sistemul BYBLOS
•Cambridge University (CU) – sistemul HTK, sistemul ABBOT
•Carnegie-Mellon University(CMU) - sistemul SPHINX
•IBM – sistemul IBM Via VOICE
•Massachusetts Institute of Technology (MIT)
•Microsoft – sistemul MS Speech Recognizer, etc.
•Nuance Inc. – sistemul Dragon Naturally Speaking
•Stanford Research Institute (SRI)
Vorbire
spontană
Vorbire
fluentă
Vorbire
prin citire
Cuvinte
înlănţuite
2 20 200 2000 20000 Fără restricţii
Dimensiune vocabular (număr de cuvinte)
Localizare
cuvinte
Cifre
Cuvinte
izolate
Verificare
vorbitor
Comenzi vocale
Apelare
vocală
Completare
formulare
Dialog
om-maşină
Dictare
birou
Transcriere
vorbire
Dialog
controlat
Conversaţie
naturală
Stilul
de
vorbire
Coordonate ale aplicaţiilor de recunoaştere automată a vorbirii
şi posibilităţile actuale (zona gri)
PHRASELATOR
• dispozitiv de traducere automată din limba engleză în alte limbi
dezvoltat de DARPA.
• Nevoia de asistenţă lingvistică a armatei americane în operaţiunile
din Afganistan şi Irak după data de 11 septembrie 2001 a accelerat
proiectarea sistemului.
• folosit de către forţele armate americane în timpul operaţiunilor din
Afganistan în 2002.
Dispozitivul PHRASELATOR utilizat în aplicaţiile militare
Dispozitivul PHRASELATOR utilizat în aplicaţiile militare
PHRASELATOR
• o bună fiabilitate demonstrată pe teren;
• recunoaştere imediată a vorbirii independent de vorbitor fără a fi
nevoie de o antrenare prealabilă;
• la traducere foloseşte voce umană înregistrată şi nu voce sintetizată
artificial, crescând inteligibilitatea frazelor redate;
• formă compactă, portabilă, greutate scăzută;
• durabilitate, rezistenţă la umiditate;
• adăugarea cu uşurinţă de noi limbi pentru redare.
Domeniile de aplicaţie ale acestui produs sunt foarte variate.
Soldatii pot adresa prin intermediul dispozitivului în limba
respectivă fraze de tipul „Nu intra în această zonă!”, „Arată-mi
actele de identitate!”, „Ieşi din vehicul!”. În cadrul unei acţiuni
umanitare, traduce fraze de tipul „Stai nemişcat!”, „Ai fost rănit”,
„Indică locul care te doare” , „Încercăm să te ajutăm”, „Ridică mâna
dacă ai înţeles”.
Hound vs. Siri vs. Google Now vs. Cortana
Recunoasterea cifrelor
scrise de mana
INTRODUCERE
• Recunoasterea
codurilor postale
Cale statistica
CARACTERISTICI STATISTICE:
• Raportul dintre pixelii negri si cei albi,
Cifra "1" are mai putin pixeli negri decat cifra "8" daca
sunt la aceiasi scara
• Raportul inaltime/latime pentru "0" este mai mic decat
cel pentru "6“.
• Se pot diferentia prin analiza proiectiilor integrale
(histograme).
• Imaginea binara a lui 8
• Se deseneaza 5 linii orizontale. Se inregistreaza numarul
de intersectii pentru fiecare linie.
• Se procedeaza la fel pe verticala...
• Se adauga numarul Euler (diferenta dintre numarul de
obiecte din imagine si numarul de gauri in obiect).
• Se calculeaza distanta dintre noul vector si cei 10
vectori constant.
• Distanta minima ne da cifra reprezentata de vectorul
constant.
Concluzii
• Probleme cu cifrele cu profil similar ‘4’ si ‘1’, ‘7’ si ‘1’, ‘6’
si ‘8’.
• NU este invariant la rotatii.
• Depinde de stilul de scris (cifre ciudat scrise ‘7‘ sau
zerouri incomplete).
• Zgomotul poate strica precizia de identificare.
Generarea de imagini
panoramice
Modele de miscare parametrice:
translatie Transformare afina perspectiva Rotatie 3D
Calculul Translatiei
Presupunere: Stralucire constanta
• Avand imaginile I1 si I2, se gaseste translatia
(u,v) care minimizeaza eroarea patratica
I1
I2
u
v
Ecuatiile de stralucire constanta
( ) ( )
dt
t
dy
y
dx
x
I
t
y
x
I +
+
+
= ,
,
,
,
( ) dt
t
I
dy
y
I
dx
x
I
t
y
x
I


+


+


+
= ,
,
Serie Taylor de ordin 1
0
=
+
+ dt
I
dy
I
dx
I t
y
x
Notatii simplificate:
Imparte cu dt:
dt
dx
u =
dt
dy
v =
t
y
x I
v
I
u
I −
=
+
Lucas Kanade (1981)
t
y
x I
v
I
u
I −
=
+   t
y
x I
v
u
I
I −
=






b
A =
u

Scop: Se minimizeaza
2
u b
A −

( ) b
A
A
A T
T 1
u
−
=

Metoda celor mai mici patrate
Estimare Multi-Scala
image It-1 image I
Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1
imagine It+1
imagine It
u=10 pixeli
u=5 pixel
u=2.5 pixeli
u=1.25 pixeli
Estimare Multi-Scala
image It-1 image I
Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1
imagine It+1
imagine It
Lucas-Kanade
Lucas-Kanade
intinde & esantioneaza
.
.
.
Stabilizarea de Imagini
I1
I2
u
v
I2
u
I1
Image Stitching
I1
suprapunere
I2
Image Stitching
Estimarea Distantei
Introducere
• Estimarea distantei se poate face cu un
dispozitiv activ cum ar fi radarul sau
laserul
• Dezavantaje:
– Scump
– Se compromite pozitia celui ce masoara in
scenariu militar
– Hardware dedicat
Introducere
• Se pot folosi doua camere digitale pentru
a triangula pozitia obiectului si a estima
distanta dintre planul camerelor si obiect.
• Avantaje:
– Se fac doar prelucrari de imagini.
– Solutie ieftina, sunt necesare doar doua
camere.
– Poate fi implementat cu 2 camere foto si
software.
– Dezavantaj: acuratete mai redusa
Configuratia sistemului
Camera’s
Focal Length
Camera’s
Diameter
Unghiul de vedere
Distanta
Area Congruenta
arctan
2
i
i
i
D
F
 =
1

2

Doua imagini diferite ale aceluiasi
obiect
User selection
R
D
Calcule
1
 2


1

1 2
1 2
tan tan
2 2
tan tan
2 2
D
R
p p
 
p p
 
   
−  −
   
   
= 
   
− + −
   
   
Rezultate
Eroare
Distanta
Estimata
Distanta Reala
Distanta intre
camere
2.028
177.972
180
80
178.235
721.765
900
110
18.359
271.641
290
116
9.056
355.944
365
220
2.45
797.55
800
270
1.606
667.394
669
270
Recunoasterea numerelor de
inmatriculare
1.Gasirea placii cu
numarul de
inmatriculare
2. Gasirea si
reprezentarea cifrelor
si literelor
3. Potrivire
1.Gasirea placii cu numarul
de inmatriculare
• Eliminarea culorilor
improbabile.
Gasirea Cifrelor
• Gasirea muchiilor
• Segmentarea de culoare
• Muchii inlantuite.
• Orientare
Gasirea Cifrelor
• Urmarirea muchiilor in
sensul acelor de
ceasornic pana in
momentul intoarcerii in
punctul de pornire.
• Medierea pe linii de
segmente si marcarea
unui punct important cand
diferenta in grade
depaseste un anumit
prag
Curbele tangentiale
• Marcarea curbei in fiecare pixel.
• Interpolarea si normalizarea
• Re-Esantionarea
0 200 400 600 800 1000 1200
0
20
40
60
80
100
120
140
160
180
Arc Length
Absolute
Tangent
Degree
Comparison of '3' images
Potrivirea
• Se da un scor ridicat pentru curbele
tangente cu distanta mica.
• Trebuiesc investigate mai multe orientari
posibile.
Imbunatari posibile
• O segmentare mai buna
Sistem de detectie a
starii de somnolenta
Motivare
Un studiu din USA a aratat ca 37% din soferi au
admis ca au adormit cel putin o data la volan atunci
cand conduceau.
S-a estimat ca 1.35 milioane de soferi au fost
implicati in accidente in ultimii 5 ani din cauza ca au
adormit la volan.
Accidentele cauzate de somnul la volan sunt de
obicei accidente grave. Se combina viteza mare cu
reactia intarziata in caz de trezire brusca.
• Momentul accidentelor in care au fost implicati soferi intre
26 si 45 ani. Accidentele au fost cauzate de dormitul la
volan si nu de alcoolul consumat.
Motivare
• Accidente in SUA (1990-92):
O camera video filmeaza constant soferul
Un sistem de detectie analizeaza filmul
cadru cu cadru si determina daca ochii
soferului sunt inchisi sau deschisi.
Daca ochii sunt inchisi pentru mai mult
de 1/4 secunde (mai mult decat perioada
normala de clipit) atunci suna o alarma
care-l atentioneaza pe sofer.
• Sunt extrase cadre din film:
30 cadre
pe secunda
• Se aplica un detector de muchii pe fiecare cadru:
Detector de muchii Sobel
• Se aplica transformarea Hough circulara
pentru a detecta irisul (pe fiecare cadru):
Se marcheaza cu albastru
cercul detectat
• Se aplica transformarea Hough circulara pentru
a detecta irisul (pe fiecare cadru):
Implementare
• Daca nu se gaseste nici un iris in 8 cadre
consecutive – suna o ‘alarma’
Implementare
Concluzii
 Sunt necesare stabilirea de parametri care
pot varia de la video la video sau de
parametrii de inregistrare (praguri, raza
cerc).
 Solutia trebuie sa functioneze in real-time.
 Purtarea de ochelari (de orice tip) poate
duce la erori.
Recunoasterea dupa fotografia
urechii
Introducere
• Trasaturile urechii se folosesc de multi ani
in criminalistica
• Urechea adultului nu variaza prea mult in
dimensiuni odata cu trecerea anilor.
• Urechea are trasasaturi biometrice utile:
unicitate, universalitate, permanenta
Anatomia urechii
• Urechea nu are o structura aleatoare. Are
parti standard ca si alte trasaturi
biometrice, cum ar fi fata.
• Spre deosebire de fata umana, urechea
nu-si schimba expresia, nu poate fi
acoperita de make-up si are o culoare
constanta.
Sistem de recunoastere a urechii
Achizitie de imagini
Pre-Procesare si Detectie de
Muchii
Extragere de trasaturi
Clasificare in doua etape
Achizitia de Imagini
• Se face in aceleasi conditii de iluminare.
• Imaginile se iau de la o distanta de cel
putin 15 cm de ureche
• Imaginile trebuiesc luate cu grija pentru a
cuprinde forma externa a urechii
Pre-Procesare
• Se selecteaza ROI (regiune de interes)
prin segmentare.
• Imaginea color este convertita intr-o
imagine grayscale
Imagine in tonuri de gri
Detectie de muchii si binarizare
• Detectia de muchii si binarizarea se face
cu detectorul de muchii Canny
• Iesirea este o imagine binara cu valoare 1
pentru pixelii de pe muchii si 0 pentru
ceilalti pixeli.
Imaginea Grayscale si imaginea binara cu muchii detectate
 Se foloseste un filtru median ponderat
pentru eliminarea zgomotului
imagine cu si fara zgomot
Extragerea de trasaturi
• Trasaturile sunt extrase pentru toate
unghiurile
• Primele trasaturi se refera la forma
externa a urechii
• Alte trasaturi sunt gasite cu celelalte
muchii
• Se cauta cea mai lunga linie care poate fi
trasata avand capetele pe muchiile urechii
• Lungimea liniei este masurata folosind
distanta Euclidiana
Liniile Normale: liniile care sunt
perpendiculare pe linia maxima; o
divide in (n+1) parti egale, unde n este
un numar pozitiv.
Imagine cu linia maxima si liniile normale
Linia maxima m, liniile normale l1,l2,l3,…..,ln
Centrul liniei maxime este c.
P1,P2,P3,……,Pn sunt punctele unde
muchiile exterioare si liniile normale se
intersecteaza.
Primul vector este definit de (FV1):
FV1 = [θ1, θ2, θ3,…., θn]
Al doilea vector (FV2): punctele unde
muchiile urechii intersecteaza liniile
normale in afara de muchiile externe
Concluzii
• Recunoasterea urechii poate fi folosita
pentru identificare sau verificare.
• Anumite portiuni din ureche pot fi
acoperite de par. Acest lucru reduce
procentul de clasificare corecta.
• Nu se poate construi un sistem biometric
doar pe examinarea urechii, deoarece
unicitatea ei este moderata.
Identificarea dupa forma palmei
Aplicatii Comerciale
• Sistem de
identificare
bazat pe
imaginea palmei
Recunoasterea palmei
• Trasaturi: dimensiunile si
forma mainii, a degetelor
(dimensiune si lungime)
• Trasaturi: Ne focusam pe
partea interioara a palmei, pe
liniile din palma si forma
suprafetei palmei.
• Se distinge usor
• Este Permanenta
• Colectabilitate medie
• Acceptabilitate medie
• Universalitate medie
• Posibilitatea de pacalire este medie
114
Schema de recunoastere a palmei
Extragere de
trasaturi
Pre-procesare
imagine
Achizitie
imagine Clasificare
116
Achizitia de imagini
Un scanner cu inalta rezolutie
Imagine Degradata
Imagine originala
Preprocessing
• Transformare RGB - Gray
• Se obtine palma din imaginea mainii
Extragere de trasaturi
• Medie pe setul de antrenare
• Matricea de covarianta
• Vectori proprii si valori proprii
118

=

=

M
n
n
M 1
1

=


=
M
n
T
n
n
M
C
1
1
2
N
Potrivire
• Distanta Euclidiana
• Se foloseste un prag :
• Sub : ‘clasificat’
• altfel : ‘necunoscut’
• = 0.8
2
2
||
|| k
k 
−

=







Experimente si rezultate
• Pasi:
1- un set de imagini pentru persoane
cunoscute.
2- achizitie + pre-procesare + extragere de
trasaturi
3- Se utilizeaza metoda bazata pe ecuatii
algebrice
4- Testare
121
Recunoasterea amprentelor
122
Introducere
• Degetul actiona ca un sigiliu personal in China antica
• Henry,E.R(1900), Clasificare si folosirea amprentelor
• FBI (USA) (1924) 810,000 amprente.
Acum are peste 70 milioane de amprente si
1300 experti
123
Introducere
• Amprentele sunt:
Unice
Permanente
Universale
Recunoasterea amprentelor este o operatie
complicata din punct de vedere stiintific
Clase de amprente
Arcuri:
Apar arcuri mici in mijlocul amprentei.
Clase de amprente
Arcuri in forma de cort:
Arcul este mult mai mare si ascutit in centru.
Clase de amprente
Bucla stanga:
Clase de amprente
Bucla dreapta:
Clase de amprente
Spirala:
129
•
➢Detalii precise
terminatii bifurcatii
Creste Vai
130
Senzor
Extractor de
detalii
Potrivire de
detalii
Baza de date
Verificare vs. Identificare
Baza de date
Card
Magnetic
User
User
1:m Identificare
1:1 Verificare
User ID
131
Algoritm
•Subtiere
•Marcare de minutii
•Stergerea minutiilor false
Extractorul de minutii
Preprocesare
•Segmentare de imagini
•Imbunatatire de imagini
•Binarizare de imagini
Post-procesare
Extractorul de detalii precise:
132
Extractor de minutii- Segmentare
Estimare directioala
Prim plan: are o directie dominanta
Fundal: Nu are o directie globala
133
Segmentarea imaginilor
134
Preprocesare - Imbunatatire
135
Binarizarea amprentelor
136
➢O abordare posibila:
Adaptare locala
Valoarea nivelului de gri a fiecarui pixel g
daca g > Media(blocului de valori gri ,
g = 1;
Altfel g = 0
Binarizarea amprentelor
137
Extragere de minutii - Subtiere
138
Preprocesare:
0 1 0
0 1 0
1 0 1
0 0 0
0 1 0
0 0 1
Bifurcare
Terminatie
Extragerea de minutii
139
Extragere de minutii
140
Post-procesare
Stergerea minutiilor false:
Doua terminatii deconectate
distanta scurta
Aceiasi directie/ directie opusa
Doua terminatii pe creasta sunt
Prea apropiate
141
Post-procesare
Stergerea minutiilor false :
142
Potrivire de minutii
➢Reprezentare de minutii:
Mn ( Pozitie, Directie ß, Creasta asociata)
tgß = (yp-y0)/(xp-x0);
Xp = sigma(xi)/Lpath;
Yp = sigma(yi)/Lpath;
creasta
Minutie
x0 x1 x2 x3 x4 x5 x6
x
y
In general bifurcatiile si terminatiile crestei sunt consolidate
143
Algoritm de potrivire :
Potrivire de minutii
1. Pentru fiecare pereche de minutii se genereaza o
matrice de transformare
TM =
cos
sin
0
sin
−
cos
0
0
0
1







 x
y

xi_new
yi_new
i_new








xi x
−
( )
yi y
−
( )
i 
−
( )








=TM *
(x,y, )

(xi,yi, i)

144
Algoritm de potrivire :
Potrivire de minutii
Pentru orice doua minutii din imagini
diferite,
Daca ele sunt intr-o zona de dimensiuni
reduse si directiile lor sunt consistente
-> Sunt minutii potrivite
Scorul de potrivire =
Numarul(minutii potrivite)
Max(Numarul de minutii (I1, I2));
145
Algoritm bazat pe aliniere :
Potrivire de minutii
creasta
Minutie
x0 x1 x2 x3 x4 x5 x6
x
y
Directie crestei
146
Verificarea amprentelor
Indexul de evaluare a performantelor
FRR: False Rejection Rate
FRR = 2/total1
FAR: False Acceptance Rate
FAR = 3/total2
Total1 = m*(n+1)*n/2
Total2 = m*(m-1)/2
Acelasi
Deget
Program
(Da/Nu)
Deget
diferit
1 Da 2 Nu
3 Da 4 Nu
F10 F11 F12 F13 …F1n
F20 F21 F22 F23 …F2n
F30 F31 F32 F33 …F3n
Fm0 Fm1 Fm2 Fm3 …Fmn
Recunoastere de IRIS sau
RETINA
– Irisul este banda colorata de tesut care
inconjura pupila ochiului.
– Retina este membrana subtire cu vase de
sange de pe fundul ochiului.
Recunosterea Irisului
Recunoasterea Irisului
• Se folosesc caracteristicile unice ale irisului
uman.
• Se foloseste o camera video care capteaza
imagini si foloseste un software pentru a
compara datele calculate cu cele inmagazinate
intr-o baza de date.
Anatomia ochiului
Iris
• Irisul este marginit de pupila si sclera (albul ochiului); Este mic
(11 mm)
• Textura vizuala a irisului se stabilizeaza in primii doi ani de viata
• Fiecare iris este unic; chiar si irisul gemenilor este diferit
Avantajele recunoasterii dupa iris
• Se crede ca este stabil intreaga viata
• Forma nu este determinata genetic
• Este puternic protejat, rareori ranit sau
schimbat
• Procedura este neinvaziva
• Dimensiunea template-ului este mica
• Procesul de codare si potrivire este
rapid.
• Lumina Vizibila
– Straturi vizibile
– Mai putina textura
– Melamina (pigment)
absoarbe lumina vizibila
• Lumina in infrarosu
– Melamina reflecta mult
lumina in infrarosu
– Mai multa textura este vizibila
– Este preferata in sistemele
de recunoastere a irisului
Imaginea irisului in infrarosu
In lumina infrarosie chiar si ochii de culoare intunecata au o
textura bogata
Dispozitive de captare
• Sistemele de
recunoastere a irisului din
UAE (17 aeroporturi,
porturi sau puncte de
frontiera).
• 3.8 miliarde de comparari
in fiecare zi. O potrivire se
face in mai putin de o
secunda
Frequent Flyers sunt inclusi in "Privium“ la aeroportul
Schiphol Airport (NL); pot intra fara a prezenta
pasapoartele.
• Gerhard Schroeder a testat sistemul din
aeroportul din Frankfurt.
Locatarii blocurilor din Tokyo intra in cladiri pe baza
examinarii irisului, liftul fiind chemat automat si-i
duce la etajul la care locuiesc.
United Nations High Commission for Refugees dau bani
refugiatilor care se intorc in Afghanistan si accepta
aceasta forma de identificare. Mai mult de 350,000 de
persoane au folosit acest sistem.
Reprezentarea Irisului
• Daugman
– Gabor Demodulation (PAMI 1993)
• Lim, Lee, Byeon, Kim
– Wavelet Features (ETRIJ 2001)
• Bae, Noh, Kim
– Independent Component Analysis (AVBPA
2003)
• Ma, Tan, Wang, Zhang
– Key local variations (IEEE TIP 2004)
Metoda Daugman
• J. Daugman, “Statistical Richness of Visual Phase Information:
Update on Recognizing Persons by Iris Patterns”, International
Journal of Computer Vision, 2001.
• J. Daugman, “Biometric Personal Identification System Based On
Iris Analysis”, US Patent 5291560, 1994
Se detecteaza limitele curbiliniare
Variatii Intra-clase
Dilatarea pupilei
(modificari de
iluminare)
Inconsistenta
dimensiunii irisului
(distanta fata de
camera)
Rotatia
ochiului
(aplecarea
capului)
Stabilirea sistemului de
coordonate
Centrul irisului si al pupilei coincid Centrul irisului si al pupilei nu coincid
Se trece in coordinate polare
• Se compenseaza dilatarea pupilei si inconsistentele de dimensiune
prin producerea unei reprezentari invariante la translatie
• Acest model nu compenseaza inconsistentele datorate rotatiilor ,
dar se pot alinia prin deplasarea in directia θ.
Ilustrare 1D a procesului de codare
Un total de 2,048 biti, adica
256 bytes sunt extrase din
imaginea irisului
http://www.cl.cam.ac.uk/user
s/jgd1000/
Exemple de codare a unui Iris
Iris Patterns”, International Journal of Computer Vision, 2001.
Potrivirea de coduri de Iris
• Comparatia este efectuata prin calcului distantei
Hamming dintre doua coduri de 256-bytes
• Distanta Hamming dintre un cod X si unul Y este suma
bitilor diferiti (suma de exclusive-OR dintre ei) impartita
cu N, numarul total de biti din pattern.
N=2,048 (256 x 8) daca nu exista ocluziune in iris. Daca exista,
numai regiunile valide de iris sunt folosite pentru calcului distantei
Hamming
* Daugman, J. ,"High confidence visual recognition of
persons by a test of statistical independence." IEEE Trans.
on PAMI, 1993
Distanta Hamming
• Daca pattern-urile provin de la acelasi iris,
distanta Hamming trebuie sa fie aproape 0
datorita corelatiei mari.
• Pentru a compensa inconsistentele rotationale,
un template este shiftat stanga sau dreapta si
sunt calculate distantele Hamming.
• Cea mai mica distanta Hamming este selectata
si corespunde celei mai bune potriviri intre cele
doua template-uri.
Ilustrare a potrivirii prin shiftare
http://www.cl.cam.ac.uk/users/jgd1000/
Peste 5 trilioane comparatii fara nici o eroare in 2007 !
Limitari
• Utilizatorul trebuie sa coopereze; trebuie sa stea la o
distanta predeterminata in fata camerei foto
• Costul unui sistem performant este relativ mare
http://news.bbc.co.uk/1/hi/uk/1816221.stm
Limitari
• Calitatea imaginilor poate fi proasta
• Scanarea irisului poate da gres in pana la 7% in cazul
ochilor inlacrimati, a sprancenelor lungi sau a lentilelor
de contact.
Ocluzii
(pleoape/gene) Defocus blur Pupile largi
Limitari
• Irisul se poate schimba in timp (boli ale ochilor).
– Mai mult de 200,000 operatii de cataracta sunt efectuate in fiecare an in
UK
– Aproape 60,000 de oameni din UK au Nystagmus (tremur accentuat al
ochilor)
– Aproape 1,000 oameni din UK au Anaridia (n-au iris)
• Oameni orbi nu pot fi identificati correct.
Operatie
cataracta
hyphaema(blood
clot)
iridodialysis
Detectie Anti-Spoofing
• Lentile de contact sau fotografii ale irisului altor persoane
pot fi folosite pentru pacalirea sistemului
Diferenta dintre un iris real si unul printat
Imprimanta matriciala genereaza 4 puncte de energie in planul
Fourier; Irisul natural nu genereaza asa ceva.
Dezavantajele folosirii irisului
pentru identificare
• Tinta mica (1 cm) ce trebui fotografiata de la
distanta (1 m)
• Tinta mobila ... in interiorul alteia
• Localizata in spatele unei suprafete curbate,
umede si reflectate
• Astupata partial de pleoape, gene, lentile,
reflectii
• Se deformeza pe masura ce pupila isi schimba
dimensiunea
• Iluminarea nu trebuie sa fie prea intensa sau
vizibila
• Conotatii negative (Orweliene)
Retina
Retina
• Retina este o membrana subtire cu celule in spatele
globului ocular al vertebratelor.
• Este partea ochiului care converteste lumina in semnale
pentru sistemul nervos.
• Retina nu detecteaza doar lumina, joaca un rol
determinant si in perceptia vizuala.
• In timpul dezvoltarii embrionale retina si nervul optic apar
drept excrescente ale creierului.
• Structura unica a vaselor de sange din retina permite
utilizarea pentru identificarea biometrica.
To brain
Retina are celule sensibile la lumina.
Ele se conecteaza direct la creier.
Rods sense
brightness
Cones
sense color
Sisteme de recunoastere retinala
• Se directioneaza lumina in infrarosu de intensitate
redusa pentru a captura caracteristicile unice ale retinei
• Se capteaza si se analizeaza forma vaselor de sange.
• Fiecare ochi are un pattern unic; chiar si ochii gemenilor
au patern diferit. Desi aceasta forma este stabila in
timpul vietii, poate fi totusi modificata de anumite boli
cum ar fi : glaucoma, diabet, hipertensiune etc.
Sisteme de recunoastere retinala
• Este unul dintre cele mai bune sisteme biometrice.
• Totusi este considerata drept neconvenabila si intruziva.
Nu este in general acceptata de utilizator.
• Sunt probleme cu orbii si persoanele cu cataracta.
• Faptul ca retina este mica, interna ochiului si dificil de
masurat face fotografiatul destul de problematic.
Individul trebuie sa stea cu ochii foarte aproape de
aparatul de scanare a retinei, sa se uite direct in lentila,
sa ramana focusat si sa nu se miste atunci cand o
lumina puternica ii scaneaza ochiul dintr-o parte in alta.
• Orice miscare poate interfera cu procesul de achizitie si
poate necesita uneori o re-startare. O scanare dureaza
mai mult de un minut. Template-ul generat are doar 96
bytes, fiind unul dintre cele mai mici din toate tehnologiile
biometrice.
• Este una dintre cele mai precise tehnici biometrice si
este folosita in controlul accesului in institutii militare si
guvernamentale cum ar fi facilitati cu armament nuclear
sau de cercetare secreta.
• Este totusi una dintre cele mai putin utilizate tehnici
biometrice datorita efortului si cooperarii intense din
partea utilizatorului.
Sisteme de recunoastere retinala
Ce este regresia liniara?
• Este una dintre metodele cele mai de bază
pentru modelarea datelor liniare.
• Este doar o linie!
• Aproape orice alt model din machine
learning folosește drept nucleu o formă de
regresie liniară (sau proprietăți de
liniaritate) - chiar și cele mai complexe
rețele neuronale.
Ce este regresia liniara?
• În timp ce este un model simplu, are
putere generalizatoare.
• Ideea de bază în spatele regresiei liniare
este de a găsi cea mai bună linie între un
set de puncte.
• Exemplu: Să luăm câteva date despre
case. Obiectiv: să prezicem prețul unei
case, pentru case nevazite incă.
Ce este regresia liniara?
• În timp ce este un model simplu, are
putere generalizatoare.
• Ideea de bază în spatele regresiei liniare
este de a găsi cea mai bună linie între un
set de puncte.
• Exemplu: Să luăm câteva date despre
case. Obiectiv: să prezicem prețul unei
case, pentru case nevazite incă.
Ce este regresia liniara?
• Regresia liniară încearcă să găsească
w și w’ astfel încât linia y' = wX + w’
este cea mai potrivită pentru datele
furnizate.
Ce este regresia liniara?
• Găsirea liniei de regresie optimă
înseamnă optimizarea funcției de
pierdere dintre valorile prezise y’ și
valorile reale y:
Ce este regresia liniara?
Ce este regresia liniara?
• Diferența dintre valoarea observată a
variabilei dependente (y) și valoarea
prezisă (y') se numește reziduul (e).
Ce este regresia liniara?
• Eroarea se calculeaza in fiecare punct
• Eroarea pe intreg setul de date se
calculeaza astfel
• Eroare patratica medie (MSE) →
penalizeaza erorile mari
Tipuri de corelatie
• Panta pozitivă indică o corelație
pozitivă, panta negativă indică o
corelație negativă, iar o pantă apropiată
de 0 indică faptul ca nu exista nicio
corelare.
• Corelația pozitivă înseamnă că dacă
mărim valoarea unei variabile, cealaltă
variabilă crește și ea. În mod similar,
corelația negativă înseamnă că dacă
creștem valoarea unei variabile, cealaltă
variabilă isi scade valoarea.
Tipuri de corelatie
Tipuri de corelatie
• Există de fapt un număr între -1 și 1 care
ne spune cât de corelate sunt două
variabile. Acest număr se numește
coeficient de corelație Pearson
• An de vanzare : luna de vanzare : risc
seismic
• [0.98472113] [0.00033827] [-0.99273222]
Exemplu polinomial
Exemplu polinomial
Exemplu polinomial
Exemplu polinomial
• Trebuie sa potrivim un polinom cu
datele noastre!
• Aceasta este încă regresia liniară -
modelul este liniar în coeficienți, nu în
caracteristici.
Exemplu polinomial
• În acest caz, avem o regresie liniară
multivariată, care este în esență aceeași cu
regresia liniară simplă, dar în dimensiuni mai
mari. Când avem mai multe funcții, încercăm
să potrivim un hiperplan care descrie cel mai
bine datele noastre.
• Funcția de pierdere este aceeași
Exemplu polinomial
Exemplu polinomial
Exemplu polinomial
Exemplu polinomial
Exemplu polinomial
Overfitting si underfitting
Overfitting-ul poate fi o problemă dacă eroarea de
antrenament este mult mai mică decât eroarea de validare
Overfitting si underfitting
Când nu avem suficiente date și / sau dorim o evaluare mai
robustă a modelului nostru, putem să folosim K-Fold Cross-
validation. Impărțit datele în segmente de dimensiuni egale și
antrenam modelul de k ori, de fiecare dată lăsând un segment
pentru testare. Precizia medie este precizia finală a modelului.
Ce este clasificarea?
• Dacă într-o regresie am avut unele
caracteristici X și niște valori țintă y, a
trebuit să facem un model care să prezică
noile y care sunt cât se poate de apropiate
de y - ul inițial. În acest caz, variabila țintă
este continuă.
• Problemele de clasificare sunt diferite.
• Să luăm în considerare acest set de date
cu două blob-uri și să încercăm să facem
niște predicții.
• Variabila țintă y are numai două valori:
{0,1}. De data aceasta potrivim un hiperplan
prin intermediul datalor si reprezentam
folosind culori.
• După ce am potrivit modelul nostru, pentru
a obține clasele spunem că dacă un punct
are o predicție mai mică de 0,5, considerăm
că acesta este de clasa 0 și dacă un punct
are o predicție de peste 0,5, atunci îl
considerăm aparținând clasei 1.
Regresie logistica
• 0,5 nu reflectă o probabilitate. De fapt, este
arbitrar, iar modelul nostru de regresie nu este în
niciun fel legat de probabilități. O modificare a
modelului de regresie logistica.
• Regresia logistică se bazează pe funcția
sigmoidă. Sigmoida este o funcție care poate fi
interpretată ca o distribuție a probabilității
cumulative.
• Este doar un model liniar cu o sigmoida deasupra
lui. (95% acuratete pe exemplul considerat)
• Alt exemplu:
~85%
• De ce nu merge?
• De fapt, regresia logistică nu functioneza
corespunzator in clasificarea acestor
puncte, deoarece acestea nu sunt
separabile liniar. Asta înseamnă că nu
există o linie dreaptă care să poată separa
punctele.
• Deoarece regresia logistică este un model
liniar, am putea să încercăm să aplicăm un
polinom.
• Ce grad ar trebui sa aiba polinomul?
~96%
Metoda vectorilor suport (SVM)
• Medoda vectorilor support reprezinta unul
dintre cele mai puternice modele de învățare
automată. De la inventarea sa în anii 80, a
depășit aproape toate tipurile de modele,
până când a fost depășită de rețele
neuronale în anii 2000.
• Funcționează prin găsirea celui mai mare
decalaj dintre clase și stabilind o granita de
decizie (care este o linie) astfel încât să fie
cât mai departe de puncte. În acest fel, este
foarte rezistenta la suprainvatare.
Metoda vectorilor suport (SVM)
• Ce sa facem?
• Introducem un kernel. Se transforma intr-un alt spatiu în
care este posibila separarea liniara (cu un plan).
• De fapt, când am aplicat caracteristici polinomiale datelor
noastre, am aplicat un astfel de kernel, astfel încât să
putem separa mai ușor clasele. Lucrul într-un spațiu de
dimensiune mai mare este uneori mai ușor.
Retele neuronale
Deep Learning
Istorie
Retelele neuronale sunt inspirate din
sistemele neuronale biologice
Domeniul retelelor neuronale a stagnat dupa publicarea
unui articol de catre Minsky si Papert (1969). Ei au
descoperit doua probleme fundamentale cu modelul
computational folosit.
Prima problema a fost ca reteaua cu un singur strat nu este
capabila sa rezove un XOR (exclusive OR).
A doua problema: computerele nu erau sufficient de
puternice pentru rularea indelungata ceruta de retelele
neuronale mari.
Un moment de cotitura
ImageNet Large Scale Visual Recognition Challenge
Un moment de cotitura
Principala utilitate a retelelor neuronale artificiale
este capacitatea de a aproxima o functie din
observatii si de a le folosi.
State-of-the-art
State-of-the-art
DeepMind Alpha Go (Video)
State-of-the-art
DeepMind AlphaStar (Video)
Predictiile devin neliniare si
sunt bazate pe date de
dimensiuni mari
Se extrag trasaturi in mod
automat
Se combina, unesc si se ignora valori de intrare pentru cele mai bune performante
Pot invata din mai multe
date
Performantele nu se aplatizeaza asa de usor
Structura
Inspirate din biologie
Doar inspirate. Neuroni, Sinapse, Activari.
Structura unei retele
neuronale
O retea neuronala cu 1 strat ascuns - perceptron
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
Input
Layer
Hidden
Layer
Output
Layer
Forward Propagation
Forward Propagation
Source: 3Blue1Brown
Forward Propagation
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
w1=0.2
B1 = 0.3 Target: 0.2
0.3
0.4
Focus pe un neuron.
Input 1
(i1)
Input 2
(i2)
Hidden 1
(h1)
w1=0.2
B1 = 0.3
0.3
0.4
h1 = i1*w1 + i2*w2 +
b1
h1 = 0.3*0.2 + 0.4*0.1 + 0.3 =
0.4
Surprinzator de aproape de target
Hidden 1 = 0.4, Hidden 2 =0.59, Output 1 = 0.198
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
w1=0.2
B1 = 0.3
Target: 0.2
0.3
0.4
B2 = 0.3
Functii de activare
Tipuri de functii de activare
Integrare de ne-liniaritate
[0 1]
[-1 1]
Valorile negative sunt inlocuite cu 0
Antrenare si functii de pierdere
Secventa de antrenare
1. Initializeaza ponderile si deplasarile
2. Se aplica o intrare
3. Forward Propagate
4. Se cuantifica rezultatul
5. Ajustarea ponderilor si deplasarilor
6. Se face acest lucru pentru fiecare intrare si fiecare epoca
7. Eventual se opreste antrenarea
Functie de pierdere
Functii Cost, Functii obiective, Functii de eroare, Functii de energie
Valoare Prezisa Valoare dorita MAE MSE
14 16 2 4
● Functii de pierdere:
○ Regresie
■ Mean Absolute Error
■ Mean Squared Error
○ Clasificare
■ Cross-entropy
■ ...
Backpropagation
Metoda Backpropagation schimba fiecare parametru pentru a minimiza
pierderea globala.
Parameter
Loss
Backpropagation
Parameter
Loss
Backpropagation
Parameter
Loss
Backpropagation
Parameter
Loss
Backpropagation
Parameter
Loss
Backpropagation
Parameter
Loss
Backpropagation
Parameter
Loss
Interpretabilitate
Interpretabilitate-Acuratete
Probleme comune
Problemele simple cer solutii
simple
When the only thing you have is a hammer, everything looks like a nail.
Flash Quiz
Care este cel mai bun model?
A B C
Overfitting
Principala cauza a performatelor slabe in machine learning.
● Overfitting-ul conduce la modele proaste.
● Overfitting apare cand modelul invata setul de antrenare foarte bine, dar are performante
slabe pe date noi.
● Sa clasificam un punct nou
● Punctul nou este verde, dar modelul il clasifica
drept albastru.
● Stim ca modelul este suprantrenat cand scorul pe
setul de antrenare este mult mai mare decat pe cel
de test.
Overfitting pe grafic
Cum se previne
suprainvatarea?
● Se antreneaza cu mai multe date.
Datele trebuie sa fie curate si relevante.
● Se folosesc retele mai mici.
Uneori modelele mai complicate au scoruri mai mici.
● Regularizare.
● Cross Validare
● Oprire timpurie
● Dropout
● Data augmentation
Cross-validation
● Cross validation (k-fold cross validation) este o metoda de antrenare unde se imparte setul de date in
k sub-seturi. Fiecare sub-set se foloseste pentru test, iar celelalte pentru antrenare
Early stopping
● Se stopeaza antrenare cand functia de loss nu mai scade.
Dropout
● Dropout se refera la renuntarea la unii neuroni.
● In timpul antrenarii, anumite parti ale retelei sunt ignorate pe durata
propagarii inainte si inapoi.
● In dropout se seteaza un parametru ‘p’ → probabilitatea nodurilor
retinute
Data augmentation
● Sunt variatii ale intrarii originale
Underfitting
A doua cauza a performantelor slabe machine learning.
● Se intampa cand modelul nu poate captura tendinta implicita a datelor (este prea
simplu).
Solutii:
● Se creste dimensiunea modelului
● Se folosesc mai multe date relevate.
Cresterea eficientei.
Gradient Descent
● Gradientul desscrescator este foarte complex deoarece are
nevoie de tot setul de antrenare iar apoi se modifica gradient.In
majoritatea cazurilor se ajunge intr-un minim local.
● Stochastic Gradient Descent nu updateaza dupa fiecare intrare.
Se produc iesiri zgomotoase.
● Mini Batch Gradient Descent este o combinatie a celor doua
mentionate mai sus. Ia un lot de intrari si updateaza ponderile.
Se accelereaza antrenarea si se paote ajunge la minimul global.
Batch Gradient Descent
● Se impart datele in loturi.In general nu se poate antrena pe tot setul (doar daca
memoria este gigantica).
Istorie Proiect de vara
Detectia muchiilor
Segmentarea imaginilor
Competitia IMAGENET
Task-uri de Computer Vision:
Clasificare
Intrare
Imagini
Iesire
Etichete
Task-uri de Computer
Vision: Detectie
Intrare
Imagini
Iesire
Etichete,
Dreptunghi de
delimitare
Task-uri de Computer Vision:
Recunoastere
Intrare
Imagini
Iesire
Etichete
Task-uri de Computer Vision:
Segmentare
Intrare
Imagini
Iesire
Etichete, Masti
Task-uri de Computer
Vision: Reducere de
zgomot
Intrare
Imagine zgomotoasa
Iesire
Imagine fara zgomot
Task-uri de Computer
Vision: Inpainting
Intrare
Imagine, Masca
Iesire
Imagine
reconstruita
Task-uri de Computer Vision:
Super-rezolutie
Intrare
Imagine
Iesire
Imagine la o
rezolutie mai
mare
Task-uri de Computer
Vision: Transfer de stil
Intrare
Imagine
Iesire
Imagine cu alt stil
Task-uri de Computer Vision:
Colorizare
Intrare
Imagine Grayscale
Iesire
Imagine Color
Ce ati folosi pentru a sterge o anumita portiune a unei
imagini?
A) Denoising
B) Inpainting
C) Super-rezolutie
D) Transfer de stil
Trasaturi Spatiale
● Imaginile contin trasaturi spatiale
care au impact mare asupra
scorului de predictie.
● Daca aplatizam si folosim pixelii
imaginii intr-o retea densa
aceaasta nu poate invata toata
informatia.
● Trasaturile spatiale sunt importante
pentru o buna predictie.
Foarte multi parametri
● Retelele dense sunt conectate total, adica fiecare neuron
dintr-un strat este conectat la toti neuronii din stratul
superior. Daca doua straturi consecutive au 1000 neuroni,
sunt 1000000 ponderi de antrenat!
● Fie o imagine color 64x64 (imaltime, latime in pixeli)
● Dimensiunea intrarii retelei neuronale este 64x64x3 =
12288.
● Avem de antrenat 12288 ponderi pentru primul strat ascuns,
daca acesta are doar un neuron.
● Fie o retea neuronala profunda cu 10 straturi cu o imagine
640x480 cu 1000 neuroni→12288 * 1000 + 9 * 1000000 =
21288000 ponderi!
Retele Neuronale Convolutionale
Convolutional Neural Networks
● Fiecare pixel are o valoare intre 0-255 :
○ Rosu
○ Verde
○ Albastru
Structura CNN-ului
Straturile Convolutionale
Reducerea numarului de ponderi si imbunatatirea performantei.
Trasaturile imaginilor
Exemple:
● Muchii
● Culori
● Forme
Procesul de convolutie
● Se foloseste de obicei o matrice 3x3
Care sunt efectele?
● Reducerea numarul de ponderi
pentru antrenare
● In functie de valorile matricei
se obtin diferite harti de
trasaturi.
● Convolutia cu matrici diferite
poate fi folosita pentru
detectarea de trasaturi
interesante.
● Convolutia pastreaza relatia
spatiala intre pixeli prin
invatarea caracteristicilor
imaginii
Cum se reprezinta
convolutiile?
Pasi
● Pasii dicteaza cum mutam matricile de convolutie
Pas 1
Pasi Pas 2
Adaugarea de zerouri
● Adaugarea de zerouri pentru a largi
imaginea Adaugarea de zerouri
Calculul iesirii
● Dimensiunea filtrului- K
● Pas - S
● Adaugarea de zerouri - P
● Imagine intrare
Functia de activare a
straturilor de convolutie
● Trebuie introdusa o neliniaritate in
model
● ReLU → se anuleaza valorile
negative
ReLU
Straturi de agregare
● Agregarea este un process simplu de reducere a
dimensionalitatii hartii de trasaturi
● Scopul principal este reducerea numarului de
parametri retinand totusi cele mai importante
trasaturi
3 tipuri de agregare:
1. Max Pooling
2. Average Pooling
3. Sum Pooling
Straturi de agregare
Straturile conectate total
● Toate nodurile dintr-un strat sunt
conectate la iesirile stratului
urmator
● Se poate folosi un strat de
aplatizare pentru ca ultima matrice
sa devina un vector.
Baze de date populare in Computer
Vision
MNIST
CIFAR
ImageNet
Modele populare in Computer Vision
Inception ILSVRC 2014
Winner
VGG ILSVRC 2014
Runner-up
ResNet ILSVRC 2015
Winner
MobileNet
Autoencodere
Arhitectura
Autoencoderelor
Denoising
Procesarea Audio
• Anularea activa a zgomotului
– Castile folosite de piloti
• Efecte audio digitale
– Adaugarea de efecte speciale muzicale:
intarziere, ecou, reverberatie etc.
• Separarea semnalelor audio
– Separarea semnalului vocal de interferente
– Reducerea zgomotului produs de vant din
muzica ascultata in masina
• melodie originala
• Efecte audio bazate pe filtrare
• efect de ecou
• efect de intarziere variabila in timp
• efect de intarziere fara feedback
• efect de cor: timpul de intarziere variabil este
obtinut dintr-un zgomot filtrat TJ
• melodie originala
• Efecte audio bazate pe reverberatie
• bass de tobe
• efect de reverberatie
• efect de reverberatie pentru bass de tobe
Prelucrari Audio
• Aplicatii:
• Efecte de saturatie
• Filtre
• Repetoare
• Egalizoare
Efecte de Saturatie
• Distorsiune
• Overdrive
• Fuzz
Efecte de Saturatie
• Efectul Overdrive este
cel mai comun, si este
tipic pentru
amplificatoarele clasice
Marshall.
• Se imita sunetele calde
date de tuburi
• Tipic pentru muzica
anilor 70
Efecte de Saturatie
• Distorsiuni mai
puternice decat
Overdrive
• Caracteristic
muzicii anilor 80
• Fuzz
• Concentrat mai
mult pe bas și
înalte.
Modulatii si repetitii
• Sound on sound
• Controlul intarzierii
prin pedala
• Tempo-ul potrivit
cu ritmul
• Efect de cor
Alte efecte
• Wah Effect
• Acesta este un filtru
trece-jos cu frecvență
variabilă cut - off.
Această frecvență
este schimbata cu o
pedala (oscilator
automat )
Watermarking
• Audio watermarking:
acest mesaj va fi
inclus intr-un semnal
audio folosind
modulatia cu spectru
imprastiat si apoi este
recuperata din
semnalul modulat.
• Semnal original
• Iudko wa|ebmarkimg:
acest meSaj va fi
inclus intruN semna|
`udio folosiNd
modulatia cu spdctr}
impras}iat si`apoh
este re#uperat!%din
semnAlul modulat.
Watermarking
Watermarking
Distributie bimodala
Watermarking
Watermarking
• Audio watermarking:
acest mesaj va fi
inclus intr-un semnal
audio folosind
modulatia cu spectru
imprastiat si apoi este
recuperata din
semnalul modulat.
• Semnal original
• udio water}cvcyng:
acuwt$mesan va fi
inclus mntr%un semjal
autmo
folosind$modulADia ju
Spectru impristiat
si0apoi este
recwpeRata dil
qemnqlul mmdula|.
Watermarking
Watermarking
Watermarking
• Audio watermarking:
acest mesaj va fi
inclus intr-un semnal
audio folosind
modulatia cu spectru
imprastiat si apoi este
recuperata din
semnalul modulat.
• Semnal original
• Audio watermarking:
acest mesej va fi
inclus intr-un semnAl
audio folosind
modulatia cu spectru
imprastiat si apoi este
recuperata din
semnalul modulat.
Acustica
Teatrul in aer liber
Acustica
Teatrul in aer liber
Acustica
Teatrul in aer liber
Acustica
Teatrul in aer liber
Acustica
Panouri reflectoare
Acustica
Tavanul este reflector
Acustica
Tavanul este reflector
Acustica
Se folosesc
balcoanele
Concertgebouw(Amsterdam)
Symphony Hall (Boston)
Musikvereinsaal(Viena)
Konzerthaus (Berlin)
Albert Hall (Londra)
Royal Festival Hall (Londra)
Carnegie Hall (New York)
Tivoli Koncertsal
(Copenhaga)
Berliner Philarmonie (Berlin)
Parametri de calitate
Timpul de reverberatie
Acustica
Timpul de intarziere initial măsoară diferența de
timp dintre fasciculul direct și prima reflecție
semnificativa
• Acesta oferă o idee despre sentimentul de
" intimitate “ al salii
• Valoare recomandata: tI < 20 ms
Acustica
Acustica
Eficiența laterala
• Evalueaza proporția de sunete care vin din
partea laterala in fata
• Acesta oferă o idee privind “spatialitatea" salii
• Se recomanda o valoare mai mare de 0.19
Acustica
Acustica
Catedrala din York este cea mai mare catedrala gotica din UK si a fost
construita intre secolele 12 si 15. Are 160 m lungime, 76 m latime si 27 m
inaltime.
Acustica
Camera obisnuita
Shutter-ul este
deschis
Raskar, 2006
Shutter-ul este
inchis si deschis
Raskar, 2006
Joshi, 2010
Joshi, 2010
369
Detectie
Video din trafic
370
Detectie
Scaderea fundalului prin diferenta de cadre succesive
371
Detectia schimbarii
Metoda mediana aproximativa
372
Detectia schimbarii
Fundalul obtinut de metoda mediana aproximativa
373
Stabilizare video
374
Amplificarea Euleriana
375
Imbunatatirea calitatii imaginilor
376
Imbunatatirea calitatii imaginilor
377
Avantajele prelucrarii numerice fata de prelucrarea analogica :
• Din ce in ce mai multe semnale sunt transmise/depozitate in forma digitala si
este usor de prelucrat in aceasta forma.
• Sistemele DSP pot fi testate si proiectate in “simulatoare” folosind
echipament disponibil
• Acuratete garantata, pre-determinta de lungimea cuvantului si de frecventa
de esantionare.
• Reproductibilitate perfecta. Orice copie a unui sistem DSP va functiona la fel.
• Caracteristicile sistemului nu sunt afectate de driftul de temperatura sau de
imbatranirea componentelor
• Exista o tehnologie avansata a semiconductorilor.
• Sistemele DSP sunt flexibile si pot fi re-programate fara a schimba
hardware-ul. Produsele pot fi distribuite/vandute si updatate prin Internet.
• Tehnologia digitala VLSI este atat de avansata incat sistemele DSP pot
efectua operatii care ar fi imposibile sau extrem de dificile in forma
analogica. Doua exemple:
• (i) filtrarea adaptiva (parametrii filtrului digital sunt variabili si trebuie adaptati
in functie de caracteristicile semnalului de intrare
• (ii) Recunoasterea vorbirii (este bazata pe informatii obtinute prin filtrarea
numerica a semnalului vocal).
378
Dezavantaje ale prelucrarii numerice a semnalelor
• Sistemele DSP pot fi scumpe, mai ales in cazul semnalelor de banda
foarte larga, unde o conversie rapida analog/digital este necesara.
• Proiectarea de sisteme DSP poate cere foarte mult timp si este o
activitate complexa si specializata. Este nevoie de ingineri electronisti
cu astfel de cunostinte.
• Cerintele de putere ale acestor sisteme DSP pot fi foarte mari si nu pot
fi uneori folosite pe dispositive portabile cum ar fi telefoanele mobile.
Dispozitivele cu procesoare in virgule fixa consuma mai putin decat
cele in virgula mobila, dar programarea lor cere experienta.
379
• Anumite procese (de exemplu amplificarea, filtrarea si anumite tipuri de
modulatie pot fi considerate liniare.
• Procesele pot fi invariante in timp.
• Procesele care sunt liniare si invariante in timp sunt numite LTI.
• Sa consideram respunsul la impuls ale acestor sisteme LTI.
• Ele conduc la raspunsul in frecventa si la functia sistemului
•Acestea sunt obtinute folosind transformatele Fourier, Laplace si z,
toate avand legatura cu 'convolutia'.
• Aceste concepte ne permit sa:
(i) analizam efectele sistemelor LTI asupra semnalelor
analogice si digitale,
(ii) intelegem si sa folosim metode de proiectare pentru aceste
sisteme.
Intrebari ?
381
1. www.kahoot.it
2. Game PIN 1217690
3. Nickname
4. Play

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

curs1_PDS_2020.pdf

  • 1. 1 Prelucrari Digitale de Semnale Felix Albu
  • 2. 2 • Semnal: cantitate masurabila si variabila in timp a carei variatie, in mod normal, contine informatie. • Adesea este o tensiune (de exemplu cea preluata de la un microfon) • Se pot defini doua tipuri de semnal: • Continuu in timp (analog) • Discret in timp
  • 3. 2012 3 • Semnale Analogice: sunt functii continue de timp (t) masurate in secunde, si exista pentru toate valorile de timp in intervalul (-, +). • Exemple: (i) 5sin(62.82t) : sinusoida cu frecventa de 62.82 radiani/secunda (aproximativ 10 Hz)  0 : t < 0 (ii) u(t) =  functia treapta  1 : t  0 • Graficul lor ca functie de timp indica o continuitate a formei de unda : t Voltaj 0.1 -0.1 5 t Voltaj 1
  • 4. 4 • Semnale discrete in timp : exista numai in momente discrete de timp • Sunt deseori obtinute prin esantionarea unui semnal analogic prin masurarea valorilor in momente discrete de timp. • Punctele de esantionare sunt de obicei separate prin intervale egale de timp (de exemplu T secunde). • Fie semnalul analog x(t), x[n] = valoarea lui x(t) cand t = nT. • Procesul de esantionare produce o secventa de numere x[n] : { ..., x[-2], x[-1], x[0], x[1], x[2], ..... } • Secventa exista pentru toate numerele intregi n in intervalul (-,).
  • 5. 5 • Exemple de semnale discrete in timp : (i) {..., -4, -2, 0, 2, 4, 6, ....} o secventa definita prin formula x[n] = 2n. Esantionul corespunzator n = 0 are o importanta deosebita. (ii) { ..., -4.75, -2.94, 0, 2.94, 4.75, 4.76, ...} Secventa definita prin x[n] = 5 sin(62.82t) cu t=nT si T=0.01. (iii) { ..., 0, ..., 0. 0, 1, 1, 1, ..., 1, ...} secventa “treapta unitate”cu elementul n definit prin :  0 : n < 0 u[n] =   1 : n  0 • Graficul (i):
  • 6. 6 n x[n] 1 2 3 4 -3 -2 -1 2 - -2-
  • 7. 7 clear all; T = 0.01; % interval de esantionare (secunde) % Genereaza 80 esantioane a unei sinusoide de 10 Hz de amplitudine 5 % 5 sin(2*pi*10*t) cu t=nT pentru n=1,2, ... 200 for n=1:80 s(n) = 5 * sin(2 * pi * 10 * n * T); end; plot (s); Program MATLAB Genereaza si afiseaza 80 esantioane ale unei sinusoide : 0 10 20 30 40 50 60 70 80 -5 0 5
  • 8. 8 • Semnalele discrete in timp sunt deseori generate prin convertoarele analog digitale ADC. • Se obtin numere binare care reprezinta tensiuni sau curenti. • Acuratetea conversiei este determinata de lungimea cuvantului dispozitivului ADC, adica de numarul de biti disponibili pentru fiecare numar. • Cuantizarea: Procesul de trunchiere sau rotunjire al valorii esantionate la cel mai apropiat numar binar. • Rezultatul este o secventa de numere cuantizate numita semnal digital. . • Un semnal digital este un semnal discret in timp cu fiecare esantion digitizat
  • 9. 9
  • 10. 10 Prelucrari de semnal: • Semnalele analogice pot fi procesate prin circuite care contin rezistoare, condensatoare, bobine, tranzistoare si amplificatoare operationale • Semnalele numerice pot fi procesate folosind microcomputere sau hardware digital specializat. • Exemple de prelucrari : (i) amplificari sau atenuari : tensiunea formei de unda poate fi facuta mai mare sau mai mica. (ii) filtrari: se filtreaza anumite zone nedorite ale semnalului. (iii) rectificari: forma de unda devine pozitiva (de exemplu prin anularea valorilor negative). (iv) modulare: multiplicarea semnalului cu un alt semnal (de exemplu cu o sinusoida de inalta frecventa.
  • 11. 11 clear all; fs = 8000; %rata de esantionare in Hz T = 1/fs; % intervalul de esantionare (secunde) % Genereaza 10000 esantioane sinusoida de 500 Hz for n=1:10000 s(n) = 4000 * sin(2 * pi * 500 * n * T); end; % Scrie intr-un fisier binar OFid=fopen('newsin.pcm','wb'); fwrite(OFid, s, 'int16'); fclose('all'); Scrie un bloc de esantioane sinusoidale in MATLAB
  • 12. 12 clear all; %semnal vocal fs = 8000; % frecventa de esantionare in Hz IFid=fopen('operator.pcm','rb'); Inspeech = fread(IFid, 'int16'); %Proiectarea unui filtru numeric FIR fc = 1000; % frecventa de taiere in Hz [a b] = fir1(20, fc/(0.5*fs) ); freqz(a,b); %Filtrarea semnalului vocal Outspeech = filter(a, b, Inspeech); % Scrierea semnalului intr-un fisier OFid=fopen('newop.pcm','wb'); fwrite(OFid, Outspeech, 'int16'); fclose('all'); Filtrarea unui semnal vocal in MATLAB
  • 13. 13 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -1000 -800 -600 -400 -200 0 Normalized Frequency ( prad/sample) Phase (degrees) 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 -100 -80 -60 -40 -20 0 Normalized Frequency ( prad/sample) Magnitude (dB)
  • 14. 14 IFid=fopen('newop.pcm','rb'); speech = fread(IFid,'int16'); maxamp = max(abs(speech)); sound(speech/maxamp,8000,16); fclose('all'); Ascultarea unui semnal vocal in MATLAB
  • 15. 15 clear all; fs = 8000; % frecventa de esantionare in Hz IFid=fopen(’newsin.pcm','rb'); Insin = fread(IFid, 'int16'); %Rectificare full-wave for n=1:10000 Outsin(n) = abs ( Insin(n) ) ; end; % Scriere intr-un fisier OFid=fopen('newop.pcm','wb'); fwrite(OFid, Outsin, 'int16'); fclose('all'); Rectificarea unei sinusoide in MATLAB
  • 16. 16 Modulatie Generati 320 esantioane ale unei sinusoide de 50 Hz esantionate la 8 kHz si multiplicati cu o sinusoida de 1 kHz esantionata la 8kHz. Afisati forma de unda rezultata Simularea filtrarii unui semnal vocal in MATLAB O linie telefonica obisnuita tranmite frecventele dintre 300Hz si 3 kHz din semnalul vocal. Proiectati filtre TJ si TS care sa simuleze efectul restrictiilor de banda
  • 17. 17 clear all; fs = 8000; T=1/fs; for n=1:320 s50(n) = sin(2*pi*50*n*T); end; figure(1); plot (s50); for n=1:320 smod(n) = s50(n)*sin(2*pi*1000*n*T); end; figure(2); plot (smod); 0 50 100 150 200 250 300 350 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
  • 18. 18
  • 19. 19 % Solutie MATLAB Exercitiul 2 clear all; fs = 8000; % rata esantionare in Hz IFid=fopen('operator.pcm','rb'); Inspeech = fread(IFid, 'int16'); %Proiectarea unui FTB FIR fU = 3000; % frecventa superioara de taiere in Hz fL = 300; % frecventa inferioara de taiere [a b] = fir1(100, [fL/(0.5*fs) fU/(0.5*fs)] ); freqz(a,b); %Filtrare Outspeech = filter(a, b, Inspeech); % Scriere intr-un fisier OFid=fopen('newop.pcm','wb'); fwrite(OFid, Outspeech, 'int16'); fclose('all');
  • 20.
  • 21.
  • 22. Ton de 3300Hz suprapus intre 0. 2 secunde si 0.5 secunde
  • 23. 23 Filtru opreste banda intre frecventele 3200 si 3400 Hz. Filtru de tip eliptic de ordinul 5 avand riplul in banda de trecere 0.1 dB, riplul in banda de oprire de 60 dB
  • 24. 24
  • 25. 25 Aplicatii ale DSP-urilor: • Prelucrarea ’Real time' : •Un telefon mobil contine un procesor 'DSP' care este rapid si destul de puternic (de exemplu pentru a efectua operatiile matematice cerute de filtrarea semnalului vocal in timp ce semnalul este receptionat). • Prelucrarea ‘Non real time’ : • Un PC standard poate efectua prelucrari 'non-real time' pe inregistrarile de muzica si are nevoie de timp pentru a termina aceste prelucrari. • Prelucrarea “non real time” este extreme de folositoare (de exemplu comprimarea MP3). •Este folosita pentru simularea software-lui pentru procesoarele in timp real inainte de a fi incluse intr-un hardware specific. •Sistemele DSP simulate pot fi testate pe segmente de voce reprezentative pentru situatiile reale asteptate cand oamenii vorbesc la telefon
  • 26. 26 • Sistemele DSP in timp real sunt deseori implementate folosid microprocesoare in “virgula fixa” deoarece consuma mai putina putere si sunt mai ieftine decat dispozitivele in “virgula mobila”. •Un procesor in virgula fixa foloseste numere intregi si deseori lungimea cuvantului este restrictionata la 16 biti. •Overflow-ul (numerele care sunt prea mare pentru o reprezentare pe 16 biti) poate conduce la situatii dezastruoase pentru calitatea sunetului. • Daca incercam sa evitam posibilitatea depasirilor prin scalarea numerelor pentru a le micsora amplitudinea, am putea avea pierderi de precizie datorita cuantizarii. In acest caz eroarea de cuantizarea poate reprezenta un procent ridicat din valoarea esantionului. •Programarea unui procesor DSP in virgula fixa este o sarcina dificila. Un PC foloseste prelucrarea in virgula mobile cu lungimi ale cuvantului mai mari de 16 biti. •Din fericire este posibila simularea unei prelucrari in virgula fixa pe PC prin restrictionarea programului pentru aritmetica de intregi.
  • 27. Aplicatii in automatizari • Controlul industrial si automatizarea (de ex. Controlul vitezei si pozitiei unui obiect) • Se folosesc: – Solutia in domeniul timp a ecuatiilor diferentiale – Functii de transfer (Transformata Laplace) – Stabilitatea
  • 28. Aplicatii in Comunicatii • Transmiterea informatiei (semnal) pe un canal (in aer, cablu coaxial, cablu de fibra optica) • O componenta cheie a transmisiei: Modulatia (Comunicatii Analogice si Digitale)
  • 29. Modulatia Digitala • Se foloseste in telefonie mobila, fixa, etc. • Avantaje: – Poate fi criptata – Capacitate de inmagazinare – Multimedia
  • 30. Aplicatii ale procesarii de semnale • Procesare de semnale = Algoritmi care modifica semnalele pentru a le face mai utile. • Scop: – Transmisie eficienta, inmagazinare si afisare de informatie – Extragerea de informatie si imbunatatirea semnalelor
  • 31. Aplicatii Multimedia • Compresie: Transmisie rapida si inmagazinare de date • Aplicate semnalelor audio/ imagini/video pentru transmisie pe internet • Exemple: CD, DVD, MP3, MPEG4, JPEG • Metode matematice: Transformata Fourier, Cuantizare, Modulatie
  • 32. Exemplu JPEG 43K 13K 3.5K • JPEG foloseste Transformarea Cosinus Discreta (similara transformarii Fourier)
  • 33. Analiza semnalelor biologice • Exemple: – Semnale ale creierului (EEG) – Semnale cardiace (ECG) – Imagini medicale (raze X, MRI) • Scop: – Detectarea unor activitati anormale (infarct, lesin) – Ajuta in diagnosticarea bolilor • Se foloseste: Filtrarea, Transformarea Fourier etc.
  • 34. Exemplu • Undele cerebrale sunt in general contaminate de zgomot si dificil de interpretat
  • 35. 35 Sisteme biometrice de recunoastere Biometrie Comportamentale Fiziologice Amprente Forma palmei Fata Iris Geometria mainii Voce Keystrokes Semnatura ◼ Biometrie : folosirea automata a caracteristicilor fiziologice si de comportament pentru a verifica sau determina identitatea unei persoane
  • 38. • Stadiul actual •AT&T Bell Labs •Bolt, Beranek and Newman Inc. (BBN) - sistemul BYBLOS •Cambridge University (CU) – sistemul HTK, sistemul ABBOT •Carnegie-Mellon University(CMU) - sistemul SPHINX •IBM – sistemul IBM Via VOICE •Massachusetts Institute of Technology (MIT) •Microsoft – sistemul MS Speech Recognizer, etc. •Nuance Inc. – sistemul Dragon Naturally Speaking •Stanford Research Institute (SRI)
  • 39. Vorbire spontană Vorbire fluentă Vorbire prin citire Cuvinte înlănţuite 2 20 200 2000 20000 Fără restricţii Dimensiune vocabular (număr de cuvinte) Localizare cuvinte Cifre Cuvinte izolate Verificare vorbitor Comenzi vocale Apelare vocală Completare formulare Dialog om-maşină Dictare birou Transcriere vorbire Dialog controlat Conversaţie naturală Stilul de vorbire Coordonate ale aplicaţiilor de recunoaştere automată a vorbirii şi posibilităţile actuale (zona gri)
  • 40. PHRASELATOR • dispozitiv de traducere automată din limba engleză în alte limbi dezvoltat de DARPA. • Nevoia de asistenţă lingvistică a armatei americane în operaţiunile din Afganistan şi Irak după data de 11 septembrie 2001 a accelerat proiectarea sistemului. • folosit de către forţele armate americane în timpul operaţiunilor din Afganistan în 2002.
  • 41. Dispozitivul PHRASELATOR utilizat în aplicaţiile militare
  • 42. Dispozitivul PHRASELATOR utilizat în aplicaţiile militare
  • 43. PHRASELATOR • o bună fiabilitate demonstrată pe teren; • recunoaştere imediată a vorbirii independent de vorbitor fără a fi nevoie de o antrenare prealabilă; • la traducere foloseşte voce umană înregistrată şi nu voce sintetizată artificial, crescând inteligibilitatea frazelor redate; • formă compactă, portabilă, greutate scăzută; • durabilitate, rezistenţă la umiditate; • adăugarea cu uşurinţă de noi limbi pentru redare. Domeniile de aplicaţie ale acestui produs sunt foarte variate. Soldatii pot adresa prin intermediul dispozitivului în limba respectivă fraze de tipul „Nu intra în această zonă!”, „Arată-mi actele de identitate!”, „Ieşi din vehicul!”. În cadrul unei acţiuni umanitare, traduce fraze de tipul „Stai nemişcat!”, „Ai fost rănit”, „Indică locul care te doare” , „Încercăm să te ajutăm”, „Ridică mâna dacă ai înţeles”.
  • 44. Hound vs. Siri vs. Google Now vs. Cortana
  • 47. Cale statistica CARACTERISTICI STATISTICE: • Raportul dintre pixelii negri si cei albi, Cifra "1" are mai putin pixeli negri decat cifra "8" daca sunt la aceiasi scara
  • 48. • Raportul inaltime/latime pentru "0" este mai mic decat cel pentru "6“.
  • 49. • Se pot diferentia prin analiza proiectiilor integrale (histograme).
  • 51. • Se deseneaza 5 linii orizontale. Se inregistreaza numarul de intersectii pentru fiecare linie.
  • 52. • Se procedeaza la fel pe verticala... • Se adauga numarul Euler (diferenta dintre numarul de obiecte din imagine si numarul de gauri in obiect).
  • 53. • Se calculeaza distanta dintre noul vector si cei 10 vectori constant. • Distanta minima ne da cifra reprezentata de vectorul constant.
  • 54. Concluzii • Probleme cu cifrele cu profil similar ‘4’ si ‘1’, ‘7’ si ‘1’, ‘6’ si ‘8’. • NU este invariant la rotatii. • Depinde de stilul de scris (cifre ciudat scrise ‘7‘ sau zerouri incomplete). • Zgomotul poate strica precizia de identificare.
  • 56.
  • 57. Modele de miscare parametrice: translatie Transformare afina perspectiva Rotatie 3D
  • 58. Calculul Translatiei Presupunere: Stralucire constanta • Avand imaginile I1 si I2, se gaseste translatia (u,v) care minimizeaza eroarea patratica I1 I2 u v
  • 59. Ecuatiile de stralucire constanta ( ) ( ) dt t dy y dx x I t y x I + + + = , , , , ( ) dt t I dy y I dx x I t y x I   +   +   + = , , Serie Taylor de ordin 1 0 = + + dt I dy I dx I t y x Notatii simplificate: Imparte cu dt: dt dx u = dt dy v = t y x I v I u I − = +
  • 60. Lucas Kanade (1981) t y x I v I u I − = +   t y x I v u I I − =       b A = u  Scop: Se minimizeaza 2 u b A −  ( ) b A A A T T 1 u − =  Metoda celor mai mici patrate
  • 61. Estimare Multi-Scala image It-1 image I Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1 imagine It+1 imagine It u=10 pixeli u=5 pixel u=2.5 pixeli u=1.25 pixeli
  • 62. Estimare Multi-Scala image It-1 image I Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1 imagine It+1 imagine It Lucas-Kanade Lucas-Kanade intinde & esantioneaza . . .
  • 67. Introducere • Estimarea distantei se poate face cu un dispozitiv activ cum ar fi radarul sau laserul • Dezavantaje: – Scump – Se compromite pozitia celui ce masoara in scenariu militar – Hardware dedicat
  • 68. Introducere • Se pot folosi doua camere digitale pentru a triangula pozitia obiectului si a estima distanta dintre planul camerelor si obiect. • Avantaje: – Se fac doar prelucrari de imagini. – Solutie ieftina, sunt necesare doar doua camere. – Poate fi implementat cu 2 camere foto si software. – Dezavantaj: acuratete mai redusa
  • 70. Unghiul de vedere Distanta Area Congruenta arctan 2 i i i D F  = 1  2 
  • 71. Doua imagini diferite ale aceluiasi obiect User selection
  • 72. R D Calcule 1  2   1  1 2 1 2 tan tan 2 2 tan tan 2 2 D R p p   p p       −  −         =      − + −        
  • 75. 1.Gasirea placii cu numarul de inmatriculare 2. Gasirea si reprezentarea cifrelor si literelor 3. Potrivire
  • 76. 1.Gasirea placii cu numarul de inmatriculare • Eliminarea culorilor improbabile.
  • 77. Gasirea Cifrelor • Gasirea muchiilor • Segmentarea de culoare • Muchii inlantuite. • Orientare
  • 78. Gasirea Cifrelor • Urmarirea muchiilor in sensul acelor de ceasornic pana in momentul intoarcerii in punctul de pornire. • Medierea pe linii de segmente si marcarea unui punct important cand diferenta in grade depaseste un anumit prag
  • 79. Curbele tangentiale • Marcarea curbei in fiecare pixel. • Interpolarea si normalizarea • Re-Esantionarea 0 200 400 600 800 1000 1200 0 20 40 60 80 100 120 140 160 180 Arc Length Absolute Tangent Degree Comparison of '3' images
  • 80. Potrivirea • Se da un scor ridicat pentru curbele tangente cu distanta mica. • Trebuiesc investigate mai multe orientari posibile.
  • 81.
  • 82. Imbunatari posibile • O segmentare mai buna
  • 83. Sistem de detectie a starii de somnolenta
  • 84.
  • 85. Motivare Un studiu din USA a aratat ca 37% din soferi au admis ca au adormit cel putin o data la volan atunci cand conduceau. S-a estimat ca 1.35 milioane de soferi au fost implicati in accidente in ultimii 5 ani din cauza ca au adormit la volan. Accidentele cauzate de somnul la volan sunt de obicei accidente grave. Se combina viteza mare cu reactia intarziata in caz de trezire brusca.
  • 86. • Momentul accidentelor in care au fost implicati soferi intre 26 si 45 ani. Accidentele au fost cauzate de dormitul la volan si nu de alcoolul consumat. Motivare • Accidente in SUA (1990-92):
  • 87. O camera video filmeaza constant soferul Un sistem de detectie analizeaza filmul cadru cu cadru si determina daca ochii soferului sunt inchisi sau deschisi. Daca ochii sunt inchisi pentru mai mult de 1/4 secunde (mai mult decat perioada normala de clipit) atunci suna o alarma care-l atentioneaza pe sofer.
  • 88. • Sunt extrase cadre din film: 30 cadre pe secunda
  • 89. • Se aplica un detector de muchii pe fiecare cadru: Detector de muchii Sobel
  • 90. • Se aplica transformarea Hough circulara pentru a detecta irisul (pe fiecare cadru): Se marcheaza cu albastru cercul detectat
  • 91. • Se aplica transformarea Hough circulara pentru a detecta irisul (pe fiecare cadru): Implementare
  • 92. • Daca nu se gaseste nici un iris in 8 cadre consecutive – suna o ‘alarma’ Implementare
  • 93. Concluzii  Sunt necesare stabilirea de parametri care pot varia de la video la video sau de parametrii de inregistrare (praguri, raza cerc).  Solutia trebuie sa functioneze in real-time.  Purtarea de ochelari (de orice tip) poate duce la erori.
  • 95. Introducere • Trasaturile urechii se folosesc de multi ani in criminalistica • Urechea adultului nu variaza prea mult in dimensiuni odata cu trecerea anilor. • Urechea are trasasaturi biometrice utile: unicitate, universalitate, permanenta
  • 96. Anatomia urechii • Urechea nu are o structura aleatoare. Are parti standard ca si alte trasaturi biometrice, cum ar fi fata. • Spre deosebire de fata umana, urechea nu-si schimba expresia, nu poate fi acoperita de make-up si are o culoare constanta.
  • 97.
  • 98. Sistem de recunoastere a urechii Achizitie de imagini Pre-Procesare si Detectie de Muchii Extragere de trasaturi Clasificare in doua etape
  • 99. Achizitia de Imagini • Se face in aceleasi conditii de iluminare. • Imaginile se iau de la o distanta de cel putin 15 cm de ureche • Imaginile trebuiesc luate cu grija pentru a cuprinde forma externa a urechii
  • 100.
  • 101. Pre-Procesare • Se selecteaza ROI (regiune de interes) prin segmentare. • Imaginea color este convertita intr-o imagine grayscale Imagine in tonuri de gri
  • 102. Detectie de muchii si binarizare • Detectia de muchii si binarizarea se face cu detectorul de muchii Canny • Iesirea este o imagine binara cu valoare 1 pentru pixelii de pe muchii si 0 pentru ceilalti pixeli.
  • 103. Imaginea Grayscale si imaginea binara cu muchii detectate
  • 104.  Se foloseste un filtru median ponderat pentru eliminarea zgomotului imagine cu si fara zgomot
  • 105. Extragerea de trasaturi • Trasaturile sunt extrase pentru toate unghiurile • Primele trasaturi se refera la forma externa a urechii • Alte trasaturi sunt gasite cu celelalte muchii • Se cauta cea mai lunga linie care poate fi trasata avand capetele pe muchiile urechii • Lungimea liniei este masurata folosind distanta Euclidiana
  • 106. Liniile Normale: liniile care sunt perpendiculare pe linia maxima; o divide in (n+1) parti egale, unde n este un numar pozitiv. Imagine cu linia maxima si liniile normale
  • 107. Linia maxima m, liniile normale l1,l2,l3,…..,ln Centrul liniei maxime este c. P1,P2,P3,……,Pn sunt punctele unde muchiile exterioare si liniile normale se intersecteaza.
  • 108. Primul vector este definit de (FV1): FV1 = [θ1, θ2, θ3,…., θn]
  • 109. Al doilea vector (FV2): punctele unde muchiile urechii intersecteaza liniile normale in afara de muchiile externe
  • 110. Concluzii • Recunoasterea urechii poate fi folosita pentru identificare sau verificare. • Anumite portiuni din ureche pot fi acoperite de par. Acest lucru reduce procentul de clasificare corecta. • Nu se poate construi un sistem biometric doar pe examinarea urechii, deoarece unicitatea ei este moderata.
  • 112. Aplicatii Comerciale • Sistem de identificare bazat pe imaginea palmei
  • 113. Recunoasterea palmei • Trasaturi: dimensiunile si forma mainii, a degetelor (dimensiune si lungime) • Trasaturi: Ne focusam pe partea interioara a palmei, pe liniile din palma si forma suprafetei palmei.
  • 114. • Se distinge usor • Este Permanenta • Colectabilitate medie • Acceptabilitate medie • Universalitate medie • Posibilitatea de pacalire este medie 114
  • 115. Schema de recunoastere a palmei Extragere de trasaturi Pre-procesare imagine Achizitie imagine Clasificare
  • 116. 116 Achizitia de imagini Un scanner cu inalta rezolutie Imagine Degradata Imagine originala
  • 117. Preprocessing • Transformare RGB - Gray • Se obtine palma din imaginea mainii
  • 118. Extragere de trasaturi • Medie pe setul de antrenare • Matricea de covarianta • Vectori proprii si valori proprii 118  =  =  M n n M 1 1  =   = M n T n n M C 1 1 2 N
  • 119. Potrivire • Distanta Euclidiana • Se foloseste un prag : • Sub : ‘clasificat’ • altfel : ‘necunoscut’ • = 0.8 2 2 || || k k  −  =       
  • 120. Experimente si rezultate • Pasi: 1- un set de imagini pentru persoane cunoscute. 2- achizitie + pre-procesare + extragere de trasaturi 3- Se utilizeaza metoda bazata pe ecuatii algebrice 4- Testare
  • 122. 122 Introducere • Degetul actiona ca un sigiliu personal in China antica • Henry,E.R(1900), Clasificare si folosirea amprentelor • FBI (USA) (1924) 810,000 amprente. Acum are peste 70 milioane de amprente si 1300 experti
  • 123. 123 Introducere • Amprentele sunt: Unice Permanente Universale Recunoasterea amprentelor este o operatie complicata din punct de vedere stiintific
  • 124. Clase de amprente Arcuri: Apar arcuri mici in mijlocul amprentei.
  • 125. Clase de amprente Arcuri in forma de cort: Arcul este mult mai mare si ascutit in centru.
  • 130. 130 Senzor Extractor de detalii Potrivire de detalii Baza de date Verificare vs. Identificare Baza de date Card Magnetic User User 1:m Identificare 1:1 Verificare User ID
  • 131. 131 Algoritm •Subtiere •Marcare de minutii •Stergerea minutiilor false Extractorul de minutii Preprocesare •Segmentare de imagini •Imbunatatire de imagini •Binarizare de imagini Post-procesare Extractorul de detalii precise:
  • 132. 132 Extractor de minutii- Segmentare Estimare directioala Prim plan: are o directie dominanta Fundal: Nu are o directie globala
  • 136. 136 ➢O abordare posibila: Adaptare locala Valoarea nivelului de gri a fiecarui pixel g daca g > Media(blocului de valori gri , g = 1; Altfel g = 0 Binarizarea amprentelor
  • 138. 138 Preprocesare: 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 0 1 Bifurcare Terminatie Extragerea de minutii
  • 140. 140 Post-procesare Stergerea minutiilor false: Doua terminatii deconectate distanta scurta Aceiasi directie/ directie opusa Doua terminatii pe creasta sunt Prea apropiate
  • 142. 142 Potrivire de minutii ➢Reprezentare de minutii: Mn ( Pozitie, Directie ß, Creasta asociata) tgß = (yp-y0)/(xp-x0); Xp = sigma(xi)/Lpath; Yp = sigma(yi)/Lpath; creasta Minutie x0 x1 x2 x3 x4 x5 x6 x y In general bifurcatiile si terminatiile crestei sunt consolidate
  • 143. 143 Algoritm de potrivire : Potrivire de minutii 1. Pentru fiecare pereche de minutii se genereaza o matrice de transformare TM = cos sin 0 sin − cos 0 0 0 1         x y  xi_new yi_new i_new         xi x − ( ) yi y − ( ) i  − ( )         =TM * (x,y, )  (xi,yi, i) 
  • 144. 144 Algoritm de potrivire : Potrivire de minutii Pentru orice doua minutii din imagini diferite, Daca ele sunt intr-o zona de dimensiuni reduse si directiile lor sunt consistente -> Sunt minutii potrivite Scorul de potrivire = Numarul(minutii potrivite) Max(Numarul de minutii (I1, I2));
  • 145. 145 Algoritm bazat pe aliniere : Potrivire de minutii creasta Minutie x0 x1 x2 x3 x4 x5 x6 x y Directie crestei
  • 146. 146 Verificarea amprentelor Indexul de evaluare a performantelor FRR: False Rejection Rate FRR = 2/total1 FAR: False Acceptance Rate FAR = 3/total2 Total1 = m*(n+1)*n/2 Total2 = m*(m-1)/2 Acelasi Deget Program (Da/Nu) Deget diferit 1 Da 2 Nu 3 Da 4 Nu F10 F11 F12 F13 …F1n F20 F21 F22 F23 …F2n F30 F31 F32 F33 …F3n Fm0 Fm1 Fm2 Fm3 …Fmn
  • 147. Recunoastere de IRIS sau RETINA
  • 148. – Irisul este banda colorata de tesut care inconjura pupila ochiului. – Retina este membrana subtire cu vase de sange de pe fundul ochiului.
  • 150. Recunoasterea Irisului • Se folosesc caracteristicile unice ale irisului uman. • Se foloseste o camera video care capteaza imagini si foloseste un software pentru a compara datele calculate cu cele inmagazinate intr-o baza de date.
  • 152. Iris • Irisul este marginit de pupila si sclera (albul ochiului); Este mic (11 mm) • Textura vizuala a irisului se stabilizeaza in primii doi ani de viata • Fiecare iris este unic; chiar si irisul gemenilor este diferit
  • 153. Avantajele recunoasterii dupa iris • Se crede ca este stabil intreaga viata • Forma nu este determinata genetic • Este puternic protejat, rareori ranit sau schimbat • Procedura este neinvaziva • Dimensiunea template-ului este mica • Procesul de codare si potrivire este rapid.
  • 154. • Lumina Vizibila – Straturi vizibile – Mai putina textura – Melamina (pigment) absoarbe lumina vizibila • Lumina in infrarosu – Melamina reflecta mult lumina in infrarosu – Mai multa textura este vizibila – Este preferata in sistemele de recunoastere a irisului
  • 155. Imaginea irisului in infrarosu In lumina infrarosie chiar si ochii de culoare intunecata au o textura bogata
  • 157. • Sistemele de recunoastere a irisului din UAE (17 aeroporturi, porturi sau puncte de frontiera). • 3.8 miliarde de comparari in fiecare zi. O potrivire se face in mai putin de o secunda
  • 158. Frequent Flyers sunt inclusi in "Privium“ la aeroportul Schiphol Airport (NL); pot intra fara a prezenta pasapoartele.
  • 159. • Gerhard Schroeder a testat sistemul din aeroportul din Frankfurt.
  • 160. Locatarii blocurilor din Tokyo intra in cladiri pe baza examinarii irisului, liftul fiind chemat automat si-i duce la etajul la care locuiesc.
  • 161. United Nations High Commission for Refugees dau bani refugiatilor care se intorc in Afghanistan si accepta aceasta forma de identificare. Mai mult de 350,000 de persoane au folosit acest sistem.
  • 162. Reprezentarea Irisului • Daugman – Gabor Demodulation (PAMI 1993) • Lim, Lee, Byeon, Kim – Wavelet Features (ETRIJ 2001) • Bae, Noh, Kim – Independent Component Analysis (AVBPA 2003) • Ma, Tan, Wang, Zhang – Key local variations (IEEE TIP 2004)
  • 163. Metoda Daugman • J. Daugman, “Statistical Richness of Visual Phase Information: Update on Recognizing Persons by Iris Patterns”, International Journal of Computer Vision, 2001. • J. Daugman, “Biometric Personal Identification System Based On Iris Analysis”, US Patent 5291560, 1994
  • 164. Se detecteaza limitele curbiliniare
  • 165. Variatii Intra-clase Dilatarea pupilei (modificari de iluminare) Inconsistenta dimensiunii irisului (distanta fata de camera) Rotatia ochiului (aplecarea capului)
  • 166. Stabilirea sistemului de coordonate Centrul irisului si al pupilei coincid Centrul irisului si al pupilei nu coincid Se trece in coordinate polare • Se compenseaza dilatarea pupilei si inconsistentele de dimensiune prin producerea unei reprezentari invariante la translatie • Acest model nu compenseaza inconsistentele datorate rotatiilor , dar se pot alinia prin deplasarea in directia θ.
  • 167. Ilustrare 1D a procesului de codare Un total de 2,048 biti, adica 256 bytes sunt extrase din imaginea irisului http://www.cl.cam.ac.uk/user s/jgd1000/
  • 168. Exemple de codare a unui Iris Iris Patterns”, International Journal of Computer Vision, 2001.
  • 169. Potrivirea de coduri de Iris • Comparatia este efectuata prin calcului distantei Hamming dintre doua coduri de 256-bytes • Distanta Hamming dintre un cod X si unul Y este suma bitilor diferiti (suma de exclusive-OR dintre ei) impartita cu N, numarul total de biti din pattern. N=2,048 (256 x 8) daca nu exista ocluziune in iris. Daca exista, numai regiunile valide de iris sunt folosite pentru calcului distantei Hamming * Daugman, J. ,"High confidence visual recognition of persons by a test of statistical independence." IEEE Trans. on PAMI, 1993
  • 170. Distanta Hamming • Daca pattern-urile provin de la acelasi iris, distanta Hamming trebuie sa fie aproape 0 datorita corelatiei mari. • Pentru a compensa inconsistentele rotationale, un template este shiftat stanga sau dreapta si sunt calculate distantele Hamming. • Cea mai mica distanta Hamming este selectata si corespunde celei mai bune potriviri intre cele doua template-uri.
  • 171. Ilustrare a potrivirii prin shiftare
  • 172. http://www.cl.cam.ac.uk/users/jgd1000/ Peste 5 trilioane comparatii fara nici o eroare in 2007 !
  • 173. Limitari • Utilizatorul trebuie sa coopereze; trebuie sa stea la o distanta predeterminata in fata camerei foto • Costul unui sistem performant este relativ mare http://news.bbc.co.uk/1/hi/uk/1816221.stm
  • 174. Limitari • Calitatea imaginilor poate fi proasta • Scanarea irisului poate da gres in pana la 7% in cazul ochilor inlacrimati, a sprancenelor lungi sau a lentilelor de contact. Ocluzii (pleoape/gene) Defocus blur Pupile largi
  • 175. Limitari • Irisul se poate schimba in timp (boli ale ochilor). – Mai mult de 200,000 operatii de cataracta sunt efectuate in fiecare an in UK – Aproape 60,000 de oameni din UK au Nystagmus (tremur accentuat al ochilor) – Aproape 1,000 oameni din UK au Anaridia (n-au iris) • Oameni orbi nu pot fi identificati correct. Operatie cataracta hyphaema(blood clot) iridodialysis
  • 176. Detectie Anti-Spoofing • Lentile de contact sau fotografii ale irisului altor persoane pot fi folosite pentru pacalirea sistemului
  • 177. Diferenta dintre un iris real si unul printat Imprimanta matriciala genereaza 4 puncte de energie in planul Fourier; Irisul natural nu genereaza asa ceva.
  • 178. Dezavantajele folosirii irisului pentru identificare • Tinta mica (1 cm) ce trebui fotografiata de la distanta (1 m) • Tinta mobila ... in interiorul alteia • Localizata in spatele unei suprafete curbate, umede si reflectate • Astupata partial de pleoape, gene, lentile, reflectii • Se deformeza pe masura ce pupila isi schimba dimensiunea • Iluminarea nu trebuie sa fie prea intensa sau vizibila • Conotatii negative (Orweliene)
  • 179. Retina
  • 180. Retina • Retina este o membrana subtire cu celule in spatele globului ocular al vertebratelor. • Este partea ochiului care converteste lumina in semnale pentru sistemul nervos. • Retina nu detecteaza doar lumina, joaca un rol determinant si in perceptia vizuala. • In timpul dezvoltarii embrionale retina si nervul optic apar drept excrescente ale creierului. • Structura unica a vaselor de sange din retina permite utilizarea pentru identificarea biometrica.
  • 181.
  • 182. To brain Retina are celule sensibile la lumina. Ele se conecteaza direct la creier. Rods sense brightness Cones sense color
  • 183. Sisteme de recunoastere retinala • Se directioneaza lumina in infrarosu de intensitate redusa pentru a captura caracteristicile unice ale retinei • Se capteaza si se analizeaza forma vaselor de sange. • Fiecare ochi are un pattern unic; chiar si ochii gemenilor au patern diferit. Desi aceasta forma este stabila in timpul vietii, poate fi totusi modificata de anumite boli cum ar fi : glaucoma, diabet, hipertensiune etc.
  • 184. Sisteme de recunoastere retinala • Este unul dintre cele mai bune sisteme biometrice. • Totusi este considerata drept neconvenabila si intruziva. Nu este in general acceptata de utilizator. • Sunt probleme cu orbii si persoanele cu cataracta. • Faptul ca retina este mica, interna ochiului si dificil de masurat face fotografiatul destul de problematic. Individul trebuie sa stea cu ochii foarte aproape de aparatul de scanare a retinei, sa se uite direct in lentila, sa ramana focusat si sa nu se miste atunci cand o lumina puternica ii scaneaza ochiul dintr-o parte in alta.
  • 185. • Orice miscare poate interfera cu procesul de achizitie si poate necesita uneori o re-startare. O scanare dureaza mai mult de un minut. Template-ul generat are doar 96 bytes, fiind unul dintre cele mai mici din toate tehnologiile biometrice. • Este una dintre cele mai precise tehnici biometrice si este folosita in controlul accesului in institutii militare si guvernamentale cum ar fi facilitati cu armament nuclear sau de cercetare secreta. • Este totusi una dintre cele mai putin utilizate tehnici biometrice datorita efortului si cooperarii intense din partea utilizatorului. Sisteme de recunoastere retinala
  • 186. Ce este regresia liniara? • Este una dintre metodele cele mai de bază pentru modelarea datelor liniare. • Este doar o linie! • Aproape orice alt model din machine learning folosește drept nucleu o formă de regresie liniară (sau proprietăți de liniaritate) - chiar și cele mai complexe rețele neuronale.
  • 187. Ce este regresia liniara? • În timp ce este un model simplu, are putere generalizatoare. • Ideea de bază în spatele regresiei liniare este de a găsi cea mai bună linie între un set de puncte. • Exemplu: Să luăm câteva date despre case. Obiectiv: să prezicem prețul unei case, pentru case nevazite incă.
  • 188. Ce este regresia liniara? • În timp ce este un model simplu, are putere generalizatoare. • Ideea de bază în spatele regresiei liniare este de a găsi cea mai bună linie între un set de puncte. • Exemplu: Să luăm câteva date despre case. Obiectiv: să prezicem prețul unei case, pentru case nevazite incă.
  • 189. Ce este regresia liniara? • Regresia liniară încearcă să găsească w și w’ astfel încât linia y' = wX + w’ este cea mai potrivită pentru datele furnizate.
  • 190. Ce este regresia liniara? • Găsirea liniei de regresie optimă înseamnă optimizarea funcției de pierdere dintre valorile prezise y’ și valorile reale y:
  • 191. Ce este regresia liniara?
  • 192. Ce este regresia liniara? • Diferența dintre valoarea observată a variabilei dependente (y) și valoarea prezisă (y') se numește reziduul (e).
  • 193. Ce este regresia liniara? • Eroarea se calculeaza in fiecare punct • Eroarea pe intreg setul de date se calculeaza astfel • Eroare patratica medie (MSE) → penalizeaza erorile mari
  • 194. Tipuri de corelatie • Panta pozitivă indică o corelație pozitivă, panta negativă indică o corelație negativă, iar o pantă apropiată de 0 indică faptul ca nu exista nicio corelare. • Corelația pozitivă înseamnă că dacă mărim valoarea unei variabile, cealaltă variabilă crește și ea. În mod similar, corelația negativă înseamnă că dacă creștem valoarea unei variabile, cealaltă variabilă isi scade valoarea.
  • 196. Tipuri de corelatie • Există de fapt un număr între -1 și 1 care ne spune cât de corelate sunt două variabile. Acest număr se numește coeficient de corelație Pearson • An de vanzare : luna de vanzare : risc seismic • [0.98472113] [0.00033827] [-0.99273222]
  • 200. Exemplu polinomial • Trebuie sa potrivim un polinom cu datele noastre! • Aceasta este încă regresia liniară - modelul este liniar în coeficienți, nu în caracteristici.
  • 201. Exemplu polinomial • În acest caz, avem o regresie liniară multivariată, care este în esență aceeași cu regresia liniară simplă, dar în dimensiuni mai mari. Când avem mai multe funcții, încercăm să potrivim un hiperplan care descrie cel mai bine datele noastre. • Funcția de pierdere este aceeași
  • 207. Overfitting si underfitting Overfitting-ul poate fi o problemă dacă eroarea de antrenament este mult mai mică decât eroarea de validare
  • 208. Overfitting si underfitting Când nu avem suficiente date și / sau dorim o evaluare mai robustă a modelului nostru, putem să folosim K-Fold Cross- validation. Impărțit datele în segmente de dimensiuni egale și antrenam modelul de k ori, de fiecare dată lăsând un segment pentru testare. Precizia medie este precizia finală a modelului.
  • 209. Ce este clasificarea? • Dacă într-o regresie am avut unele caracteristici X și niște valori țintă y, a trebuit să facem un model care să prezică noile y care sunt cât se poate de apropiate de y - ul inițial. În acest caz, variabila țintă este continuă. • Problemele de clasificare sunt diferite.
  • 210. • Să luăm în considerare acest set de date cu două blob-uri și să încercăm să facem niște predicții.
  • 211. • Variabila țintă y are numai două valori: {0,1}. De data aceasta potrivim un hiperplan prin intermediul datalor si reprezentam folosind culori. • După ce am potrivit modelul nostru, pentru a obține clasele spunem că dacă un punct are o predicție mai mică de 0,5, considerăm că acesta este de clasa 0 și dacă un punct are o predicție de peste 0,5, atunci îl considerăm aparținând clasei 1.
  • 212.
  • 213. Regresie logistica • 0,5 nu reflectă o probabilitate. De fapt, este arbitrar, iar modelul nostru de regresie nu este în niciun fel legat de probabilități. O modificare a modelului de regresie logistica. • Regresia logistică se bazează pe funcția sigmoidă. Sigmoida este o funcție care poate fi interpretată ca o distribuție a probabilității cumulative. • Este doar un model liniar cu o sigmoida deasupra lui. (95% acuratete pe exemplul considerat)
  • 214.
  • 215.
  • 217. ~85%
  • 218. • De ce nu merge? • De fapt, regresia logistică nu functioneza corespunzator in clasificarea acestor puncte, deoarece acestea nu sunt separabile liniar. Asta înseamnă că nu există o linie dreaptă care să poată separa punctele. • Deoarece regresia logistică este un model liniar, am putea să încercăm să aplicăm un polinom. • Ce grad ar trebui sa aiba polinomul?
  • 219. ~96%
  • 220. Metoda vectorilor suport (SVM) • Medoda vectorilor support reprezinta unul dintre cele mai puternice modele de învățare automată. De la inventarea sa în anii 80, a depășit aproape toate tipurile de modele, până când a fost depășită de rețele neuronale în anii 2000. • Funcționează prin găsirea celui mai mare decalaj dintre clase și stabilind o granita de decizie (care este o linie) astfel încât să fie cât mai departe de puncte. În acest fel, este foarte rezistenta la suprainvatare.
  • 221.
  • 222.
  • 223. Metoda vectorilor suport (SVM) • Ce sa facem? • Introducem un kernel. Se transforma intr-un alt spatiu în care este posibila separarea liniara (cu un plan). • De fapt, când am aplicat caracteristici polinomiale datelor noastre, am aplicat un astfel de kernel, astfel încât să putem separa mai ușor clasele. Lucrul într-un spațiu de dimensiune mai mare este uneori mai ușor.
  • 224.
  • 225.
  • 228. Retelele neuronale sunt inspirate din sistemele neuronale biologice
  • 229. Domeniul retelelor neuronale a stagnat dupa publicarea unui articol de catre Minsky si Papert (1969). Ei au descoperit doua probleme fundamentale cu modelul computational folosit. Prima problema a fost ca reteaua cu un singur strat nu este capabila sa rezove un XOR (exclusive OR). A doua problema: computerele nu erau sufficient de puternice pentru rularea indelungata ceruta de retelele neuronale mari.
  • 230. Un moment de cotitura ImageNet Large Scale Visual Recognition Challenge
  • 231. Un moment de cotitura
  • 232. Principala utilitate a retelelor neuronale artificiale este capacitatea de a aproxima o functie din observatii si de a le folosi.
  • 236.
  • 237. Predictiile devin neliniare si sunt bazate pe date de dimensiuni mari
  • 238. Se extrag trasaturi in mod automat Se combina, unesc si se ignora valori de intrare pentru cele mai bune performante
  • 239. Pot invata din mai multe date Performantele nu se aplatizeaza asa de usor
  • 240.
  • 242. Inspirate din biologie Doar inspirate. Neuroni, Sinapse, Activari.
  • 243. Structura unei retele neuronale O retea neuronala cu 1 strat ascuns - perceptron Input 1 Input 2 Hidden 1 Hidden 2 Output 1 Input Layer Hidden Layer Output Layer
  • 246. Forward Propagation Input 1 Input 2 Hidden 1 Hidden 2 Output 1 w1=0.2 B1 = 0.3 Target: 0.2 0.3 0.4
  • 247. Focus pe un neuron. Input 1 (i1) Input 2 (i2) Hidden 1 (h1) w1=0.2 B1 = 0.3 0.3 0.4 h1 = i1*w1 + i2*w2 + b1 h1 = 0.3*0.2 + 0.4*0.1 + 0.3 = 0.4
  • 248. Surprinzator de aproape de target Hidden 1 = 0.4, Hidden 2 =0.59, Output 1 = 0.198 Input 1 Input 2 Hidden 1 Hidden 2 Output 1 w1=0.2 B1 = 0.3 Target: 0.2 0.3 0.4 B2 = 0.3
  • 250. Tipuri de functii de activare Integrare de ne-liniaritate [0 1] [-1 1] Valorile negative sunt inlocuite cu 0
  • 251. Antrenare si functii de pierdere
  • 252. Secventa de antrenare 1. Initializeaza ponderile si deplasarile 2. Se aplica o intrare 3. Forward Propagate 4. Se cuantifica rezultatul 5. Ajustarea ponderilor si deplasarilor 6. Se face acest lucru pentru fiecare intrare si fiecare epoca 7. Eventual se opreste antrenarea
  • 253. Functie de pierdere Functii Cost, Functii obiective, Functii de eroare, Functii de energie Valoare Prezisa Valoare dorita MAE MSE 14 16 2 4 ● Functii de pierdere: ○ Regresie ■ Mean Absolute Error ■ Mean Squared Error ○ Clasificare ■ Cross-entropy ■ ...
  • 254. Backpropagation Metoda Backpropagation schimba fiecare parametru pentru a minimiza pierderea globala. Parameter Loss
  • 264. Problemele simple cer solutii simple When the only thing you have is a hammer, everything looks like a nail.
  • 265. Flash Quiz Care este cel mai bun model? A B C
  • 266. Overfitting Principala cauza a performatelor slabe in machine learning. ● Overfitting-ul conduce la modele proaste. ● Overfitting apare cand modelul invata setul de antrenare foarte bine, dar are performante slabe pe date noi. ● Sa clasificam un punct nou ● Punctul nou este verde, dar modelul il clasifica drept albastru. ● Stim ca modelul este suprantrenat cand scorul pe setul de antrenare este mult mai mare decat pe cel de test.
  • 268. Cum se previne suprainvatarea? ● Se antreneaza cu mai multe date. Datele trebuie sa fie curate si relevante. ● Se folosesc retele mai mici. Uneori modelele mai complicate au scoruri mai mici. ● Regularizare. ● Cross Validare ● Oprire timpurie ● Dropout ● Data augmentation
  • 269. Cross-validation ● Cross validation (k-fold cross validation) este o metoda de antrenare unde se imparte setul de date in k sub-seturi. Fiecare sub-set se foloseste pentru test, iar celelalte pentru antrenare
  • 270. Early stopping ● Se stopeaza antrenare cand functia de loss nu mai scade.
  • 271. Dropout ● Dropout se refera la renuntarea la unii neuroni. ● In timpul antrenarii, anumite parti ale retelei sunt ignorate pe durata propagarii inainte si inapoi. ● In dropout se seteaza un parametru ‘p’ → probabilitatea nodurilor retinute
  • 272. Data augmentation ● Sunt variatii ale intrarii originale
  • 273. Underfitting A doua cauza a performantelor slabe machine learning. ● Se intampa cand modelul nu poate captura tendinta implicita a datelor (este prea simplu). Solutii: ● Se creste dimensiunea modelului ● Se folosesc mai multe date relevate.
  • 275. Gradient Descent ● Gradientul desscrescator este foarte complex deoarece are nevoie de tot setul de antrenare iar apoi se modifica gradient.In majoritatea cazurilor se ajunge intr-un minim local. ● Stochastic Gradient Descent nu updateaza dupa fiecare intrare. Se produc iesiri zgomotoase. ● Mini Batch Gradient Descent este o combinatie a celor doua mentionate mai sus. Ia un lot de intrari si updateaza ponderile. Se accelereaza antrenarea si se paote ajunge la minimul global.
  • 276. Batch Gradient Descent ● Se impart datele in loturi.In general nu se poate antrena pe tot setul (doar daca memoria este gigantica).
  • 281.
  • 282. Task-uri de Computer Vision: Clasificare Intrare Imagini Iesire Etichete
  • 283. Task-uri de Computer Vision: Detectie Intrare Imagini Iesire Etichete, Dreptunghi de delimitare
  • 284. Task-uri de Computer Vision: Recunoastere Intrare Imagini Iesire Etichete
  • 285. Task-uri de Computer Vision: Segmentare Intrare Imagini Iesire Etichete, Masti
  • 286. Task-uri de Computer Vision: Reducere de zgomot Intrare Imagine zgomotoasa Iesire Imagine fara zgomot
  • 287. Task-uri de Computer Vision: Inpainting Intrare Imagine, Masca Iesire Imagine reconstruita
  • 288. Task-uri de Computer Vision: Super-rezolutie Intrare Imagine Iesire Imagine la o rezolutie mai mare
  • 289. Task-uri de Computer Vision: Transfer de stil Intrare Imagine Iesire Imagine cu alt stil
  • 290. Task-uri de Computer Vision: Colorizare Intrare Imagine Grayscale Iesire Imagine Color
  • 291. Ce ati folosi pentru a sterge o anumita portiune a unei imagini? A) Denoising B) Inpainting C) Super-rezolutie D) Transfer de stil
  • 292. Trasaturi Spatiale ● Imaginile contin trasaturi spatiale care au impact mare asupra scorului de predictie. ● Daca aplatizam si folosim pixelii imaginii intr-o retea densa aceaasta nu poate invata toata informatia. ● Trasaturile spatiale sunt importante pentru o buna predictie.
  • 293. Foarte multi parametri ● Retelele dense sunt conectate total, adica fiecare neuron dintr-un strat este conectat la toti neuronii din stratul superior. Daca doua straturi consecutive au 1000 neuroni, sunt 1000000 ponderi de antrenat! ● Fie o imagine color 64x64 (imaltime, latime in pixeli) ● Dimensiunea intrarii retelei neuronale este 64x64x3 = 12288. ● Avem de antrenat 12288 ponderi pentru primul strat ascuns, daca acesta are doar un neuron. ● Fie o retea neuronala profunda cu 10 straturi cu o imagine 640x480 cu 1000 neuroni→12288 * 1000 + 9 * 1000000 = 21288000 ponderi!
  • 295. ● Fiecare pixel are o valoare intre 0-255 : ○ Rosu ○ Verde ○ Albastru
  • 297. Straturile Convolutionale Reducerea numarului de ponderi si imbunatatirea performantei.
  • 299. Procesul de convolutie ● Se foloseste de obicei o matrice 3x3
  • 300. Care sunt efectele? ● Reducerea numarul de ponderi pentru antrenare ● In functie de valorile matricei se obtin diferite harti de trasaturi. ● Convolutia cu matrici diferite poate fi folosita pentru detectarea de trasaturi interesante. ● Convolutia pastreaza relatia spatiala intre pixeli prin invatarea caracteristicilor imaginii
  • 302. Pasi ● Pasii dicteaza cum mutam matricile de convolutie Pas 1
  • 304. Adaugarea de zerouri ● Adaugarea de zerouri pentru a largi imaginea Adaugarea de zerouri
  • 305. Calculul iesirii ● Dimensiunea filtrului- K ● Pas - S ● Adaugarea de zerouri - P ● Imagine intrare
  • 306. Functia de activare a straturilor de convolutie ● Trebuie introdusa o neliniaritate in model ● ReLU → se anuleaza valorile negative
  • 307. ReLU
  • 308. Straturi de agregare ● Agregarea este un process simplu de reducere a dimensionalitatii hartii de trasaturi ● Scopul principal este reducerea numarului de parametri retinand totusi cele mai importante trasaturi 3 tipuri de agregare: 1. Max Pooling 2. Average Pooling 3. Sum Pooling
  • 310. Straturile conectate total ● Toate nodurile dintr-un strat sunt conectate la iesirile stratului urmator ● Se poate folosi un strat de aplatizare pentru ca ultima matrice sa devina un vector.
  • 311. Baze de date populare in Computer Vision
  • 312. MNIST
  • 313. CIFAR
  • 315. Modele populare in Computer Vision
  • 323. Procesarea Audio • Anularea activa a zgomotului – Castile folosite de piloti • Efecte audio digitale – Adaugarea de efecte speciale muzicale: intarziere, ecou, reverberatie etc. • Separarea semnalelor audio – Separarea semnalului vocal de interferente – Reducerea zgomotului produs de vant din muzica ascultata in masina
  • 324. • melodie originala • Efecte audio bazate pe filtrare • efect de ecou • efect de intarziere variabila in timp • efect de intarziere fara feedback • efect de cor: timpul de intarziere variabil este obtinut dintr-un zgomot filtrat TJ
  • 325. • melodie originala • Efecte audio bazate pe reverberatie • bass de tobe • efect de reverberatie • efect de reverberatie pentru bass de tobe
  • 326. Prelucrari Audio • Aplicatii: • Efecte de saturatie • Filtre • Repetoare • Egalizoare
  • 327. Efecte de Saturatie • Distorsiune • Overdrive • Fuzz
  • 328. Efecte de Saturatie • Efectul Overdrive este cel mai comun, si este tipic pentru amplificatoarele clasice Marshall. • Se imita sunetele calde date de tuburi • Tipic pentru muzica anilor 70
  • 329. Efecte de Saturatie • Distorsiuni mai puternice decat Overdrive • Caracteristic muzicii anilor 80 • Fuzz • Concentrat mai mult pe bas și înalte.
  • 330. Modulatii si repetitii • Sound on sound • Controlul intarzierii prin pedala • Tempo-ul potrivit cu ritmul • Efect de cor
  • 331. Alte efecte • Wah Effect • Acesta este un filtru trece-jos cu frecvență variabilă cut - off. Această frecvență este schimbata cu o pedala (oscilator automat )
  • 332. Watermarking • Audio watermarking: acest mesaj va fi inclus intr-un semnal audio folosind modulatia cu spectru imprastiat si apoi este recuperata din semnalul modulat. • Semnal original • Iudko wa|ebmarkimg: acest meSaj va fi inclus intruN semna| `udio folosiNd modulatia cu spdctr} impras}iat si`apoh este re#uperat!%din semnAlul modulat.
  • 336. Watermarking • Audio watermarking: acest mesaj va fi inclus intr-un semnal audio folosind modulatia cu spectru imprastiat si apoi este recuperata din semnalul modulat. • Semnal original • udio water}cvcyng: acuwt$mesan va fi inclus mntr%un semjal autmo folosind$modulADia ju Spectru impristiat si0apoi este recwpeRata dil qemnqlul mmdula|.
  • 339. Watermarking • Audio watermarking: acest mesaj va fi inclus intr-un semnal audio folosind modulatia cu spectru imprastiat si apoi este recuperata din semnalul modulat. • Semnal original • Audio watermarking: acest mesej va fi inclus intr-un semnAl audio folosind modulatia cu spectru imprastiat si apoi este recuperata din semnalul modulat.
  • 353. Royal Festival Hall (Londra)
  • 359. Acustica Timpul de intarziere initial măsoară diferența de timp dintre fasciculul direct și prima reflecție semnificativa • Acesta oferă o idee despre sentimentul de " intimitate “ al salii • Valoare recomandata: tI < 20 ms
  • 361. Acustica Eficiența laterala • Evalueaza proporția de sunete care vin din partea laterala in fata • Acesta oferă o idee privind “spatialitatea" salii • Se recomanda o valoare mai mare de 0.19
  • 363. Acustica Catedrala din York este cea mai mare catedrala gotica din UK si a fost construita intre secolele 12 si 15. Are 160 m lungime, 76 m latime si 27 m inaltime.
  • 366. Shutter-ul este inchis si deschis Raskar, 2006
  • 370. 370 Detectie Scaderea fundalului prin diferenta de cadre succesive
  • 372. 372 Detectia schimbarii Fundalul obtinut de metoda mediana aproximativa
  • 377. 377 Avantajele prelucrarii numerice fata de prelucrarea analogica : • Din ce in ce mai multe semnale sunt transmise/depozitate in forma digitala si este usor de prelucrat in aceasta forma. • Sistemele DSP pot fi testate si proiectate in “simulatoare” folosind echipament disponibil • Acuratete garantata, pre-determinta de lungimea cuvantului si de frecventa de esantionare. • Reproductibilitate perfecta. Orice copie a unui sistem DSP va functiona la fel. • Caracteristicile sistemului nu sunt afectate de driftul de temperatura sau de imbatranirea componentelor • Exista o tehnologie avansata a semiconductorilor. • Sistemele DSP sunt flexibile si pot fi re-programate fara a schimba hardware-ul. Produsele pot fi distribuite/vandute si updatate prin Internet. • Tehnologia digitala VLSI este atat de avansata incat sistemele DSP pot efectua operatii care ar fi imposibile sau extrem de dificile in forma analogica. Doua exemple: • (i) filtrarea adaptiva (parametrii filtrului digital sunt variabili si trebuie adaptati in functie de caracteristicile semnalului de intrare • (ii) Recunoasterea vorbirii (este bazata pe informatii obtinute prin filtrarea numerica a semnalului vocal).
  • 378. 378 Dezavantaje ale prelucrarii numerice a semnalelor • Sistemele DSP pot fi scumpe, mai ales in cazul semnalelor de banda foarte larga, unde o conversie rapida analog/digital este necesara. • Proiectarea de sisteme DSP poate cere foarte mult timp si este o activitate complexa si specializata. Este nevoie de ingineri electronisti cu astfel de cunostinte. • Cerintele de putere ale acestor sisteme DSP pot fi foarte mari si nu pot fi uneori folosite pe dispositive portabile cum ar fi telefoanele mobile. Dispozitivele cu procesoare in virgule fixa consuma mai putin decat cele in virgula mobila, dar programarea lor cere experienta.
  • 379. 379 • Anumite procese (de exemplu amplificarea, filtrarea si anumite tipuri de modulatie pot fi considerate liniare. • Procesele pot fi invariante in timp. • Procesele care sunt liniare si invariante in timp sunt numite LTI. • Sa consideram respunsul la impuls ale acestor sisteme LTI. • Ele conduc la raspunsul in frecventa si la functia sistemului •Acestea sunt obtinute folosind transformatele Fourier, Laplace si z, toate avand legatura cu 'convolutia'. • Aceste concepte ne permit sa: (i) analizam efectele sistemelor LTI asupra semnalelor analogice si digitale, (ii) intelegem si sa folosim metode de proiectare pentru aceste sisteme.
  • 381. 381 1. www.kahoot.it 2. Game PIN 1217690 3. Nickname 4. Play