curs1_PDS_2020.pdf

1
Prelucrari Digitale de Semnale
Felix Albu

2
• Semnal: cantitate masurabila si variabila in timp a carei
variatie, in mod normal, contine informatie.
• Adesea este o tensiune (de exemplu cea preluata de la un
microfon)
• Se pot defini doua tipuri de semnal:
• Continuu in timp (analog)
• Discret in timp

2012 3
• Semnale Analogice: sunt functii continue de timp (t) masurate in
secunde, si exista pentru toate valorile de timp in intervalul (-, +).
• Exemple:
(i) 5sin(62.82t) : sinusoida cu frecventa de 62.82 radiani/secunda
(aproximativ 10 Hz)
 0 : t < 0
(ii) u(t) =  functia treapta
 1 : t  0
• Graficul lor ca functie de timp indica o continuitate a formei de unda :
t
Voltaj
0.1
-0.1
5
t
Voltaj
1

4
• Semnale discrete in timp : exista numai in momente
discrete de timp
• Sunt deseori obtinute prin esantionarea unui semnal
analogic prin masurarea valorilor in momente discrete de
timp.
• Punctele de esantionare sunt de obicei separate prin
intervale egale de timp (de exemplu T secunde).
• Fie semnalul analog x(t), x[n] = valoarea lui x(t) cand t = nT.
• Procesul de esantionare produce o secventa de numere
x[n] :
{ ..., x[-2], x[-1], x[0], x[1], x[2], ..... }
• Secventa exista pentru toate numerele intregi n in intervalul
(-,).

5
• Exemple de semnale discrete in timp :
(i) {..., -4, -2, 0, 2, 4, 6, ....}
o secventa definita prin formula x[n] = 2n.
Esantionul corespunzator n = 0 are o importanta deosebita.
(ii) { ..., -4.75, -2.94, 0, 2.94, 4.75, 4.76, ...}
Secventa definita prin x[n] = 5 sin(62.82t) cu t=nT si T=0.01.
(iii) { ..., 0, ..., 0. 0, 1, 1, 1, ..., 1, ...}
secventa “treapta unitate”cu elementul n definit prin :
 0 : n < 0
u[n] = 
 1 : n  0
• Graficul (i):

6
n
x[n]
1 2 3 4
-3 -2 -1
2 -
-2-

7
clear all;
T = 0.01; % interval de esantionare (secunde)
% Genereaza 80 esantioane a unei sinusoide de 10 Hz de
amplitudine 5
% 5 sin(2*pi*10*t) cu t=nT pentru n=1,2, ... 200
for n=1:80
s(n) = 5 * sin(2 * pi * 10 * n * T);
end;
plot (s);
Program MATLAB
Genereaza si afiseaza 80 esantioane ale unei sinusoide :
0 10 20 30 40 50 60 70 80
-5
0
5

8
• Semnalele discrete in timp sunt deseori generate prin
convertoarele analog digitale ADC.
• Se obtin numere binare care reprezinta tensiuni sau curenti.
• Acuratetea conversiei este determinata de lungimea
cuvantului dispozitivului ADC, adica de numarul de biti
disponibili pentru fiecare numar.
• Cuantizarea: Procesul de trunchiere sau rotunjire al valorii
esantionate la cel mai apropiat numar binar.
• Rezultatul este o secventa de numere cuantizate numita
semnal digital.
.
• Un semnal digital este un semnal discret in timp cu fiecare
esantion digitizat

10
Prelucrari de semnal:
• Semnalele analogice pot fi procesate prin circuite care contin rezistoare,
condensatoare, bobine, tranzistoare si amplificatoare operationale
• Semnalele numerice pot fi procesate folosind microcomputere sau
hardware digital specializat.
• Exemple de prelucrari :
(i) amplificari sau atenuari : tensiunea formei de unda poate fi facuta mai
mare sau mai mica.
(ii) filtrari: se filtreaza anumite zone nedorite ale semnalului.
(iii) rectificari: forma de unda devine pozitiva (de exemplu prin anularea
valorilor negative).
(iv) modulare: multiplicarea semnalului cu un alt semnal (de exemplu cu o
sinusoida de inalta frecventa.

11
clear all;
fs = 8000; %rata de esantionare in Hz
T = 1/fs; % intervalul de esantionare (secunde)
% Genereaza 10000 esantioane sinusoida de 500 Hz
for n=1:10000
s(n) = 4000 * sin(2 * pi * 500 * n * T);
end;
% Scrie intr-un fisier binar
OFid=fopen('newsin.pcm','wb');
fwrite(OFid, s, 'int16');
fclose('all');
Scrie un bloc de esantioane sinusoidale in MATLAB

12
clear all;
%semnal vocal
fs = 8000; % frecventa de esantionare in Hz
IFid=fopen('operator.pcm','rb');
Inspeech = fread(IFid, 'int16');
%Proiectarea unui filtru numeric FIR
fc = 1000; % frecventa de taiere in Hz
[a b] = fir1(20, fc/(0.5*fs) );
freqz(a,b);
%Filtrarea semnalului vocal
Outspeech = filter(a, b, Inspeech);
% Scrierea semnalului intr-un fisier
OFid=fopen('newop.pcm','wb');
fwrite(OFid, Outspeech, 'int16'); fclose('all');
Filtrarea unui semnal vocal in MATLAB

13
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-1000
-800
-600
-400
-200
0
Normalized Frequency (
prad/sample)
Phase
(degrees)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-100
-80
-60
-40
-20
0
Normalized Frequency (
prad/sample)
Magnitude
(dB)

14
IFid=fopen('newop.pcm','rb');
speech = fread(IFid,'int16');
maxamp = max(abs(speech));
sound(speech/maxamp,8000,16);
fclose('all');
Ascultarea unui semnal vocal in MATLAB

15
clear all;
fs = 8000; % frecventa de esantionare in Hz
IFid=fopen(’newsin.pcm','rb');
Insin = fread(IFid, 'int16');
%Rectificare full-wave
for n=1:10000
Outsin(n) = abs ( Insin(n) ) ;
end;
% Scriere intr-un fisier
fwrite(OFid, Outsin, 'int16');
fclose('all');
Rectificarea unei sinusoide in MATLAB

16
Modulatie
Generati 320 esantioane ale unei sinusoide de 50 Hz
esantionate la 8 kHz si multiplicati cu o sinusoida de 1 kHz
esantionata la 8kHz.
Afisati forma de unda rezultata
Simularea filtrarii unui semnal vocal in MATLAB
O linie telefonica obisnuita tranmite frecventele dintre 300Hz
si 3 kHz din semnalul vocal. Proiectati filtre TJ si TS care sa
simuleze efectul restrictiilor de banda

17
clear all; fs = 8000;
T=1/fs;
for n=1:320
s50(n) = sin(2*pi*50*n*T);
end;
figure(1); plot (s50);
for n=1:320
smod(n) = s50(n)*sin(2*pi*1000*n*T);
end;
figure(2); plot (smod);
0 50 100 150 200 250 300 350
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1

19
% Solutie MATLAB Exercitiul 2
clear all;
fs = 8000; % rata esantionare in Hz
IFid=fopen('operator.pcm','rb');
Inspeech = fread(IFid, 'int16');
%Proiectarea unui FTB FIR
fU = 3000; % frecventa superioara de taiere in Hz
fL = 300; % frecventa inferioara de taiere
[a b] = fir1(100, [fL/(0.5*fs) fU/(0.5*fs)] );
freqz(a,b);
%Filtrare
Outspeech = filter(a, b, Inspeech);
% Scriere intr-un fisier
fwrite(OFid, Outspeech, 'int16'); fclose('all');

Ton de 3300Hz suprapus intre 0. 2 secunde si 0.5 secunde

23
Filtru opreste banda intre frecventele 3200 si 3400 Hz. Filtru de tip eliptic de ordinul
5 avand riplul in banda de trecere 0.1 dB, riplul in banda de oprire de 60 dB

25
Aplicatii ale DSP-urilor:
• Prelucrarea ’Real time' :
•Un telefon mobil contine un procesor 'DSP' care este rapid si destul de
puternic (de exemplu pentru a efectua operatiile matematice cerute de
filtrarea semnalului vocal in timp ce semnalul este receptionat).
• Prelucrarea ‘Non real time’ :
• Un PC standard poate efectua prelucrari 'non-real time' pe inregistrarile
de muzica si are nevoie de timp pentru a termina aceste prelucrari.
• Prelucrarea “non real time” este extreme de folositoare (de exemplu
comprimarea MP3).
•Este folosita pentru simularea software-lui pentru procesoarele in timp
real inainte de a fi incluse intr-un hardware specific.
•Sistemele DSP simulate pot fi testate pe segmente de voce
reprezentative pentru situatiile reale asteptate cand oamenii vorbesc la
telefon

26
• Sistemele DSP in timp real sunt deseori implementate folosid
microprocesoare in “virgula fixa” deoarece consuma mai putina putere si
sunt mai ieftine decat dispozitivele in “virgula mobila”.
•Un procesor in virgula fixa foloseste numere intregi si deseori lungimea
cuvantului este restrictionata la 16 biti.
•Overflow-ul (numerele care sunt prea mare pentru o reprezentare pe 16
biti) poate conduce la situatii dezastruoase pentru calitatea sunetului.
• Daca incercam sa evitam posibilitatea depasirilor prin scalarea
numerelor pentru a le micsora amplitudinea, am putea avea pierderi de
precizie datorita cuantizarii. In acest caz eroarea de cuantizarea poate
reprezenta un procent ridicat din valoarea esantionului.
•Programarea unui procesor DSP in virgula fixa este o sarcina dificila. Un
PC foloseste prelucrarea in virgula mobile cu lungimi ale cuvantului mai
mari de 16 biti.
•Din fericire este posibila simularea unei prelucrari in virgula fixa pe PC
prin restrictionarea programului pentru aritmetica de intregi.

Aplicatii in automatizari
• Controlul industrial si automatizarea (de ex.
Controlul vitezei si pozitiei unui obiect)
• Se folosesc:
– Solutia in domeniul timp a ecuatiilor diferentiale
– Functii de transfer (Transformata Laplace)
– Stabilitatea

Aplicatii in Comunicatii
• Transmiterea informatiei (semnal) pe un
canal (in aer, cablu coaxial, cablu de fibra
optica)
• O componenta cheie a transmisiei:
Modulatia (Comunicatii Analogice si
Digitale)

Modulatia Digitala
• Se foloseste in telefonie mobila, fixa, etc.
• Avantaje:
– Poate fi criptata
– Capacitate de inmagazinare
– Multimedia

Aplicatii ale procesarii de
semnale
• Procesare de semnale = Algoritmi care modifica
semnalele pentru a le face mai utile.
• Scop:
– Transmisie eficienta, inmagazinare si afisare de
informatie
– Extragerea de informatie si imbunatatirea semnalelor

Aplicatii Multimedia
• Compresie: Transmisie rapida si
inmagazinare de date
• Aplicate semnalelor audio/ imagini/video
pentru transmisie pe internet
• Exemple: CD, DVD, MP3, MPEG4, JPEG
• Metode matematice: Transformata
Fourier, Cuantizare, Modulatie

Exemplu JPEG
43K 13K 3.5K
• JPEG foloseste Transformarea Cosinus
Discreta (similara transformarii Fourier)

Analiza semnalelor biologice
• Exemple:
– Semnale ale creierului (EEG)
– Semnale cardiace (ECG)
– Imagini medicale (raze X, MRI)
• Scop:
– Detectarea unor activitati anormale (infarct,
lesin)
– Ajuta in diagnosticarea bolilor
• Se foloseste: Filtrarea, Transformarea
Fourier etc.

Exemplu
• Undele cerebrale sunt in general contaminate
de zgomot si dificil de interpretat

35
Sisteme biometrice de recunoastere
Biometrie
Comportamentale
Fiziologice
Amprente
Forma
palmei
Fata Iris
Geometria
mainii Voce Keystrokes
Semnatura
◼ Biometrie : folosirea automata a
caracteristicilor fiziologice si de comportament
pentru a verifica sau determina identitatea
unei persoane

• Stadiul actual
•AT&T Bell Labs
•Bolt, Beranek and Newman Inc. (BBN) - sistemul BYBLOS
•Cambridge University (CU) – sistemul HTK, sistemul ABBOT
•Carnegie-Mellon University(CMU) - sistemul SPHINX
•IBM – sistemul IBM Via VOICE
•Massachusetts Institute of Technology (MIT)
•Microsoft – sistemul MS Speech Recognizer, etc.
•Nuance Inc. – sistemul Dragon Naturally Speaking
•Stanford Research Institute (SRI)

Vorbire
spontană
Vorbire
fluentă
Vorbire
prin citire
Cuvinte
înlănţuite
2 20 200 2000 20000 Fără restricţii
Dimensiune vocabular (număr de cuvinte)
Localizare
cuvinte
Cifre
Cuvinte
izolate
Verificare
vorbitor
Comenzi vocale
Apelare
vocală
Completare
formulare
Dialog
om-maşină
Dictare
birou
Transcriere
vorbire
Dialog
controlat
Conversaţie
naturală
Stilul
de
vorbire
Coordonate ale aplicaţiilor de recunoaştere automată a vorbirii
şi posibilităţile actuale (zona gri)

PHRASELATOR
• dispozitiv de traducere automată din limba engleză în alte limbi
dezvoltat de DARPA.
• Nevoia de asistenţă lingvistică a armatei americane în operaţiunile
din Afganistan şi Irak după data de 11 septembrie 2001 a accelerat
proiectarea sistemului.
• folosit de către forţele armate americane în timpul operaţiunilor din
Afganistan în 2002.

Dispozitivul PHRASELATOR utilizat în aplicaţiile militare

PHRASELATOR
• o bună fiabilitate demonstrată pe teren;
• recunoaştere imediată a vorbirii independent de vorbitor fără a fi
nevoie de o antrenare prealabilă;
• la traducere foloseşte voce umană înregistrată şi nu voce sintetizată
artificial, crescând inteligibilitatea frazelor redate;
• formă compactă, portabilă, greutate scăzută;
• durabilitate, rezistenţă la umiditate;
• adăugarea cu uşurinţă de noi limbi pentru redare.
Domeniile de aplicaţie ale acestui produs sunt foarte variate.
Soldatii pot adresa prin intermediul dispozitivului în limba
respectivă fraze de tipul „Nu intra în această zonă!”, „Arată-mi
actele de identitate!”, „Ieşi din vehicul!”. În cadrul unei acţiuni
umanitare, traduce fraze de tipul „Stai nemişcat!”, „Ai fost rănit”,
„Indică locul care te doare” , „Încercăm să te ajutăm”, „Ridică mâna
dacă ai înţeles”.

Hound vs. Siri vs. Google Now vs. Cortana

Recunoasterea cifrelor
scrise de mana

INTRODUCERE
• Recunoasterea
codurilor postale

Cale statistica
CARACTERISTICI STATISTICE:
• Raportul dintre pixelii negri si cei albi,
Cifra "1" are mai putin pixeli negri decat cifra "8" daca
sunt la aceiasi scara

• Raportul inaltime/latime pentru "0" este mai mic decat
cel pentru "6“.

• Se pot diferentia prin analiza proiectiilor integrale
(histograme).

• Se deseneaza 5 linii orizontale. Se inregistreaza numarul
de intersectii pentru fiecare linie.

• Se procedeaza la fel pe verticala...
• Se adauga numarul Euler (diferenta dintre numarul de
obiecte din imagine si numarul de gauri in obiect).

• Se calculeaza distanta dintre noul vector si cei 10
vectori constant.
• Distanta minima ne da cifra reprezentata de vectorul
constant.

Concluzii
• Probleme cu cifrele cu profil similar ‘4’ si ‘1’, ‘7’ si ‘1’, ‘6’
si ‘8’.
• NU este invariant la rotatii.
• Depinde de stilul de scris (cifre ciudat scrise ‘7‘ sau
zerouri incomplete).
• Zgomotul poate strica precizia de identificare.

Generarea de imagini
panoramice

Modele de miscare parametrice:
translatie Transformare afina perspectiva Rotatie 3D

Calculul Translatiei
Presupunere: Stralucire constanta
• Avand imaginile I1 si I2, se gaseste translatia
(u,v) care minimizeaza eroarea patratica
I1
I2
u
v

Ecuatiile de stralucire constanta
( ) ( )
dt
t
dy
y
dx
x
I
t
y
x
I +
+
+
= ,
,
,
,
( ) dt
t
I
dy
y
I
dx
x
I
t
y
x
I


+


+


+
= ,
,
Serie Taylor de ordin 1
0
=
+
+ dt
I
dy
I
dx
I t
y
x
Notatii simplificate:
Imparte cu dt:
dt
dx
u =
dt
dy
v =
t
y
x I
v
I
u
I −
=
+

Lucas Kanade (1981)
t
y
x I
v
I
u
I −
=
+   t
y
x I
v
u
I
I −
=






b
A =
u

Scop: Se minimizeaza
2
u b
A −

( ) b
A
A
A T
T 1
u
−
=

Metoda celor mai mici patrate

Estimare Multi-Scala
image It-1 image I
Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1
imagine It+1
imagine It
u=10 pixeli
u=5 pixel
u=2.5 pixeli
u=1.25 pixeli

Estimare Multi-Scala
image It-1 image I
Piramida Gausiana Imaginea It Piramida Gausiana Imaginea It+1
imagine It+1
imagine It
Lucas-Kanade
Lucas-Kanade
intinde & esantioneaza
.
.
.

Stabilizarea de Imagini
I1
I2
u
v
I2
u
I1

Image Stitching
I1
suprapunere
I2

Introducere
• Estimarea distantei se poate face cu un
dispozitiv activ cum ar fi radarul sau
laserul
• Dezavantaje:
– Scump
– Se compromite pozitia celui ce masoara in
scenariu militar
– Hardware dedicat

Introducere
• Se pot folosi doua camere digitale pentru
a triangula pozitia obiectului si a estima
distanta dintre planul camerelor si obiect.
• Avantaje:
– Se fac doar prelucrari de imagini.
– Solutie ieftina, sunt necesare doar doua
camere.
– Poate fi implementat cu 2 camere foto si
software.
– Dezavantaj: acuratete mai redusa

Configuratia sistemului
Camera’s
Focal Length
Camera’s
Diameter

Unghiul de vedere
Distanta
Area Congruenta
arctan
2
i
i
i
D
F
 =
1

2


Doua imagini diferite ale aceluiasi
obiect
User selection

R
D
Calcule
1
 2


1

1 2
1 2
tan tan
2 2
tan tan
2 2
D
R
p p
 
p p
 
   
−  −
   
   
= 
   
− + −
   
   

Rezultate
Eroare
Distanta
Estimata
Distanta Reala
Distanta intre
camere
2.028
177.972
180
80
178.235
721.765
900
110
18.359
271.641
290
116
9.056
355.944
365
220
2.45
797.55
800
270
1.606
667.394
669
270

Recunoasterea numerelor de
inmatriculare

1.Gasirea placii cu
numarul de
inmatriculare
2. Gasirea si
reprezentarea cifrelor
si literelor
3. Potrivire

1.Gasirea placii cu numarul
de inmatriculare
• Eliminarea culorilor
improbabile.

Gasirea Cifrelor
• Gasirea muchiilor
• Segmentarea de culoare
• Muchii inlantuite.
• Orientare

Gasirea Cifrelor
• Urmarirea muchiilor in
sensul acelor de
ceasornic pana in
momentul intoarcerii in
punctul de pornire.
• Medierea pe linii de
segmente si marcarea
unui punct important cand
diferenta in grade
depaseste un anumit
prag

Curbele tangentiale
• Marcarea curbei in fiecare pixel.
• Interpolarea si normalizarea
• Re-Esantionarea
0 200 400 600 800 1000 1200
0
20
40
60
80
100
120
140
160
180
Arc Length
Absolute
Tangent
Degree
Comparison of '3' images

Potrivirea
• Se da un scor ridicat pentru curbele
tangente cu distanta mica.
• Trebuiesc investigate mai multe orientari
posibile.

Imbunatari posibile
• O segmentare mai buna

Sistem de detectie a
starii de somnolenta

Motivare
Un studiu din USA a aratat ca 37% din soferi au
admis ca au adormit cel putin o data la volan atunci
cand conduceau.
S-a estimat ca 1.35 milioane de soferi au fost
implicati in accidente in ultimii 5 ani din cauza ca au
adormit la volan.
Accidentele cauzate de somnul la volan sunt de
obicei accidente grave. Se combina viteza mare cu
reactia intarziata in caz de trezire brusca.

• Momentul accidentelor in care au fost implicati soferi intre
26 si 45 ani. Accidentele au fost cauzate de dormitul la
volan si nu de alcoolul consumat.
Motivare
• Accidente in SUA (1990-92):

O camera video filmeaza constant soferul
Un sistem de detectie analizeaza filmul
cadru cu cadru si determina daca ochii
soferului sunt inchisi sau deschisi.
Daca ochii sunt inchisi pentru mai mult
de 1/4 secunde (mai mult decat perioada
normala de clipit) atunci suna o alarma
care-l atentioneaza pe sofer.

• Sunt extrase cadre din film:
30 cadre
pe secunda

• Se aplica un detector de muchii pe fiecare cadru:
Detector de muchii Sobel

• Se aplica transformarea Hough circulara
pentru a detecta irisul (pe fiecare cadru):
Se marcheaza cu albastru
cercul detectat

• Se aplica transformarea Hough circulara pentru
a detecta irisul (pe fiecare cadru):
Implementare

• Daca nu se gaseste nici un iris in 8 cadre
consecutive – suna o ‘alarma’
Implementare

Concluzii
 Sunt necesare stabilirea de parametri care
pot varia de la video la video sau de
parametrii de inregistrare (praguri, raza
cerc).
 Solutia trebuie sa functioneze in real-time.
 Purtarea de ochelari (de orice tip) poate
duce la erori.

Recunoasterea dupa fotografia
urechii

Introducere
• Trasaturile urechii se folosesc de multi ani
in criminalistica
• Urechea adultului nu variaza prea mult in
dimensiuni odata cu trecerea anilor.
• Urechea are trasasaturi biometrice utile:
unicitate, universalitate, permanenta

Anatomia urechii
• Urechea nu are o structura aleatoare. Are
parti standard ca si alte trasaturi
biometrice, cum ar fi fata.
• Spre deosebire de fata umana, urechea
nu-si schimba expresia, nu poate fi
acoperita de make-up si are o culoare
constanta.

Sistem de recunoastere a urechii
Achizitie de imagini
Pre-Procesare si Detectie de
Muchii
Extragere de trasaturi
Clasificare in doua etape

Achizitia de Imagini
• Se face in aceleasi conditii de iluminare.
• Imaginile se iau de la o distanta de cel
putin 15 cm de ureche
• Imaginile trebuiesc luate cu grija pentru a
cuprinde forma externa a urechii

Pre-Procesare
• Se selecteaza ROI (regiune de interes)
prin segmentare.
• Imaginea color este convertita intr-o
imagine grayscale
Imagine in tonuri de gri

Detectie de muchii si binarizare
• Detectia de muchii si binarizarea se face
cu detectorul de muchii Canny
• Iesirea este o imagine binara cu valoare 1
pentru pixelii de pe muchii si 0 pentru
ceilalti pixeli.

Imaginea Grayscale si imaginea binara cu muchii detectate

 Se foloseste un filtru median ponderat
pentru eliminarea zgomotului
imagine cu si fara zgomot

Extragerea de trasaturi
• Trasaturile sunt extrase pentru toate
unghiurile
• Primele trasaturi se refera la forma
externa a urechii
• Alte trasaturi sunt gasite cu celelalte
muchii
• Se cauta cea mai lunga linie care poate fi
trasata avand capetele pe muchiile urechii
• Lungimea liniei este masurata folosind
distanta Euclidiana

Liniile Normale: liniile care sunt
perpendiculare pe linia maxima; o
divide in (n+1) parti egale, unde n este
un numar pozitiv.
Imagine cu linia maxima si liniile normale

Linia maxima m, liniile normale l1,l2,l3,…..,ln
Centrul liniei maxime este c.
P1,P2,P3,……,Pn sunt punctele unde
muchiile exterioare si liniile normale se
intersecteaza.

Primul vector este definit de (FV1):
FV1 = [θ1, θ2, θ3,…., θn]

Al doilea vector (FV2): punctele unde
muchiile urechii intersecteaza liniile
normale in afara de muchiile externe

Concluzii
• Recunoasterea urechii poate fi folosita
pentru identificare sau verificare.
• Anumite portiuni din ureche pot fi
acoperite de par. Acest lucru reduce
procentul de clasificare corecta.
• Nu se poate construi un sistem biometric
doar pe examinarea urechii, deoarece
unicitatea ei este moderata.

Identificarea dupa forma palmei

Aplicatii Comerciale
• Sistem de
identificare
bazat pe
imaginea palmei

Recunoasterea palmei
• Trasaturi: dimensiunile si
forma mainii, a degetelor
(dimensiune si lungime)
• Trasaturi: Ne focusam pe
partea interioara a palmei, pe
liniile din palma si forma
suprafetei palmei.

• Se distinge usor
• Este Permanenta
• Colectabilitate medie
• Acceptabilitate medie
• Universalitate medie
• Posibilitatea de pacalire este medie
114

Schema de recunoastere a palmei
Extragere de
trasaturi
Pre-procesare
imagine
Achizitie
imagine Clasificare

116
Achizitia de imagini
Un scanner cu inalta rezolutie
Imagine Degradata
Imagine originala

Preprocessing
• Transformare RGB - Gray
• Se obtine palma din imaginea mainii

Extragere de trasaturi
• Medie pe setul de antrenare
• Matricea de covarianta
• Vectori proprii si valori proprii
118

=

=

M
n
n
M 1
1

=


=
M
n
T
n
n
M
C
1
1
2
N

Potrivire
• Distanta Euclidiana
• Se foloseste un prag :
• Sub : ‘clasificat’
• altfel : ‘necunoscut’
• = 0.8
2
2
||
|| k
k 
−

=








Experimente si rezultate
• Pasi:
1- un set de imagini pentru persoane
cunoscute.
2- achizitie + pre-procesare + extragere de
trasaturi
3- Se utilizeaza metoda bazata pe ecuatii
algebrice
4- Testare

122
Introducere
• Degetul actiona ca un sigiliu personal in China antica
• Henry,E.R(1900), Clasificare si folosirea amprentelor
• FBI (USA) (1924) 810,000 amprente.
Acum are peste 70 milioane de amprente si
1300 experti

123
Introducere
• Amprentele sunt:
Unice
Permanente
Universale
Recunoasterea amprentelor este o operatie
complicata din punct de vedere stiintific

Clase de amprente
Arcuri:
Apar arcuri mici in mijlocul amprentei.

Clase de amprente
Arcuri in forma de cort:
Arcul este mult mai mare si ascutit in centru.

Clase de amprente
Bucla stanga:

Clase de amprente
Bucla dreapta:

129
•
➢Detalii precise
terminatii bifurcatii
Creste Vai

130
Senzor
Extractor de
detalii
Potrivire de
detalii
Baza de date
Verificare vs. Identificare
Baza de date
Card
Magnetic
User
User
1:m Identificare
1:1 Verificare
User ID

131
Algoritm
•Subtiere
•Marcare de minutii
•Stergerea minutiilor false
Extractorul de minutii
Preprocesare
•Segmentare de imagini
•Imbunatatire de imagini
•Binarizare de imagini
Post-procesare
Extractorul de detalii precise:

132
Extractor de minutii- Segmentare
Estimare directioala
Prim plan: are o directie dominanta
Fundal: Nu are o directie globala

134
Preprocesare - Imbunatatire

136
➢O abordare posibila:
Adaptare locala
Valoarea nivelului de gri a fiecarui pixel g
daca g > Media(blocului de valori gri ,
g = 1;
Altfel g = 0
Binarizarea amprentelor

137
Extragere de minutii - Subtiere

138
Preprocesare:
0 1 0
0 1 0
1 0 1
0 0 0
0 1 0
0 0 1
Bifurcare
Terminatie
Extragerea de minutii

140
Post-procesare
Stergerea minutiilor false:
Doua terminatii deconectate
distanta scurta
Aceiasi directie/ directie opusa
Doua terminatii pe creasta sunt
Prea apropiate

141
Post-procesare
Stergerea minutiilor false :

142
Potrivire de minutii
➢Reprezentare de minutii:
Mn ( Pozitie, Directie ß, Creasta asociata)
tgß = (yp-y0)/(xp-x0);
Xp = sigma(xi)/Lpath;
Yp = sigma(yi)/Lpath;
creasta
Minutie
x0 x1 x2 x3 x4 x5 x6
x
y
In general bifurcatiile si terminatiile crestei sunt consolidate

143
Algoritm de potrivire :
1. Pentru fiecare pereche de minutii se genereaza o
matrice de transformare
TM =
cos
sin
0
sin
−
cos
0
0
0
1







 x
y

xi_new
yi_new
i_new








xi x
−
( )
yi y
−
( )
i 
−
( )








=TM *
(x,y, )

(xi,yi, i)


144
Algoritm de potrivire :
Pentru orice doua minutii din imagini
diferite,
Daca ele sunt intr-o zona de dimensiuni
reduse si directiile lor sunt consistente
-> Sunt minutii potrivite
Scorul de potrivire =
Numarul(minutii potrivite)
Max(Numarul de minutii (I1, I2));

145
Algoritm bazat pe aliniere :
creasta
Minutie
x0 x1 x2 x3 x4 x5 x6
x
y
Directie crestei

146
Verificarea amprentelor
Indexul de evaluare a performantelor
FRR: False Rejection Rate
FRR = 2/total1
FAR: False Acceptance Rate
FAR = 3/total2
Total1 = m*(n+1)*n/2
Total2 = m*(m-1)/2
Acelasi
Deget
Program
(Da/Nu)
Deget
diferit
1 Da 2 Nu
3 Da 4 Nu
F10 F11 F12 F13 …F1n
F20 F21 F22 F23 …F2n
F30 F31 F32 F33 …F3n
Fm0 Fm1 Fm2 Fm3 …Fmn

Recunoastere de IRIS sau
RETINA

– Irisul este banda colorata de tesut care
inconjura pupila ochiului.
– Retina este membrana subtire cu vase de
sange de pe fundul ochiului.

Recunoasterea Irisului
• Se folosesc caracteristicile unice ale irisului
uman.
• Se foloseste o camera video care capteaza
imagini si foloseste un software pentru a
compara datele calculate cu cele inmagazinate
intr-o baza de date.

Iris
• Irisul este marginit de pupila si sclera (albul ochiului); Este mic
(11 mm)
• Textura vizuala a irisului se stabilizeaza in primii doi ani de viata
• Fiecare iris este unic; chiar si irisul gemenilor este diferit

Avantajele recunoasterii dupa iris
• Se crede ca este stabil intreaga viata
• Forma nu este determinata genetic
• Este puternic protejat, rareori ranit sau
schimbat
• Procedura este neinvaziva
• Dimensiunea template-ului este mica
• Procesul de codare si potrivire este
rapid.

• Lumina Vizibila
– Straturi vizibile
– Mai putina textura
– Melamina (pigment)
absoarbe lumina vizibila
• Lumina in infrarosu
– Melamina reflecta mult
lumina in infrarosu
– Mai multa textura este vizibila
– Este preferata in sistemele
de recunoastere a irisului

Imaginea irisului in infrarosu
In lumina infrarosie chiar si ochii de culoare intunecata au o
textura bogata

• Sistemele de
recunoastere a irisului din
UAE (17 aeroporturi,
porturi sau puncte de
frontiera).
• 3.8 miliarde de comparari
in fiecare zi. O potrivire se
face in mai putin de o
secunda

Frequent Flyers sunt inclusi in "Privium“ la aeroportul
Schiphol Airport (NL); pot intra fara a prezenta
pasapoartele.

• Gerhard Schroeder a testat sistemul din
aeroportul din Frankfurt.

Locatarii blocurilor din Tokyo intra in cladiri pe baza
examinarii irisului, liftul fiind chemat automat si-i
duce la etajul la care locuiesc.

United Nations High Commission for Refugees dau bani
refugiatilor care se intorc in Afghanistan si accepta
aceasta forma de identificare. Mai mult de 350,000 de
persoane au folosit acest sistem.

Reprezentarea Irisului
• Daugman
– Gabor Demodulation (PAMI 1993)
• Lim, Lee, Byeon, Kim
– Wavelet Features (ETRIJ 2001)
• Bae, Noh, Kim
– Independent Component Analysis (AVBPA
2003)
• Ma, Tan, Wang, Zhang
– Key local variations (IEEE TIP 2004)

Metoda Daugman
• J. Daugman, “Statistical Richness of Visual Phase Information:
Update on Recognizing Persons by Iris Patterns”, International
Journal of Computer Vision, 2001.
• J. Daugman, “Biometric Personal Identification System Based On
Iris Analysis”, US Patent 5291560, 1994

Se detecteaza limitele curbiliniare

Variatii Intra-clase
Dilatarea pupilei
(modificari de
iluminare)
Inconsistenta
dimensiunii irisului
(distanta fata de
camera)
Rotatia
ochiului
(aplecarea
capului)

Stabilirea sistemului de
coordonate
Centrul irisului si al pupilei coincid Centrul irisului si al pupilei nu coincid
Se trece in coordinate polare
• Se compenseaza dilatarea pupilei si inconsistentele de dimensiune
prin producerea unei reprezentari invariante la translatie
• Acest model nu compenseaza inconsistentele datorate rotatiilor ,
dar se pot alinia prin deplasarea in directia θ.

Ilustrare 1D a procesului de codare
Un total de 2,048 biti, adica
256 bytes sunt extrase din
imaginea irisului
http://www.cl.cam.ac.uk/user
s/jgd1000/

Exemple de codare a unui Iris
Iris Patterns”, International Journal of Computer Vision, 2001.

Potrivirea de coduri de Iris
• Comparatia este efectuata prin calcului distantei
Hamming dintre doua coduri de 256-bytes
• Distanta Hamming dintre un cod X si unul Y este suma
bitilor diferiti (suma de exclusive-OR dintre ei) impartita
cu N, numarul total de biti din pattern.
N=2,048 (256 x 8) daca nu exista ocluziune in iris. Daca exista,
numai regiunile valide de iris sunt folosite pentru calcului distantei
Hamming
* Daugman, J. ,"High confidence visual recognition of
persons by a test of statistical independence." IEEE Trans.
on PAMI, 1993

Distanta Hamming
• Daca pattern-urile provin de la acelasi iris,
distanta Hamming trebuie sa fie aproape 0
datorita corelatiei mari.
• Pentru a compensa inconsistentele rotationale,
un template este shiftat stanga sau dreapta si
sunt calculate distantele Hamming.
• Cea mai mica distanta Hamming este selectata
si corespunde celei mai bune potriviri intre cele
doua template-uri.

Ilustrare a potrivirii prin shiftare

http://www.cl.cam.ac.uk/users/jgd1000/
Peste 5 trilioane comparatii fara nici o eroare in 2007 !

Limitari
• Utilizatorul trebuie sa coopereze; trebuie sa stea la o
distanta predeterminata in fata camerei foto
• Costul unui sistem performant este relativ mare
http://news.bbc.co.uk/1/hi/uk/1816221.stm

Limitari
• Calitatea imaginilor poate fi proasta
• Scanarea irisului poate da gres in pana la 7% in cazul
ochilor inlacrimati, a sprancenelor lungi sau a lentilelor
de contact.
Ocluzii
(pleoape/gene) Defocus blur Pupile largi

Limitari
• Irisul se poate schimba in timp (boli ale ochilor).
– Mai mult de 200,000 operatii de cataracta sunt efectuate in fiecare an in
UK
– Aproape 60,000 de oameni din UK au Nystagmus (tremur accentuat al
ochilor)
– Aproape 1,000 oameni din UK au Anaridia (n-au iris)
• Oameni orbi nu pot fi identificati correct.
Operatie
cataracta
hyphaema(blood
clot)
iridodialysis

Detectie Anti-Spoofing
• Lentile de contact sau fotografii ale irisului altor persoane
pot fi folosite pentru pacalirea sistemului

Diferenta dintre un iris real si unul printat
Imprimanta matriciala genereaza 4 puncte de energie in planul
Fourier; Irisul natural nu genereaza asa ceva.

Dezavantajele folosirii irisului
pentru identificare
• Tinta mica (1 cm) ce trebui fotografiata de la
distanta (1 m)
• Tinta mobila ... in interiorul alteia
• Localizata in spatele unei suprafete curbate,
umede si reflectate
• Astupata partial de pleoape, gene, lentile,
reflectii
• Se deformeza pe masura ce pupila isi schimba
dimensiunea
• Iluminarea nu trebuie sa fie prea intensa sau
vizibila
• Conotatii negative (Orweliene)

Retina
• Retina este o membrana subtire cu celule in spatele
globului ocular al vertebratelor.
• Este partea ochiului care converteste lumina in semnale
pentru sistemul nervos.
• Retina nu detecteaza doar lumina, joaca un rol
determinant si in perceptia vizuala.
• In timpul dezvoltarii embrionale retina si nervul optic apar
drept excrescente ale creierului.
• Structura unica a vaselor de sange din retina permite
utilizarea pentru identificarea biometrica.

To brain
Retina are celule sensibile la lumina.
Ele se conecteaza direct la creier.
Rods sense
brightness
Cones
sense color

Sisteme de recunoastere retinala
• Se directioneaza lumina in infrarosu de intensitate
redusa pentru a captura caracteristicile unice ale retinei
• Se capteaza si se analizeaza forma vaselor de sange.
• Fiecare ochi are un pattern unic; chiar si ochii gemenilor
au patern diferit. Desi aceasta forma este stabila in
timpul vietii, poate fi totusi modificata de anumite boli
cum ar fi : glaucoma, diabet, hipertensiune etc.

• Este unul dintre cele mai bune sisteme biometrice.
• Totusi este considerata drept neconvenabila si intruziva.
Nu este in general acceptata de utilizator.
• Sunt probleme cu orbii si persoanele cu cataracta.
• Faptul ca retina este mica, interna ochiului si dificil de
masurat face fotografiatul destul de problematic.
Individul trebuie sa stea cu ochii foarte aproape de
aparatul de scanare a retinei, sa se uite direct in lentila,
sa ramana focusat si sa nu se miste atunci cand o
lumina puternica ii scaneaza ochiul dintr-o parte in alta.

• Orice miscare poate interfera cu procesul de achizitie si
poate necesita uneori o re-startare. O scanare dureaza
mai mult de un minut. Template-ul generat are doar 96
bytes, fiind unul dintre cele mai mici din toate tehnologiile
biometrice.
• Este una dintre cele mai precise tehnici biometrice si
este folosita in controlul accesului in institutii militare si
guvernamentale cum ar fi facilitati cu armament nuclear
sau de cercetare secreta.
• Este totusi una dintre cele mai putin utilizate tehnici
biometrice datorita efortului si cooperarii intense din
partea utilizatorului.

Ce este regresia liniara?
• Este una dintre metodele cele mai de bază
pentru modelarea datelor liniare.
• Este doar o linie!
• Aproape orice alt model din machine
learning folosește drept nucleu o formă de
regresie liniară (sau proprietăți de
liniaritate) - chiar și cele mai complexe
rețele neuronale.

• În timp ce este un model simplu, are
putere generalizatoare.
• Ideea de bază în spatele regresiei liniare
este de a găsi cea mai bună linie între un
set de puncte.
• Exemplu: Să luăm câteva date despre
case. Obiectiv: să prezicem prețul unei
case, pentru case nevazite incă.

• Regresia liniară încearcă să găsească
w și w’ astfel încât linia y' = wX + w’
este cea mai potrivită pentru datele
furnizate.

• Găsirea liniei de regresie optimă
înseamnă optimizarea funcției de
pierdere dintre valorile prezise y’ și
valorile reale y:

• Diferența dintre valoarea observată a
variabilei dependente (y) și valoarea
prezisă (y') se numește reziduul (e).

• Eroarea se calculeaza in fiecare punct
• Eroarea pe intreg setul de date se
calculeaza astfel
• Eroare patratica medie (MSE) →
penalizeaza erorile mari

Tipuri de corelatie
• Panta pozitivă indică o corelație
pozitivă, panta negativă indică o
corelație negativă, iar o pantă apropiată
de 0 indică faptul ca nu exista nicio
corelare.
• Corelația pozitivă înseamnă că dacă
mărim valoarea unei variabile, cealaltă
variabilă crește și ea. În mod similar,
corelația negativă înseamnă că dacă
creștem valoarea unei variabile, cealaltă
variabilă isi scade valoarea.

Tipuri de corelatie
• Există de fapt un număr între -1 și 1 care
ne spune cât de corelate sunt două
variabile. Acest număr se numește
coeficient de corelație Pearson
• An de vanzare : luna de vanzare : risc
seismic
• [0.98472113] [0.00033827] [-0.99273222]

Exemplu polinomial
• Trebuie sa potrivim un polinom cu
datele noastre!
• Aceasta este încă regresia liniară -
modelul este liniar în coeficienți, nu în
caracteristici.

Exemplu polinomial
• În acest caz, avem o regresie liniară
multivariată, care este în esență aceeași cu
regresia liniară simplă, dar în dimensiuni mai
mari. Când avem mai multe funcții, încercăm
să potrivim un hiperplan care descrie cel mai
bine datele noastre.
• Funcția de pierdere este aceeași

Overfitting si underfitting
Overfitting-ul poate fi o problemă dacă eroarea de
antrenament este mult mai mică decât eroarea de validare

Overfitting si underfitting
Când nu avem suficiente date și / sau dorim o evaluare mai
robustă a modelului nostru, putem să folosim K-Fold Cross-
validation. Impărțit datele în segmente de dimensiuni egale și
antrenam modelul de k ori, de fiecare dată lăsând un segment
pentru testare. Precizia medie este precizia finală a modelului.

Ce este clasificarea?
• Dacă într-o regresie am avut unele
caracteristici X și niște valori țintă y, a
trebuit să facem un model care să prezică
noile y care sunt cât se poate de apropiate
de y - ul inițial. În acest caz, variabila țintă
este continuă.
• Problemele de clasificare sunt diferite.

• Să luăm în considerare acest set de date
cu două blob-uri și să încercăm să facem
niște predicții.

• Variabila țintă y are numai două valori:
{0,1}. De data aceasta potrivim un hiperplan
prin intermediul datalor si reprezentam
folosind culori.
• După ce am potrivit modelul nostru, pentru
a obține clasele spunem că dacă un punct
are o predicție mai mică de 0,5, considerăm
că acesta este de clasa 0 și dacă un punct
are o predicție de peste 0,5, atunci îl
considerăm aparținând clasei 1.

Regresie logistica
• 0,5 nu reflectă o probabilitate. De fapt, este
arbitrar, iar modelul nostru de regresie nu este în
niciun fel legat de probabilități. O modificare a
modelului de regresie logistica.
• Regresia logistică se bazează pe funcția
sigmoidă. Sigmoida este o funcție care poate fi
interpretată ca o distribuție a probabilității
cumulative.
• Este doar un model liniar cu o sigmoida deasupra
lui. (95% acuratete pe exemplul considerat)

• De ce nu merge?
• De fapt, regresia logistică nu functioneza
corespunzator in clasificarea acestor
puncte, deoarece acestea nu sunt
separabile liniar. Asta înseamnă că nu
există o linie dreaptă care să poată separa
punctele.
• Deoarece regresia logistică este un model
liniar, am putea să încercăm să aplicăm un
polinom.
• Ce grad ar trebui sa aiba polinomul?

Metoda vectorilor suport (SVM)
• Medoda vectorilor support reprezinta unul
dintre cele mai puternice modele de învățare
automată. De la inventarea sa în anii 80, a
depășit aproape toate tipurile de modele,
până când a fost depășită de rețele
neuronale în anii 2000.
• Funcționează prin găsirea celui mai mare
decalaj dintre clase și stabilind o granita de
decizie (care este o linie) astfel încât să fie
cât mai departe de puncte. În acest fel, este
foarte rezistenta la suprainvatare.

Metoda vectorilor suport (SVM)
• Ce sa facem?
• Introducem un kernel. Se transforma intr-un alt spatiu în
care este posibila separarea liniara (cu un plan).
• De fapt, când am aplicat caracteristici polinomiale datelor
noastre, am aplicat un astfel de kernel, astfel încât să
putem separa mai ușor clasele. Lucrul într-un spațiu de
dimensiune mai mare este uneori mai ușor.

Retele neuronale
Deep Learning

Retelele neuronale sunt inspirate din
sistemele neuronale biologice

Domeniul retelelor neuronale a stagnat dupa publicarea
unui articol de catre Minsky si Papert (1969). Ei au
descoperit doua probleme fundamentale cu modelul
computational folosit.
Prima problema a fost ca reteaua cu un singur strat nu este
capabila sa rezove un XOR (exclusive OR).
A doua problema: computerele nu erau sufficient de
puternice pentru rularea indelungata ceruta de retelele
neuronale mari.

Un moment de cotitura
ImageNet Large Scale Visual Recognition Challenge

Principala utilitate a retelelor neuronale artificiale
este capacitatea de a aproxima o functie din
observatii si de a le folosi.

State-of-the-art
DeepMind Alpha Go (Video)

State-of-the-art
DeepMind AlphaStar (Video)

Predictiile devin neliniare si
sunt bazate pe date de
dimensiuni mari

Se extrag trasaturi in mod
automat
Se combina, unesc si se ignora valori de intrare pentru cele mai bune performante

Pot invata din mai multe
date
Performantele nu se aplatizeaza asa de usor

Inspirate din biologie
Doar inspirate. Neuroni, Sinapse, Activari.

Structura unei retele
neuronale
O retea neuronala cu 1 strat ascuns - perceptron
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
Input
Layer
Hidden
Layer
Output
Layer

Forward Propagation
Source: 3Blue1Brown

Forward Propagation
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
w1=0.2
B1 = 0.3 Target: 0.2
0.3
0.4

Focus pe un neuron.
Input 1
(i1)
Input 2
(i2)
Hidden 1
(h1)
w1=0.2
B1 = 0.3
0.3
0.4
h1 = i1*w1 + i2*w2 +
b1
h1 = 0.3*0.2 + 0.4*0.1 + 0.3 =
0.4

Surprinzator de aproape de target
Hidden 1 = 0.4, Hidden 2 =0.59, Output 1 = 0.198
Input 1
Input 2
Hidden 1
Hidden 2
Output 1
w1=0.2
B1 = 0.3
Target: 0.2
0.3
0.4
B2 = 0.3

Tipuri de functii de activare
Integrare de ne-liniaritate
[0 1]
[-1 1]
Valorile negative sunt inlocuite cu 0

Antrenare si functii de pierdere

Secventa de antrenare
1. Initializeaza ponderile si deplasarile
2. Se aplica o intrare
3. Forward Propagate
4. Se cuantifica rezultatul
5. Ajustarea ponderilor si deplasarilor
6. Se face acest lucru pentru fiecare intrare si fiecare epoca
7. Eventual se opreste antrenarea

Functie de pierdere
Functii Cost, Functii obiective, Functii de eroare, Functii de energie
Valoare Prezisa Valoare dorita MAE MSE
14 16 2 4
● Functii de pierdere:
○ Regresie
■ Mean Absolute Error
■ Mean Squared Error
○ Clasificare
■ Cross-entropy
■ ...

Backpropagation
Metoda Backpropagation schimba fiecare parametru pentru a minimiza
pierderea globala.
Parameter
Loss

Backpropagation
Parameter
Loss

Problemele simple cer solutii
simple
When the only thing you have is a hammer, everything looks like a nail.

Flash Quiz
Care este cel mai bun model?
A B C

Overfitting
Principala cauza a performatelor slabe in machine learning.
● Overfitting-ul conduce la modele proaste.
● Overfitting apare cand modelul invata setul de antrenare foarte bine, dar are performante
slabe pe date noi.
● Sa clasificam un punct nou
● Punctul nou este verde, dar modelul il clasifica
drept albastru.
● Stim ca modelul este suprantrenat cand scorul pe
setul de antrenare este mult mai mare decat pe cel
de test.

Cum se previne
suprainvatarea?
● Se antreneaza cu mai multe date.
Datele trebuie sa fie curate si relevante.
● Se folosesc retele mai mici.
Uneori modelele mai complicate au scoruri mai mici.
● Regularizare.
● Cross Validare
● Oprire timpurie
● Dropout
● Data augmentation

Cross-validation
● Cross validation (k-fold cross validation) este o metoda de antrenare unde se imparte setul de date in
k sub-seturi. Fiecare sub-set se foloseste pentru test, iar celelalte pentru antrenare

Early stopping
● Se stopeaza antrenare cand functia de loss nu mai scade.

Dropout
● Dropout se refera la renuntarea la unii neuroni.
● In timpul antrenarii, anumite parti ale retelei sunt ignorate pe durata
propagarii inainte si inapoi.
● In dropout se seteaza un parametru ‘p’ → probabilitatea nodurilor
retinute

Data augmentation
● Sunt variatii ale intrarii originale

Underfitting
A doua cauza a performantelor slabe machine learning.
● Se intampa cand modelul nu poate captura tendinta implicita a datelor (este prea
simplu).
Solutii:
● Se creste dimensiunea modelului
● Se folosesc mai multe date relevate.

Gradient Descent
● Gradientul desscrescator este foarte complex deoarece are
nevoie de tot setul de antrenare iar apoi se modifica gradient.In
majoritatea cazurilor se ajunge intr-un minim local.
● Stochastic Gradient Descent nu updateaza dupa fiecare intrare.
Se produc iesiri zgomotoase.
● Mini Batch Gradient Descent este o combinatie a celor doua
mentionate mai sus. Ia un lot de intrari si updateaza ponderile.
Se accelereaza antrenarea si se paote ajunge la minimul global.

Batch Gradient Descent
● Se impart datele in loturi.In general nu se poate antrena pe tot setul (doar daca
memoria este gigantica).

Task-uri de Computer Vision:
Clasificare
Intrare
Imagini
Iesire
Etichete

Task-uri de Computer
Vision: Detectie
Intrare
Imagini
Iesire
Etichete,
Dreptunghi de
delimitare

Recunoastere
Intrare
Imagini
Iesire
Etichete

Segmentare
Intrare
Imagini
Iesire
Etichete, Masti

Vision: Reducere de
zgomot
Intrare
Imagine zgomotoasa
Iesire
Imagine fara zgomot

Vision: Inpainting
Intrare
Imagine, Masca
Iesire
Imagine
reconstruita

Super-rezolutie
Intrare
Imagine
Iesire
Imagine la o
rezolutie mai
mare

Vision: Transfer de stil
Intrare
Imagine
Iesire
Imagine cu alt stil

Colorizare
Intrare
Imagine Grayscale
Iesire
Imagine Color

Ce ati folosi pentru a sterge o anumita portiune a unei
imagini?
A) Denoising
B) Inpainting
C) Super-rezolutie
D) Transfer de stil

Trasaturi Spatiale
● Imaginile contin trasaturi spatiale
care au impact mare asupra
scorului de predictie.
● Daca aplatizam si folosim pixelii
imaginii intr-o retea densa
aceaasta nu poate invata toata
informatia.
● Trasaturile spatiale sunt importante
pentru o buna predictie.

Foarte multi parametri
● Retelele dense sunt conectate total, adica fiecare neuron
dintr-un strat este conectat la toti neuronii din stratul
superior. Daca doua straturi consecutive au 1000 neuroni,
sunt 1000000 ponderi de antrenat!
● Fie o imagine color 64x64 (imaltime, latime in pixeli)
● Dimensiunea intrarii retelei neuronale este 64x64x3 =
12288.
● Avem de antrenat 12288 ponderi pentru primul strat ascuns,
daca acesta are doar un neuron.
● Fie o retea neuronala profunda cu 10 straturi cu o imagine
640x480 cu 1000 neuroni→12288 * 1000 + 9 * 1000000 =
21288000 ponderi!

Retele Neuronale Convolutionale
Convolutional Neural Networks

● Fiecare pixel are o valoare intre 0-255 :
○ Rosu
○ Verde
○ Albastru

Straturile Convolutionale
Reducerea numarului de ponderi si imbunatatirea performantei.

Trasaturile imaginilor
Exemple:
● Muchii
● Culori
● Forme

Procesul de convolutie
● Se foloseste de obicei o matrice 3x3

Care sunt efectele?
● Reducerea numarul de ponderi
pentru antrenare
● In functie de valorile matricei
se obtin diferite harti de
trasaturi.
● Convolutia cu matrici diferite
poate fi folosita pentru
detectarea de trasaturi
interesante.
● Convolutia pastreaza relatia
spatiala intre pixeli prin
invatarea caracteristicilor
imaginii

Cum se reprezinta
convolutiile?

Pasi
● Pasii dicteaza cum mutam matricile de convolutie
Pas 1

Adaugarea de zerouri
● Adaugarea de zerouri pentru a largi
imaginea Adaugarea de zerouri

Calculul iesirii
● Dimensiunea filtrului- K
● Pas - S
● Adaugarea de zerouri - P
● Imagine intrare

Functia de activare a
straturilor de convolutie
● Trebuie introdusa o neliniaritate in
model
● ReLU → se anuleaza valorile
negative

Straturi de agregare
● Agregarea este un process simplu de reducere a
dimensionalitatii hartii de trasaturi
● Scopul principal este reducerea numarului de
parametri retinand totusi cele mai importante
trasaturi
3 tipuri de agregare:
1. Max Pooling
2. Average Pooling
3. Sum Pooling

Straturile conectate total
● Toate nodurile dintr-un strat sunt
conectate la iesirile stratului
urmator
● Se poate folosi un strat de
aplatizare pentru ca ultima matrice
sa devina un vector.

Baze de date populare in Computer
Vision

Modele populare in Computer Vision

Procesarea Audio
• Anularea activa a zgomotului
– Castile folosite de piloti
• Efecte audio digitale
– Adaugarea de efecte speciale muzicale:
intarziere, ecou, reverberatie etc.
• Separarea semnalelor audio
– Separarea semnalului vocal de interferente
– Reducerea zgomotului produs de vant din
muzica ascultata in masina

• melodie originala
• Efecte audio bazate pe filtrare
• efect de ecou
• efect de intarziere variabila in timp
• efect de intarziere fara feedback
• efect de cor: timpul de intarziere variabil este
obtinut dintr-un zgomot filtrat TJ

• melodie originala
• Efecte audio bazate pe reverberatie
• bass de tobe
• efect de reverberatie
• efect de reverberatie pentru bass de tobe

Prelucrari Audio
• Aplicatii:
• Efecte de saturatie
• Filtre
• Repetoare
• Egalizoare

Efecte de Saturatie
• Distorsiune
• Overdrive
• Fuzz

Efecte de Saturatie
• Efectul Overdrive este
cel mai comun, si este
tipic pentru
amplificatoarele clasice
Marshall.
• Se imita sunetele calde
date de tuburi
• Tipic pentru muzica
anilor 70

Efecte de Saturatie
• Distorsiuni mai
puternice decat
Overdrive
• Caracteristic
muzicii anilor 80
• Fuzz
• Concentrat mai
mult pe bas și
înalte.

Modulatii si repetitii
• Sound on sound
• Controlul intarzierii
prin pedala
• Tempo-ul potrivit
cu ritmul
• Efect de cor

Alte efecte
• Wah Effect
• Acesta este un filtru
trece-jos cu frecvență
variabilă cut - off.
Această frecvență
este schimbata cu o
pedala (oscilator
automat )

Watermarking
• Audio watermarking:
acest mesaj va fi
inclus intr-un semnal
audio folosind
modulatia cu spectru
imprastiat si apoi este
recuperata din
semnalul modulat.
• Semnal original
• Iudko wa|ebmarkimg:
acest meSaj va fi
inclus intruN semna|
`udio folosiNd
modulatia cu spdctr}
impras}iat si`apoh
este re#uperat!%din
semnAlul modulat.

Watermarking
Distributie bimodala

Watermarking
acest mesaj va fi
audio folosind
recuperata din
semnalul modulat.
• Semnal original
• udio water}cvcyng:
acuwt$mesan va fi
inclus mntr%un semjal
autmo
folosind$modulADia ju
Spectru impristiat
si0apoi este
recwpeRata dil
qemnqlul mmdula|.

Watermarking
acest mesaj va fi
audio folosind
recuperata din
semnalul modulat.
• Semnal original
acest mesej va fi
inclus intr-un semnAl
audio folosind
recuperata din
semnalul modulat.

Acustica
Tavanul este reflector

Acustica
Se folosesc
balcoanele

Acustica
Timpul de intarziere initial măsoară diferența de
timp dintre fasciculul direct și prima reflecție
semnificativa
• Acesta oferă o idee despre sentimentul de
" intimitate “ al salii
• Valoare recomandata: tI < 20 ms

Acustica
Eficiența laterala
• Evalueaza proporția de sunete care vin din
partea laterala in fata
• Acesta oferă o idee privind “spatialitatea" salii
• Se recomanda o valoare mai mare de 0.19

Acustica
Catedrala din York este cea mai mare catedrala gotica din UK si a fost
construita intre secolele 12 si 15. Are 160 m lungime, 76 m latime si 27 m
inaltime.

Camera obisnuita
Shutter-ul este
deschis
Raskar, 2006

Shutter-ul este
inchis si deschis
Raskar, 2006

370
Detectie
Scaderea fundalului prin diferenta de cadre succesive

371
Detectia schimbarii
Metoda mediana aproximativa

372
Detectia schimbarii
Fundalul obtinut de metoda mediana aproximativa

375
Imbunatatirea calitatii imaginilor

376
Imbunatatirea calitatii imaginilor

377
Avantajele prelucrarii numerice fata de prelucrarea analogica :
• Din ce in ce mai multe semnale sunt transmise/depozitate in forma digitala si
este usor de prelucrat in aceasta forma.
• Sistemele DSP pot fi testate si proiectate in “simulatoare” folosind
echipament disponibil
• Acuratete garantata, pre-determinta de lungimea cuvantului si de frecventa
de esantionare.
• Reproductibilitate perfecta. Orice copie a unui sistem DSP va functiona la fel.
• Caracteristicile sistemului nu sunt afectate de driftul de temperatura sau de
imbatranirea componentelor
• Exista o tehnologie avansata a semiconductorilor.
• Sistemele DSP sunt flexibile si pot fi re-programate fara a schimba
hardware-ul. Produsele pot fi distribuite/vandute si updatate prin Internet.
• Tehnologia digitala VLSI este atat de avansata incat sistemele DSP pot
efectua operatii care ar fi imposibile sau extrem de dificile in forma
analogica. Doua exemple:
• (i) filtrarea adaptiva (parametrii filtrului digital sunt variabili si trebuie adaptati
in functie de caracteristicile semnalului de intrare
• (ii) Recunoasterea vorbirii (este bazata pe informatii obtinute prin filtrarea
numerica a semnalului vocal).

378
Dezavantaje ale prelucrarii numerice a semnalelor
• Sistemele DSP pot fi scumpe, mai ales in cazul semnalelor de banda
foarte larga, unde o conversie rapida analog/digital este necesara.
• Proiectarea de sisteme DSP poate cere foarte mult timp si este o
activitate complexa si specializata. Este nevoie de ingineri electronisti
cu astfel de cunostinte.
• Cerintele de putere ale acestor sisteme DSP pot fi foarte mari si nu pot
fi uneori folosite pe dispositive portabile cum ar fi telefoanele mobile.
Dispozitivele cu procesoare in virgule fixa consuma mai putin decat
cele in virgula mobila, dar programarea lor cere experienta.

379
• Anumite procese (de exemplu amplificarea, filtrarea si anumite tipuri de
modulatie pot fi considerate liniare.
• Procesele pot fi invariante in timp.
• Procesele care sunt liniare si invariante in timp sunt numite LTI.
• Sa consideram respunsul la impuls ale acestor sisteme LTI.
• Ele conduc la raspunsul in frecventa si la functia sistemului
•Acestea sunt obtinute folosind transformatele Fourier, Laplace si z,
toate avand legatura cu 'convolutia'.
• Aceste concepte ne permit sa:
(i) analizam efectele sistemelor LTI asupra semnalelor
analogice si digitale,
(ii) intelegem si sa folosim metode de proiectare pentru aceste
sisteme.

381
1. www.kahoot.it
2. Game PIN 1217690
3. Nickname
4. Play

curs1_PDS_2020.pdf

Recommended

Recommended

More Related Content

Featured

Featured (20)

curs1_PDS_2020.pdf