Architektura kodera HEVC-3D Kodowanie wielowidokowych sekwencji wizyjnych z wykorzystaniem informacji o przesłanianiu

1
Architektura kodera HEVC-3D
Kodowanie wielowidokowych sekwencji wizyjnych
z wykorzystaniem informacji o przesłanianiu
Seminarium Katedralne, styczeń 2012
Krzysztof Wegner
Katedra Telekomunikacji
Multimedialnej i Mikroelektroniki
Politechnika Poznańska

Cel
 Przesłanie do odbiornika wielowidokowej
sekwencji wizyjnej w sposób umożliwiający
syntezę wielu widoków
 Na wejściu kodera
 3 widoki tekstury
 3 mapy głębi
 Parametry systemu kamerowego
 Na wyjściu dekodera
 wiele widoków wirtualnych
2

Wybrane warunki konkursu
 Ilość danych
 Ilość nieskompresowane danych nie powinna
przekraczać 4x wielkość pojedynczego
nieskompresowanego widoku
 Wielkość strumienia danych (Widoki + informacje dodatkowe)
 Nie więcej jak 2x wielkość strumienia pojedynczego
widoku najlepszą dostępną techniką odniesienia
 Jakość
 Głównym celem standardu będzie rekonstrukcja widoku
widzianego z arbitralnego miejsca w przestrzeni.
 Złożoność
 Wymagania na niską złożoność na syntezę widoku
3

Analiza procesu syntezy
12
 Nie wszystkie próbki w lewym i prawym
obrazie są wykorzystywane do syntezy
obrazu wirtualnego
 Nie trzeba ich przesyłać

MVC
 MPEG 4 część 10 aneks H – MVC
 Rozszerzenie standardu AVC na przypadek
wielowidokowy
 Dodanie predykcji między widokowej
 Na listach obrazów odniesienia dodano obrazy z
sąsiednich (już zakodowanych) widoków
 Około 25% redukcji strumienia względem
AVC kodującego widoki niezależnie.
13

HEVC
 Nowy standard kodowania obrazu
ruchomego
 Prace standaryzacyjne w toku
 Idea kodowania bez zmian
 Wiele nowych narzędzi kodowania
 Około 50% redukcji strumienia
względem AVC
14

HEVC-3D MVC
 Jako koder bazowy wybrano HEVC 3.0
 Który zmodyfikowano na wzór kodera MVC
15

Implementacja wielowidokowości
16
 MVC na podstawie kodera AVC
 Kodowanie kolejnych widoków
 Zalety
 Niewielki wzrost zużycia pamięci względem kodera
bazowego
 Wady
 Dostęp tylko do rekonstrukcji innych widoków

Implementacja wielowidokowości
17
 HEVC-3D na podstawie kodera HEVC
 Kodowanie kolejnych ramek wszystkich widoków naraz
 Zalety
 Dostęp do wszystkich pól wszystkich kodowanych
widoków – możliwe zróżnicowane predykcje
 Pojedynczy odczyt danych z dysku
 Wady
 Znaczny wzrost zużycia pamięci względem kodera
bazowego

HEVC-3D MVC
 Wyniki porównywalne z zyskiem osiągniętym
przy rozszerzeniu MVC (względem AVC)
 Sony prezentowało podobne wyniki już przed
konkursem
18
Redukcja strumienia przy kodowaniu HEVC-3D (MVC) w porównaniu do HEVC kodującego widoki niezaleźnie

RA-HE
Przypadek 2 widokowy
RA-HE
Przypadek 3 widokowy
Y BD-rate U BD-rate V BD-rate Y BD-rate U BD-rate V BD-rate
Poznan_Hall2 -19.0% -16.7% -16.8% -23.4% -19.1% -21.0%
Poznan_Street -24.2% -23.7% -23.5% -33.2% -33.6% -31.3%
Undo_Dancer -30.5% -33.3% -32.8% -41.3% -44.0% -43.0%
GT_Fly -33.5% -34.5% -34.5% -44.0% -44.9% -45.0%
Kendo -15.9% -9.1% -12.0% -24.4% -19.4% -21.9%
Balloons -19.2% -15.3% -17.7% -27.1% -24.0% -25.9%
Lovebird1 -18.6% -17.6% -17.7% -28.2% -25.6% -26.1%
Newspaper -20.4% -18.5% -18.3% -22.1% -19.4% -20.3%
Overall -22.7% -21.1% -21.7% -30.5% -28.8% -29.3%

Architektura kodera HEVC 3D
19

Koder HEVC-3D
 Narzędzia
 Jednorodna reprezentacja głębi
 Kodowanie warstwy szumowej
 Predykcja z kompensacją rozbieżności
 Dziedziczenie wektorów ruchu
 Przesyłanie tylko obszarów odsłoniętych
 Kwantowanie zależne od głębi
 Nieliniowa reprezentacja głębi
 Kodowanie parametrów kamer
20

Kodowanie przesłonięć
21
Obraz do zakodowania
Mapa odsłonięć (przesłonięć) Odsłonięte fragmenty obrazu
Przesyłane fragmenty obrazu

Kodowanie przesłonięć
 Kodowanie tylko odsłonięte fragmenty
 Nie kodowane jedności CU nie są w ogóle wygnalizowane
 Dekoder wie które fragmenty obrazu przesłano
 Podział jednostki CU nie sygnalizowany jeśli można
przewidzieć go w dekoderze
22

Wygładzanie krawędzi
 Różnice w oświetleniu sceny w różnych
widokach
 Gładkie przejście pomiędzy częścią
kodowaną a syntezowaną
23

Wyniki
 Wyniki obiektywne
 Psnr widoku bazowego
 Średni PSNR kodowanych widoków
 Wyniki subiektywne
 Obecna subiektywna jakości widoków pośrednich
24

Wyniki obiektywne
 Sekwencja Poznan_Street
25
26
28
30
32
34
36
38
40
42
100 600 1100 1600 2100
PSNR[dB]
Bitrate [kbps]
Anchor
Proposal

Wyniki obiektywne
 Sekwencja GT_Fly
26
26
28
30
32
34
36
38
40
42
100 600 1100 1600 2100
PSNR[dB]
Bitrate [kbps]
Anchor
Proposal

Wyniki obiektywne
 Sekwencja Poznan_Street
27

Wyniki obiektywne
 Sekwencja GT_Fly
28

Wyniki obiektywne
 Wyniki kodowania koderem HEVC-3D
29
Sequence
2-view case 3-view case
ΔPSNR [dB] ΔBitrate [%] ΔPSNR [dB] ΔBitrate [%]
Poznan_Hall2 1,8 -45,3 2,5 -59,3
Poznan_Street 2,7 -54,6 3,9 -69,6
Undo_Dancer 1,9 -51,0 2,7 -62,6
GT_Fly 2,2 -55,5 3,1 -67,0
Kendo 4,2 -58,8 6,2 -73,3
Balloons 5,2 -64,6 6,7 -74,3
Lovebird1 4,2 -66,7 5,8 -76,4
Newspaper 5,1 -66,5 6,3 -76,1
Average 3,4 -57,9 4,7 -69,8

Wyniki subiektywne
 Sekwencja GT_FLY
30

Struktura strumienia
 Podział strumienia pomiędzy dane widoku
bazwego i pobocznych
31

Struktura strumienia
 Podział strumienia pomiędzy dane obrazu i
map głębi
32

 Podział strumienia pomiędzy dane obrazu i map głębi
(Udział w strumieniu widoku bazowego i bocznych)
33

Podsumowanie
 Wiele narzędzi zostało włączonych do
powstającego oprogramowania odniesienia
35

Filtr wygładzający krawędzie
36

Mapy głębi
 Informacja o strukturze przestrzennej sceny
 Im jaśniejszy kolor tym bliższy obiekt
37

38
Wyznaczenie mapy głębi
 Do wyznaczenie mapy głębi wykorzystuje się
rozbieżność stereoskopową

39
 Rozbieżność wyszukuje się za pomocą
pasowania bloków (lub innej bardziej zaawansowanej techniki)
d

40
 Rozbieżność wyszukuje się za pomocą
pasowania bloków (lub innej bardziej zaawansowanej techniki)
d
d
d

41
Problem zasłaniania
 Nie wszystkie punkty są widoczne
w sąsiednim obrazie
d????

42
Rozwiązanie
 Do wyznaczenie mapy głębi wykorzystuje się
nie dwa a trzy obrazy
d???? d

43
Problem wyboru kierunku
 Jak wyznaczyć którą rozbieżność wybrać??
 Standardowo wybiera się tą wartość która
lepiej pasuje (min sel) np. DERS
d???? d

44
 Jednak w niektórych przypadkach
niewłaściwa rozbieżność jest wybierana
d2
d1

 Rozmywanie krawędzi w
macie głębi
45

Pomysł
 Wybór kierunku na podstawie
przewidywanej widoczności punktu
w sąsiednich widokach
46

Wybór kierunku
 Z aktualnie wyliczonej mapy głębi (może
niedoskonałej) zsyntezuj mapy głębi widoków
sąsiednich.
47

Wybór kierunku
 Sprawdź czy punkt jest widoczny w
sąsiednim widoku (Z-Test)
 Jeśli jest widoczna tylko w jednym widoku
wybierz ten widok
 Jeśli w obu uśrednij koszty pasowania.
48
d
2
d
1

Podsumowanie
 Zaproponowano nową metodę wyboru
obrazu odniesienia bazującą na
wykrywaniu widoczności punktu
 Zaproponowana metoda poprawia
otrzymywanie mapy głębi średnio o 2db
 Zaproponowana metoda nie ingeruje w
sposób wyznaczania map głębi a jedynie w
sposób wyboru obrazu odniesienia
52

Dziękuje za uwagę
 Pytania?
53

Telewizja swobodnego punktu
widzenia
 Widz może wybrać z którego miejsca chce
oglądać scenę.
 Nie tylko z miejsca z którego fizycznie
rejestrowaliśmy scenę
54

Synteza widoku wirtualnego
 Ma na celu stworzenie obrazu z wirtualnej
kamery
 Na podstawie obrazów referencyjnych
 Renderowanie
55

 1. Rekonstrukcja modelu w przestrzeni 3D
 obrazy referencyjne
 mapy głebi
56

 2. Model w przestrzeni 3D
 poprawki modelu
57

 3. Renderowanie nowego widoku
 rzutowanie modelu do nowego widoku
58

 Problemy
 Nie dokładności w mapie głębi
 Różnice w oświetleniu
 Półprzeźroczystości
 Nawigowanie
 Czas syntezy
59

Czas
 Renderowanie – złożone obliczeniowo
 Obliczenie pozycji w przestrzeni
 Każdy punkt opisany 7 liczbami

3 współrzędne

4 składowe koloru
 Obliczenie położenia wymaga rozwiązania
równania z macierzami 4x4
60












⋅⋅=










⋅
1
1
Z
Y
X
RAy
x
d

Czas - rozwiązanie
 Renderowanie
61
 Renderowanie – Homografia

Czas - rozwiązanie
 Przesuwanie punktów
 Obliczenie położenia wymaga rozwiązania
równania z macierzami 3x3 (256 szczególnych
przypadków)
62










⋅=










11
Y
X
Hy
x
d

Czas - rozwiązanie
 Implementacja na karcie graficznej GPGPU
 Ogromne zrównoleglenie – specjalny algorytm
63

Schemat zaproponowanego
rozwiązania
64

Wyniki
GPU – ATI Radeon Procek - Core
i7
VSRS - Ref
Czas
przetwarzania
25 fps – 40 ms 0.5 fps – 2s 0.25 fps – 4 s
67
Wyniki jakości subiektywnej –
praca w toku

Architektura kodera HEVC-3D Kodowanie wielowidokowych sekwencji wizyjnych z wykorzystaniem informacji o przesłanianiu

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

More from Krzysztof Wegner

More from Krzysztof Wegner (15)

Architektura kodera HEVC-3D Kodowanie wielowidokowych sekwencji wizyjnych z wykorzystaniem informacji o przesłanianiu