Architektura kodera HEVC-3D Kodowanie wielowidokowych sekwencji wizyjnych z wykorzystaniem informacji o przesłanianiu
1. 1
Architektura kodera HEVC-3D
Kodowanie wielowidokowych sekwencji wizyjnych
z wykorzystaniem informacji o przesłanianiu
Seminarium Katedralne, styczeń 2012
Krzysztof Wegner
Katedra Telekomunikacji
Multimedialnej i Mikroelektroniki
Politechnika Poznańska
2. Cel
Przesłanie do odbiornika wielowidokowej
sekwencji wizyjnej w sposób umożliwiający
syntezę wielu widoków
Na wejściu kodera
3 widoki tekstury
3 mapy głębi
Parametry systemu kamerowego
Na wyjściu dekodera
wiele widoków wirtualnych
2
3. Wybrane warunki konkursu
Ilość danych
Ilość nieskompresowane danych nie powinna
przekraczać 4x wielkość pojedynczego
nieskompresowanego widoku
Wielkość strumienia danych (Widoki + informacje dodatkowe)
Nie więcej jak 2x wielkość strumienia pojedynczego
widoku najlepszą dostępną techniką odniesienia
Jakość
Głównym celem standardu będzie rekonstrukcja widoku
widzianego z arbitralnego miejsca w przestrzeni.
Złożoność
Wymagania na niską złożoność na syntezę widoku
3
12. Analiza procesu syntezy
12
Nie wszystkie próbki w lewym i prawym
obrazie są wykorzystywane do syntezy
obrazu wirtualnego
Nie trzeba ich przesyłać
13. MVC
MPEG 4 część 10 aneks H – MVC
Rozszerzenie standardu AVC na przypadek
wielowidokowy
Dodanie predykcji między widokowej
Na listach obrazów odniesienia dodano obrazy z
sąsiednich (już zakodowanych) widoków
Około 25% redukcji strumienia względem
AVC kodującego widoki niezależnie.
13
14. HEVC
Nowy standard kodowania obrazu
ruchomego
Prace standaryzacyjne w toku
Idea kodowania bez zmian
Wiele nowych narzędzi kodowania
Około 50% redukcji strumienia
względem AVC
14
15. HEVC-3D MVC
Jako koder bazowy wybrano HEVC 3.0
Który zmodyfikowano na wzór kodera MVC
15
16. Implementacja wielowidokowości
16
MVC na podstawie kodera AVC
Kodowanie kolejnych widoków
Zalety
Niewielki wzrost zużycia pamięci względem kodera
bazowego
Wady
Dostęp tylko do rekonstrukcji innych widoków
17. Implementacja wielowidokowości
17
HEVC-3D na podstawie kodera HEVC
Kodowanie kolejnych ramek wszystkich widoków naraz
Zalety
Dostęp do wszystkich pól wszystkich kodowanych
widoków – możliwe zróżnicowane predykcje
Pojedynczy odczyt danych z dysku
Wady
Znaczny wzrost zużycia pamięci względem kodera
bazowego
18. HEVC-3D MVC
Wyniki porównywalne z zyskiem osiągniętym
przy rozszerzeniu MVC (względem AVC)
Sony prezentowało podobne wyniki już przed
konkursem
18
Redukcja strumienia przy kodowaniu HEVC-3D (MVC) w porównaniu do HEVC kodującego widoki niezaleźnie
RA-HE
Przypadek 2 widokowy
RA-HE
Przypadek 3 widokowy
Y BD-rate U BD-rate V BD-rate Y BD-rate U BD-rate V BD-rate
Poznan_Hall2 -19.0% -16.7% -16.8% -23.4% -19.1% -21.0%
Poznan_Street -24.2% -23.7% -23.5% -33.2% -33.6% -31.3%
Undo_Dancer -30.5% -33.3% -32.8% -41.3% -44.0% -43.0%
GT_Fly -33.5% -34.5% -34.5% -44.0% -44.9% -45.0%
Kendo -15.9% -9.1% -12.0% -24.4% -19.4% -21.9%
Balloons -19.2% -15.3% -17.7% -27.1% -24.0% -25.9%
Lovebird1 -18.6% -17.6% -17.7% -28.2% -25.6% -26.1%
Newspaper -20.4% -18.5% -18.3% -22.1% -19.4% -20.3%
Overall -22.7% -21.1% -21.7% -30.5% -28.8% -29.3%
22. Kodowanie przesłonięć
Kodowanie tylko odsłonięte fragmenty
Nie kodowane jedności CU nie są w ogóle wygnalizowane
Dekoder wie które fragmenty obrazu przesłano
Podział jednostki CU nie sygnalizowany jeśli można
przewidzieć go w dekoderze
22
23. Wygładzanie krawędzi
Różnice w oświetleniu sceny w różnych
widokach
Gładkie przejście pomiędzy częścią
kodowaną a syntezowaną
23
24. Wyniki
Wyniki obiektywne
Psnr widoku bazowego
Średni PSNR kodowanych widoków
Wyniki subiektywne
Obecna subiektywna jakości widoków pośrednich
24
43. 43
Problem wyboru kierunku
Jak wyznaczyć którą rozbieżność wybrać??
Standardowo wybiera się tą wartość która
lepiej pasuje (min sel) np. DERS
d???? d
46. Pomysł
Wybór kierunku na podstawie
przewidywanej widoczności punktu
w sąsiednich widokach
46
47. Wybór kierunku
Z aktualnie wyliczonej mapy głębi (może
niedoskonałej) zsyntezuj mapy głębi widoków
sąsiednich.
47
48. Wybór kierunku
Sprawdź czy punkt jest widoczny w
sąsiednim widoku (Z-Test)
Jeśli jest widoczna tylko w jednym widoku
wybierz ten widok
Jeśli w obu uśrednij koszty pasowania.
48
d
2
d
1
52. Podsumowanie
Zaproponowano nową metodę wyboru
obrazu odniesienia bazującą na
wykrywaniu widoczności punktu
Zaproponowana metoda poprawia
otrzymywanie mapy głębi średnio o 2db
Zaproponowana metoda nie ingeruje w
sposób wyznaczania map głębi a jedynie w
sposób wyboru obrazu odniesienia
52
54. Telewizja swobodnego punktu
widzenia
Widz może wybrać z którego miejsca chce
oglądać scenę.
Nie tylko z miejsca z którego fizycznie
rejestrowaliśmy scenę
54
55. Synteza widoku wirtualnego
Ma na celu stworzenie obrazu z wirtualnej
kamery
Na podstawie obrazów referencyjnych
Renderowanie
55
59. Synteza widoku wirtualnego
Problemy
Nie dokładności w mapie głębi
Różnice w oświetleniu
Półprzeźroczystości
Nawigowanie
Czas syntezy
59
60. Czas
Renderowanie – złożone obliczeniowo
Obliczenie pozycji w przestrzeni
Każdy punkt opisany 7 liczbami
3 współrzędne
4 składowe koloru
Obliczenie położenia wymaga rozwiązania
równania z macierzami 4x4
60
⋅⋅=
⋅
1
1
Z
Y
X
RAy
x
d
67. Wyniki
GPU – ATI Radeon Procek - Core
i7
VSRS - Ref
Czas
przetwarzania
25 fps – 40 ms 0.5 fps – 2s 0.25 fps – 4 s
67
Wyniki jakości subiektywnej –
praca w toku