0
EINFÜHRUNG IN DIE VIDEOANALYSE-TECHNOLOGIEN           Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN                            ...
Multimedia Analyse-Technologien2     1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)     2. Digitalisierung...
Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMultimediale Daten im Computer  • Definition Multimedia    • Kom...
Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMedientypen • zeitunabhängige Medien    • Zeitkomponente währen...
Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMultimediakodierung • Audio- /Videoinformation   • Audio-/Video...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • Was ist Farbe? ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • 1931 wurde als ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle                  ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • RGB-Farbmodell ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle                                       ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle                                       ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • CMY(K) Farbmode...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell ...
Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell ...
Multimedia Analyse-Technologien15      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle WahrnehmungVisuelle Wahrnehmung des Menschen • Das menschlich...
Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle WahrnehmungVisuelle Wahrnehmung des Menschen • Licht- / Farbe...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • JPEG, Joint Photograph...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • Natürliche Bildquellen...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • Natürliche Bildquellen...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  •                     Orig...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (1) Farbraumwechsel (r,g,b...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (2) Chroma Subsampling    ...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (3) Diskrete Cosinus-Trans...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (3) Diskrete Cosinus-Trans...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (3) Diskrete Cosinus-Trans...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (3) Diskrete Cosinus-Trans...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  (3) Diskrete Cosinus-Trans...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf  •                     Orig...
Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformatio...
Multimedia Analyse-Technologien35      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• Grundlagen    • V...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• Analoge Videotech...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• PAL (SD576i)- not...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• HDTV (HD1080p) - ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Ausnutzung von inhärenten Redundanz...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Block-Matching  Originalbild In    ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Block-Matching  Originalbild In    ...
Multimedia-Analyse-Technologien       3. Videokodierung und Kompression            Video Codecs und Komprimierverfahren   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokomprimierung nach MPEG • MPEG - Moving Pictures Expe...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung - Prinzipieller Ablauf    •Videoeinz...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung - Datenstrom Struktur   •  Videosequ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Farbraumkonvertierung → YCrCb (4:2...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Farbraumkonvertierung → YCrCb (4:2...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Frametypen   • I-Frame muss nach s...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung  Past Referenz   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung  Past Referenz   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung  Past Referenz   ...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• Typische Kompressionsfaktoren (SD57...
Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• MPEG Datenstrom  Sequence Layer    ...
Multimedia Analyse-Technologien54      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia Analyse-Technologien55      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing   Verfahren zur Bildbearbeitung und Bildanalyse (...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing   Binarisierung    Binärbild: Das Bild bestehen a...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing   Grauwerttransformation    Überführen eines RGB-...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing     Faltung (Convolution)      Pixel für Pixel wi...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing   Faltung (Convolution): Sobel Operator      Falt...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing      Rangordnungsfilter: Median                   ...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing    Morphologische Operationen: Dilatation, Erosio...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing    Kantenrichtung     Die Kantenrichtung ermittel...
Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing   Skelletierung (Sceleton) Berechnung einer inner...
Multimedia Analyse-Technologien65      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features    Analyse Features und Invarianten      • Histogramme      •...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features     Histogramme     •(graphische) Darstellung der Häufigkeitsv...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features     Histogramme       •RGB-Histogramm       •Kantenrichtungs-...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features    Entropie     • Maß für den Informationsgehalt einer Nachri...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features    Local Binary Pattern (LBP)    • Texture Filter invariant z...
Multimedia Analyse-Technologien4. Visuelle Analyse: Features    Distanzmaße    • werden zum Beispiel für Ähnlichkeitsbetra...
Multimedia Analyse-Technologien72      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Schwellwertverfahren     • Anwendung zum Beispiel b...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Parameter-Optimierung    • Ziel: optimale Parameter...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Maschinelle Lernverfahren      • Lernen:       indu...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Maschinelle Lernverfahren     • K-Nearest-Neighbor ...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Maschinelle Lernverfahren       • Neuronale Netze  ...
Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden    Maschinelle Lernverfahren     • Support Vector Mach...
Multimedia Analyse-Technologien79      1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle)      2. Digitalisier...
Structural            Video AnalysisSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Po...
Structural Video Analysis          • Decomposition of time-based media into meaningful media            fragments of coher...
Structural Video Analysis  • Shot Boundary Detection                                                                  time...
Structural Video Analysis  • Shot Boundary Detection   • Automated Identification of     Hard Cuts based on      • Luminanc...
Structural Video Analysis                                               Adaptive Threshold            1           2       ...
Structural Video Analysis• Shot Boundary Detection / Defect Analysis • Automated Identification of Defects                 ...
Structural Video Analysis • Shot Boundary Detection  • Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In ...
Structural Video Analysis• Shot Boundary Detection  • Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In  ...
Intelligent            Character            RecognitionSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Insti...
Intelligent Character Recognition      • Preprocessing       • Character Identification       • Text Preprocessing         ...
Intelligent Character Recognition     • Character Identification      • Robust filter to extract text candidate frames      ...
Intelligent Character Recognition  Features used for Character Identification:  • Edge Based Detection    • DCT    • Fourie...
Intelligent Character Recognition   • Analytical Textbox Filtering    • Horizontal  Vertical Projection Profile    • Stroke...
Intelligent Character Recognition   Analytical Edge Based Character Identification                  Seminar: Multimedia-Ana...
Intelligent Character Recognition   Analytical Edge Based Character Identification                  Seminar: Multimedia-Ana...
Intelligent Character Recognition      Character Binarization      Original        Video      Frames     Textbox          ...
Intelligent Character Recognition  Character Binarization  • Skeleton Mapping                       Seminar: Multimedia-An...
Intelligent Character Recognition   Standard Optical Character Recognition   • OCRopus 0.4.4 (Open Source, Apache License ...
Intelligent Character Recognition   OCR Post Processing   • OCR-adapted Spell Correction (hunspell 1.3.2, OPen Source GNU ...
Face Detection          Face Tracking          Face ClusteringSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattne...
Face Detection Tasks  • Face Detection    Detektion von Gesichtern in Einzelbildern   • Kaskade unterschiedlicher Filter l...
Face Detection Tasks • Face Tracking   Verfolgung eines detektierten Gesichts in einer Szene innerhalb eines Videos • prob...
Face Detection Tasks  • Face Clustering    Gruppierung der entdeckten Gesichter in einem Video nach    Ähnlichkeitskriteri...
Face Detection Tasks  • Face Clustering    Gruppierung der entdeckten Gesichter in einem Video nach verschiedenen    Ähnli...
Visual Concept          DetectionSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsd...
Visual Concept Detection    • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval      • Dictionary/Codeword Vocabu...
Visual Concept Detection   • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval     • Dictionary/Codeword Vocabula...
Visual Concept Detection    • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval      • Dictionary/Codeword Vocabu...
03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012
03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012
03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012
03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012
03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012
Upcoming SlideShare
Loading in...5
×

03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012

890

Published on

Theoretische Einführung zum Seminar "Multimedia Analyse Technologien" im Sommersemester 2012 am Hasso-Plattner-Institut, Universität Potsdam, Dr. Harald Sack

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
890
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "03 Multimedia Analyse Technologien - Theoretische Einführung SS 2012"

  1. 1. EINFÜHRUNG IN DIE VIDEOANALYSE-TECHNOLOGIEN Seminar: MULTIMEDIA ANALYSE-TECHNOLOGIEN Seminar Dr. Harald Sack / Jörg Waitelonis Bernhard Quehl / Haojin Yang / Christian Hentschel Hasso-Plattner-Institut für SoftwaresystemtechnikDie nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC). 1
  2. 2. Multimedia Analyse-Technologien2 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 2
  3. 3. Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMultimediale Daten im Computer • Definition Multimedia • Kommen bei der Darstellung von Information mehrere, verschiedenartige Medien zum Einsatz, wie z.B. Text, Bild und Ton, so spricht man von einer multimedialen Darstellung der Information. • Multimediale Darstellung soll dem Betrachter die Wissensaufnahme von Inhalten erleichtern, da der Benutzer die Informationen mit verschiedenen Sinnesorganen aufnimmtalphanumerische graphische Audio- Video- Information Information information information Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 3
  4. 4. Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMedientypen • zeitunabhängige Medien • Zeitkomponente während der Aufzeichnung ohne Bedeutung • z.B. Text, Grafik • „diskrete Medien“ • zeitabhängige Medien • Information verändert sich mit der Zeit • Gehalt einer Einzelinformation (zu einem diskreten Zeitpunkt) nicht signifikant • Gesamtinformation erschließt sich erst aus dem zeitlichen Ablauf • Zeitkomponente kritisch sowohl bei Aufzeichnung als auch bei Wiedergabe • z.B. Audio, Video Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 4
  5. 5. Multimedia-Analyse-Technologien1.1 Multimedia und KodierungMultimediakodierung • Audio- /Videoinformation • Audio-/Videoinformation liegt analog vor und muss vor einer entsprechenden Kodierung zunächst (zeitabhängig) digitalisiert werden. • man unterscheidet verlustfreie und verlustbehaftete Kodierung von Audio-/ Videoinformation • verlustfreie Kodierung: • Audio: AU, WAV, ... • Video: DV • verlustbehaftete Kodierung: • Audio: MP3, MPEG-2 AAC, MPEG-4 AAC, ... • Video: MPEG-1, MPEG-2, MPEG-4, H.264, X.264, DVCPro, ... Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 5
  6. 6. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • Was ist Farbe? • Farben sind die Grundbestandteile des weißen Lichts • Prisma zerlegt weißes Licht in seine spektralen Bestandteile • Lichtstrahlen besitzen keine Farbe sondern eine spektrale Energieverteilung 1648 Marcus Marci 1672 Isaac NewtonMarcus Marci Prisma(1595-1667) Isaac Newton (1643-1727) Elektromagnetisches Spektrum Infrarot sichtbares Licht UV λ=780 nm λ=380 nm Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 6
  7. 7. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • 1931 wurde als erstes Modell zur objektiven Farbbestimmung die Farbnormtafel von der internationalen Beleuchtungs- kommision festgelegt (Commission Internationale d´Eclairage, CIE) • Farben werden aus Farbanteilen der Grundfarben (Rot, Grün, Blau) gemischt und in ein 2-dimensionales Koordinatensystem projiziert CIE Farbnormtafel, 1931 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 7
  8. 8. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle additive Farbmischung • RGB-Farbmodell • additive Farbmischung • Mischung selbstleuchtender Grundfarben • Rot (700nm) • Grün (546,1nm) • Blau (435,8nm) • Farbe wird als Tripel (r,g,b) aus den jeweiligen Farbanteilen angegeben • z.B. bei 8 Bit pro Farbkanal: gelb = (255,255,0) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 8
  9. 9. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • RGB-Farbmodell • Bsp.: additive Farbmischung R G B Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 9
  10. 10. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle subtraktive FarbmischungFarbe und Farbmodelle • CMY(K)-Farbmodell • subtraktive Farbmischung • Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen bestimmte Farbanteile Lichtstrahl werden reflektiert, andere absorbiert • Grundfarben Cyan / Magenta / Yellow • Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 10
  11. 11. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und Farbmodelle subtraktive FarbmischungFarbe und Farbmodelle • CMY(K)-Farbmodell • subtraktive Farbmischung • Farbe entsteht durch Reflektion/Absorbtion an unterschiedlichen Oberflächen bestimmte Farbanteile Lichtstrahl werden reflektiert, andere absorbiert • Grundfarben Cyan / Magenta / Yellow • Druckprinzip: Farbpigmente der Grundfarben werden auf weiße Oberfläche aufgetragen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 10
  12. 12. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • CMY(K) Farbmodell • Bsp.: subtraktive Farbmischung C M Y Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 11
  13. 13. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell • Zerlegung der Farben in • Helligkeitsanteil (Luminanz) – Y-Komponente • Farbanteil (Chrominanz) – U und V Komponente • Historisch in Verbindung mit dem Farbfernsehens entstanden • Rückwärtskompatibilität mit Schwarzweiß-Empfängern • daher separater Helligkeitskanal • Ausnutzung der unterschiedlichen Empfindlichkeit des menschlichen Auges für Helligkeits- und Farbunterschiede Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 12
  14. 14. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell rot grün blau Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 13
  15. 15. Multimedia-Analyse-Technologien1.2 Bild- und Videokodierung / Farbe und FarbmodelleFarbe und Farbmodelle • YUV-Farbmodell Y U V Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 14
  16. 16. Multimedia Analyse-Technologien15 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 15
  17. 17. Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle WahrnehmungVisuelle Wahrnehmung des Menschen • Das menschliche Auge Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 16
  18. 18. Multimedia-Analyse-Technologien2. Digitalisierung / Visuelle WahrnehmungVisuelle Wahrnehmung des Menschen • Licht- / Farbempfindlichkeit • Netzhaut enthält zwei Typen von Licht- rezeptoren im menschlichen Auge: • Zapfen Farb- und Helligkeitsempfindlich, verantwortlich für Farbsehen, im zentralen Retinabereich, ca. 6 Millionen, man unterscheidet drei Typen von Zapfen, die jeweils über unterschiedliches Sehpigment verfügen • Stäbchen Helligkeitsempfindlich auch bei geringer Beleuchtung im peripheren Retinabereich ca. 120 Millionen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 17
  19. 19. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • JPEG, Joint Photographic Experts Group • verlustbehaftete Komprimierung, sehr gut geeignet für natürliche Bildquellen • Komprimierung bis 1:20 bei kaum nennenswerten Verlust der Darstellungsqualität • Ausnutzung der Physiologie der menschlichen Wahrnehmung • Das menschliche Auge reagiert auf Änderungen der Helligkeit empfindlicher als auf Farbänderungen • Natürliche Bildquellen besitzen • häufig Farb- / Helligkeitsverläufe • häufig keine starken Kontrastschwankungen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 18
  20. 20. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • Natürliche Bildquellen besitzen • häufig Farb- / Helligkeitsverläufe • häufig keine starken Kontrastschwankungen Helligkeit benachbarte Bildpunkte unterscheidet sich kaum Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 19
  21. 21. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungVerlustbehaftete JPEG Kodierung • Natürliche Bildquellen besitzen • häufig Farb- / Helligkeitsverläufe • häufig keine starken Kontrastschwankungen Helligkeit benachbarte Bildpunkte unterscheidet sich kaum Idee: Das Herausfiltern von Bildanteilen mit starken Kontrastschwankungen fällt bei den meisten „natürlichen“ Bildern nicht auf Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 19
  22. 22. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf • Originalbild komprimiertes Bild schwächere Farbempfindlichkeit Filterung von Bildanteilen Farbraum- des menschlichen mit starken Kontrastschwankungen wechsel Auges Diskrete modifizierte Chroma- Cosinus- Quantisierung Huffman Subsampling Transformation Kodierung Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 20
  23. 23. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (1) Farbraumwechsel (r,g,b) →(Y,Cb,Cr) Luminanz Originalbild Chrominanz Y Farbraum- wechsel Cb (r,g,b) ⎛ +0,299 +0,587 +0,114 ⎞ ⎛ r ⎞ ⎛ Y ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ +0,1687 −0,3313 +0,5 ⎟ ⋅ ⎜ g⎟ = ⎜Cb ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ Cr ⎝ +0,5 −0,4187 −0,081⎠ ⎝ b⎠ ⎝ Cr ⎠ Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 21
  24. 24. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling Y-Pixel Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 22
  25. 25. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling Y-Pixel Cr-Pixel Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 22
  26. 26. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling Y-Pixel Cr-Pixel Cb-Pixel Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 22
  27. 27. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling Y-Pixel Cr-Pixel Cb-Pixel Statt 4·(r,g,b) 4·Y+1·(Cb+Cr) 4·(8+8+8)=96 Bit 4·8+(8+8)=48 Bit Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 22
  28. 28. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling 4:4:4 – kein Subsampling 4:2:2 – horizontales Subsampling um Faktor 2 Luminanzpixel Chrominanzpixel Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 23
  29. 29. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling 4:1:1 – horizontales Subsampling um Faktor 4 4:2:0 – horizontales und vertikales Subsampling um Faktor 2 Luminanzpixel Chrominanzpixel Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 24
  30. 30. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (2) Chroma Subsampling 4:2:0 Subsampling Original PNG 285 KB 968 KB Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 25
  31. 31. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (3) Diskrete Cosinus-Transformation (DCT) • versetzt einzelne Helligkeitswerte von Ortsraum in Frequenzraum • Jede Komponente (Y,Cb,Cr) wird separat transformiert • Bild wird dazu in Blöcke 8x8-Pixel zerlegt (0,0) F(0,0) DCT F(7,7) 8x8 Block (7,7) transformierter 8x8 Block Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 26
  32. 32. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (3) Diskrete Cosinus-Transformation (DCT) • Das Prinzip der Fouriertransformation: Jede periodische Funktion lässt sich als Summe von Sinus- und Cosinus-Funktionen darstellen. Jean-Babtiste Joseph Baron de Fourier (1768-1830) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 27
  33. 33. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (3) Diskrete Cosinus-Transformation (DCT) • Das Prinzip der Fouriertransformation: Jede periodische Funktion lässt sich als Summe von Sinus- und Cosinus-Funktionen darstellen. Jean-Babtiste Joseph Baron de Fourier (1768-1830) A x Ortsraum Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 27
  34. 34. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (3) Diskrete Cosinus-Transformation (DCT) • Das Prinzip der Fouriertransformation: Jede periodische Funktion lässt sich als Summe von Sinus- und Cosinus-Funktionen darstellen. Jean-Babtiste Joseph Baron de Fourier (1768-1830) A x Ortsraum Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 27
  35. 35. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf (3) Diskrete Cosinus-Transformation (DCT) • Das Prinzip der Fouriertransformation: Jede periodische Funktion lässt sich als Summe von Sinus- und Cosinus-Funktionen darstellen. Jean-Babtiste Joseph Baron de Fourier (1768-1830) A A x f Ortsraum Frequenz-Spektrum Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 27
  36. 36. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) u v • Jeder Punkt bezeichnet Anteil einer bestimmten Frequenz • F(0,0) - niedrigste Frequenz • F(7,7) - höchste Frequenz Niedrige Frequenz = langsame Änderung Hohe Frequenz = rasche Änderung Frequenzraum F(u,v) „natürliche“ Bilder besitzen viele kontinuierliche Farb-/Helligkeitsübergänge d.h. Hauptanteil der Bildinformation liegt in den niedrigen Frequenzen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 28
  37. 37. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) 45 45 50 45 58 56 50 48 425 -25 -6 -5 -3 4 -15 13 43 50 48 45 50 56 56 53 -17 -1 0 10 -7 -6 4 3 43 53 48 50 61 53 63 56 -3 0 -3 9 4 -10 10 -2 Frequenzraum 48 50 58 53 53 48 68 50 Ortsraum -5 5 -3 -1 3 2 0 -2 45 48 56 56 50 45 68 61 DCT 0 0 0 -4 -1 6 6 6 48 53 50 61 61 45 61 50 4 4 -3 2 -1 0 1 4 50 53 56 56 58 53 63 61 1 2 -8 3 5 -3 -4 3 50 48 56 56 63 53 61 61 3 -6 3 -4 1 -3 2 0 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 29
  38. 38. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) - Quantisierung Niedrige Frequenzen 1 1 1 1 1 4 8 16 bleiben erhalten 1 1 1 1 4 4 8 16 1 1 1 2 4 4 8 16 Quantisierungsmatrix – Q(u,v) 2 8 8 8 8 16 16 16 4 8 8 8 8 16 16 32 4 8 8 8 16 16 16 32 4 8 8 8 16 16 32 32 8 8 8 16 16 32 32 64 Hohe Frequenzen werden entfernt Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 30
  39. 39. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung DC Mittelwert Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 31
  40. 40. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) - Zig-Zag-Encodierung DC Mittelwert Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 31
  41. 41. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung • Kodierung variabler Länge Bits Wertebereich mit fester Kodierungsvorschrift 1 -1, +1 • Zusammenfassung von Null-Ketten 2 -3,-2, +2,+3 mit Lauflängenkodierung (RLE-Kodierung) 3 -7…-4, +4…7 4 -15…-8, 8…15 5 -31…-16, 16…31 6 -63…-32, 32…63 7 -127…-64, 64…127 8 -255..-128, 128…255 9 -511…-256, 256…511 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 32
  42. 42. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG Kodierung JPEG Komprimierung - Ablauf • Originalbild komprimiertes Bild schwächere Farbempfindlichkeit Filterung von Bildanteilen Farbraum- des menschlichen mit starken Kontrastschwankungen wechsel Auges Diskrete modifizierte Chroma- Cosinus- Quantisierung Huffman Subsampling Transformation Kodierung Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 33
  43. 43. Multimedia-Analyse-Technologien2. Digitalisierung / JPEG KodierungFarbe und Farbmodelle (3) Diskrete Cosinus-Transformation (DCT) - mod. Huffman Kodierung Quality : 100% Quality : 90% Quality : 50% Quality : 10% Size: 54,124 bytes Size: 21,868 bytes Size: 9,096 bytes Size: 3,519 bytes Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 34
  44. 44. Multimedia Analyse-Technologien35 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 35
  45. 45. Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• Grundlagen • Video (Film): kontinuierliche Abfolge von aufeinander folgenden Einzelbildern, die aufgrund der Netzhautträgheit des Menschen als zusammen-hängende, bewegte Sequenz erscheint. • Netzhautträgheit: das von der Netzhaut (Retina) wahrgenommene Bild bleibt für 1/16s auf dieser bestehen, ehe es verlischt • Kodierung einer Video(Film)sequenz erfordert sehr viel Speicherplatz • Bild und Ton müssen synchron ablaufen • erfordert hohe Bandbreite Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 36
  46. 46. Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• Analoge Videotechnik • Farbfernsehen – PAL • PAL (Phase Alternation Line, Europa) sendet mit Bildwiederholfrequenz von 25 Hz und einer Bildauflösung von 720x576 Pixeln, wobei 2 gegenseitig verschränkte Halbbilder mit im Takt von jeweils 1/50s gesendet werden gerade Zeilen ungerade Zeilen PAL interlaced + = 1/50s 1/50s 1/25s Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 37
  47. 47. Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• PAL (SD576i)- notwendige Bandbreite • Bildauflösung: 720 x 576 Pixel • Bildwiederholfrequenz: 25 Hz • Farbtiefe: 8 Bit • Subsampling: 4:2:2 • Benötigte Bandbreite: 720 x 576 x 25 x 8 + 2 x (360 x 576 x 25 x 8) = 166 Mbps Luminanz Chrominanz Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 38
  48. 48. Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokodierung und Bewegungswahrnehmung• HDTV (HD1080p) - notwendige Bandbreite • Bildauflösung: z.B. 1920 x 1080 Pixel • Bildwiederholfrequenz: bis 60 Hz • Farbtiefe: 8 Bit • Subsampling: 4:2:2 • Benötigte Bandbreite (Beispiel): 1920x1080x60x8 + 2x(960x1080x60x8) = 1,99 Gbps Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 39
  49. 49. Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Ausnutzung von inhärenten Redundanzen in Videosequenzen • z.B. Hintergrund statisch, nur Objekt im Vordergrund bewegt • Objekte und Objektbewegungen müssen erkannt werden • Bewegung kann als Grauwertveränderung der Position von Bildpunkten definiert werden • Bei fester Kameraeinstellung ändert sich der Bildinhalt durch Bewegung der Objekte in der Szene • Verfahren zur Bewegungsprädiktion: • Vorhersage ohne semantischen Kontext • Modellbasierte Verfahren, z.B. bei Videotelefonie, Nachrichtensprecher, etc. • Objekt-/Regionenbasierte Verfahren, d.h. Bildsegmentierung und Extraktion von Objekten Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 40
  50. 50. Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Block-Matching Originalbild In • Annahme: • benachbarte Bildpunkte führen die gleiche Bewegung aus. • Vorgehen Referenzbild RIn-k • Unterteile das vorherzusagende Bild In in gleich große Blöcke (Segmente) • Für jedes Segment bestimme im Referenzbild RIn-k einen Block mit möglichst gleichem Inhalt Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 41
  51. 51. Multimedia-Analyse-Technologien3. Videokodierung und KompressionPrediktive Kodierung • Block-Matching Originalbild In • Vorgehen (Fortsetzung): • Ist ein passendes Segment gefunden, bestimme den Verschiebevektor v=(vx,vy) • Vollständige Prädiktion ist nur möglich, wenn für jedes Segment in In ein passender Block im Referenzbild gefunden wird. Referenzbild RIn-k • Das Prädiktionsbild PIn wird wie eine Collage aus den gefundenen Segmenten des Referenzbildes zusammengesetzt und sieht bei erfolgreicher Prädiktion dem Originalbild In sehr v ähnlich. Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 42
  52. 52. Multimedia-Analyse-Technologien 3. Videokodierung und Kompression Video Codecs und Komprimierverfahren mp4 h.263 HDX4 asf QuickTime vob Nero h.261 h.264 verpackt kodierte implementiert Komprimierungs- Datencontainer Daten in Codec verfahrenmkv XviD WMV9 avi ogm MPEG 1 RealVideo MPEG 4 mpg DivX RealMedia MPEG 2 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 43
  53. 53. Multimedia-Analyse-Technologien3. Videokodierung und KompressionVideokomprimierung nach MPEG • MPEG - Moving Pictures Experts Group • eigentlich ISO/IEC JTC1/SC29/WG11 • seit 1988, ca. 360 Mitglieder aus Industrie/Forschung • MPEG-1 Standard 1992 • VCD, MP3-Audiokomprimierung • Datenrate 1,5 Mbps erfordert Komprimierung von >100:1 • MPEG-2 Standard 1995 • Digitalfernsehen (DVB), DVD • MPEG-3 Standard in MPEG-2 integriert (HDTV) • MPEG-4 Standard 1999 • Interaktives Audio und Video über drahtlose Netze und Internet • HDTV, DRM, komplexe Objektverwaltung Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 44
  54. 54. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung - Prinzipieller Ablauf •Videoeinzelbilder MPEG Bitstrom YUV DCT-Werte Referenz- Inverse DCT Inverse bild Quantisierung quantisierte Code RGB YUV DCT-Werte variabler Länge Farbkonversion Block- DCT Lauflängen Huffman Quantisierung nach YCrCb vergleich Transformation Kodierung Kodierung Fehler-/ quantisierte Nullen YUV DCT-Werte Differenzwerte DCT-Werte unterdrückt Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 45
  55. 55. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung - Datenstrom Struktur • Videosequenz Group of Pictures Slice Makroblock 16 x 16 Pixel Block 8 x 8 Pixel Einzelbild Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 46
  56. 56. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Farbraumkonvertierung → YCrCb (4:2:2) • Aufteilung der Einzelbilder in Zeilenabschnitte (Slices) und Makroblöcke • 16 x 16 Pixel Luminanz (Makroblock) • 8 x 8 Pixel Chrominanz (Block) • Bewegungsvorhersagealgorithmus • Vergleiche Luminanzmakroblöcke aufeinander folgender Einzelbilder • Ortsveränderungen von Luminanzmakroblöcken werden über Vektoren kodiert • Qualität abhängig von Suchraumgröße Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 47
  57. 57. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Farbraumkonvertierung → YCrCb (4:2:2) • Bewegungsvorhersagealgorithmus • DCT – Transformation • Unterscheide Einzelbildvarianten: • Intra-Frame (I-Frame) vollständiges Einzelbild, keine Bewegungsvorhersage, stets erstes Bild einer Sequenz (Standbild) • Predictive Frame (P-Frame) nutzt zusätzlich Bewegungsvorhersage, bezieht sich auf vorhergehendes I- Frame • Bidirectional Frame (B-Frame) Bewegungsvorhersage, bezieht sich auf vorhergehendes/nachfolgendes P-/I- Frame Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 48
  58. 58. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung • Frametypen • I-Frame muss nach spätestens 12 Frames wieder folgen • Reihenfolge und jeweilige Wiederholungsanzahl der einzelnen Frames sonst nicht vorgeschrieben I B B B P B B B P B B B P B B B I Zeit Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 49
  59. 59. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame Ziel-Frame Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 50
  60. 60. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame Ziel-Frame Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 50
  61. 61. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame Ziel-Frame 1. Suche Best Match Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 50
  62. 62. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame Ziel-Frame 1. Suche Best Match 2. Verschiebungsvektor Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 50
  63. 63. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• P-Frame Kodierung Referenz-Frame Ziel-Frame 3. Differenzbildung - 1. Suche Best Match 2. Verschiebungsvektor Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 50
  64. 64. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung Past Referenz Ziel-Frame Future Referenz - ( + )/2 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 51
  65. 65. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung Past Referenz Ziel-Frame Future Referenz 1. Suche Best Match - ( + )/2 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 51
  66. 66. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• B-Frame Kodierung Past Referenz Ziel-Frame Future Referenz 1. Suche Best Match 2. Verschiebungsvektoren - ( + )/2 3. Differenzbildung Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 51
  67. 67. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• Typische Kompressionsfaktoren (SD576) Frame Size Rate I 92 kB 7:1 P 32 kB 20:1 B 13 kB 50:1 average 26 kB 25:1 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 52
  68. 68. Multimedia-Analyse-Technologien3. Videokodierung und KompressionMPEG-1 Videokodierung• MPEG Datenstrom Sequence Layer Sequence Sequence … Sequence Group of Pictures Sqc SC VidPar StrPar QTs GOP … GOP Layer Picture Layer GOP SC TCode GOPPar Pict … Pict Slice Layer P SC Type Buffer Encode Slice Slice … Slice Macroblock Layer S SC VPos Qscale MB … MB Block Layer Addrln Type MV QScale CBP b0 … b5 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 53
  69. 69. Multimedia Analyse-Technologien54 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 54
  70. 70. Multimedia Analyse-Technologien55 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 55
  71. 71. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Verfahren zur Bildbearbeitung und Bildanalyse (Low-Level) • Punktweise-Bildbearbeitung (Binärbilder, Grauwerttransformation) • Lineare lokale Filter (LSI-Filter, Faltung, Laplace & Co.) • Nichtlineare lokale Filter (Erosion, Dilatation, Rangordnungsfilter) • Konturen (Kantenrichtung) • Bildsegmentierung (Skeleton) • Optical Flow • Bildtransformationen (diskrete Fourier-Transformation, Cosinus-Transformation) • ... Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 56
  72. 72. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Binarisierung Binärbild: Das Bild bestehen aus zwei Farben (z.B. Schwarz und Weiß) G{0, .., 255} → B{0, 1} 1, if f (x, y) = T Binarisierung: g(x, y) = T = threshold 0, Otherwise T = 80 T = 128 cv.Threshold(...) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 57
  73. 73. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Grauwerttransformation Überführen eines RGB-Bildes in ein Grauwertbild (mit z.B. 256 Grauwerten). Ir,g,b (x, y) → Ig (x, y) = 0.299 ∗ Ir + 0.587 ∗ Ig + 0.114 ∗ Ib cv.cvtColor(img, img, CV_RGB2gray); Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 58
  74. 74. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Faltung (Convolution) Pixel für Pixel wird aus der Nachbarschaft (definiert durch den Faltungs-Kern) der neue Wert für den Pixel im resultierenden Bild berechnet. cv.Filter2D(src, dst, kernel) Image: https://developer.apple.com/ Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 59
  75. 75. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Faltung (Convolution): Sobel Operator Faltungsbereich Bild Ableitung cv.Sobel(src, dst, xorder, yorder, apertureSize = 3) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 60
  76. 76. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Rangordnungsfilter: Median 39 Ähnlich wie Faltung, benutzt jedoch eine Sortieroperation. 42 Wahl der Position bestimmt die Art des Rangordnungsfilters (z.B. Median) 44 45 45 44 48 Median 48 39 255 50 50 Faltungsbereich 42 51 54 51 54 255 MedianMedian Filter: •3x3 Nachbarschaft •Kantenerhaltend •Robustheit gegen Ausreißer cv.MedianBlur(src, dst, size) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 61
  77. 77. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Morphologische Operationen: Dilatation, ErosionDilatation: Faltung des Bildes durchMaximum RangordnungsfilterErosion: Faltung des Bildes durchMinimum Rangordnungsfilter EB B DBOpening: Erosion und Dilatation(kleine helle Strukturen Filtern)Closing: Dilatation und Erosion(kleine dunkle Strukturen filtern) DB CB=EDB EEDB OCB=DEEDB cv.Dilate(image,image,element,2) cv.Erode(image,image,element,2) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 62
  78. 78. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Kantenrichtung Die Kantenrichtung ermittelt sich aus der Richtung (bzw. dem Winkel) des stärksten Anstiegs des Gradienten Gradient Berechnung mittels Sobel Filter : Richtung des Gradienten: vgl. OpenCV motion analysis and object tracking Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 63
  79. 79. Multimedia Analyse-Technologien4. Visuelle Analyse: Low-Level Processing Skelletierung (Sceleton) Berechnung einer innere Skelettlinie von einen flächenhaften Bildobjekt Berechnung: Distanzfunktion D(x,y) die den Abstand eines inneren Punktes (x,y) zu dem naheliegendsten Randpunkt angibt. Mittelachse Definition: Punkte p, für die D(p) ein lokales Maximum in einer bestimmten Richtung ist. Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 64
  80. 80. Multimedia Analyse-Technologien65 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 65
  81. 81. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Analyse Features und Invarianten • Histogramme • Entropie • Local Binary Pattern • Distanzmaße • uvm. Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 66
  82. 82. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Histogramme •(graphische) Darstellung der Häufigkeitsverteilung metrisch skalierter Merkmale •Grauwert-Histogramm beschreibt die Grauwert Verteilung in einem BildDefinitionsmenge (Grauwert) : Wertebereich entspricht dann der Größe des Bildes: h = Höhe, b = Breite des BildesDer Wert des Histogramms H an der Stelle i gibt an,wie viele Pixel des Bildes die Intensität i haben Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 67
  83. 83. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Histogramme •RGB-Histogramm •Kantenrichtungs-Histogramm / Histogram of Oriented Gradients (HOG) •Optical Flow Histogramm •Histogramme sind invariant gegenüber: •Rotation •Translation (Verschiebung) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 68
  84. 84. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Entropie • Maß für den Informationsgehalt einer Nachricht Definition Entropie: pi = normalisierte Häufigkeit des Grauwertes i Merkmale : • minimal bei homogenen Bildern • maximal bei gleich verteilten Grauwert Häufigkeiten Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 69
  85. 85. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Local Binary Pattern (LBP) • Texture Filter invariant zu monotonen Grau-Level-Änderungen • Parameter unabhängig 7 Punktoperation mit 3x3 Nachbarschaft: LBP (x, y) = Se (in − ic ) ∗ 2n (1) n=0 Vergleichsoperation 1, x = 0 des aktuellen Punktes: Se (x) = (2) 0, x 0 Bildquelle Vergleichsoperation (2) Nominierung 2^n Ergebnis LBP Operator (1) 23 57 89 0 1 1 1 2 4 12 50 24 0 0 8 16 LBP=2+4+32=38 55 20 11 1 0 0 32 64 128 Table 1: Local Binary Pattern (LBP) feature Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 70
  86. 86. Multimedia Analyse-Technologien4. Visuelle Analyse: Features Distanzmaße • werden zum Beispiel für Ähnlichkeitsbetrachtungen benötigt Pixel-Differenz (Norm): Histogramm-Differenz: Earth-Movers-Distance (EMD): Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 71
  87. 87. Multimedia Analyse-Technologien72 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 72
  88. 88. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Schwellwertverfahren • Anwendung zum Beispiel bei der Binarisierung von Bildern • Globale Schwellwertverfahren • Das gesamte Signal (z.B. Bild) wird berücksichtigt. • Genau ein Schwellwert wird (manuell) festgelegt. • Lokale Schwellwertverfahren • Das Signal wird in Regionen unterteilt. • Für jede Region wird ein Schwellwert festgelegt. • Dynamische Schwellwertverfahren • Weiterentwicklung des lokalen Verfahrens. • Die Nachbarschaft der Region wird berücksichtigt. • Der Schwellwert wird aufgrund der Nachbarschaft automatisch festgelegt. Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 73
  89. 89. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Parameter-Optimierung • Ziel: optimale Parameter für ein komplexes System finden • optimal heisst: eine bestimmte Zielfunktion wird maximiert oder minimiert • lokale Optimierung: finde nächstgelegene Maximum/Minimum • globale Optimierung: finde das absolute Maximum/Minimum • im Allgemeinen werden komplexe mathematische Verfahren gewählt, die die Topologie der Zielfunktion berücksichtigen • die einfachste Methode sich der optimalen Lösung zu nähern, ist das “Abrastern” • also das systematische Ausprobieren aller möglichen Parameterkombinationen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 74
  90. 90. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Maschinelle Lernverfahren • Lernen: induktives Schließen durch Beobachten von Beispielen, die eine unvollständige Information repräsentieren • Unüberwacht (unsupervised): Suche nach Regularitäten/Mustern in beobachteten Beispielen, Bsp.: Suche nach Ausreißern (mit Hilfe von Clustering) • Überwacht (supervised): Jedes beobachtete Beispiel trägt ein Label, Ziel des Lernens ist es, dieses Label auf unbeobachtete Fälle zu übertragen (Generalisieren statt Erinnern), Bsp: Klassifikation Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 75
  91. 91. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Maschinelle Lernverfahren • K-Nearest-Neighbor • Stimmenmehrheit der k ähnlichsten Beispiele • Linear Discriminant Analysis (LDA) • Minimiert Intra-Klassen Varianz und maximiert Distanz (”Unähnlichkeit”) zwischen zwei Klassen Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 76
  92. 92. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Maschinelle Lernverfahren • Neuronale Netze • Können jede beliebige Zielfunktion approximieren • Neuron: gewichtete Summe aus Eingaben, nicht-lineare Funktion der Summe als Ausgabe • Decision Trees Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 77
  93. 93. Multimedia Analyse-Technologien4. Visuelle Analyse: Analysemethoden Maschinelle Lernverfahren • Support Vector Machines (SVM) • Large Margin Optimizer: Generalisierbarkeit • Nicht-lineare Probleme können gelöst werden Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 78
  94. 94. Multimedia Analyse-Technologien79 1. Motivation / Einführung (menschl. Wahrnehmung, Farbmodelle) 2. Digitalisierung von Bildern (Abtastung, Kompressionsverfahren, JPEG) 3. Videokodierung und -kompression (Subsamping, prediktive Kodierung, MPEG-Verfahren, Formate und Codecs) 4. Visuelle Analyse 1. Low-Level Processing (Filter, Kanten, morph. Operation, ...) 2. Bildbeschreibende Eigenschaften (Features: Norm, Histogramme, Entropie, LBP, Distanzmaße) 3. Analysemethoden (analytische Methoden, Lernverfahren) 4. High-Level Processing (Beispiele: Segmentierung, OCR, Faces, u. A. ) 5. SEMEX Demo 6. naive Verfahren zur Key-Frame Extraction Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 79
  95. 95. Structural Video AnalysisSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 80
  96. 96. Structural Video Analysis • Decomposition of time-based media into meaningful media fragments of coherent content that can be used as basic element for indexing and classification video scenes shotssubshots frames key frames Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 81
  97. 97. Structural Video Analysis • Shot Boundary Detection time • Automated Identification of • Hard Cuts • Defects, as e.g., • Drop Outs, White Outs, etc. • Soft Cuts, as e.g., • Fade-In/Out, • Dissolve, Wipe, Cross-Fade, etc. • Automated Structural Analysis based on • Analytical Shot Boundary Detection • Machine Learning Based Shot Detection Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 82
  98. 98. Structural Video Analysis • Shot Boundary Detection • Automated Identification of Hard Cuts based on • Luminance/Chrominance Histogram Differences Derivatives • Edge Distribution/Density 573 574 575 576 577 578 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 83
  99. 99. Structural Video Analysis Adaptive Threshold 1 2    i+W −1 tha (i) = α ·  Da (k, k − 1) − Da (i, i − 1) + β k=i−W   i+W −1 3 4   Da(i,i-1) ...D thai − = α · th (L2-norm) Da (k, k Frames i − (i) Histogram Difference (i) between − 1) a (i, 1) α   and i-1 of Subregion a k=i−W  i+W −1 tha (i) = α · tha(i) ... Da (k, k Threshold for Frameiai − 1)− + β a thα (i) adaptive − 1) − Da (i, (i,Subregion D of i 1) Decompose Frame into a=4 Subregions Da (i + 1, i) thα (i) k=i−W Hardcut: if Da (i, i − 1) thα (i) and Da (i + 1, i) thα (i) is true for all Subregions a Da (i + 1, i) thα (i) Window Size=4 (W=2) i-3 i-2 i-1 i i+1 i+2 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 84
  100. 100. Structural Video Analysis• Shot Boundary Detection / Defect Analysis • Automated Identification of Defects Histogram/Chrominance Difference Analysis Drop Out Flashlight / White Out i i+1 i+8 i+9 i+10 i+11 i+12 i+13 Histogram/Chrominance Difference Analysis Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 85
  101. 101. Structural Video Analysis • Shot Boundary Detection • Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In • Features applied for machine learning: • luminance histogram (Fade In / Fade Out) • luminance average Yµ and luminance variance Yσ2 follow distinct patterns • image decomposition 1 2 3 • component-based analysis to distinguish regional and global changes in image content 4 5 6 • entropy • motion vectors 7 8 9 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 86
  102. 102. Structural Video Analysis• Shot Boundary Detection • Automated Identification of Soft Cuts, , as e.g. Fade Out / Fade In • Features deployed for machine learning: • luminance/chrominance histogram • entropy • motion vectors 1 2 • image decomposition • compute average motion vectors for all areas • identify camera movements (zoom, pan, etc.) and moving objects 3 4 Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 87
  103. 103. Intelligent Character RecognitionSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 88
  104. 104. Intelligent Character Recognition • Preprocessing • Character Identification • Text Preprocessing • Text Filtering • Adaption of script geometry (Deskew) • Image Quality Enhancement • Optical Character Recognition (OCR) • Standard OCR software (OCRopus) • Postprocessing Text Filtering • Lexical analysis • Statistical / context based filtering Image Quality Enhancement OCR Rostock Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 89
  105. 105. Intelligent Character Recognition • Character Identification • Robust filter to extract text candidate frames T T T T T T T T T T • 25 fps results in 90.000 frames per 60 min • too expensive for single frame preprocessing OCR • fast and robust text identification for preprocessing Frame Frame with Candidate Textboxes Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 90
  106. 106. Intelligent Character Recognition Features used for Character Identification: • Edge Based Detection • DCT • Fourier Transformation • Sobel-/Canny Edge Filter • Histogram of Oriented Gradients (HOG) • Constant Gradient Variance (CGV) • Texture Based Detection • Local Binary Patterns (eLBP) • Spatial Variance • Region Based Detection • Connected Component Analysis (cvBlobs) • Stroke Width Analysis (SWA) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 91
  107. 107. Intelligent Character Recognition • Analytical Textbox Filtering • Horizontal Vertical Projection Profile • Stroke Width Analysis Based Verification Frame with Frame with Candidate Verified Textboxes Textboxes Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 92
  108. 108. Intelligent Character Recognition Analytical Edge Based Character Identification Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 93
  109. 109. Intelligent Character Recognition Analytical Edge Based Character Identification Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 94
  110. 110. Intelligent Character Recognition Character Binarization Original Video Frames Textbox Textbox Quality NormalizationEnhancement and Binarization Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 95
  111. 111. Intelligent Character Recognition Character Binarization • Skeleton Mapping Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 96
  112. 112. Intelligent Character Recognition Standard Optical Character Recognition • OCRopus 0.4.4 (Open Source, Apache License v2.0) • Tesseract 3.01 (Open Source, Apache License v2.0) Quality Enhanced Raw OCR Results Normalized Textboxes Ueutsche Bank Weubrandenburg Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 97
  113. 113. Intelligent Character Recognition OCR Post Processing • OCR-adapted Spell Correction (hunspell 1.3.2, OPen Source GNU lGPL) • Kontextbasierte Spell Correction (siehe kontextbasierte Named Entity Recognition, AP 4.1.5) OCR-adapted OCR Results after Raw OCR Results hunspell Spell Correction Ueutsche Bank Deutsche Bank Weubrandenburg Neubrandenburg Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 98
  114. 114. Face Detection Face Tracking Face ClusteringSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 99
  115. 115. Face Detection Tasks • Face Detection Detektion von Gesichtern in Einzelbildern • Kaskade unterschiedlicher Filter lbpcscadehaarcscade libface Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 100
  116. 116. Face Detection Tasks • Face Tracking Verfolgung eines detektierten Gesichts in einer Szene innerhalb eines Videos • probabilistische Mappingkriterien: • Zentrumsdistanz der aufeinanderfolgenden Bounding Boxes • Überlappungsfläche der aufeinanderfolgenden Bounding Boxes • Größenänderung aufeinanderfolgender Bounding Boxes Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 101
  117. 117. Face Detection Tasks • Face Clustering Gruppierung der entdeckten Gesichter in einem Video nach Ähnlichkeitskriterien Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 102
  118. 118. Face Detection Tasks • Face Clustering Gruppierung der entdeckten Gesichter in einem Video nach verschiedenen Ähnlichkeitskriterien • Bounding Box Extension: • Einbeziehung von Bereichen oberhalb (Haare) und unterhalb (Kleidung) der Bounding Box in die Feature Extraktion • Feature Extraction: • Texturbasierte Features (eLBP, GVC) • Farbbezogene Features (Chrominanz Histogramme) • Clustering: • Bestimmung der Clusteranzahl k (via Silhuettenkoeffizient-Optimierung) • k-means Clustering / Mean Shift Clustering / Hierarchical Clustering Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 103
  119. 119. Visual Concept DetectionSeminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 104
  120. 120. Visual Concept Detection • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval • Dictionary/Codeword Vocabulary • Sätze werden als Vektoren über Dictionary dargestellt Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 105
  121. 121. Visual Concept Detection • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval • Dictionary/Codeword Vocabulary • Sätze werden als Vektoren über Dictionary dargestellt • Diskretisierung eines Einzelbildes mit Hilfe der Codewörter Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 106
  122. 122. Visual Concept Detection • Adaption des ,Bag of Words‘ Ansatzes aus dem Textretrieval • Dictionary/Codeword Vocabulary • Sätze werden als Vektoren über Dictionary dargestellt • Diskretisierung eines Einzelbildes mithilfe der Codewörter • Repräsentiere Einzelbild als Histogramm der 4000 Codewortfrequenzen • Konzeptzuordnung durch maschinelles Lernverfahren (hier Support Vector Machines) Seminar: Multimedia-Analyse-Technologien 2012, Hasso-Plattner-Institut, Universität Potsdam 107
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×