Your SlideShare is downloading. ×
  • Like
Teleclassing: opzet en technologische uitdagingen - Bart De Schuymer - Televic
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Teleclassing: opzet en technologische uitdagingen - Bart De Schuymer - Televic

  • 465 views
Published

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
465
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • 2 parts:developments to achieve a successful for the lab demonstrator (practical part)video codec improvements (theoretical part)
  • 2 parts:developments to achieve a successful for the lab demonstrator (practical part)video codec improvements (theoretical part)
  • 2 parts:developments to achieve a successful for the lab demonstrator (practical part)video codec improvements (theoretical part)
  • 2 parts:developments to achieve a successful for the lab demonstrator (practical part)video codec improvements (theoretical part)
  • Deze slide geeft een overzicht van de gekozen componenten.Eerst wordt er opgemerkt dat er geopteerd werd voor open standaarden (bijvoorbeeld voor video: geen DivX).De hardware interfacing tussen encoder PC’s en video- en audiobronnnen gebeurt aan de hand van capture cards.Alles wordt softwarematig geencodeerd via een DirectShow gebaseerde encoding SDK (Dicas software, verleend door Telindus).Voor audio werd de AAC gekozen, en voor video de H.264/AVC standaard.Het gebruikte streaming protocol is RTP/RTCP. Iedere media stroom (dus een gewone audio of video stroom) resulteert dus in één RTP stroom in het netwerk met bijhorend RTCP stroom.Voor de decoder kan een gewone media player gekozen worden (VLC, Mplayer, QuickTime, …). Wij hebben in de opstelling voor de VLC media player gekozen, omdat deze het meest flexibel is (instellen van buffergroottes).Als streaming server werd de open source Darwin Streaming Server gekozen.
  • Deze slide geeft een overzicht van de gekozen componenten.Eerst wordt er opgemerkt dat er geopteerd werd voor open standaarden (bijvoorbeeld voor video: geen DivX).De hardware interfacing tussen encoder PC’s en video- en audiobronnnen gebeurt aan de hand van capture cards.Alles wordt softwarematig geencodeerd via een DirectShow gebaseerde encoding SDK (Dicas software, verleend door Telindus).Voor audio werd de AAC gekozen, en voor video de H.264/AVC standaard.Het gebruikte streaming protocol is RTP/RTCP. Iedere media stroom (dus een gewone audio of video stroom) resulteert dus in één RTP stroom in het netwerk met bijhorend RTCP stroom.Voor de decoder kan een gewone media player gekozen worden (VLC, Mplayer, QuickTime, …). Wij hebben in de opstelling voor de VLC media player gekozen, omdat deze het meest flexibel is (instellen van buffergroottes).Als streaming server werd de open source Darwin Streaming Server gekozen.
  • Deze slide geeft een overzicht van de gekozen componenten.Eerst wordt er opgemerkt dat er geopteerd werd voor open standaarden (bijvoorbeeld voor video: geen DivX).De hardware interfacing tussen encoder PC’s en video- en audiobronnnen gebeurt aan de hand van capture cards.Alles wordt softwarematig geencodeerd via een DirectShow gebaseerde encoding SDK (Dicas software, verleend door Telindus).Voor audio werd de AAC gekozen, en voor video de H.264/AVC standaard.Het gebruikte streaming protocol is RTP/RTCP. Iedere media stroom (dus een gewone audio of video stroom) resulteert dus in één RTP stroom in het netwerk met bijhorend RTCP stroom.Voor de decoder kan een gewone media player gekozen worden (VLC, Mplayer, QuickTime, …). Wij hebben in de opstelling voor de VLC media player gekozen, omdat deze het meest flexibel is (instellen van buffergroottes).Als streaming server werd de open source Darwin Streaming Server gekozen.
  • Deze slide geeft een overzicht van de resultaten:Eerst wordt er opgemerkt dat de streams beschikbaar zijn voor meerdere clienst (dus niet enkel voor de decoders in de setup, maar een student kan bijvoorbeeld ook gewoon een stream opvragen aan de streaming server en de les meevolgen).Vervolgens wordt de volledige round trip delay weergegeven, deze is ongeveer 600ms. De grootste oorzaken voor deze delay zijn de delay van de capture kaart zelf, de delay geintroduceerd door de encodering en de buffering bij de decoders (om soepele playback te garanderen).De lipsynchronisatie wordt in het algemeen gegarandeerd door de RTCP berichten op voorwaarde dat de audio en video bronnen die aan de capture kaart geleverd worden bij de oorsprong synchroon zijn.Indien de bronnen niet synchroon zijn bij het innemen van de capture kaart (bijvoorbeeld: indien een gewone camera genomen wordt als zowel audio en video bron, zullen deze synchroon zijn bij het afleveren aan de capture kaart. Indien bijvoorbeeld gekozen wordt om de audio door een afzonderlijk device te capteren, kan het voorkomen dat de delay van dit device en de camera niet gelijk zijn. In dit geval moet er ergens een extra delay toegevoegd worden om dit op te vangen en de stromen weer synchroon te maken (in de demonstrator werd hiervoor in VLC een extra delay toegevoegd).
  • Adaptive quantization is inspired by the fact that the contrast sensitivity of the human visual system decreases for higher frequency spatial variations of the pixel values and that the human visual system is less sensitive to variations in the chroma (color) information than to variations in the luma (intensity) information.High-frequency transform coefficients and chroma transform coefficients can therefore be more coarsely quantized without severely affecting the subjective visual quality.Based on a model of the HVS (human visual system)’s contrast sensitivity function and knowledge of the viewing conditions for the targeted application, custom quantization matrices were designed which yield a better perceptual quality for the same target bit-rate compared to the standard quantization matrices and to uniform quantization.(SSIM is objective quality measure which correlates well with subjective testing)
  • Lossy compression introduces (quantization) noise into the video frames.A Wiener filter can be designed to suppress this noise at the encoder side were both the original and degraded/noisy frames are available.Filter coefficients are sent to the decoder, were they are used to filter the decoded frames, thereby improving their quality.Investigated the design of the state-of-the–art post-filter proposed by Qualcomm for inclusion into the next generation video coding standard, and evaluated its performance on HD material. Up to 12% bit-rate reduction for the same quality can be obtained.
  • 2 parts:developments to achieve a successful for the lab demonstrator (practical part)video codec improvements (theoretical part)
  • Gesproken communicatie is fundamenteel voor een natuurlijke interactie tussen lesgever en studenten. Daarom is het audio (spraak) captatie systeem in Klassiek gebruikte captatiesystemen voor de studenten hebben echter vaak een aantal nadelen: Centrale microfoons: met vaste positie: studenten moeten rondlopen om aan het woord te kunnen komen, niet immersief draadloos: hoge onderhoudskosten (kwetsbaar, batterijen nodig,...) Persoonlijke microfoons: kwetsbaar, hogere installatiekost, weinig flexibel mbt. positie van de sprekers
  • Bij het gebruik van klassieke microfoons die ingebouwd worden in de tafels moet steeds een afweging gemaakt worden tussen de bewegingsvrijheid van de spreker en de gevoeligheid van de microfoon voor omgevingslawaai. Typisch kunnen hier 2 gevallen onderscheiden worden:µ Omnidirectionele microfoons, die het geluid ui alle richtingen even sterk ovangen laten toe dat de spreker zich vrij rond de microfoon beweegt, maar vangen ook veel omgevingslawaai op directieve microfoons luisteren gericht naar een welbepaalde locatie, en verzwakken geluiden die uit andere richtingen komen. Hierdoor vangen deze veel minder omgevingslawaai op, maar kan de spreker zich niet zomaar op om het even welke plaats bevinden.Om de flexibiliteit en geluidskwaliteit van de ingebouwde microfoons te verbeteren werd in het Teleclassing project onderzocht hoe meerdere microfoons gecombineerd kunnen worden om een “virtuele” directieve microfoon te maken die een hoge directiviteit (en goede onderdrukking van omgevingslawaai) combineert met de mogelijkheid om gericht de spreker te volgen door software-gebaseerde sturing. Dankzij deze sturing is het ook mgelijk om één enkele microfoon array te gebruiken voor meerdere sprekers
  • Als eerste toepassing werd gekeken naar het onderdrukken van omgevingslawaai bij het opvangen van de spraak van de studenten. Hierbij werd zowel gekeken naar het algemeen onderdrukken van onbekende geluidsbronnen door de microfoon te richten naar de student die spreekt, als naar het onderdrukken van specifieke geluidsbronnen met een vaste gekende positie, zoals bijvoorbeeld de ventilator van een computer of projector. In het geval van deze laatste kan de microfoon array immers zo ingesteld worden dat deze de geluiden uit de richting waar deze toestellen zich bevinden onderdrukt.Deze microfoon array gebaseerde technieken werden verder gecombineerd met state-of-the-art eenkanaals ruisonderdrukkingstechnieken zoals spectral subtraction en interference cancellation, die het in het opgevangen signaal overblijvende omgevingslawaai verder onderdrukken.
  • De spraak van de lesgever wordt in de remote lokatie weergegeven met behulp van luidsprekers. Wanneer de microfoon van de studenten in de remote lokatie actief is, kan het dus gebeuren dat deze ook de spraak van de lesgever opvangt, waardoor de lesgever zichzelf met een zekere vertraging terughoort. Dit kan erg storend zijn, zowel voor de studenten als voor de lesgever. In het teleclassing project werden hiervoor 2 oplossingen onderzocht:Met behulp van een microfoon array die zo ingesteld wordt dat ze geluiden die afkomstig zijn van de positie van de luidspreker onderdruktMet behulp een eenkanaals techniek, interference cancellation, die de signalen die naar de luidspreker gezonden worden vergelijkt met het signaal van de microfoon array, en de luidsprekersignalen hier zo veel mogelijk uit wegfiltert. Doordat de beide technieken op een verschillende manier op de signalen inwerken kunnen deze terug gecombineerd worden om een betere onderdrukking van de echo te bekomen.
  • Kamerreverberatie zorgt voor een ‘echo’ effect in de opgenomen spraak. Dit is ongewenst en kan vermindering van de geluidskwaliteit en verstaanbaarheid veroorzaken. Door het op de muren weerkaatste geluid te onderdrukken, vermindert de microfoonarray deze reverberatie. Ten slotte enkele voorbeelden van mogelijke implementaties van microfoon arrays. Deze kunnen afhankelijk van de toepassing zeer uiteenlopende afmetingen en vormen aannemen: De Playstation eye van Sony heeft een kleine ingebouwde array van 4 microfoons in lineaire opstelling (voor ruisonderdrukking en gebruik in spelletjes) Een onderzoeksarray van 8 microfoons in een cirkelvormige opstelling (Microsoft) Een van onze eigen onderzoeksopstellingen (8 microfoons in lineaire opstelling) Een tweedimensionale microfoon array onderzoeksopstelling van het massachusets institute of techniology (MIT) met 1020 microfoons
  • Ten slotte enkele voorbeelden van mogelijke implementaties van microfoon arrays. Deze kunnen afhankelijk van de toepassing zeer uiteenlopende afmetingen en vormen aannemen: De Playstation eye van Sony heeft een kleine ingebouwde array van 4 microfoons in lineaire opstelling (voor ruisonderdrukking en gebruik in spelletjes) Een onderzoeksarray van 8 microfoons in een cirkelvormige opstelling (Microsoft) Een van onze eigen onderzoeksopstellingen (8 microfoons in lineaire opstelling) Een tweedimensionale microfoon array onderzoeksopstelling van het massachusets institute of techniology (MIT) met 1020 microfoons

Transcript

  • 1. Teleclassing
    Opzet & TechnologischeuitdagingenBart De Schuymer
  • 2. Agenda
    • Project goal
    • 3. Technological challenges
  • Agenda
    • Project goal
    • 4. Technological challenges
  • Project goal
    Bologna declaration
    29 European countries
    reform higher education
    bachelor/master system
    but also: joined forces between universities
    • solve student’s mobility problem
    • 5. increasing interest in teleclassing: synchronous communication between classrooms
    4
  • 6. Project goal
    IBBT-Teleclassing: distance education in Flanders
    joined forces of VUB and UGent
    in cooperation with regional industry
    small classrooms
    combination of two teleclasses
    ex cathedra
    teacher-to-student/student-to-teacher interaction
    5
  • 7. Project goal
    immersive
    cfr. telepresence:
    but in classrooms:
    6
  • 8. Project goal
    original goals
    user’s research
    related, specific technological developments
    fully functional, realistic setup
    7
  • 9. Project goal
    budget shortages due to
    economic crisis
    change of government/university policy
    restriction to lab demonstrator
    realistic setup
    real lessons with teachers & students
    user’s research
    8
  • 10. Project goal
    local site
    9
  • 11. Project goal
    remote site
    10
  • 12. Agenda
    • Project goal
    • 13. Technological challenges
  • Setup
    12
  • 14. Network
    13
  • 15. Network Requirements to support a Teleclassing environment
    Teleclassing – characteristics :
    High Quality / High Definition
    Real-Time
    Interactive
  • 16. Network Requirements to support a Teleclassing environment
    Quality of Service definitions :
  • 17. Smartboard
    16
  • 18. Interactive whiteboard
    Central application for teaching a class
    Based on Smartboard technology
    One whiteboard per class room
    Synchronised
  • 19. Functionality
    Support of multiple types of media
    Annotations
    Annotations on top of media
    “classical” whiteboard function
    Collaboration between whiteboards is possible
    Teacher keeps overall control
    18
  • 20. Media
    Powerpoint
    PDF
    Images
    Movies
    3D content
    19
  • 21. Example
    20
  • 22. Audio/Video encoding & streaming
    21
  • 23. Streaming components
    Using open standards
    Hardware interfacing (Camera’s and microphones)
    Capture cards
    Encoders
    DirectShow based software encoders
    Video: H.264/AVC (SD)
    Audio: AAC
    Streaming protocol: RTP/RTCP
    One RTP/RTCP stream per media stream
    Decoders
    Regular media players
    Streaming server
    Darwin Streaming Server
    22
  • 24. Capture
    Standard pan-tilt-zoom cameras
    23
  • 25. Visualisation
    Pixel-canvas
    Standard projectors
    24
  • 26. Results lab demonstrator
    Encoders streaming to streaming server
    Streams available for multiple clients
    Round trip delay: approximately 600ms
    Capture cards
    Inherent delay encoding
    Buffering decoders
    25
  • 27. Advanced HD video coding using H.264/AVC FRExt.
    Immersive teleclassing experience requires transmission of multiple high resolution video streams between locations
    This consumes a significant amount of bandwidth
    Efficient compression is needed
    Improve compression performance of H.264/AVC coding for HD material
    Adaptive quantization
    Post-filtering for quantization noise suppression
    26
  • 28. Adaptive quantization
    Contrast sensitivity of the human eye:
    More sensitive to low spatial frequencies than to high spatial frequencies
    More sensitive to luma (intensity) than to chroma (color) information
    Coefficients representing high spatial frequencies and color information arerepresented with less accuracy
    Accuracy/quantization determined based on model of the contrast sensitivity of the HVS.
    Up to 5% bit-rate savings for the same perceptual quality compared to uniform quantization
    Luminance
    Red-Green chrominance
    No. of perceivable levels
    Blue-Yellow chrominance
    Spatial frequency (cycles/degree)
    27
  • 29. Post-filtering for quantization noise suppression
    Filter
    Filter
    bitstream
    calculation
    reconstruction
    &
    &
    encoding
    post
    -
    filtering
    bitstream
    Encoder
    Decoder
    Lossy compression introduces (quantization) noise into the video frames.
    Design a filter to suppress this noise at the encoder and send coefficients to the decoder for post-processing
    Studied state-of-the-art filter: up to 12% bit-rate reduction for the same quality can be obtained.
    h(t) chosen such that e2 is minimized
    Decoded
    Original
    Filtered
    Decoded
    28
  • 30. Audio
    29
  • 31. Audio capture
    teacher
    standard wireless headset
    remote students
    microphone array
    developed during the project
    30
  • 32. Audio Captation for Teleclassing
    Internet
    Requirements for audio captation in a classroom setup
    Good SNR
    Physically robust
    Flexible
    • Immersive
    • 33. User-friendly
    • 34. Simple maintenance
    31
  • 35. Single Microphone vs. Microphone Array
    90
    1
    60
    120
    0.8
    0.6
    30
    150
    0.4
    0.2
    180
    0
    210
    330
    240
    300
    270
    • Omnidirectional microphone
    • 36. Microphone array
    Flexible
    No Noise
    suppression
    • Directive microphone
    90
    1
    60
    120
    0.75
    0.5
    30
    150
    90
    1
    60
    120
    0.25
    Good Noise Suppression
    Fixed speaker position
    0.75
    0
    0.5
    30
    150
    0.25
    210
    330
    180
    0
    240
    300
    270
    210
    330
    Flexible (steerable)
    Good Noise suppression
    240
    300
    270
    32
  • 37. Application 1: Noise Suppression
    original speech
    single microphone
    microphone array
    0.1
    0.1
    0.1
    0.08
    0.08
    0.08
    0.06
    0.06
    0.06
    0.04
    0.04
    0.04
    0.02
    0.02
    0.02
    0
    0
    0
    -0.02
    -0.02
    -0.02
    -0.04
    -0.04
    -0.04
    -0.06
    -0.06
    -0.06
    -0.08
    -0.08
    -0.08
    -0.1
    -0.1
    -0.1
    0
    0.2
    0.4
    0.6
    0.8
    1
    0
    0.2
    0.4
    0.6
    0.8
    1
    0
    0.2
    0.4
    0.6
    0.8
    1
    time (s)
    time (s)
    time (s)
    0.1
    0.08
    0.06
    0.04
    0.02
    0
    -0.02
    -0.04
    -0.06
    -0.08
    -0.1
    0
    0.2
    0.4
    0.6
    0.8
    1
    time (s)
    Multi-channel Noise Suppression
    Microphone Array Beamforming
    e.g.: 8-microphone linear array
    Environmental noise: up to 18dB SNR gain
    Localised noise: up to 25dB SNR gain
    Single-Channel Noise Suppression
    Spectral Subtraction
    Interference Cancellation
    MA+ Spectral Subtraction
    33
  • 38. Application 2: Acoustic Echo Suppression
    MA + interference canceller
    single microphone
    microphone array
    0.1
    0.1
    0.1
    0.08
    0.08
    0.08
    0.06
    0.06
    0.06
    0.04
    0.04
    0.04
    0.02
    0.02
    0.02
    0
    0
    0
    -0.02
    -0.02
    -0.02
    -0.04
    -0.04
    -0.04
    -0.06
    -0.06
    -0.06
    -0.08
    -0.08
    -0.08
    -0.1
    -0.1
    -0.1
    0
    0.5
    1
    1.5
    2
    2.5
    0
    0.5
    1
    1.5
    2
    2.5
    time (s)
    0
    0.5
    1
    1.5
    2
    2.5
    5
    x 10
    time (s)
    5
    x 10
    time (s)
    5
    x 10
    Internet
    • Multi-channel Echo Suppression
    • 39. Microphone Array Beamforming
    • 40. Single-channel Echo Suppression
    • 41. Interference Cancellation
    Student
    Teacher
    34
  • 42. Application 3: Reverberation Suppression
    • Multi-Channel Reverberation Suppression
    • 43. Microphone Array Beamforming
  • Microphone Arrays: Small to Big
    Microphone Arrays come in many different shapes and sizes:
    From 2 to 1020 microphones
    From 6 cm to 3 m wide
    Linear, circular, arc shaped,...
    36
  • 44. Microphone array: realisation
    technical requirements
    small size
    non-intrusive
    can be integrated
    changeable listening direction
    good audio quality
    patent application filed
    37
  • 45. Microphone array: realisation
    lab demonstrator setup
    38
  • 46. Microphone array: realisation
    later prototypes
    39
  • 47. Microphone array: realisation
    directivity
    40