Your SlideShare is downloading. ×
Kodekei buruzko teoria
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Kodekei buruzko teoria

51
views

Published on

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
51
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Ahotsa kodetzea eta paketatzea.Kapitulu honek ahotsa datu-sareen bidez garraiatzeko eman beharreko lehen urratsa aztertzen du.AHOTSA KODETZEA“Ahotsa erabiliz” egiten den gizakion arteko komunikazioa komunikazio analogikoa da zalantzarik gabe,baina ahotsa analogikoki transmititzea jada ez da eraginkorra, izan ere, lineako zaratak nahasten diraaskotan. Hori dela eta, hobe da ahotsa digitalizatzea, errazagoa baita lagin digitalak -“zero” eta “bat”bitek osatutakoak- lineako zaratetatik bereiztea. 1. DigitalizazioaAhots-seinale baten digitalizazioa, soinu-laginak denbora-bitarte erregularretan bereizi eta seinale-baliodiskretu batzuetara hurbiltzean datza. 7.irudia. Analogikoa digital bihurtzea.Horretarako, honako hau da abiapuntua:Giza entzumenak 20-20.000 Hz bitarteko soinuak antzematen ditu, eta nahiz eta ahotsak antzeko mailalor dezakeen, pentsa dezagun harmonikoak kenduta eta “telefonoaren soinu tipikoa” kontuan hartuta,hitz egiterakoan 300-3.400 Hz-era iristen garela, gutxi gorabehera. Horren arabera, 3,1 kHz-ekobanda-zabalera behar da, hain zuzen ere, telefonian erabiltzen dena.Kodeka bat ahots-seinalea dagokion berezko formatutik (analogikotik) formatu digitalera bihurtzen duenprozesua da (eta alderantziz), eta datu-sarea du euskarri.Adibide moduan PCMa ikusiko dugu. PCMa dugu telefonian erabili den lehenengo kodeketako bat.Pultsu Kodetuen bidezko Modulazioa (PCMa) da metodorik erabiliena ahots analogikoa “bat” eta “zero”bit dituen fluxu digital batean kodetzeko.Gehien erabiltzen den PCM teknikak Nyquist baldintzari jarraitzen dio, eta honakoa dio: “SEINALE ANALOGIKO BAT DIGITALIZATU NAHI BADUGU, LAGINTZE- MAIZTASUNAK, GUTXIENEZ, ATZEMAN NAHI DUGUN SEINALE-MAIZTASUN HANDIENAREN BIKOITZA IZAN BEHAR DU.” Página 1 de 6
  • 2. ADIBIDEA: Soinu-iturria Banda-zabalera Lagintze-maiztasunaTelefono-kanala 3,1 kHz 8 kHzHi-Fi musika 20 kHz 44,1 kHz Tabl 1. Banda-zabaleren eta lagintze-maiztasunen adibideak. Seinalearen anplitudea edo intentsitatea: telefonian 8 bit erabiltzen dira seinale-balio diskretu horietarako, hortaz, 28=256 dira lor daitezkeen anplitude-balioak. Hona hemen PCM prozesua: 1. Uhin-formak ahots-maiztasunen iragazki batetik pasa behar dira, 4.000 Hz-etik gorako edozein maiztasun iragazteko. 2. Iragazi den seinale analogikoaren laginketa egiten da ondoren, segundoko 8.000 lagin bereiziz (Nyquist baldintzaren arabera), eta horrela lortzen da kalitatezko ahots-transmisioa. 3. Uhin-formaren laginketa egin eta gero, uhin-forma forma digital diskretu bihurtzen da. Lagin horrek kode bat du eta kode horrek erakusten du lagina hartu den uneko uhin-formaren anplitudea. PCM telefoniako formak 8 bit erabiltzen ditu koderako, eta seinale baxuagoekin bit gehiago erabiltzen dituen konpresio logaritmikoko metodo bati jarraitzen dio. 8 biteko hitzak segundoko 8.000 laginekin biderkatzean, 64.000 bps (bit segundoko) lortzen ditugu, hain zuzen ere, telefonoaren azpiegiturak beharrezkoa duen oinarria (64 kbps). 2. Ahotsaren konpresioa64 kbps-ko PCMaren bi aldaera daude: µ legea, alde batetik, AEBetan erabiltzen den estandarra, eta alegea, bestetik, Europan erabiltzen den estandarra. Bi metodoek darabilte konpresio logaritmikoa 8 bitbakarrik dituzten hitzetan 12-13 bit bitarteko PCM linealeko kalitatea lortzeko baina, konpresioa egiteko,badira desberdintasun txiki batzuk.µ legearen metodoak abantaila txiki bat du a legearen metodoarekiko, maila baxuko seinalea/zarataerlazioaren errendimenduari dagokionez.Hasiera batean, estandarra definitu zenean, ez ziren existitzen DSPan (Digital Signal Processingdelakoan) oinarritutako ahots-konpresiorako teknikak.Oraingo algoritmoei esker, ahots-transmisioa banda-zabalera txikiagoen bidez egin daiteke. Hala ere,banda-zabalera murriztean, ahotsaren gardentasuna gutxitzen da, transmisio-atzerapena gertatzen daeta ahotsaren kalitatea paketeen galerekiko oso sentikor bihurtzen da.Konpresioa egiteko beste metodo bat pultsu kodetuen bidezko modulazio diferentziala eta moldagarriada (ADPCM, Adaptive Differential Pulse Code Modulation). Metodo horrek kodetzea egiteko 4 biteko laginbat erabiltzen du eta, horrela, 32 kbps-ko transmisio-abiadura lortzen du. Lau bit horiek ez duteahots-anplitudea zuzenean kodetzen, baizik eta anplitudearen desberdintasunak kodetzen dituzte, baieta anplitudea aldatzeko abiadura ere, eta, horretarako, aurresate lineal bakun bat erabiltzen dute.Aipatutako teknika horiek guztiak jatorrizko kodeka gisa sailka daitezke, eta aldaera desberdinakdituzte, hala nola aurresate linealaren bidezko kodetzea (LPC, Linear Predicive Coding), kode bidezeszitaturiko aurresate lineala (CELP, Code Excited Linear Prediction Compression) eta MP-MLQ(Multipulse, Multilevel Quantization). Página 2 de 6
  • 3. » KodekakHonako hauek dira gehien erabiltzen diren kodekak:ITU-T erakundeak normalizatu ditu CELP, MIP-MLQ PCM eta ADPCM kodetze-eskemak, G serieareninguruan emandako gomendioetan. Telefoniarako eta VoIP teknologiarako kodetze-estandarezagunenen artean honako hauek bereiz daitezke: • G.711. Jada ikusi dugun 64 kbps-ko PCMaren ahots-kodetzea egiteko teknika; G.711 bidez kodetutako ahots-formatua egokia da ahots digitala emateko, telefono-sare publikoan edo adarren trukatze pribatuaren bidez (PBX). • G.726. ADPCMaren kodetzea da 40, 32, 24 eta 16 kbps-ra; era berean, ADPCM ahotsa, paketeen bidezko ahotsarekin eta telefonia publikoarekin edo PBX sareekin trukatu daiteke, betiere sare horiek ADPCM ahalmena badute. • G.728. CELP ahots-konpresio baten 16 kbps-ko atzerapen baxuko aldakuntza bat da. • G.729. Ahotsa 8 kbps-ko fluxuetan kodetzen duen CELP konpresioa da. Estandar honen bi aldakuntza (G.729 eta G.729, A eranskina) arras desberdinak dira konputatzeko konplexutasunari dagokionez, baina biek ematen dute, normalean, 32 kbps-ko ADPCMak adinako ahots-kalitate bikaina. • G.723.1. Ahotsaren edo multimedia zerbitzuen audio-serialeko osagaiak bit-abiadura baxuan konprimitzeko teknika bat da eta H.324 estandarren familiako zati bat da. Kodetzaile honek bi bit-abiadura ditu: 5,3 eta 6,3 kbps. Bit-abiadura altuena MP-MLQ teknologian oinarritzen da eta kalitate handiagoa ematen du. Bit-abiadura baxuena CELP teknologian oinarritzen da eta kalitate ona emateaz gain, sistemaren diseinatzaileei malgutasun handiagoa ematen die. Jiterra Paketearen Paketatzearen Banda-zabalera Kodeka Tasa bitarra ezabatzearen tamaina atzerapena 2 fluxuetarako atzerapena G.711 µ 64 kbps 20 ms 1 ms 174,40 kbps 40 ms (2p) G.711 a 64 kbps 20 ms 1 ms 174,40 kbps 40 ms (2p) G.726 32 kbps 20 ms 1 ms 110,40 kbps 40 ms (2p) G.729 8 kbps 20 ms 25 ms 62,40 kbps 40 ms (2p) G.723.1 6,3 kbps 30 ms 67,5 ms 43,73 kbps 60 ms (2p) MPMLQ G.723.1 5,3 kbps 30 ms 67,5 ms 41,60 kbps 60 ms (2p) ACELP 2. Tabla Kodekaren ezaugarriak. Página 3 de 6
  • 4. Kodeka-kantitatea izugarria da, eta faktore desberdinen arabera sailka daitezke, besteak beste:Fideltasunaren arabera, honako hauek bereiz daitezke: •Lossless, hau da, galerarik gabeak. Gehiago erabiltzen dira datuetarako eta ez hainbeste ahotserako eta bideorako. •Lossy, galerak onartzen dituztenak, azkarrago jarduteko edo ahalik eta atzerapen gutxien izateko. Ezinezkoa da datuen kasuan erabiltzea baina bai ahotsaren kasuan.Konpresioa/deskonpresioa egiteko beharrezkoa den abiadura erlatiboaren arabera, honako hauekbereiz daitezke: •Simetrikoak, konprimitzeko zein deskonprimitzeko CPU potentzia berdina behar dutenak dira. •Asimetrikoak, konprimitzeko deskonprimitzeko baino potentzia handiagoa behar dutenak dira.Multimedian kodeka asimetrikoak erabiltzen dira, baina VoIPan konpresio-denborak ahalik eta gehienmurriztea komeni da eta, horregatik, kodeka asimetrikoak erabili nahi badira, DSP (Digital SignalProcessor) txip bereziak aukeratu behar dira.Atzerapenaren parametroak kontuan hartuta, bestalde, ondorengo sailkapena egin daiteke: •Orokorrak mota orotako soinuetarako balio dute, MPEG bezalako soinu psikoakustikoetarako edo PCM moldagarri diferentzialerako (ADPCM). •Ahotserako berariazkoak. ez dute balio musikarako, maiztasunen araberako ebakinak dituztelako  CELP. Code Excited Linear Prediction  CS-ACELP (Conjugate-Structure Algebraic Code Excited Linear Prediction  LPC  GSMNormalean, zenbat eta konpresio handiagoa orduan eta baxuagoa da kalitatea eta altuagoa da CPUarenkontsumoa.Halaber, emari finkoa erabiltzen duten kodekak eta emari finkorik erabiltzen ez dutenak bereiz daitezke: •Emari aldakorreko sistemak (MPEG, G.723.1). Emari finkoko erreserbarik ez duten sareetara hobekien egokitzen direnak dira, adibidez, Interneteko DiffServ modeloa. Ez dira VoIPan gehien erabiltzen direnak. •Emari finkoko sistemak. Egokiagoak dira VoIParekin erabiltzeko, (G.711, G.722, G.729); konexiora orientatutako zerbitzuetarako dira. QoS eskemekin erlazionatuta daude, RSVP eskemarekin, adibidez. IP sareetan baliabideen erreserba egiteko erabiltzen den protokolo bat da RSVP (adibidez, bideragailuetan baliabideak erreserbatu eta aldi bereko 20 elkarrizketa edukitzeko).MPEG konpresioa da eraginkorrena eta kalitate handienekoa, baina CPUa asko kontsumitzeaz gain,atzerapen handia dakar, hortaz, ezinezkoa da aplikazio elkarreragileetan erabiltzea (bideokonferentzianedo telefonian). Página 4 de 6
  • 5. AHOTSA PAKETATZEAAhotsa digitalizatzean, kodetzean, konprimitzean, eta abar, paketetan kapsulatzen da eta RTP (Real TimeProtocol) protokoloaren gainean bidaltzen da. Protokolo hori, H.323 bezala, ez zen VoIP sistemarakodefinitu, eta denborarekiko sentikorra den informazioa (ahotsa, bideoa, simulazioak, eta abar) denboraerrealeko informazio bezala bidaltzeko diseinatu zen. Aplikazioen mailan ezartzeko protokoloa da etaUDPan (garraio-mailan) oinarritzen da.Ahotsa digitalizatu eta gero, RTP burua txertatzen zaio eta, ondoren, UDP segmentuen laguntzarekin, IPpaketeetan integratzen da. 8. irudia. Ahotsa paketatzeaIP paketea ez da aldatzen bidaia osoan (TTL -bizi-denbora- eta antzeko eremuak izan ezik) eta, horriesker, lotune-geruzako protokolo desberdinetan kapsula daiteke: ATM, Frame Relay, Token Ring edoEtherneteko 802.3 protokoloetan, eta aldaketarik gabe bidaiatzen du dagokion traman. 9. irudia . VoIP pakete bat kapsulatzeko modu desberdinakIP paketeak aldaezinak dira eta hori da, hain zuzen ere, IP gaineko ahotsaren bilakaerak duen funtsezkoezaugarrietako bat, izan ere, soluzio gehiago egon arren -hala nola, Frame Relay gaineko ahotsa edoATM gaineko ahotsa- eta guztiek balio duten arren, ez dira hain malguak, lotune-geruzaren teknologiamugatzen edo zehazten baitute. Página 5 de 6
  • 6. AHOTSAREN KALITATEA. MOSa ETA PSQMaAhotsaren kalitatea baloratzerakoan, balorazio subjektiboa edo balorazio objektiboa egin dezakegu.Gizabanakook ahotsa-kalitateari buruzko proba subjektiboak egiten ditugu; ordenagailuek, berriz,objektiboak.Kalitate objektiboaren neurri estandarrak -hala nola, erabateko distortsio harmonikoa etaseinalea/zarata erlazioak- ez datoz bat giza ahotsaren kalitate-pertzepzioarekin, eta bien arteko bat-etortzea da, azken finean, ahotsaren konpresio-teknika gehienen azken helburua.Batez besteko iritziaren puntuazioa (MOS, Mean Opinion Score) ahots-kodekaren errendimenduakuantifikatzeko erabiltzen den erreferentzia subjektiboa da.MOS proba egiteko entzule-talde bat aukeratu behar da. Oro har, ahotsaren eta soinuaren kalitateariburuz entzuleak duen ikuspegia subjektiboa denez, MOS proba egiten denean oso garrantzitsua daentzule-multzo zabala eta probarako material ugari aukeratzea. Entzuleek ahots-materialaren laginbakoitza puntuatu behar dute, 1etik (txarra) 5era (bikaina) bitartean. Ondoren, batez bestekoakalkulatzen da, entzuleen iritziaren batez besteko puntuazioa lortzeko. Bit-abiadura Laginaren Konpresio-metodoa MOS puntuazioa (kbps) tamaina (ms)G.711 PCM 64 0,125 4,1G.726 ADPCM 32 0,125 3,85G.728 Aurresate lineala, atzerapen 15 0,625 3,61baxuko kodearen eszitazioarekin(LD-CELP)G.729 Aurresate lineala, egitura 8 10 3,92konjogatuko kode algebraikoareneszitazioarekin (CS-ACELP)G.729a CS-ACELP 8 10 3,7G.723.1 MP-MLQ 6,3 30 3,9G.723.1 ACELP 5,3 30 3,65 3. Tabla. ITU-T kodekaren MOS puntuazioa.ITU-T erakundeak P.861 gomendioa aurkeztu du. Gomendio horretan ahotsaren kalitatea objektibokierabakitzeko moduak daude. Zentzu horretan, PSQM (Perceptual Speech Quality Measurement)neurketari jarraitzen zaio, eta pertzepzioaren arabera neurtzen da ahotsaren kalitatea.Haatik, PSQMak arazo ugari sortzen ditu ahots-kodekekin erabiltzen denean, izan ere, makinakentzuten duena ez da izaten giza entzumenak entzuten edo antzematen duena.Ahotsaren konpresioaren eta deskonpresioaren ondorioz gertatzen ziren narriadurak “entzuteko” garatuzen PSQMa, eta ez, pakete-galeren ondorioz edo fase-fluktuazioen ondorioz izaten ziren narriadurakentzuteko. Página 6 de 6
  • 7. AHOTSAREN KALITATEA. MOSa ETA PSQMaAhotsaren kalitatea baloratzerakoan, balorazio subjektiboa edo balorazio objektiboa egin dezakegu.Gizabanakook ahotsa-kalitateari buruzko proba subjektiboak egiten ditugu; ordenagailuek, berriz,objektiboak.Kalitate objektiboaren neurri estandarrak -hala nola, erabateko distortsio harmonikoa etaseinalea/zarata erlazioak- ez datoz bat giza ahotsaren kalitate-pertzepzioarekin, eta bien arteko bat-etortzea da, azken finean, ahotsaren konpresio-teknika gehienen azken helburua.Batez besteko iritziaren puntuazioa (MOS, Mean Opinion Score) ahots-kodekaren errendimenduakuantifikatzeko erabiltzen den erreferentzia subjektiboa da.MOS proba egiteko entzule-talde bat aukeratu behar da. Oro har, ahotsaren eta soinuaren kalitateariburuz entzuleak duen ikuspegia subjektiboa denez, MOS proba egiten denean oso garrantzitsua daentzule-multzo zabala eta probarako material ugari aukeratzea. Entzuleek ahots-materialaren laginbakoitza puntuatu behar dute, 1etik (txarra) 5era (bikaina) bitartean. Ondoren, batez bestekoakalkulatzen da, entzuleen iritziaren batez besteko puntuazioa lortzeko. Bit-abiadura Laginaren Konpresio-metodoa MOS puntuazioa (kbps) tamaina (ms)G.711 PCM 64 0,125 4,1G.726 ADPCM 32 0,125 3,85G.728 Aurresate lineala, atzerapen 15 0,625 3,61baxuko kodearen eszitazioarekin(LD-CELP)G.729 Aurresate lineala, egitura 8 10 3,92konjogatuko kode algebraikoareneszitazioarekin (CS-ACELP)G.729a CS-ACELP 8 10 3,7G.723.1 MP-MLQ 6,3 30 3,9G.723.1 ACELP 5,3 30 3,65 3. Tabla. ITU-T kodekaren MOS puntuazioa.ITU-T erakundeak P.861 gomendioa aurkeztu du. Gomendio horretan ahotsaren kalitatea objektibokierabakitzeko moduak daude. Zentzu horretan, PSQM (Perceptual Speech Quality Measurement)neurketari jarraitzen zaio, eta pertzepzioaren arabera neurtzen da ahotsaren kalitatea.Haatik, PSQMak arazo ugari sortzen ditu ahots-kodekekin erabiltzen denean, izan ere, makinakentzuten duena ez da izaten giza entzumenak entzuten edo antzematen duena.Ahotsaren konpresioaren eta deskonpresioaren ondorioz gertatzen ziren narriadurak “entzuteko” garatuzen PSQMa, eta ez, pakete-galeren ondorioz edo fase-fluktuazioen ondorioz izaten ziren narriadurakentzuteko. Página 6 de 6
  • 8. AHOTSAREN KALITATEA. MOSa ETA PSQMaAhotsaren kalitatea baloratzerakoan, balorazio subjektiboa edo balorazio objektiboa egin dezakegu.Gizabanakook ahotsa-kalitateari buruzko proba subjektiboak egiten ditugu; ordenagailuek, berriz,objektiboak.Kalitate objektiboaren neurri estandarrak -hala nola, erabateko distortsio harmonikoa etaseinalea/zarata erlazioak- ez datoz bat giza ahotsaren kalitate-pertzepzioarekin, eta bien arteko bat-etortzea da, azken finean, ahotsaren konpresio-teknika gehienen azken helburua.Batez besteko iritziaren puntuazioa (MOS, Mean Opinion Score) ahots-kodekaren errendimenduakuantifikatzeko erabiltzen den erreferentzia subjektiboa da.MOS proba egiteko entzule-talde bat aukeratu behar da. Oro har, ahotsaren eta soinuaren kalitateariburuz entzuleak duen ikuspegia subjektiboa denez, MOS proba egiten denean oso garrantzitsua daentzule-multzo zabala eta probarako material ugari aukeratzea. Entzuleek ahots-materialaren laginbakoitza puntuatu behar dute, 1etik (txarra) 5era (bikaina) bitartean. Ondoren, batez bestekoakalkulatzen da, entzuleen iritziaren batez besteko puntuazioa lortzeko. Bit-abiadura Laginaren Konpresio-metodoa MOS puntuazioa (kbps) tamaina (ms)G.711 PCM 64 0,125 4,1G.726 ADPCM 32 0,125 3,85G.728 Aurresate lineala, atzerapen 15 0,625 3,61baxuko kodearen eszitazioarekin(LD-CELP)G.729 Aurresate lineala, egitura 8 10 3,92konjogatuko kode algebraikoareneszitazioarekin (CS-ACELP)G.729a CS-ACELP 8 10 3,7G.723.1 MP-MLQ 6,3 30 3,9G.723.1 ACELP 5,3 30 3,65 3. Tabla. ITU-T kodekaren MOS puntuazioa.ITU-T erakundeak P.861 gomendioa aurkeztu du. Gomendio horretan ahotsaren kalitatea objektibokierabakitzeko moduak daude. Zentzu horretan, PSQM (Perceptual Speech Quality Measurement)neurketari jarraitzen zaio, eta pertzepzioaren arabera neurtzen da ahotsaren kalitatea.Haatik, PSQMak arazo ugari sortzen ditu ahots-kodekekin erabiltzen denean, izan ere, makinakentzuten duena ez da izaten giza entzumenak entzuten edo antzematen duena.Ahotsaren konpresioaren eta deskonpresioaren ondorioz gertatzen ziren narriadurak “entzuteko” garatuzen PSQMa, eta ez, pakete-galeren ondorioz edo fase-fluktuazioen ondorioz izaten ziren narriadurakentzuteko. Página 6 de 6