Oldalak

2013. október 20., vasárnap

Hogyan lesz az élőzenéből mp3-as fájl?


A következő sorokban megpróbálom leírni, hogy hogyan ejtjük csapdába az élőzenét és hogyan tudjuk miniatűr méretűre zsugorítani az egyik legismertebb hangtömörítő eljárással, az mp3-al.


A hang tulajdonságai

A hang voltaképpen egy lökéshullám és az elterjedt tévhittel ellentétben nem transzverzális, hanem longitudinális hullám. Hogy melyik mit is jelent, arra most nem térnék ki, mert az egy külön téma és egyébként sincs nagy jelentősége a mi szempontunkból. Akit érdekel, annak ajánlom figyelmébe ezt a kis youtube videót, amelyben kb 25 másodpercben bemutatják a kétféle hullám lényegét. Fontos viszont, hogy az emberi fül számára 20Hz és 20KHz közötti frekvenciasáv az érdekes, mert csak ezt vagyunk képesek hallani. A legérzékenyebb intervallum ebben a hatalmas tartományban a 2-4KHz közötti rész. Amit még érdemesnek tartok megemlíteni, hogy az egymáshoz közeli frekvenciájú hangok közül csak a hangosabbikat halljuk, a kisebb hangerejű elnyomódik, nem halljuk. Ezt az utóbbi információt használja fel az Mp3 tömörítési eljárás is.

Analóg hangból digitális

Készítsünk tehát digitális lenyomatot az analógból. A problémánk az, hogy a teljes analóg hangot képtelenség eltárolni, mivel az időben és amplitudóban is végtelen jelet jelent. Alan Turingot kivéve pedig senkinek nincs végtelen nagy tárolója. Ha már nem tudjuk az összes jelet eltárolni megpróbáljuk csak a leglényegesebb részét rögzíteni. Ezt úgy tesszük, hogy bizonyos időnként mintát veszünk. Hogy milyen gyakran érdemes ezt megtenni, azt egy híres matematikus, Claude Shannon határozta meg. Azt mondta, hogy a legmagasabb frekvenciájú hang kétszeresével kell mintavételezni. A számunkra hallható hang felső határa a 20KHz, tehát a mintavételezésnek 40Khz-esnek kell lenni. Ez ugye azt jelenti, hogy másodpercenként 40000-szer mintavételezünk.


A mintavételezett hangot először 32-majd további (módosított koszinusz transzformáció segítségével) 18 sávra, azaz összesen 576 frekvenciasávra bontjuk azért, hogy nagyobb részletességgel tudjuk vizsgálni a hangot. Ezzel párhuzamosan (gyors Fourier-transzformációval) a kapott mintát koszinusz és szinusz összetevőkre bontjuk, majd pszichoakkusztikus modell segítségével meghatározzuk az elfedési görbéket (ezek lennének azok a hangok, amiket nem hallunk).

Az adatok (köztük az elfedési görbék) átkerülnek a kvantálónak, ami az amplitudót diszkretizálja. Két kvantálfokozat közé eső jelet a közelebbi fokhoz kerekíti. Sejthető hát, hogy ez torzítja a jelünket, azaz a hangunkat. Éppen ezért csak az elfedett hangokat kvantálja nagyobb lépcsőkben, míg a hallható hangot finomabban, hogy minél kisebb legyen a torzítás, a zaj.

Most már időben (értelmezési tartományban) is és amplitudóban (értékkészletben) is véges a jelkészletünk, végre jöhet a tömörítés. Itt semmi extra nincs, mert ezt olyan veszteségmentes tömörítéssel végezzük, mint a Huffmann-kódolás és a futamhosszrövidítés. Az mp3-nál a nagy szám a szűrés résznél a módosított koszinusz transzformáció (MDCT), valamint az elfedési görbék figyelmbevételével történő differenciált kvantálás.

Köszönöm a figyelmet, ha valamivel nem értesz egyet, kérlek ne fogd vissza magad és írj, nem szeretném, ha félretájékozódna általam az óriási olvasóközönség. :-)

Nincsenek megjegyzések:

Megjegyzés küldése