Komprimering (komprimering) av ljuddata är processen att minska hastigheten på en digital ström genom att minska den statistiska och psykoakustiska redundansen hos en digital ljudsignal .
Metoder för att minska den statistiska redundansen för ljuddata kallas också förlustfri komprimering, och följaktligen kallas metoder för att minska psykoakustisk redundans förlustfri komprimering.
Frågan om att öka tätheten av ljudinspelning uppstod nästan omedelbart efter tillkomsten av ljudinspelningen som sådan. I en tid präglad av mekanisk inspelning, för detta ändamål, försökte de lägga ljudspåret så tätt som möjligt på skivans yta. För dessa ändamål var det nödvändigt att antingen minska kvaliteten på inspelningen, minska dynamiken och frekvensomfånget, vilket praktiserades till exempel vid inspelning av tal (ljudföreställningar, föreläsningar, skivor för dubbning av filmremsor ). Men på 1930-talet, när man bytte till vinylskivor, föreslogs en annan metod, baserad på den oberoende begränsningen av de tre komponenterna i rörelselagen för skäraren under inspelning och nålen under uppspelning: oscillerande förskjutning, oscillerande hastighet och oscillerande acceleration. Vid låga frekvenser är vibrationshastigheter och accelerationer små, och vibrationsförskjutning spelar den största rollen vid signalöverföring. Vid medelhöga frekvenser kan förskjutningen inte längre nå stora värden och hastigheten börjar spela störst roll vid signalöverföring. Vid högre frekvenser övergår denna roll till acceleration. Det är denna funktion hos mekanisk ljudinspelning som användes för att effektivt komprimera ljudinformation. Vid inspelning är ljudsignalen förförvrängd på ett sådant sätt att den drar maximal nytta av ljudspårets tilldelade bredd (vilket begränsar förskjutningen), dess krökningsradie (som begränsar hastigheten) och styrkan på skivmaterialet (vilket begränsar accelerationen). Den mest populära och senare standardiserade var RIAA pre-emphasis kurva. Ljudkomprimering på grammofonskivor är i huvudsak en optimering av den spektrala densitetsfunktionen.
Liksom i fallet med grammofoninspelning var ökningen av magnetisk inspelningstäthet associerad med optimeringen av signalspektrala densitetsfunktionen, i enlighet med de fysiska begränsningarna som skapas av magnethuvud - magnetbandsystemet . En viktig egenskap som påverkar kvaliteten på magnetisk inspelning är bredden på huvudets icke-magnetiska gap. Ju mindre den är, desto bredare kan frekvensområdet spelas in, men signalnivån, speciellt i lågfrekvensområdet, reduceras och de icke-linjära distorsionerna ökar. Tvärtom, ju bredare gapet är, desto mer begränsas frekvensområdet ovanifrån, men signalnivån blir högre och de icke-linjära distorsionerna blir lägre. För att övervinna denna motsägelse innehåller bandspelarens inspelningskanal fördistorsionsfilter. Faktum är att vid låga frekvenser begränsas signalen av magnetisk mättnad, vid medelfrekvenser - av koercitivkraften och vid höga frekvenser - av huvudets ströfält. Därför tvingar det lågfrekventa fördistorsionsfiltret inspelningsförstärkaren att arbeta i det aktuella källläget, och begränsar därigenom mängden magnetisering. Vid medelhöga frekvenser sker en övergång från strömkällan till spänningskällan, och slutligen, vid högre frekvenser, arbetar inspelningsförstärkaren i spänningskällan. Frekvenssvaret för fördistorsionsfiltret på bandspelarens förstärkare liknar RIAA-kurvan, men har olika polfrekvenser, som beror på bandets hastighet och dess typ. High-end multi-speed bandspelare hade omkopplingsbara filterbanker.
Önskan att minska frekvensbandet som ockuperas av en sändande radiostation i etern, utan att försämra ljudkvaliteten, har lett till användningen av ljudsignalkomprimering i radiosändningar. Men eftersom sändningssystem för amplitudmodulering i lång-, mellan- och kortvågsbanden utvecklades på 1920- och 1930-talen täcktes de inte av ljudsignalkomprimering och bandbredden som upptogs i luften begränsades helt enkelt genom att minska kvaliteten på sändningen . Men inom området för ultrakorta vågor vid sändning av en signal med frekvensmodulering, där bandbredden inte bestäms av bredden på den ursprungliga ljudsignalens spektrum, utan av dess dynamiska omfång, användes "kompressor-expander" -systemet, vilket gjorde det möjligt att begränsa frekvensavvikelsen till ett värde av 75 kHz, vilket ger ett dynamiskt område på 96 dB
I stereosystem är ljudsignalkomprimering baserad på summaskillnadsprincipen och den mänskliga hörselns egenskaper. Faktum är att det under naturliga förhållanden inte finns några helt separerade ljudkällor för vänster och höger öra. Därför är det inte nödvändigt för en stereofonisk ljudinspelning att skapa en skillnad mellan det momentana ljudtrycksvärdet i vänster och höger öra på mer än 40 dB. Därför, i analoga ljudsystem, användes metoden "gemensam stereo" i stor utsträckning, när signalen av summan av kanalerna spelades in med hög kvalitet och kanalskillnadssignalen spelades in med en amplitudkomprimerad och frekvensbegränsad kanalskillnad. signal. I återgivningsanordningen erhölls signalen för den vänstra kanalen som summan av summa- och skillnadssignalerna, och den högra kanalen erhölls som skillnaden mellan summa- och skillnadssignalerna. Det kombinerade stereosystemet användes vid inspelning och stereosändningar.
Minskningen av statistisk redundans bygger på att man tar hänsyn till egenskaperna hos själva ljudsignalerna. Det bestäms av närvaron av en korrelation mellan intilliggande sampel av en digital ljudsignal, vars eliminering gör det möjligt att minska mängden överförda data med 15 ... 25% jämfört med deras ursprungliga värde. För att sända en signal är det nödvändigt att få en mer kompakt representation av den, vilket kan göras med hjälp av en ortogonal transformation . Viktiga villkor för tillämpningen av en sådan omvandlingsmetod är:
Dessa krav uppfylls av den modifierade diskreta cosinustransformen (MDCT).
Bithastigheten kan reduceras genom kodningsmetoder som tar hänsyn till statistiken för ljudsignaler, till exempel sannolikheten för förekomst av nivåer av olika storlekar. En sådan metod är Huffman-koden , där kortare kodord tilldelas de mest sannolika signalvärdena, och sampelvärden med låg sannolikhet för förekomst kodas med längre kodord. Det är av dessa två skäl som i de mest effektiva digitala ljuddatakomprimeringsalgoritmerna kodas inte själva ljudsignalsamplen, utan MDCT-koefficienterna.
Liknande metoder används vid arkivering av filer.
Förlustkomprimering av ljuddata baseras på ofullkomligheten i mänsklig hörsel när den uppfattar ljudinformation. En persons oförmåga att i vissa fall skilja mellan tystare ljud i närvaro av starkare, kallad maskeringseffekten , har utnyttjats i psykoakustiska redundansreduktionsalgoritmer. Effekterna av auditiv maskering beror på de spektrala och tidsmässiga egenskaperna hos de maskerade och maskerande signalerna och kan delas in i två huvudgrupper:
Maskeringseffekten i frekvensdomänen beror på det faktum att i närvaro av stora ljudamplituder är det mänskliga örat okänsligt för små amplituder av nära frekvenser. Det vill säga när två signaler är samtidigt i en begränsad frekvensdomän, blir den svagare signalen ohörbar mot bakgrunden av den starkare.
Tidsdomänmaskering karakteriserar hörselns dynamiska egenskaper genom att visa förändringen i relativ hörtröskel (hörtröskel för en signal i närvaro av en annan) över tid när de maskerande och maskerade signalerna inte låter samtidigt. I det här fallet bör man skilja mellan fenomenen eftermaskering (förändring av hörseltröskeln efter en högnivåsignal) och förmaskering (förändring av hörseltröskeln innan en signal med maximal nivå kommer) . En svagare signal blir ohörbar 5–20 ms innan maskeringssignalen slås på och blir hörbar 50–200 ms efter att den slås på.
Den bästa ljudkodningsmetoden som tar hänsyn till maskeringseffekten är bandkodning. Dess väsen är som följer. En grupp av sampel av den ingående ljudsignalen, kallad en ram, går in i filterblocket, som delar upp signalen i frekvensunderband. Vid utgången av varje filter finns den del av insignalen som faller inom passbandet för detta filter. Vidare, i varje band, med hjälp av en psykoakustisk modell, analyseras signalens spektrala sammansättning och det uppskattas vilken del av signalen som ska sändas utan reduktion, och vilken del som ligger under maskeringströskeln och kan återkvantiseras till ett mindre antal av bitar. För att minska det maximala dynamiska intervallet bestäms det maximala urvalet i ramen och en skalningsfaktor beräknas som för detta sampel till den övre kvantiseringsnivån. Denna operation liknar compande i analoga sändningar. Alla andra avläsningar multipliceras med samma faktor. Skalfaktorn sänds till avkodaren tillsammans med den kodade datan för att korrigera den senares förstärkning. Efter skalning uppskattas maskeringströskeln och det totala antalet bitar omfördelas mellan alla band.
Uppenbarligen, efter elimineringen av den psykoakustiska redundansen av ljudsignaler, är deras exakta rekonstruktion under avkodning inte längre möjlig. Metoder för att eliminera psykofysisk redundans kan ge komprimering av digital ljuddata 10–12 gånger utan betydande kvalitetsförlust.
Många andra knep kan fungera som ett sätt att minska mängden ljudinformationsdata. Även en enkel försmalning av signalens bandbredd, tillsammans med en minskning av det dynamiska området, kan redan kallas ljuddatakomprimering. Till exempel använder den cellulära ljudkomprimeringsstandarden båda. I ett försök att ta bort redundans från ljudet, blir codec, med dålig signalkvalitet, selektiv för vissa ord och sväljer dem envist.
För komprimerad ljuddata finns det ett subjektivt kvalitetsbetyg, mätt som andelen personer som kände skillnaden från originalet.
Ungefärligt antal personer som hörde skillnaden mellan original och komprimerade inspelningar, % | Bithastighet för komprimerad inspelning, kbps |
---|---|
0…1 | 320 |
5…30 | 256 |
30…40 | 192 |
40…70 | 128 |
Det bör beaktas att kvaliteten på det resulterande materialet beror på arten av de komprimerade data, på genren, närvaron av bakgrund och brus. Efter komprimering, t.ex. MP3, vid medelhöga bithastigheter, noterar lyssnarna hur små slagverken är. Och kompression (även stark) har liten effekt på rösten.
Ljudkomprimering | |
---|---|
Codecs | |
Tal/röst | |
Förlust mindre |
|
Standarder och format | |
mediebehållare | |
---|---|
Video/ljud | |
Audio | |
musik |
|
Raster | |
Vektor | |
Komplex |
_ | Kompressionsmetoder|||||||
---|---|---|---|---|---|---|---|
Teori |
| ||||||
Förlust mindre |
| ||||||
Audio |
| ||||||
Bilder |
| ||||||
Video |
|