Ljudkodning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 19 mars 2018; kontroller kräver 30 redigeringar .

I hjärtat av ljudkodning med hjälp av en PC är processen att omvandla luftvibrationer till elektriska strömvibrationer och efterföljande sampling av en analog elektrisk signal . Kodning och uppspelning av ljudinformation utförs med hjälp av specialprogram ( ljudredigerare ). Kvaliteten på uppspelningen av kodat ljud beror på samplingsfrekvensen och dess upplösning (ljudkodningsdjup - antalet nivåer)

Principer för ljuddigitalisering

Digitalt ljud är en analog ljudsignal som representeras av diskreta numeriska värden för dess amplitud [1] .

Digitalisering av ljud är en teknik för att mäta amplituden hos en ljudsignal med ett visst tidssteg och sedan registrera de erhållna värdena i numerisk form [1] . Ett annat namn för ljuddigitalisering är analog-till-digital ljudkonvertering.

Ljuddigitalisering involverar två processer:

processen för diskretisering (sampling) av signalen över tid;
amplitudkvantiseringsprocess.

Tidsdiskretisering

Tidssamplingsprocessen är processen att erhålla signalvärden som konverteras med ett visst tidssteg - samplingssteget . Antalet mätningar av signalens storlek, utförda per tidsenhet, kallas samplingshastighet eller samplingsfrekvens , eller samplingsfrekvens (från engelskan "sampling" - "sample"). Ju mindre samplingssteget är, desto högre samplingsfrekvens och desto mer exakt representation av signalen får vi.

Detta bekräftas av Kotelnikov-satsen (i den utländska litteraturen finns den som Nyquist-Shannon-satsen). Enligt den beskrivs en analog signal med ett begränsat spektrum exakt av en diskret sekvens av värden av dess amplitud om dessa värden tas vid en frekvens som är minst två gånger den högsta frekvensen i signalspektrumet. Det vill säga, en analog signal som innehåller en spektrumfrekvens lika med Fm kan noggrant representeras av en sekvens av diskreta amplitudvärden om samplingsfrekvensen Fd är: Fd > 2Fm .

I praktiken innebär detta att för att den digitaliserade signalen ska innehålla information om hela området av hörbara frekvenser för den ursprungliga analoga signalen (20 Hz - 20 kHz), är det nödvändigt att den valda samplingshastigheten är minst 40 kHz. Antalet amplitudsamplingar per sekund kallas samplingshastigheten (om samplingshastigheten är konstant).

Den största svårigheten med digitalisering är omöjligheten att registrera de uppmätta signalvärdena med perfekt noggrannhet (även om detta är möjligt baserat på Shenon och Kotelnikovs teorem).

Linjär (homogen) amplitudkvantisering

Låt oss allokera N bitar för att registrera ett värde av signalamplituden i datorminnet. Det betyder att med hjälp av ett N-bitars ord kan 2 N olika positioner beskrivas. Låt amplituden för den digitaliserade signalen sträcka sig från −1 till 1 för vissa konventionella enheter. Låt oss representera detta område av amplitudförändring - signalens dynamiska område - i form av 2 N −1 lika intervall, dela upp det i 2 N nivåer - kvanta. För att nu registrera varje enskilt amplitudvärde måste det avrundas till närmaste kvantiseringsnivå. Denna process kallas amplitudkvantisering. Amplitudkvantisering är processen att ersätta de verkliga värdena för signalamplituden med värden som är ungefärliga med viss noggrannhet. Var och en av de 2 N möjliga nivåerna kallas en kvantiseringsnivå, och avståndet mellan de två närmaste kvantiseringsnivåerna kallas kvantiseringssteget. Om amplitudskalan är uppdelad i nivåer linjärt kallas kvantiseringen linjär (homogen).

Avrundningsnoggrannheten beror på det valda antalet ( 2N ) kvantiseringsnivåer, vilket i sin tur beror på antalet bitar (N) som allokerats för att registrera amplitudvärdet. Talet N kallas kvantiseringsbitdjupet (vilket betyder antalet siffror, det vill säga bitar, i varje ord), och siffrorna som erhålls som ett resultat av avrundning av amplitudvärdena är sampel eller sampel (från engelska " prov” - “mätning”). Det antas att kvantiseringsfelen som härrör från 16-bitars kvantisering förblir nästan omärkliga för lyssnaren.

Denna metod för signaldigitalisering - signalsampling i tid i samband med den homogena kvantiseringsmetoden - kallas pulskodmodulering (Eng. Pulse Code Modulation - PCM). Den digitaliserade signalen som en uppsättning successiva amplitudvärden kan redan lagras i datorns minne. I det fall där absoluta amplitudvärden registreras kallas detta inspelningsformat PCM. Den vanliga audio-cd-skivan ( CD-DA ), som har använts sedan början av 1980-talet, lagrar information i PCM-format med en samplingshastighet på 44,1 kHz och 16-bitars kvantisering.

Andra sätt att digitalisera

Den olikformiga kvantiseringsmetoden tillhandahåller uppdelning av amplitudskalan i nivåer enligt den logaritmiska lagen. Denna kvantiseringsmetod kallas logaritmisk kvantisering. När man använder den logaritmiska amplitudskalan, finns det fler kvantiseringsnivåer i området med svag amplitud än i området med stark amplitud (medan det totala antalet kvantiseringsnivåer förblir detsamma som i fallet med homogen kvantisering). Analog-till-digital-omvandling baserad på tillämpningen av den olikformiga kvantiseringsmetoden kallas icke-likformig pulskodmodulering - icke-likformig PCM (Nonuniform PCM).
En alternativ metod för analog-till-digital omvandling är differentiell pulskodmodulering - differentiell PCM (eng. "Differential PCM") - i fallet med differentiell PCM kvantiseras inte amplituden i sig, utan de relativa värdena av amplitudens storlek. I fullständig analogi med PCM kan skillnads-PCM kombineras med både homogena och icke-homogena kvantiseringsmetoder. Differentialkodning har många olika varianter [2] .

Analog-till-digital-omvandlare (ADC)

Ovanstående audiodigitaliseringsprocess utförs av analog-till-digital-omvandlare (ADC) . Denna omvandling inkluderar följande operationer:

Bandbegränsning utförs med hjälp av ett lågpassfilter för att undertrycka spektrala komponenter vars frekvens överstiger hälften av samplingsfrekvensen.
Diskretisering i tid, det vill säga ersättning av en kontinuerlig analog signal med en sekvens av dess värden vid diskreta tidpunkter - prover. Detta problem löses genom att använda en speciell krets vid ingången på ADC - en samplings-och-håll-enhet .
Nivåkvantisering är ersättningen av signalsamplingsvärdet med det närmaste värdet från en uppsättning fasta värden - kvantiseringsnivåer.
Kodning eller digitalisering, som ett resultat av vilket värdet av varje kvantiserat prov representeras som ett tal som motsvarar kvantiseringsnivåns ordningsnummer.

Detta görs enligt följande: en kontinuerlig analog signal "klipps" i sektioner, med en samplingsfrekvens erhålls en digital diskret signal, som går igenom kvantiseringsprocessen med ett visst bitdjup, och sedan kodas, det vill säga ersätts genom en sekvens av kodsymboler. För att spela in ljud i frekvensbandet 20 Hz - 20 kHz krävs en samplingsfrekvens på 44,1 kHz eller högre. För att få en högkvalitativ inspelning räcker det med ett bitdjup på 16 bitar, men för att utöka det dynamiska omfånget och förbättra kvaliteten på ljudinspelningen används ett bitdjup på 24 och 32 bitar.

Kodning av digitaliserat ljud innan det spelas in på media

Det finns många olika sätt att lagra digitalt ljud. Digitaliserat ljud är en uppsättning signalamplitudvärden tagna vid vissa tidsintervall.

Ett block med digitaliserad ljudinformation kan skrivas till en fil utan ändringar, det vill säga en sekvens av tal - amplitudvärden. I det här fallet finns det två sätt att lagra information.
- Den första - PCM - är en metod för digital kodning av en signal genom att registrera de absoluta värdena för amplituderna.
- Den andra - ADPCM (Adaptive Delta PCM - adaptiv relativ pulskodmodulering) - registrerar signalvärden inte i absoluta, utan i relativa förändringar i amplituder (inkrement).
Du kan komprimera data så att den tar upp mindre minne än i sitt ursprungliga tillstånd. Även här finns det två sätt.
- Förlustfri datakodning är en ljudkodningsmetod som tillåter 100 % dataåterställning från en komprimerad ström. Det används i de fall där bevarandet av den ursprungliga kvaliteten på uppgifterna är särskilt viktigt. Förlustfria kodningsalgoritmer som finns idag kan minska mängden data som upptas med 20-50%, men samtidigt säkerställa 100% återhämtning av originaldata från de som erhålls efter komprimering.
- Förlustdatakodning . Här är målet att uppnå likheten mellan ljudet från den återställda signalen och originalet med minsta möjliga storlek på den komprimerade filen. Detta uppnås genom att använda algoritmer som "förenklar" den ursprungliga signalen (ta bort "irrelevanta", oskiljbara detaljer från den). Detta gör att den avkodade signalen inte längre är identisk med originalet, utan bara "låter liknande". Det finns många komprimeringsmetoder, såväl som program som implementerar dessa metoder. I genomsnitt är kompressionsförhållandet som tillhandahålls av sådana kodare i intervallet 10--14 (ggr). Alla förlustgivare är baserade på den så kallade psykoakustiska modellen. Hon är engagerad i just denna "förenkling" av den ursprungliga signalen. Graden av komprimering av den ursprungliga signalen beror på graden av dess "förenkling" - stark komprimering uppnås genom "militant förenkling" (när kodaren ignorerar flera nyanser). Sådan komprimering leder till en stark kvalitetsförlust, eftersom inte bara omärkliga, utan också betydande detaljer i ljudet kan tas bort [3] .

Terminologi

kodare - ett program (eller enhet) som implementerar en specifik datakodningsalgoritm (till exempel en arkiverare eller en MP 3-kodare), som accepterar källinformation som indata och returnerar kodad information i ett specifikt format som utdata.
avkodare - ett program (eller enhet) som implementerar den inversa transformationen av en kodad signal till en avkodad.
codec är en mjukvaru- eller hårdvaruenhet utformad för att koda/avkoda data.

Vissa ljuddigitaliseringsformat i jämförelse

Formatnamn	Kvantisering, lite	Samplingsfrekvens, kHz	Antal kanaler	Diskdataström, kbit/s	Kompression/packningsförhållande
CD	16	44.1	2	1411.2	1:1 förlustfritt
Dolby Digital (AC3)	16-24	48	6	upp till 640	~12:1 förlust
DTS	20-24	48; 96	upp till 8	före 1536	~3:1 förlust
DVD-ljud	16; tjugo; 24	44,1; 48; 88,2; 96	6	6912	2:1 förlustfritt
DVD-ljud	16; tjugo; 24	176,4; 192	2	4608	2:1 förlustfritt
MP3	flytande	upp till 48	2	upp till 320	~11:1 förlust
AAC	flytande	upp till 96	upp till 48	upp till 529	med förluster
AAC+ ( SBR )	flytande	upp till 48	2	upp till 320	med förluster
Ogg Vorbis	upp till 32	upp till 192	upp till 255	upp till 1000	med förluster
WMA	upp till 24	upp till 96	upp till 8	upp till 768	2:1, det finns en förlustfri version

Fullständig ljudkonverteringscykel: från digitalisering till konsumentuppspelning

Bruskorrigering och kanalkodning

Bruskorrigerande kodning tillåter, under signaluppspelning, att identifiera och eliminera (eller minska frekvensen av att de uppstår) läsfel från media. För att göra detta, när du skriver till signalen som tas emot vid utgången av ADC:n, läggs artificiell redundans (kontrollbit) till, vilket sedan hjälper till att återställa det skadade antalet. Ljudinspelningsenheter använder vanligtvis en kombination av två eller tre felkorrigeringskoder. Interleaving används också för bättre skydd mot burst-fel .

Kanalkodning används för att matcha digitala signaler med parametrarna för överföringskanalen (inspelning/uppspelning). Tilläggsdata läggs till den användbara signalen för att underlätta efterföljande avkodning. Dessa kan vara tidskodsignaler , servicesignaler, synkroniseringssignaler.

I digitala signaluppspelningsanordningar extraherar kanalavkodaren klocksignaler från den allmänna dataströmmen och omvandlar den inkommande kanalsignalen till en digital dataström. Efter felkorrigering går signalen till DAC.

Funktionsprincipen för DAC:n

Den digitala signalen som tas emot från avkodaren omvandlas till analog. Denna omvandling sker enligt följande:

DAC-avkodaren omvandlar talsekvensen till en diskret kvantiserad signal
Genom utjämning i tidsdomänen genereras en tidskontinuerlig signal från diskreta sampel
Den slutliga signalåtervinningen görs genom att undertrycka sidospektra i ett analogt lågpassfilter.

Parametrar som påverkar ljudkvaliteten när det passerar genom hela cykeln

De viktigaste parametrarna som påverkar ljudkvaliteten i detta fall är:

Bitdjup för ADC och DAC.
Samplingshastighet av ADC och DAC.
Jitter ADC och DAC
Omsampling

Också viktiga är parametrarna för den analoga vägen för digitala kodnings- och avkodningsenheter:

Signal-brusförhållande
THD
Intermodulationsdistorsion
Ojämnhet i amplitud-frekvenskarakteristiken
Kanalinterpenetration
Dynamiskt omfång

Kodningsmetoder

Det finns olika metoder för att koda ljudinformation med en binär kod, bland vilka det finns två huvudriktningar: FM-metoden och Wave-Table-metoden.

FM-metoden (Frequency Modulation) är baserad på det faktum att teoretiskt sett kan vilket komplext ljud som helst delas upp i en sekvens av enkla harmoniska signaler med olika frekvenser, som var och en kommer att vara en vanlig sinusform, vilket betyder att det kan beskrivas med en kod . Processen för nedbrytning av ljudsignaler till övertonsserier och deras representation i form av diskreta digitala signaler sker i speciella enheter som kallas "analog-till-digitalomvandlare" (ADC).

Wave-table-metoden (Wave-Table) bygger på att sampel av omvärldens ljud, musikinstrument etc. lagras i förberedda tabeller Numeriska koder uttrycker tonhöjd, varaktighet och intensitet för ljudet , och andra parametrar som kännetecknar ljudets egenskaper. Eftersom "riktiga" ljud används som sampel, är kvaliteten på ljudet som erhålls som ett resultat av syntes mycket hög och närmar sig ljudkvaliteten för riktiga musikinstrument.

Anteckningar

↑ 1 2 Förstå ljudkodning . Hämtad 27 juni 2011. Arkiverad från originalet 13 oktober 2011. (obestämd)
↑ Ljud: lite teori . Hämtad 27 juni 2011. Arkiverad från originalet 28 juni 2011. (obestämd)
↑ Digitalt ljud: först till kvarn . Hämtad 27 juni 2011. Arkiverad från originalet 14 oktober 2011. (obestämd)