I hjärtat av ljudkodning med hjälp av en PC är processen att omvandla luftvibrationer till elektriska strömvibrationer och efterföljande sampling av en analog elektrisk signal . Kodning och uppspelning av ljudinformation utförs med hjälp av specialprogram ( ljudredigerare ). Kvaliteten på uppspelningen av kodat ljud beror på samplingsfrekvensen och dess upplösning (ljudkodningsdjup - antalet nivåer)
Digitalt ljud är en analog ljudsignal som representeras av diskreta numeriska värden för dess amplitud [1] .
Digitalisering av ljud är en teknik för att mäta amplituden hos en ljudsignal med ett visst tidssteg och sedan registrera de erhållna värdena i numerisk form [1] . Ett annat namn för ljuddigitalisering är analog-till-digital ljudkonvertering.
Ljuddigitalisering involverar två processer:
Tidssamplingsprocessen är processen att erhålla signalvärden som konverteras med ett visst tidssteg - samplingssteget . Antalet mätningar av signalens storlek, utförda per tidsenhet, kallas samplingshastighet eller samplingsfrekvens , eller samplingsfrekvens (från engelskan "sampling" - "sample"). Ju mindre samplingssteget är, desto högre samplingsfrekvens och desto mer exakt representation av signalen får vi.
Detta bekräftas av Kotelnikov-satsen (i den utländska litteraturen finns den som Nyquist-Shannon-satsen). Enligt den beskrivs en analog signal med ett begränsat spektrum exakt av en diskret sekvens av värden av dess amplitud om dessa värden tas vid en frekvens som är minst två gånger den högsta frekvensen i signalspektrumet. Det vill säga, en analog signal som innehåller en spektrumfrekvens lika med Fm kan noggrant representeras av en sekvens av diskreta amplitudvärden om samplingsfrekvensen Fd är: Fd > 2Fm .
I praktiken innebär detta att för att den digitaliserade signalen ska innehålla information om hela området av hörbara frekvenser för den ursprungliga analoga signalen (20 Hz - 20 kHz), är det nödvändigt att den valda samplingshastigheten är minst 40 kHz. Antalet amplitudsamplingar per sekund kallas samplingshastigheten (om samplingshastigheten är konstant).
Den största svårigheten med digitalisering är omöjligheten att registrera de uppmätta signalvärdena med perfekt noggrannhet (även om detta är möjligt baserat på Shenon och Kotelnikovs teorem).
Låt oss allokera N bitar för att registrera ett värde av signalamplituden i datorminnet. Det betyder att med hjälp av ett N-bitars ord kan 2 N olika positioner beskrivas. Låt amplituden för den digitaliserade signalen sträcka sig från −1 till 1 för vissa konventionella enheter. Låt oss representera detta område av amplitudförändring - signalens dynamiska område - i form av 2 N −1 lika intervall, dela upp det i 2 N nivåer - kvanta. För att nu registrera varje enskilt amplitudvärde måste det avrundas till närmaste kvantiseringsnivå. Denna process kallas amplitudkvantisering. Amplitudkvantisering är processen att ersätta de verkliga värdena för signalamplituden med värden som är ungefärliga med viss noggrannhet. Var och en av de 2 N möjliga nivåerna kallas en kvantiseringsnivå, och avståndet mellan de två närmaste kvantiseringsnivåerna kallas kvantiseringssteget. Om amplitudskalan är uppdelad i nivåer linjärt kallas kvantiseringen linjär (homogen).
Avrundningsnoggrannheten beror på det valda antalet ( 2N ) kvantiseringsnivåer, vilket i sin tur beror på antalet bitar (N) som allokerats för att registrera amplitudvärdet. Talet N kallas kvantiseringsbitdjupet (vilket betyder antalet siffror, det vill säga bitar, i varje ord), och siffrorna som erhålls som ett resultat av avrundning av amplitudvärdena är sampel eller sampel (från engelska " prov” - “mätning”). Det antas att kvantiseringsfelen som härrör från 16-bitars kvantisering förblir nästan omärkliga för lyssnaren.
Denna metod för signaldigitalisering - signalsampling i tid i samband med den homogena kvantiseringsmetoden - kallas pulskodmodulering (Eng. Pulse Code Modulation - PCM). Den digitaliserade signalen som en uppsättning successiva amplitudvärden kan redan lagras i datorns minne. I det fall där absoluta amplitudvärden registreras kallas detta inspelningsformat PCM. Den vanliga audio-cd-skivan ( CD-DA ), som har använts sedan början av 1980-talet, lagrar information i PCM-format med en samplingshastighet på 44,1 kHz och 16-bitars kvantisering.
Ovanstående audiodigitaliseringsprocess utförs av analog-till-digital-omvandlare (ADC) . Denna omvandling inkluderar följande operationer:
Detta görs enligt följande: en kontinuerlig analog signal "klipps" i sektioner, med en samplingsfrekvens erhålls en digital diskret signal, som går igenom kvantiseringsprocessen med ett visst bitdjup, och sedan kodas, det vill säga ersätts genom en sekvens av kodsymboler. För att spela in ljud i frekvensbandet 20 Hz - 20 kHz krävs en samplingsfrekvens på 44,1 kHz eller högre. För att få en högkvalitativ inspelning räcker det med ett bitdjup på 16 bitar, men för att utöka det dynamiska omfånget och förbättra kvaliteten på ljudinspelningen används ett bitdjup på 24 och 32 bitar.
Det finns många olika sätt att lagra digitalt ljud. Digitaliserat ljud är en uppsättning signalamplitudvärden tagna vid vissa tidsintervall.
Formatnamn | Kvantisering, lite | Samplingsfrekvens, kHz | Antal kanaler | Diskdataström, kbit/s | Kompression/packningsförhållande |
---|---|---|---|---|---|
CD | 16 | 44.1 | 2 | 1411.2 | 1:1 förlustfritt |
Dolby Digital (AC3) | 16-24 | 48 | 6 | upp till 640 | ~12:1 förlust |
DTS | 20-24 | 48; 96 | upp till 8 | före 1536 | ~3:1 förlust |
DVD-ljud | 16; tjugo; 24 | 44,1; 48; 88,2; 96 | 6 | 6912 | 2:1 förlustfritt |
DVD-ljud | 16; tjugo; 24 | 176,4; 192 | 2 | 4608 | 2:1 förlustfritt |
MP3 | flytande | upp till 48 | 2 | upp till 320 | ~11:1 förlust |
AAC | flytande | upp till 96 | upp till 48 | upp till 529 | med förluster |
AAC+ ( SBR ) | flytande | upp till 48 | 2 | upp till 320 | med förluster |
Ogg Vorbis | upp till 32 | upp till 192 | upp till 255 | upp till 1000 | med förluster |
WMA | upp till 24 | upp till 96 | upp till 8 | upp till 768 | 2:1, det finns en förlustfri version |
Bruskorrigerande kodning tillåter, under signaluppspelning, att identifiera och eliminera (eller minska frekvensen av att de uppstår) läsfel från media. För att göra detta, när du skriver till signalen som tas emot vid utgången av ADC:n, läggs artificiell redundans (kontrollbit) till, vilket sedan hjälper till att återställa det skadade antalet. Ljudinspelningsenheter använder vanligtvis en kombination av två eller tre felkorrigeringskoder. Interleaving används också för bättre skydd mot burst-fel .
Kanalkodning används för att matcha digitala signaler med parametrarna för överföringskanalen (inspelning/uppspelning). Tilläggsdata läggs till den användbara signalen för att underlätta efterföljande avkodning. Dessa kan vara tidskodsignaler , servicesignaler, synkroniseringssignaler.
I digitala signaluppspelningsanordningar extraherar kanalavkodaren klocksignaler från den allmänna dataströmmen och omvandlar den inkommande kanalsignalen till en digital dataström. Efter felkorrigering går signalen till DAC.
Den digitala signalen som tas emot från avkodaren omvandlas till analog. Denna omvandling sker enligt följande:
De viktigaste parametrarna som påverkar ljudkvaliteten i detta fall är:
Också viktiga är parametrarna för den analoga vägen för digitala kodnings- och avkodningsenheter:
Det finns olika metoder för att koda ljudinformation med en binär kod, bland vilka det finns två huvudriktningar: FM-metoden och Wave-Table-metoden.
FM-metoden (Frequency Modulation) är baserad på det faktum att teoretiskt sett kan vilket komplext ljud som helst delas upp i en sekvens av enkla harmoniska signaler med olika frekvenser, som var och en kommer att vara en vanlig sinusform, vilket betyder att det kan beskrivas med en kod . Processen för nedbrytning av ljudsignaler till övertonsserier och deras representation i form av diskreta digitala signaler sker i speciella enheter som kallas "analog-till-digitalomvandlare" (ADC).
Wave-table-metoden (Wave-Table) bygger på att sampel av omvärldens ljud, musikinstrument etc. lagras i förberedda tabeller Numeriska koder uttrycker tonhöjd, varaktighet och intensitet för ljudet , och andra parametrar som kännetecknar ljudets egenskaper. Eftersom "riktiga" ljud används som sampel, är kvaliteten på ljudet som erhålls som ett resultat av syntes mycket hög och närmar sig ljudkvaliteten för riktiga musikinstrument.