Psykoakustik är en vetenskaplig disciplin som studerar de psykologiska och fysiologiska egenskaperna hos människans uppfattning av ljud .
Rent musikaliskt är psykoakustikens huvuduppgifter följande:
I många akustik- och ljudsignalbehandlingstillämpningar är det nödvändigt att veta vad människor hör . Ljudet som produceras av lufttrycksvågor kan noggrant mätas med modern utrustning. Det är dock inte lätt att förstå hur dessa vågor tas emot och visas i vår hjärna. Ljud är en kontinuerlig analog signal som (förutsatt att luftmolekylerna är oändligt små) teoretiskt kan bära en oändlig mängd information (eftersom det finns ett oändligt antal vibrationer som innehåller amplitud- och fasinformation).
Genom att förstå perceptionsprocesserna kan forskare och ingenjörer fokusera på hörselkapaciteten och ignorera de mindre viktiga funktionerna hos andra system. Det är också viktigt att notera att frågan "vad en person hör" inte bara är en fråga om örats fysiologiska förmågor , utan på många sätt också en fråga om perceptionspsykologi .
En person hör nominellt ljud i intervallet från 16 till 20 000 Hz . Den övre gränsen, liksom den nedre, tenderar att minska med åldern. De flesta vuxna kan inte höra ljud över 16 kHz. Örat i sig reagerar inte på frekvenser under 20 Hz, men de kan kännas av genom känseln .
Utbudet av uppfattade ljud är enormt. Men trumhinnan i örat är bara känslig för tryckförändringar . Ljudtrycksnivån mäts vanligtvis i decibel (dB). Den nedre hörbarhetströskeln definieras som 0 dB (20 mikropascal), och definitionen av den övre hörbarhetsgränsen hänvisar mer till tröskeln för obehag och sedan till hörselnedsättning , hjärnskakning etc. Denna gräns beror på hur länge vi lyssnar på ljudet. Örat kan tolerera kortvariga volymökningar på upp till 120 dB utan konsekvenser, men långvarig exponering för ljud över 80 dB kan orsaka hörselnedsättning. [ett]
Mer noggranna studier av den nedre hörselgränsen har visat att den lägsta tröskeln vid vilken ljud förblir hörbar beror på frekvensen. Grafen för detta beroende kallas den absoluta hörtröskeln . I genomsnitt har den en region med störst känslighet i intervallet 1 kHz till 5 kHz, även om känsligheten minskar med åldern i intervallet över 2 kHz.
Kurvan för den absoluta hörseltröskeln är ett specialfall av mer generella kurvor med samma ljudstyrka, isofoner : ljudtrycksvärden vid olika frekvenser , vid vilka en person känner att ljuden är lika höga. Kurvorna erhölls först av H. Fletcher och W. A. Munson och publicerades 1933 i Loudness, dess definition, mätning och beräkning [2 ] . Mer exakta mätningar gjordes senare av DW Robinson och RS Dadson [3 ] . De resulterande kurvorna skiljer sig markant, men detta är inte ett fel, utan olika mätförhållanden. Fletcher och Munson använde hörlurar som ljudvågskälla , medan Robinson och Dutson använde en främre högtalare i ett ekofritt rum.
Robinson och Dutsons mätningar låg till grund för ISO 226 1986. 2003 uppdaterades ISO 226 för att återspegla mätdata från 12 nya internationella studier .
Det finns också ett sätt att uppfatta ljud utan deltagande av trumhinnan - den så kallade mikrovågshörseleffekten , när pulsad eller modulerad strålning i mikrovågsområdet påverkar vävnaderna runt snäckan , vilket tvingar en person att uppfatta olika ljud. [fyra]
I vissa fall kan ett ljud döljas av ett annat ljud. Att prata bredvid tågspår kan till exempel vara helt omöjligt om ett tåg passerar. Denna effekt kallas maskering. Ett svagt ljud sägs vara maskerat om det blir omöjligt att urskilja i närvaro av ett högre ljud.
Det finns flera typer av förklädnad:
Alla två ljud, när de lyssnas på samtidigt, påverkar uppfattningen av den relativa ljudstyrkan mellan dem. Ett högre ljud minskar uppfattningen av en svagare, upp till att dess hörbarhet försvinner. Ju närmare frekvensen för det maskerade ljudet är frekvensen för det maskerande ljudet, desto mer kommer det att döljas. Maskeringseffekten är inte densamma när det maskerade ljudet förskjuts lägre eller högre i frekvens i förhållande till det maskerade.
För den matematiska beskrivningen av gränserna för påverkan av en ton på intilliggande frekvenser, använder litteraturen [5] konceptet med en spridningsfunktion , som sätter maskeringströskeln [6] :
var är avståndet mellan två kritiska områden på Barkovskalan .
Baserat på spridningsfunktionen kan maskeringen av det kritiska området i med det kritiska området j [7] [8] beräknas :
var är signaleffekten i det i:te kritiska området.
För att bestämma graden av maskering i en situation där det finns många maskeringstoner används konceptet med en global maskeringströskel
där är förskjutningen mellan signalnivån och maskeringströskeln [9] , är tonindexet som visar graden av periodicitet för ljudsignalen (för brusliknande signaler [10] ), är maskeringsindexet [11] och är frekvensen i kilohertz. Maskeringsindexet ersätts ofta av en konstant på 5,5 dB [7] [8] .
Samtidig maskeringsdata används till exempel vid komprimering av ljudfiler i kvantiseringsstadiet [12] .
Lågfrekventa ljud döljer höga frekvenser. Det är viktigt att notera att högfrekventa ljud inte kan maskera lågfrekventa ljud.
Detta fenomen liknar frekvensmaskering, men här finns maskering i tid. När maskeringsljudet stoppas, fortsätter det maskerade att vara ohörbart under en tid. Maskeringstiden beror på signalens frekvens och amplitud och kan vara upp till 100 ms. Under normala förhållanden varar effekten av tillfällig maskering mycket mindre.
I det fall när maskeringstonen visas senare än den maskerade tonen kallas effekten eftermaskering. När maskeringstonen visas före den maskerade (och detta är också möjligt) kallas effekten förmaskering.
Ofta, efter exponering för höga ljud av hög intensitet, minskar en persons hörselkänslighet kraftigt. Att återställa normala trösklar kan ta upp till 16 timmar. Denna process kallas "tillfälligt tröskelskifte" eller "trötthet efter stimulans". Tröskelförskjutning börjar uppträda vid ljudtrycksnivåer över 75 dB och ökar därefter när signalnivån ökar. Dessutom har signalens högfrekventa komponenter störst inflytande på förskjutningen av känslighetströskeln.
Se artikel Saknas fundamental
Ibland kan en person höra ljud i lågfrekvensområdet, även om det i verkligheten inte fanns några ljud av en sådan frekvens. Detta beror på det faktum att svängningarna i basilarmembranet i snäckan inte är linjära, och svängningar med en skillnadsfrekvens mellan två högre frekvenser kan förekomma i den.
Denna effekt används i vissa kommersiella ljudsystem för att utöka lågfrekvensresponsen när sådana frekvenser inte kan reproduceras korrekt direkt, såsom i hörlurar, mobiltelefoner, lågprishögtalare (högtalare), etc.
Psykoakustiska hörselmodeller tillåter högkvalitativ signalkomprimering med förlust av information (när den återställda signalen inte matchar originalet), på grund av det faktum att de låter dig beskriva exakt vad som säkert kan tas bort från originalsignalen - det vill säga utan betydande försämring av ljudkvaliteten. Vid första anblicken kan det tyckas att det inte är troligt att detta ger stark signalkomprimering, men program som använder psykoakustiska modeller kan minska volymen på musikfiler med 10-12 gånger.[ osäkerhet ] , och skillnaden i kvalitet kommer inte att vara särskilt betydande.
Dessa typer av komprimering inkluderar alla moderna ljudkomprimeringsformat med förlust :