MP3

MPEG-1 Audio Layer 3

Förlängning	.mp3[ett]
MIME -typ	audio/mpeg [2] , audio/MPA [3] och audio/mpa-robust [4]
Utvecklaren	Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] och Harald Popp [d]
publiceras	1993
Formattyp	ljudformat
Mediafiler på Wikimedia Commons

MP3 (mer exakt, engelska MPEG-1/2/2.5 Layer 3 ; men inte MPEG-3 ) är ett filformat som utvecklats av MPEG -teamet för att lagra ljudinformation . Formatet licensierades , men den 23 april 2017 gick alla patent ut och licensavgifterna upphörde [5] .

MP3 är ett av de vanligaste och populäraste digitala ljudkodningsformaten . Det används ofta i fildelningsnätverk för utvärderande musiknedladdningar . Formatet kan spelas på nästan alla populära operativsystem , på de flesta bärbara ljudspelare , och stöds även av alla moderna modeller av musikcenter och DVD-spelare .

MP3-formatet använder en förlustkompressionsalgoritm utformad för att avsevärt minska mängden data som krävs för att spela upp en inspelning och ge en ljudåtergivningskvalitet nära originalet (enligt de flesta lyssnare), men med en märkbar kvalitetsförlust när den hörs på ett kvalitetsljudsystem . Principen för komprimering är att minska noggrannheten hos vissa delar av ljudströmmen, vilket är praktiskt taget omöjligt att särskilja för att höra på den allestädes närvarande utrustningen för återgivning av lågfilighetsljud (till exempel den dominerande majoriteten av bärbara enheter, ljudkort, stereoapparater, bilradioapparater och annan icke-speciell utrustning), såväl som för personer som är äldre, på grund av naturliga åldersrelaterade förändringar i hörapparaten, men är i de flesta fall tydligt urskiljbara på högfientlig ljudutrustning . Denna metod kallas perceptuell kodning [6] . Samtidigt, i det första steget, konstrueras ett ljuddiagram i form av en sekvens av korta tidsintervall, sedan tas information som inte kan särskiljas av det mänskliga örat bort från det, och den återstående informationen lagras i en kompakt form. Detta tillvägagångssätt liknar den komprimeringsmetod som används vid komprimering av bilder till JPEG-format . [ förtydliga ] Att skapa en MP3 med en genomsnittlig bithastighet på 128 kbps resulterar i en fil som är ungefär 1/11 av storleken på den ursprungliga CD-Audio-filen ( det okomprimerade CD-Audio-formatet i sig har en bithastighet på 1411,2 kbps). MP3-filer kan skapas med hög eller låg bithastighet, vilket påverkar kvaliteten på den resulterande filen.

Historik

MP3 utvecklades av en arbetsgrupp från Fraunhofer Institute ( tyska: Fraunhofer-Institut für Integrierte Schaltungen ) ledd av Karlheinz Brandenburg och universitetet i Erlangen-Nürnberg i samarbete med AT&T Bell Labs och Thomson (Johnson, Stoll, Deeri, etc.) .

Utvecklingen av MP3 baserades på den experimentella codec ASPEC (Adaptive Spectral Perceptual Entropy Coding). Den första MP3-kodaren var L3Enc , som släpptes sommaren 1994. Ett år senare dök den första mjukvaru-MP3-spelaren upp - Winplay3 .

Vid utvecklingen av algoritmen utfördes tester på ganska specifika populära kompositioner. Suzanne Vegas " Tom's Diner " blev huvudlåten . Därav skämtet om att "MP3 skapades enbart för att bekvämt lyssna på Brandenburgs favoritlåt", och Vega började kallas "MP3:s moder".

En nästan komplett standard dök upp i det offentliga området den 6 december 1991 .

Den 23 april 2017 gick de sista patenten för formatet ut och royaltybetalningar från mjukvara och inbyggda leverantörer stoppades [7] [8] . Fraunhofer Institute tillkännagav uppsägningen av licensieringen av formatet på sin officiella webbplats [9] . Och även om mp3-formatet fortfarande är mycket populärt bland användare, har de flesta radiostationer och TV-kanaler gått över till att använda moderna codecs som ger bättre komprimering och mindre förlust av ljudkvalitet.

Formatbeskrivning

Precis som JPEG-formatet använder MP3 spektral klippning, enligt den psykoakustiska modellen . Ljudsignalen är uppdelad i segment med lika lång varaktighet, som var och en efter bearbetning packas i sin egen ram (ram). Nedbrytning till ett spektrum kräver kontinuiteten hos insignalen, därför används även föregående och nästa ramar för beräkningar. I ljudsignalen finns övertoner med mindre amplitud och övertoner som ligger nära mer intensiva - sådana övertoner är avskurna, eftersom det genomsnittliga mänskliga örat inte alltid kan avgöra närvaron eller frånvaron av sådana övertoner. Denna funktion av hörsel kallas maskeringseffekten . Det är också möjligt att ersätta två eller flera närliggande toppar med en i genomsnitt (vilket i regel leder till ljuddistorsion). Avskärningskriteriet bestäms av utgångsströmkravet. Eftersom hela spektrumet är relevant, skärs inte högfrekventa övertoner av, som i JPEG , utan tas endast bort selektivt för att minska informationsflödet på grund av spektrats sällsynthet. Efter spektral "svepning" tillämpas matematiska metoder för komprimering och packning i ramar. Varje ram kan ha flera behållare, vilket gör att du kan lagra information om flera strömmar (vänster och höger kanal eller centerkanal och kanalskillnad). Kompressionsförhållandet kan varieras, inklusive inom en ram. Området för möjliga bithastighetsvärden är 8-320 kbit/s .

MP3 och "Ljud-CD-kvalitet"

Tidigare ansågs det allmänt att 128 kbps -inspelning var lämplig för musik avsedd för att lyssna på de flesta människor, vilket ger ljudkvaliteten för Audio-CD . I verkligheten är allt mycket mer komplicerat. För det första beror kvaliteten på den resulterande MP3 inte bara på bithastigheten utan också på kodningsprogrammet ( codec ) (standarden anger inte kodningsalgoritmen, den beskriver bara presentationsmetoden). För det andra, förutom det rådande CBR-läget (Constant Bitrate) (i vilket, med andra ord, varje sekund av ljud är kodad med samma antal bitar), finns det ABR (Average Bitrate) och VBR (Variable Bitrate) lägen. För det tredje är gränsen på 128 kbps godtycklig, eftersom den valdes i en tid präglad av formatets bildande, när uppspelningskvaliteten för de flesta digitala ljudsystem som regel var lägre än för närvarande. Grovt sett motsvarar påståendet om "Audio-CD-kvalitet" vid 128 kbps gränsen för relativt bekvämt lyssnande på musik, under vilken det finns en kraftig ljudförsämring i alla MP3-kodningsprogram.

2008 är MP3-filer med en bithastighet på 192 kbps vanligast, vilket indirekt kan tyda på att majoriteten anser att denna bithastighet är tillräcklig. Den faktiska upplevda "kvaliteten" beror på källljudfilen, lyssnaren och deras ljudsystem. Vissa musikälskare föredrar att komprimera musik med "maximal kvalitet" - 320 kbps, eller till och med byta till förlustfria codecs, som FLAC . Det finns också en åsikt bland musikälskare / audiofiler att vissa sampel (fragment av en ljudinspelning) inte är mottagliga för högkvalitativ förlustkomprimering: vid alla möjliga bithastigheter är det inte svårt att skilja komprimerat ljud från originalet. Men det finns också allvarliga invändningar [10] :

Det är ganska uppenbart att (låt oss ta det med marginal) en bithastighet på 256 kbps i de allra flesta fall borde vara mer än tillräckligt för bekväm uppfattning av musik från en CDA-källa (44 kHz/16 bitar/stereo). Detta är uppenbart inte bara från mitt hemodlade test, utan också från analysen av professionella blindtester (till exempel den tyska upplagan av "c't", juni 2000): även i dem kan experter inte alltid " gissa" ljudet komprimerat till 256 kbps, dessutom sker testning i speciellt förberedda rum och på dyr utrustning, och experten vet vad han ska "lyssna" för att känna komprimeringen.

Kodningslägen och alternativ

Det finns tre versioner av MP3-formatet för olika behov: MPEG-1 , MPEG-2 och MPEG-2.5 . De skiljer sig åt i de möjliga områdena för bithastighet och samplingshastighet:

32-320 kbps vid samplingshastigheter på 32000 Hz, 44100 Hz och 48000 Hz för MPEG-1 Layer 3;
16-160 kbps vid samplingshastigheter på 16000 Hz, 22050 Hz och 24000 Hz för MPEG-2 Layer 3;
8-160 kbps vid 8000 Hz och 11025 Hz samplingshastigheter för MPEG-2.5 Layer 3.

Ljudkanalkodningskontrolllägen

Eftersom MP3-formatet stöder tvåkanals (stereo) kodning, finns det fyra lägen:

Stereo är en tvåkanalig kodning där kanalerna i den ursprungliga stereosignalen är kodade oberoende av varandra, men fördelningen av bitar mellan kanalerna i den totala bithastigheten kan variera beroende på komplexiteten hos signalen i varje kanal.

Mono - Enkanalskodning. Om du kodar tvåkanaligt material på detta sätt kommer skillnaderna mellan kanalerna att raderas helt, eftersom de två kanalerna blandas till en, det kodas och det spelas även i stereosystemets båda kanaler. Den enda fördelen med detta läge kan bara vara utdatakvaliteten jämfört med stereoläget vid samma bithastighet, eftersom det finns dubbelt så många bitar per kanal som i stereoläget.

Tvåkanals stereo ( eng. Dual Channel ) - två oberoende kanaler, till exempel ljud på olika språk. Bithastigheten är uppdelad i två kanaler. Till exempel, om den angivna bithastigheten är 192 kbps , kommer den för varje kanal att vara lika med endast 96 kbps.

Kombinerad stereo ( English Joint Stereo ) - tvåkanals kodningsmetoder som låter dig öka filkomprimeringsförhållandet. Det första sättet är Mid/Side Stereo, när vänster och höger kanal omvandlas till summan (L+R) och skillnaden (L−R) . För de flesta ljudfiler är mättnaden av skillnadskanalen (L−R) mycket mindre än summan (L+R) kanalen . Därför tillåter den kombinerade stereon antingen att spara på bithastigheten för skillnadskanalen (L−R) eller förbättra kvaliteten vid samma bithastighet, eftersom summakanalen (L+R) allokerar det mesta av bithastigheten. Det finns en uppfattning om att detta läge inte är lämpligt för stereoljudsmaterial, där subjektivt helt olika material återges i två kanaler, eftersom det raderar skillnaderna mellan kanalerna. Men moderna codecs använder olika lägen i olika ramar (inklusive ren stereo) beroende på källsignalen. Det andra sättet Intensity Stereo är baserat på förmågan hos mänsklig hörsel att särskilja positionen för ljud i rymden, inte i hela frekvensspektrumet, och ignorera positionen mycket låg och mycket hög. Således förbättrar kodning av ultralåga och ultrahöga frekvensljud i monoläge datakomprimeringseffektiviteten. [elva]

CBR

CBR står för Constant Bit Rate , det vill säga en konstant bithastighet , som ställs in av användaren och ändras inte när arbetet kodas. Således motsvarar varje sekund av biten samma antal kodade databitar (även när tystnad kodas). CBR kan vara användbart för kanalbegränsade mediaströmmar; i ett sådant fall använder kodningen datakanalens fulla kapacitet. För lagring är detta kodningsläge inte optimalt, eftersom det inte kan tilldela tillräckligt med utrymme för komplexa segment av originalprodukten, samtidigt som det slösar utrymme på enkla segment. Högre bithastigheter (över 256 kbps ) kan lösa detta problem genom att allokera mer utrymme för data, men också proportionellt öka filstorleken.

VBR

VBR står för Variable Bit Rate , det vill säga en variabel bithastighet eller variabel bithastighet , som ändras dynamiskt av kodarprogrammet under kodning, beroende på mättnaden av det kodade ljudmaterialet och den kodningskvalitet som ställts in av användaren (till exempel , tystnad kodas med en lägsta bithastighet). Denna MP3-kodningsmetod är den mest progressiva och håller fortfarande på att utvecklas och förbättras, eftersom ljudmaterial med olika mättnad kan kodas med en viss kvalitet, som vanligtvis är högre än när medelvärdet ställs in i CBR-metoden. Dessutom reduceras filstorleken på grund av fragment som inte kräver en hög bithastighet. Nackdelen med denna kodningsmetod är svårigheten att förutsäga storleken på utdatafilen. Men denna nackdel med VBR-kodning är obetydlig i jämförelse med dess fördelar. En annan nackdel är att VBR anser att tystare fragment är "obetydlig" ljudinformation, så det visar sig att om du lyssnar väldigt högt kommer dessa fragment att vara av dålig kvalitet, medan CBR gör tysta och högljudda fragment med samma bithastighet.

VBR-formatet förbättras ständigt, tack vare den ständiga förbättringen av den matematiska modellen av codecs, i synnerhet efter lanseringen av en uppdaterad version av den kostnadsfria LAME MP3-codec (version 3.99.3), kodning med variabel bithastighet, enligt utvecklarna , är kvalitativt bättre än CBR och ännu mer ABR. Men CBR 320 kbps-formatet är fortfarande positionerat för att garantera maximal kvalitet (det används till exempel i förinställningen "--preset galen".

ABR

ABR står för Average Bit Rate , det vill säga genomsnittlig bithastighet , som är en hybrid av VBR och CBR: bithastigheten i kbps ställs in av användaren, och programmet varierar den och justerar den hela tiden till den specificerade bithastigheten. Således kommer codecen noggrant att använda högsta och lägsta möjliga bithastighetsvärden, eftersom den riskerar att inte passa in i den användarspecificerade bithastigheten. Detta är en klar nackdel med denna metod, eftersom den påverkar kvaliteten på utdatafilen, som blir något bättre än när man använder CBR, men sämre än när man använder VBR. Å andra sidan tillåter denna metod den mest flexibla inställningen av bithastigheten (den kan vara valfri siffra mellan 8 och 320, mot endast multiplar av 16 i CBR-metoden) och beräkning av utdatafilens storlek.

Codecs

Typer av program som behövs för att konvertera filformat. De vanligaste MP3-codecs.

mp3PRO -codec (använder SBR- frekvensomvandling ).
LAME -codec.
Fraunhofer -codec.

Filstruktur

En MP3-fil består av flera MP3-fragment (frames), som i sin tur består av ett huvud och ett datablock. En sådan sekvens av fragment kallas en elementär ström . Fragment är inte oberoende element (en "reservoar av bytes") och kan därför inte hämtas godtyckligt. Datablocket i en MP3-fil innehåller komprimerad ljudinformation i form av frekvenser och amplituder. Diagrammet ovan visar att en MP3-header består av en markör som används för att hitta rätt MP3-fragment. Detta följs av en bit som indikerar att MPEG -standarden används och två bitar som indikerar att lager 3 används; med andra ord, den definierar MPEG-1 Audio Layer 3 eller MP3. Följande värden kan variera beroende på MP3-filtyp. ISO / IEC 11172-3 -standarden definierar ett värdeintervall för varje rubriksektion, tillsammans med en allmän specifikation för den. De flesta MP3-filer innehåller för närvarande ID3-metadata som föregår eller följer MP3-segmentet; de visas också i diagrammet.

Taggar

Taggar (från den engelska taggen - label, label, tag) - taggar inom gränserna för en MP3-fil (i början och/eller i slutet). De kan innehålla information om författarskap, album, utgivningsår, skivomslag och texter och annan information om spåret. I senare versioner av taggarna är det möjligt att lagra annan data om ljudinspelningen. Det finns olika versioner av taggar (se: ID3 ).

Nackdelar

Tekniska brister. Antalet ljudkanaler är begränsat till två, till skillnad från AAC och Vorbis . Det finns också en hård gräns för den möjliga samplingsfrekvensen: det finns inget sätt att ställa in en godtycklig samplingsfrekvens. Den maximala samplingsfrekvensen för MP3 är 48 kHz medan den maximala samplingsfrekvensen för Vorbis är 192 kHz och för AAC är den 96 kHz. I MP3 är det bara möjligt att spara med följande samplingshastigheter: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 och 48000 Hz.

Lagliga restriktioner. MP3-patentet ägs av Alcatel-Lucent , som krävde licens för vissa användningar av formatet (MP3-relaterade patent gick ut 23 april 2017 ).
I USA offentliggjordes uppfinningar i mer än ett år[ när? ] , kan inte patenteras; för patent utfärdade före den 8 juni 1995 (nästan en komplett standard gjordes allmänt tillgänglig den 6 december 1991) var det dock möjligt att förlänga deras villkor. Kända patent relaterade till MP3-dekryptering löpte ut i USA i december 2012; enligt andra uppgifter, med tanke på endast patent som lämnats in före december 1992, hände detta inte i september 2015 [ 12] [13] .

Under 2017 löpte alla patent relaterade till detta format ut, eftersom de inte förnyades av upphovsrättsinnehavarna [5] .

Se även

Anteckningar

↑ https://www.file-extension.info/format/mp3
↑ Nilsson M. The audio/mpeg Media Type (engelska) - IETF , 2000. - 5 sid. doi : 10.17487/RFC3003
↑ Casner S., Hoschka P. MIME-typ Registration of RTP Payload Formats (engelska) - IETF , 2003. - 45 sid. doi : 10.17487/RFC3555
↑ Finlayson R. Ett mer förlusttolerant RTP-nyttolastformat för MP3-ljud (engelska) - IETF , 2008. - 22 sid. doi : 10.17487/RFC5219
↑ 1 2 Orlowski, Andrew. MP3 "dog" och ingen märkte: Nyckelpatent löper ut på golden oldie tech (engelska) . Registret (16 maj 2017). Hämtad 26 mars 2020. Arkiverad från originalet 26 mars 2020.
↑ Nikil Jayant, James Johnston, Robert Safranek. Signalkompression baserad på modeller för mänsklig perception // Proceedings of the IEEE : journal. - 1992. - Oktober ( vol. 81 , nr 10 ). - P. 1385-1422 . - doi : 10.1109/5.241504 .
↑ Slutet på mp3-eran. Utvecklarna av mp3 - formatet tillkännagav sin "död "
↑ MP3 blir äntligen allmän egendom Arkivexemplar av 3 maj 2017 på Wayback Machine
↑ mp3 (engelska) . Fraunhofer Institute for Integrated Circuits IIS. Hämtad 15 maj 2017. Arkiverad från originalet 22 mars 2018.
↑ Phobomania Arkiverad 19 juli 2014 på Wayback Machine Computerra Magazine 14 december 2008
↑ Gemensam stereo . Ljudkodning (28 januari 2015). Hämtad 11 juli 2018. Arkiverad från originalet 11 juli 2018. (obestämd)
↑ Cogliati, Josh Patentstatus för MPEG-1, H.261 och MPEG-2 . Kuro5hin (20 juli 2008). Arkiverad från originalet den 25 februari 2013. (obestämd)Detta arbete misslyckades med att beakta patentuppdelningar och fortsättningar.
↑ USA-patentutgång för MP3, MPEG-2, H.264 . Datum för åtkomst: 15 februari 2013. Arkiverad från originalet den 2 april 2013. (obestämd)

Länkar

MPEG-ramhuvudartikel
Utveckling och implementering av en MPEG1 Layer III-avkodare på x86- och TMS320C6711-plattformar — Power Point-presentation som beskriver filstrukturen
Utveckling och implementering av en MPEG1 Layer III-avkodare på x86- och TMS320C6711-plattformar — Power Point-presentation som beskriver avkodningsprocessen
Audio Coding (TU Ilmenau) är en utbildning av professorerna Karlheinz Brandenburg och Gerald Schuller .

Ordböcker och uppslagsverk	Stor dansk stor kines Stor norsk Kroatisk Britannica (online) Brockhaus Treccani
I bibliografiska kataloger	BNF : 13542060m J9U : 987007291621405171 LCCN : sh00000865 LNB : 000233891

MPEG (Moving Picture Experts Group)
MPEG-1 2 3 fyra 7 21 A B C D E V M U
MPEG-1-sektioner	Del 3: Ljud ( Layer I Lager II lager III )
MPEG-2-sektioner	Del 1: System ( Trafikflöde programflöde ) Del 2: Video (H.262) Del 3: Ljud ( Layer I Lager II Lager III Flerkanalig MPEG ) Del 6: DSM CC Del 7: AAC
MPEG-4-sektioner	Del 2: Video Del 3: HE-AAC Del 6: DMIF Del 10: H.264 Del 11: Beskrivning av scenen Del 12: ISO-mediafilformat Del 14: MP4-filformat Del 17: Strömmande textformat Del 20: Lightweight Scene Playback Application (LASeR)
MPEG-7 sektioner	Del 2: Definition Description Language (DDL)
MPEG-21-sektioner	Delarna 2, 3 och 9: Digitalt objekt Del 5: Rättighetsbeskrivning Språk (REL)
MPEG-D-sektioner	Del 1: MPEG Spatial Audio

Ljudkomprimering
Codecs	ATRAC Dolby Digital /AC3 DTS Musepack Opus TwinVQ (VQF) Vorbis WMA
Tal/röst	AMBE iLBC IMBE iSAC Nellymoser QCELP RTAudio SILKE Siren Speex SVOPC Sant tal
Förlust mindre	Apple förlust FLAC La Monkey's Audio OptimFROG TAK True Audio/ TTA wav pack WMA förlustfri
Standarder och format	AAC AMR G. 711 718 719 722 723 723,1 726 728 729 729,1 729A HE-AAC MLP MPEG-1 ljud Lager I Lager II Lager III MT9 RealMedia SHN
Digitala ljudformat Jämförelse av digitala ljudformat

mediebehållare
Video/ljud	3gp ASF AVI Bink DMF DPX EVO FLV MP4 MPEG MPEG-PS MPEG-TS MXF Matroska (MKV) Ogg Media Ogg Snabb tid RIFF RealMedia Smacker VOB WebM WMV kompression jämförelse
Audio	AIFF APA A.U. DSD DXD FLAC MLP MP3 SHN WAV WMA kompression jämförelse
musik	MIDI ( KAR ) tracker musik
Raster	DNG FPX FLIF HEIF ICER ICO ILBM JBIG2 JBIG JPEG XR (HD-foto) JPEG / JP2 / JPEG-LS MNG EXR PCX PNG PSD PNM Rå TIFF TGA WBMP WebP XCF PGF Animerad: APNG , GIF Förlustfri: BMP Inklusive förlustkompression: BPG
Vektor	SWF AI CDR EPS PS SVG VRML EMF WMF X3D XPS 3D: 3DS Animerad: SVG
Komplex	CGM DJVu PDF