Röstkloning

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 28 juni 2016; kontroller kräver 25 redigeringar .

Ljudkloning ( engelsk voice changing, voice cloning ) är en teknik som implementerar en förändring i en persons röst, producerad med hjälp av mjukvara och hårdvara, både i realtid och i ett fördröjt batchläge.

Tekniken gör det möjligt att simulera de personliga egenskaperna hos en persons tal med en ganska fullständig matchning med originalet, kallat "kopiemålet".

General Technology Assessment

För närvarande är taligenkänningssystem relativt väl utvecklade . De används i röststyrning av olika hushållsapparater (i telefoner, bilstereosystem och slutar med tvättmaskiner). Den omvända processen - att extrahera ord från en ljudsignal och syntetisera tal - stöter på ett antal svårigheter.

Mjukvaruprodukter

Program anses tillhöra kategorin "Voice Changing Software" eller "Voice Changer":

Morphvox
Röstförändrare
Voice Anonymizer

Även SDK-paket:

Voice Cloning Toolkit för Festival och HTS (Mac) Arkiverad 28 maj 2011 på Wayback Machine - Forskningspaket från Speech Technology Research Centre och Junichi Yamagishi från University of Edinburgh

Service via hemsida och telefon

Tidigare har vissa företag kommersiellt en uppringares röständringstjänst över telefon i realtid. Detta gjordes på följande sätt:

Tidigare beordrade abonnenten (kunden) på webbplatsen ett samtal tillbaka till sin telefon och ett samtal till telefonen för "kopieringsmålet" och systemet försågs med prover av kundens röster och "kopieringsmålet";
Sedan beordrade abonnenten ett samtal tillbaka till sin telefon och telefonen till den abonnent han var intresserad av. Systemet kopplade abonnenten, signalen från honom passerade genom företagets server, där röstens frekvensegenskaper och klangfärgning ändrades till parametrarna för personens röst - "kopieringsmålet". Prenumeranten hörde kundens ord, men för honom lät dessa ord (förmodligen) som en persons röst - "kopiera mål".

Teknikbeskrivning

Tekniken för talkloning i ett telefonsamtal i realtid är baserad baserat på kända algoritmer för matematisk bearbetning av röstbärarsignalen [1] [2, 4]. Samtidigt använder deDFT- metoder för att analysera frekvenser i en diskret signal (med en speciell Fourier-transformationsmetod ) erhållna genom att digitalisera en analog telefonsignal med smalbandstalkodeken G.729 [2] [5, 6, 7, 8 ]. Syntesen av ändrat tal baserat på bärarsignalen, det vill säga den resulterande "klonade rösten", inser möjligheten att maximalt bevara de personliga akustiska egenskaperna hos den kopierade originalrösten: fonetiska egenskaper för uttal, accent och till och med artefakter som t.ex. stamning [3] [9]. Således är det omöjligt att identifiera högtalarens konstgjordhet även med speciell bearbetning och matematisk analys av den ursprungliga telefonsignalen. Olaglig användning av talkloningsteknik är strängt förbjuden i enlighet med det särskilda skyddsprogrammet för onlinetjänsten som tillhandahåller denna tjänst. Den beskrivna tekniken för röstkloning i telefonnät var, enligt skaparna, den senaste produkten som inte hade några analoger tidigare.

Tidigare nivå

De befintliga systemen för att skapa maskintal har visat sig väl i vissa tekniska nischer: i bilnavigeringssystem, armbandsur, elektroniska "läsande" översättarordböcker och så vidare. I sådana system är uppgiften att imitera en viss persons röst inte inställd, därför är det resulterande maskintalet inte heller personligt och är lätt att känna igen på grund av dess uttalade artificiella ursprung.

Tidigare var försök att syntetisera en viss persons tal baserade på principen att skapa en "kärna" av en talklon, som innehåller en komplett uppsättning av akustiska, fonetiska och prosodiska egenskaper - individuella talegenskaper. Detta krävde en ganska detaljerad personlig databas över den "kopierade" rösten. Den person vars röst behövde kopieras var tvungen att läsa en lång förberedd text, specialdesignad och innehållande ett stort antal fonem, för att maximera egenskaperna i talarens tal.

Detta gav vissa svårigheter, eftersom det är känt att en vanlig person blir trött även efter 15 minuters kontinuerlig läsning, och efter 20 minuters läsning kan hans röst till och med gå sönder helt. Även för en professionell talare är 45 minuters oavbruten läsning med bibehållande av hela komplexet av individuella talegenskaper en ganska svår uppgift. Kraven på kvaliteten på röstinspelning var också mycket höga - det var nödvändigt att utesluta olika typer av brus som kunde störa modelleringen. Den personliga inspelningen av den ursprungliga rösten som erhölls på detta sätt utsattes för frekvensanalys och matematisk bearbetning, och beräkningsprocessen tog ofta mer än en dag. Därefter kan den individuella röstdatabasen för en viss person användas av en talsyntes. Naturligtvis minskade varaktigheten av kodningsprocessen och, viktigast av allt, behovet av att spela in referenstal i en studiomiljö avsevärt användningsområdet för talkopieringssystemet under normala förhållanden.

Anteckningar

↑ Abe M., Nakamura S., Shikano K. och Kuwabara H. "Röstomvandling genom vektorkvantisering", i Proc. av Int. Konf. om Akust., Tal och Sig. Proc. ICASSP, New York, USA, apr. 1988, vol. 1, sid. 655-658.
↑ Levine S. och Smith JO "A sines+transients+noise audio representation for data compression and time/pitch scale modifications", i Proc. 105:e konv. AudioEng. Soc., förtryck #4781, sep. 1998.
↑ Huang X., Acero A., Hon HW. "Bearbetning av talat språk: en guide till teori, algoritmer och systemutveckling", Prentice Hall, NJ, 2001. - sid. 980.

Litteratur

B. M. Lobanov, L. I. Tsirulnik "Datorsyntes och kloning av tal", Minsk "Belarusian Science", 2008, 316 sidor.
Abe M., Nakamura S., Shikano K. och Kuwabara H. "Voice conversion through vector quantization", i Proc. av Int. Konf. om Akust., Tal och Sig. Proc. ICASSP, New York, USA, apr. 1988, vol. 1, sid. 655–658.
Patentnummer: US 6615174B1, sep. 2, 2003.
ITU-T Rec. G.729, "Kodning av tal vid 8 kbit/s med hjälp av konjugatstruktur algebraisk-kod-exciterad linjär - prediktion (CS-ACELP)", Mar. 1996.
Levine S. och Smith JO "A sines+transients+noise audio representation for datacompression and time/pitch scale modifications", i Proc. 105:e konv. AudioEng. Soc., förtryck #4781, sep. 1998.
Talkin D. "Robust algorithm for pitch tracking" i "Speech Coding and Synthesis", Kleijn, WB och Palival, KK Eds. Elsevier, Amsterdam, Nederländerna, 1995.
Grocholevski S. "First Database for Spoken Polish", i Proc. Int. Konf. On Language Resources and Evaluation, Grenada, 1998, s. 1059–1062.
KY Lee, Y Zhao, "Statistiska omvandlingsalgoritmer för tonhöjdskonturer baserade på prosodiska fraser". Handlingar från den internationella konferensen "Speech Prosody 2004". (SP 2004)", Nara, Japan 23-26 mars 2004.
Huang X., Acero A., Hon HW. "Bearbetning av talat språk: en guide till teori, algoritmer och systemutveckling", Prentice Hall, NJ, 2001. - sid. 980.