Ljudkloning ( engelsk voice changing, voice cloning ) är en teknik som implementerar en förändring i en persons röst, producerad med hjälp av mjukvara och hårdvara, både i realtid och i ett fördröjt batchläge.
Tekniken gör det möjligt att simulera de personliga egenskaperna hos en persons tal med en ganska fullständig matchning med originalet, kallat "kopiemålet".
För närvarande är taligenkänningssystem relativt väl utvecklade . De används i röststyrning av olika hushållsapparater (i telefoner, bilstereosystem och slutar med tvättmaskiner). Den omvända processen - att extrahera ord från en ljudsignal och syntetisera tal - stöter på ett antal svårigheter.
Program anses tillhöra kategorin "Voice Changing Software" eller "Voice Changer":
Även SDK-paket:
Tidigare har vissa företag kommersiellt en uppringares röständringstjänst över telefon i realtid. Detta gjordes på följande sätt:
Teknikbeskrivning
Tekniken för talkloning i ett telefonsamtal i realtid är baserad baserat på kända algoritmer för matematisk bearbetning av röstbärarsignalen [1] [2, 4]. Samtidigt använder deDFT- metoder för att analysera frekvenser i en diskret signal (med en speciell Fourier-transformationsmetod ) erhållna genom att digitalisera en analog telefonsignal med smalbandstalkodeken G.729 [2] [5, 6, 7, 8 ]. Syntesen av ändrat tal baserat på bärarsignalen, det vill säga den resulterande "klonade rösten", inser möjligheten att maximalt bevara de personliga akustiska egenskaperna hos den kopierade originalrösten: fonetiska egenskaper för uttal, accent och till och med artefakter som t.ex. stamning [3] [9]. Således är det omöjligt att identifiera högtalarens konstgjordhet även med speciell bearbetning och matematisk analys av den ursprungliga telefonsignalen. Olaglig användning av talkloningsteknik är strängt förbjuden i enlighet med det särskilda skyddsprogrammet för onlinetjänsten som tillhandahåller denna tjänst. Den beskrivna tekniken för röstkloning i telefonnät var, enligt skaparna, den senaste produkten som inte hade några analoger tidigare.
Tidigare nivå
De befintliga systemen för att skapa maskintal har visat sig väl i vissa tekniska nischer: i bilnavigeringssystem, armbandsur, elektroniska "läsande" översättarordböcker och så vidare. I sådana system är uppgiften att imitera en viss persons röst inte inställd, därför är det resulterande maskintalet inte heller personligt och är lätt att känna igen på grund av dess uttalade artificiella ursprung.
Tidigare var försök att syntetisera en viss persons tal baserade på principen att skapa en "kärna" av en talklon, som innehåller en komplett uppsättning av akustiska, fonetiska och prosodiska egenskaper - individuella talegenskaper. Detta krävde en ganska detaljerad personlig databas över den "kopierade" rösten. Den person vars röst behövde kopieras var tvungen att läsa en lång förberedd text, specialdesignad och innehållande ett stort antal fonem, för att maximera egenskaperna i talarens tal.
Detta gav vissa svårigheter, eftersom det är känt att en vanlig person blir trött även efter 15 minuters kontinuerlig läsning, och efter 20 minuters läsning kan hans röst till och med gå sönder helt. Även för en professionell talare är 45 minuters oavbruten läsning med bibehållande av hela komplexet av individuella talegenskaper en ganska svår uppgift. Kraven på kvaliteten på röstinspelning var också mycket höga - det var nödvändigt att utesluta olika typer av brus som kunde störa modelleringen. Den personliga inspelningen av den ursprungliga rösten som erhölls på detta sätt utsattes för frekvensanalys och matematisk bearbetning, och beräkningsprocessen tog ofta mer än en dag. Därefter kan den individuella röstdatabasen för en viss person användas av en talsyntes. Naturligtvis minskade varaktigheten av kodningsprocessen och, viktigast av allt, behovet av att spela in referenstal i en studiomiljö avsevärt användningsområdet för talkopieringssystemet under normala förhållanden.