Talsyntes

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 23 juni 2021; kontroller kräver 32 redigeringar .

Syntes av tal  - i vid mening - återställandet av formen av en talsignal enligt dess parametrar [1] ; i snäv mening - bildandet av en talsignal från en tryckt[ förtydliga ] text . En del av artificiell intelligens .

Talsyntes är  för det första allt som har att göra med den konstgjorda produktionen av mänskligt tal.

En talsyntes  är ett ramverk som kan översätta text/bilder till tal i mjukvara och/eller hårdvara.

Röstmotorn  är direkt ett text/kommando-till-tal-system/kärna, den kan även existera oberoende av datorn.

Tillämpning av talsyntes

Talsyntes kan krävas i alla fall där informationsmottagaren är en person. Kvaliteten på en talsyntes bedöms främst av dess likhet med den mänskliga rösten, såväl som dess förmåga att bli förstådd. Det enklaste syntetiserade talet kan skapas genom att kombinera delar av inspelat tal, som sedan lagras i en databas. Och konstigt nog möter vi redan det här sättet att syntetisera överallt, ibland utan att ens uppmärksamma det.

Metoder för talsyntes

Alla metoder för talsyntes kan delas in i grupper: [2]

Parametrisk syntes

Parametrisk talsyntes är den ultimata operationen i vokodersystem , där en talsignal representeras av en uppsättning av ett litet antal kontinuerligt föränderliga parametrar. Parametrisk syntes är tillrådligt att använda i fall där uppsättningen meddelanden är begränsad och inte ändras för ofta. Fördelen med denna metod är möjligheten att spela in tal för vilket språk och vilken talare som helst . Kvaliteten på parametrisk syntes kan vara mycket hög (beroende på graden av informationskomprimering i den parametriska representationen). Parametrisk syntes kan emellertid inte tillämpas på godtyckliga, icke-fördefinierade meddelanden.

Sammanställningssyntes

Sammanställningssyntes reduceras till att komponera ett meddelande från en förinspelad ordbok med initiala synteselement. Storleken på synteselement är inte mindre än ett ord. Uppenbarligen är innehållet i syntetiserade meddelanden fixerat av ordbokens volym. Som regel överstiger antalet ordboksenheter inte flera hundra ord. Det största problemet med att kompilera syntes är mängden minne för att lagra en ordbok. I detta avseende används olika metoder för komprimering/kodning av talsignalen. Kompilativ syntes har en bred praktisk tillämpning. I västländer är en mängd olika enheter (från militärflygplan till hushållsapparater) utrustade med röstsvarssystem. I Ryssland användes fram till nyligen röstsvarssystem huvudsakligen inom området militär utrustning, nu används de i allt större utsträckning i vardagen, till exempel i hjälptjänster för mobiloperatörer när de får information om statusen för en abonnents konto.

Slutför talsyntes enligt reglerna

Full talsyntes enligt regler (eller syntes av tryckt text) ger kontroll över alla parametrar för talsignalen och kan således generera tal från en tidigare okänd text. I detta fall lagras parametrarna som erhålls under analysen av talsignalen i minnet på samma sätt som reglerna för att kombinera ljud till ord och fraser . Syntes implementeras genom att modellera röstkanalen med hjälp av analog eller digital teknik. Dessutom, i processen att syntetisera, skrivs parametrarnas värden och reglerna för anslutning av fonem in sekventiellt med ett visst tidsintervall, till exempel 5–10 ms. Metoden för talsyntes från tryckt text (syntes efter regler) bygger på programmerad kunskap om akustiska och språkliga begränsningar och använder inte direkt element av mänskligt tal. I system baserade på denna syntesmetod särskiljs två tillvägagångssätt. Det första tillvägagångssättet syftar till att bygga en modell av det mänskliga talproducerande systemet, det är känt som artikulatorisk syntes . Det andra tillvägagångssättet är formantsyntes enligt reglerna . Förståeligheten och naturligheten hos sådana synthesizers kan bringas till värden som är jämförbara med egenskaperna hos naturligt tal.

Talsyntes enligt reglerna med användning av tidigare memorerade segment av naturligt språk är en slags talsyntes enligt reglerna, som har blivit utbredd på grund av tillkomsten av möjligheten att manipulera en talsignal i en digitaliserad form. Beroende på storleken på de initiala synteselementen särskiljs följande typer av syntes:

Vanligtvis används halvstavelser som sådana element - segment som innehåller hälften av konsonanten och hälften av vokalen intill den. I det här fallet är det möjligt att syntetisera tal från en förutbestämd text, men det är svårt att kontrollera intonationsegenskaper. Kvaliteten på en sådan syntes motsvarar inte kvaliteten på naturligt tal, eftersom förvrängningar ofta förekommer vid gränserna för difonsömmar. Att sammanställa tal från förinspelade ordformer löser inte heller problemet med högkvalitativ syntes av godtyckliga meddelanden, eftersom de akustiska och prosodiska (varaktighet och intonation) egenskaperna hos ord ändras beroende på typen av fras och ordets plats i frasen . Denna position ändras inte ens när stora mängder minne används för att lagra ordformer.

Domänorienterad syntes

Domänspecifik syntes sammanställer förinspelade ord såväl som fraser för att skapa kompletta talmeddelanden. Den används i applikationer där variationen av systemtexter kommer att begränsas till ett visst ämne/domän, såsom tågmeddelanden och väderprognoser . Denna teknik är lätt att använda och har använts kommersiellt under lång tid: den har också använts vid tillverkning av elektroniska enheter som talande klockor och miniräknare . Naturligheten i ljudet i dessa system kan potentiellt vara hög på grund av att variationen av typer av meningar är begränsad och nära överensstämmer med intonationen i originalinspelningarna. Och eftersom dessa system är begränsade av valet av ord och fraser i databasen, kan de inte längre användas i stor utsträckning inom mänsklig aktivitet, bara för att de kan syntetisera kombinationer av ord och fraser som de programmerats för.

Historik

I slutet av 1700-talet skapade den danske vetenskapsmannen Christian Kratzenstein , fullvärdig medlem av Ryska vetenskapsakademin , en modell av den mänskliga röstkanalen som kan uttala fem långa vokaler ( a , e , och , o , u ). Modellen var ett system av akustiska resonatorer av olika former som producerade vokalljud med hjälp av vibrerande vass exciterade av luftflödet. År 1778 kompletterade den österrikiske vetenskapsmannen Wolfgang von Kampelen Kratzensteins modell med modeller av tungan och läpparna och presenterade en akustisk -mekanisk talmaskin som kan återge vissa ljud och deras kombinationer. Det blåstes väsande och visslande med hjälp av en speciell handmanövrerad päls. År 1837 introducerade vetenskapsmannen Charles Wheatstone en förbättrad version av maskinen som kan producera vokaler och de flesta konsonanter . Och 1846 demonstrerade Joseph Faber sitt talorgan Euphonia , där ett försök gjordes att syntetisera inte bara tal utan också sång.

I slutet av 1800-talet skapade den berömda vetenskapsmannen Alexander Bell sin egen "talande" mekaniska modell, mycket lik Wheatstone-maskinen till sin design. Med tillkomsten av 1900-talet började en tid präglad av elektriska maskiner, och forskare fick möjlighet att använda ljudvågsgeneratorer och bygga algoritmiska modeller på grundval av dem.

På 1930-talet utvecklade Bell Labs- arbetaren Homer Dudley , som arbetar med problemet att hitta sätt att minska den bandbredd som behövs inom telefoni för att öka dess sändningskapacitet, VOCODER (förkortning för engelsk  röst -  röst, engelsk  kodare  - kodare) är ett tangentbord -kontrollerad elektronisk analysator och talsyntes. Dudleys idé var att analysera röstsignalen, ta isär den och syntetisera om den till en mindre krävande linjebandbredd. En förbättrad version av Dudleys vocoder , VODER, introducerades på världsutställningen i New York 1939 [3] .

De första talsynteserna lät ganska onaturliga och ofta gick det knappt att urskilja fraserna de återgav. Men kvaliteten på syntetiserat tal har ständigt förbättrats, och talet som genereras av moderna talsyntessystem går ibland inte att skilja från verkligt mänskligt tal. Men trots framgångarna med elektroniska talsyntar pågår fortfarande forskning inom området mekaniska talsyntes, till exempel för användning i humanoida robotar . [fyra]

De första datorbaserade talsyntessystemen började dyka upp i slutet av 1950 -talet , och den första text-till-tal-syntesen skapades 1968 .

2005 förutspådde Kurzweil att eftersom valuta för pengarna skulle göra talsyntar billigare och mer tillgängliga, skulle fler människor dra nytta av att använda text-till-tal-program. [5]

Nutid och framtid

Än så länge är det för tidigt att tala om någon lovande framtid för de kommande decennierna för talsyntes enligt reglerna , eftersom ljudet fortfarande mest av allt liknar robotars tal, och på vissa ställen är det också svårt att förstå tal. Vad vi exakt kan avgöra är om en talsyntes talar med en manlig eller kvinnlig röst, och ibland kan vi fortfarande inte urskilja de finesser som är inneboende i den mänskliga rösten. Därför har utvecklingstekniken delvis vänt sig bort från själva konstruktionen av syntesen av talsignaler, men fortsätter ändå att använda den enklaste röstinspelningssegmenteringen.

Hybrid talsyntes kan användas för att hacka sig in i taligenkänningssystem . [6]

Se även

Anteckningar

  1. I denna definition är omvandlingen av ljudtryck till elektrisk spänning och vice versa i en mikrofon och telefon, samt inspelning och uppspelning, till exempel från magnetiska medier, inte syntes. Samplingen och kvantiseringen av en talsignal i pulskodmodulering är inte heller relaterad till talsyntes, men genereringen av en talsignal i vokodersystem kan betraktas som syntes.
  2. Sorokin V. N. Syntes av tal. — M.: Nauka, 1992, sid. 392.
  3. Dennis Klatts History of Speech Synthesis Arkiverad 4 juli 2006 sida på Wayback Machine , tillägnad historien om utvecklingen av talsyntes, presenterar ljudfiler med inspelningar av olika talsyntes. Det finns en fil som spelar in ljudet av Homer Dudleys vocoder.
  4. Japanska forskare från Takanishi-laboratoriet vid Waseda University arbetar till exempel på en antropomorf modell av en talande robot. Deras senaste utveckling ( 2005 ) - modellen Waseda Talker No.5 - har hela uppsättningen av talinstrument: lungor, struphuvud, mjuk gom, tunga, tänder, läppar, etc. Totalt har alla dessa organ 18 frihetsgrader. Från deras Anthropomorphic Talking Robot Waseda-Talker Series- sida Arkiverad 17 juli 2007. Du kan se mer detaljerad information, inklusive foton och videor.
  5. Ray Kurzweil. Singulariteten är nära: när människor överskrider biologin . - New York: Viking, 2005. - xvii, 652 sidor sid. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
  6. STUDIE AV RÖSTVERIFIERINGENS MOTSTÅND MOT ATTACK MED ANVÄNDNING AV SYNTESSYSTEMET. — Journal of Instrumentation Arkiverad 23 januari 2015 på Wayback Machine . - Februari 2014.

Litteratur

Länkar