Talsyntes

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 23 juni 2021; kontroller kräver 32 redigeringar .

Syntes av tal - i vid mening - återställandet av formen av en talsignal enligt dess parametrar [1] ; i snäv mening - bildandet av en talsignal från en tryckt[ förtydliga ] text . En del av artificiell intelligens .

Talsyntes är för det första allt som har att göra med den konstgjorda produktionen av mänskligt tal.

En talsyntes är ett ramverk som kan översätta text/bilder till tal i mjukvara och/eller hårdvara.

Röstmotorn är direkt ett text/kommando-till-tal-system/kärna, den kan även existera oberoende av datorn.

Tillämpning av talsyntes

Talsyntes kan krävas i alla fall där informationsmottagaren är en person. Kvaliteten på en talsyntes bedöms främst av dess likhet med den mänskliga rösten, såväl som dess förmåga att bli förstådd. Det enklaste syntetiserade talet kan skapas genom att kombinera delar av inspelat tal, som sedan lagras i en databas. Och konstigt nog möter vi redan det här sättet att syntetisera överallt, ibland utan att ens uppmärksamma det.

Talsyntes baserad på texten eller meddelandekoden kan användas i informations- och referenssystem , för att hjälpa blinda och stumma att kontrollera en person från sidan av maskinen.
För att hjälpa blinda och stumma i vardagen, olika apparater med röstmeddelanden eller röstmeddelanden om tid, mätresultat, till exempel: blodtrycksmätare, glukosmätare, miniräknare, klockor m.m.
När du tillkännager transportens avgång: flygplan, tåg, bussar, fartyg, etc., automatisk om? stoppa meddelanden.
För att ge information om tekniska processer: inom militär- och rymdteknik, inom robotik, i den akustiska dialogen för en person med en dator.
Som en ljudeffekt används den ofta i skapandet av elektronisk musik .
Talsyntes används i datorer, smartphones, surfplattor, e-böcker m.m. för att läsa text, för att uttrycka text för video- och ljudböcker. För att uttrycka vikt i vågar, röstmätresultat: temperatur, vikt, längd, etc.
Audioguide .
satellitnavigator
bilnavigeringssystem
Robotar använder talsyntes för att kommunicera med människor.
Leksaker.
Larm med imitation av närvaron av en person eller personer.
Biljettautomater och andra med taligenkänning.

Metoder för talsyntes

Alla metoder för talsyntes kan delas in i grupper: [2]

parametrisk syntes;
konkatenativ, eller kompilerings- (kompilerings-) syntes;
syntes enligt reglerna;
domänorienterad syntes.

Parametrisk syntes

Parametrisk talsyntes är den ultimata operationen i vokodersystem , där en talsignal representeras av en uppsättning av ett litet antal kontinuerligt föränderliga parametrar. Parametrisk syntes är tillrådligt att använda i fall där uppsättningen meddelanden är begränsad och inte ändras för ofta. Fördelen med denna metod är möjligheten att spela in tal för vilket språk och vilken talare som helst . Kvaliteten på parametrisk syntes kan vara mycket hög (beroende på graden av informationskomprimering i den parametriska representationen). Parametrisk syntes kan emellertid inte tillämpas på godtyckliga, icke-fördefinierade meddelanden.

Sammanställningssyntes

Sammanställningssyntes reduceras till att komponera ett meddelande från en förinspelad ordbok med initiala synteselement. Storleken på synteselement är inte mindre än ett ord. Uppenbarligen är innehållet i syntetiserade meddelanden fixerat av ordbokens volym. Som regel överstiger antalet ordboksenheter inte flera hundra ord. Det största problemet med att kompilera syntes är mängden minne för att lagra en ordbok. I detta avseende används olika metoder för komprimering/kodning av talsignalen. Kompilativ syntes har en bred praktisk tillämpning. I västländer är en mängd olika enheter (från militärflygplan till hushållsapparater) utrustade med röstsvarssystem. I Ryssland användes fram till nyligen röstsvarssystem huvudsakligen inom området militär utrustning, nu används de i allt större utsträckning i vardagen, till exempel i hjälptjänster för mobiloperatörer när de får information om statusen för en abonnents konto.

Slutför talsyntes enligt reglerna

Full talsyntes enligt regler (eller syntes av tryckt text) ger kontroll över alla parametrar för talsignalen och kan således generera tal från en tidigare okänd text. I detta fall lagras parametrarna som erhålls under analysen av talsignalen i minnet på samma sätt som reglerna för att kombinera ljud till ord och fraser . Syntes implementeras genom att modellera röstkanalen med hjälp av analog eller digital teknik. Dessutom, i processen att syntetisera, skrivs parametrarnas värden och reglerna för anslutning av fonem in sekventiellt med ett visst tidsintervall, till exempel 5–10 ms. Metoden för talsyntes från tryckt text (syntes efter regler) bygger på programmerad kunskap om akustiska och språkliga begränsningar och använder inte direkt element av mänskligt tal. I system baserade på denna syntesmetod särskiljs två tillvägagångssätt. Det första tillvägagångssättet syftar till att bygga en modell av det mänskliga talproducerande systemet, det är känt som artikulatorisk syntes . Det andra tillvägagångssättet är formantsyntes enligt reglerna . Förståeligheten och naturligheten hos sådana synthesizers kan bringas till värden som är jämförbara med egenskaperna hos naturligt tal.

Talsyntes enligt reglerna med användning av tidigare memorerade segment av naturligt språk är en slags talsyntes enligt reglerna, som har blivit utbredd på grund av tillkomsten av möjligheten att manipulera en talsignal i en digitaliserad form. Beroende på storleken på de initiala synteselementen särskiljs följande typer av syntes:

mikrosegment (mikrovågsugn);
allofonisk ;
difonisk;
halvstavelse ; _
stavelse;
syntes från enheter av godtycklig storlek.

Vanligtvis används halvstavelser som sådana element - segment som innehåller hälften av konsonanten och hälften av vokalen intill den. I det här fallet är det möjligt att syntetisera tal från en förutbestämd text, men det är svårt att kontrollera intonationsegenskaper. Kvaliteten på en sådan syntes motsvarar inte kvaliteten på naturligt tal, eftersom förvrängningar ofta förekommer vid gränserna för difonsömmar. Att sammanställa tal från förinspelade ordformer löser inte heller problemet med högkvalitativ syntes av godtyckliga meddelanden, eftersom de akustiska och prosodiska (varaktighet och intonation) egenskaperna hos ord ändras beroende på typen av fras och ordets plats i frasen . Denna position ändras inte ens när stora mängder minne används för att lagra ordformer.

Domänorienterad syntes

Domänspecifik syntes sammanställer förinspelade ord såväl som fraser för att skapa kompletta talmeddelanden. Den används i applikationer där variationen av systemtexter kommer att begränsas till ett visst ämne/domän, såsom tågmeddelanden och väderprognoser . Denna teknik är lätt att använda och har använts kommersiellt under lång tid: den har också använts vid tillverkning av elektroniska enheter som talande klockor och miniräknare . Naturligheten i ljudet i dessa system kan potentiellt vara hög på grund av att variationen av typer av meningar är begränsad och nära överensstämmer med intonationen i originalinspelningarna. Och eftersom dessa system är begränsade av valet av ord och fraser i databasen, kan de inte längre användas i stor utsträckning inom mänsklig aktivitet, bara för att de kan syntetisera kombinationer av ord och fraser som de programmerats för.

Historik

I slutet av 1700-talet skapade den danske vetenskapsmannen Christian Kratzenstein , fullvärdig medlem av Ryska vetenskapsakademin , en modell av den mänskliga röstkanalen som kan uttala fem långa vokaler ( a , e , och , o , u ). Modellen var ett system av akustiska resonatorer av olika former som producerade vokalljud med hjälp av vibrerande vass exciterade av luftflödet. År 1778 kompletterade den österrikiske vetenskapsmannen Wolfgang von Kampelen Kratzensteins modell med modeller av tungan och läpparna och presenterade en akustisk -mekanisk talmaskin som kan återge vissa ljud och deras kombinationer. Det blåstes väsande och visslande med hjälp av en speciell handmanövrerad päls. År 1837 introducerade vetenskapsmannen Charles Wheatstone en förbättrad version av maskinen som kan producera vokaler och de flesta konsonanter . Och 1846 demonstrerade Joseph Faber sitt talorgan Euphonia , där ett försök gjordes att syntetisera inte bara tal utan också sång.

I slutet av 1800-talet skapade den berömda vetenskapsmannen Alexander Bell sin egen "talande" mekaniska modell, mycket lik Wheatstone-maskinen till sin design. Med tillkomsten av 1900-talet började en tid präglad av elektriska maskiner, och forskare fick möjlighet att använda ljudvågsgeneratorer och bygga algoritmiska modeller på grundval av dem.

På 1930-talet utvecklade Bell Labs- arbetaren Homer Dudley , som arbetar med problemet att hitta sätt att minska den bandbredd som behövs inom telefoni för att öka dess sändningskapacitet, VOCODER (förkortning för engelsk röst - röst, engelsk kodare - kodare) är ett tangentbord -kontrollerad elektronisk analysator och talsyntes. Dudleys idé var att analysera röstsignalen, ta isär den och syntetisera om den till en mindre krävande linjebandbredd. En förbättrad version av Dudleys vocoder , VODER, introducerades på världsutställningen i New York 1939 [3] .

De första talsynteserna lät ganska onaturliga och ofta gick det knappt att urskilja fraserna de återgav. Men kvaliteten på syntetiserat tal har ständigt förbättrats, och talet som genereras av moderna talsyntessystem går ibland inte att skilja från verkligt mänskligt tal. Men trots framgångarna med elektroniska talsyntar pågår fortfarande forskning inom området mekaniska talsyntes, till exempel för användning i humanoida robotar . [fyra]

De första datorbaserade talsyntessystemen började dyka upp i slutet av 1950 -talet , och den första text-till-tal-syntesen skapades 1968 .

2005 förutspådde Kurzweil att eftersom valuta för pengarna skulle göra talsyntar billigare och mer tillgängliga, skulle fler människor dra nytta av att använda text-till-tal-program. [5]

Nutid och framtid

Än så länge är det för tidigt att tala om någon lovande framtid för de kommande decennierna för talsyntes enligt reglerna , eftersom ljudet fortfarande mest av allt liknar robotars tal, och på vissa ställen är det också svårt att förstå tal. Vad vi exakt kan avgöra är om en talsyntes talar med en manlig eller kvinnlig röst, och ibland kan vi fortfarande inte urskilja de finesser som är inneboende i den mänskliga rösten. Därför har utvecklingstekniken delvis vänt sig bort från själva konstruktionen av syntesen av talsignaler, men fortsätter ändå att använda den enklaste röstinspelningssegmenteringen.

Hybrid talsyntes kan användas för att hacka sig in i taligenkänningssystem . [6]

Se även

Anteckningar

↑ I denna definition är omvandlingen av ljudtryck till elektrisk spänning och vice versa i en mikrofon och telefon, samt inspelning och uppspelning, till exempel från magnetiska medier, inte syntes. Samplingen och kvantiseringen av en talsignal i pulskodmodulering är inte heller relaterad till talsyntes, men genereringen av en talsignal i vokodersystem kan betraktas som syntes.
↑ Sorokin V. N. Syntes av tal. — M.: Nauka, 1992, sid. 392.
↑ Dennis Klatts History of Speech Synthesis Arkiverad 4 juli 2006 sida på Wayback Machine , tillägnad historien om utvecklingen av talsyntes, presenterar ljudfiler med inspelningar av olika talsyntes. Det finns en fil som spelar in ljudet av Homer Dudleys vocoder.
↑ Japanska forskare från Takanishi-laboratoriet vid Waseda University arbetar till exempel på en antropomorf modell av en talande robot. Deras senaste utveckling ( 2005 ) - modellen Waseda Talker No.5 - har hela uppsättningen av talinstrument: lungor, struphuvud, mjuk gom, tunga, tänder, läppar, etc. Totalt har alla dessa organ 18 frihetsgrader. Från deras Anthropomorphic Talking Robot Waseda-Talker Series- sida Arkiverad 17 juli 2007. Du kan se mer detaljerad information, inklusive foton och videor.
↑ Ray Kurzweil. Singulariteten är nära: när människor överskrider biologin . - New York: Viking, 2005. - xvii, 652 sidor sid. — ISBN 0-670-03384-7 , 978-0-670-03384-3, 978-0-14-303788-0, 0-14-303788-9, 0-7156-3561-1, 978-0- 7156-3561-2.
↑ STUDIE AV RÖSTVERIFIERINGENS MOTSTÅND MOT ATTACK MED ANVÄNDNING AV SYNTESSYSTEMET. — Journal of Instrumentation Arkiverad 23 januari 2015 på Wayback Machine . - Februari 2014.

Litteratur

B. M. Lobanov, L. I. Tsirulnik "Datorsyntes och talkloning". - Minsk, "Belarusian Science", 2008. - 316 sidor.
James L. Flanagan. Analys, syntes och uppfattning av tal. - M., Svyaz, 1968. - 394 sid.
V. N. Sorokin. Syntes av tal. - Vetenskap, 1992.
Dutoit, Thierry. En introduktion till text-till-tal-syntes. - Kluwer Academic Publishers, 1997. - 312 sid. — ISBN 0-7923-4498-7 .
Rybin SV TALSYNTES Lärobok om disciplinen "Talsyntes". - St Petersburg: ITMO University, 2014. - 92 sid. / abstrakt pdf

Länkar

Talsyntes på Curlie Links Directory (dmoz)
Thierry Dutoit. En kort introduktion till text-till-tal-syntes (engelska) (länk ej tillgänglig) . TTS forskargrupp, TCTS Lab. (1999-12-17). Tillträdesdatum: 4 januari 2014. Arkiverad från originalet 24 maj 2013.
Hur talsyntes från Yandex fungerar | Habrahabr

talsyntes
Proprietär programvara	Bläddra högt CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-till-tal röster Läshögtalare Prata det! röst webbläsare Vocaloid Kantor voiceroid Utau Programvara Automatisk mun CoolSpeech La La Voice Symfoniska körer Realivox CeVIO Creative Studio Chipspeech Alter/Ego PPG fonem
gratis mjukvara	eSpeak Gnuspeech Festivaltalsyntessystem GratisTTS Gnopernicus späckhuggare Sinsy Automatisk textläsare
Bil	eko 2 Mönsteruppspelning Phasor RIAS Texas Instruments LPC-talchips TuVox
Ansökningar	AOLbyPhone Dialog OS Dr. Sbaitso MBROLA Microsoft berättare Microsoft Speech Server PlainTalk röstteckensnitt
Protokoll	Markeringsspråk för talsyntes
Utvecklare / Forskare	Catherine Browman Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignatius Mattingly Philip Rubin Röstwebb VoiceXML Yamaha
Bearbeta	Artikulatorisk syntes Konkatenativ syntes Currah omvänt filter PSOLA Fas vocoder SOBEL Självröstande

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur