Microsoft Speech API

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 december 2014; kontroller kräver 6 redigeringar .

Speech Application Programming Interface (SAPI) är ett COM - baserat applikationsprogrammeringsgränssnitt för taligenkänning och -syntes.

Taligenkänning

Taligenkänning är processen att omvandla talade ord till tryckt text. Taligenkänning inkluderar:

fånga och digitalisera ljudet som talas in i mikrofonen;
konvertera digitaliserat ljud till fonem ;
konstruktion från fonem av ord;
analys av sammanhanget där ordet talades, och vid behov ersätta ord med liknande.

Identifieraren (textigenkänningsmotorn) jämför den igenkända texten iterativt med programmets grammatikregler och, om texten matchar en serie regler, genererar en XML -utdataström med Semantic Markup Language (SML) . Utdataströmmen innehåller den igenkända texten, korrekta igenkänningssannolikheter och kan innehålla semantiska värden som tilldelas med semantiktolkningsmarkering . Igenkänd text används vanligtvis för datainmatning med diktering och för att styra applikationer med talkommandon.

Storleken på grammatikregler begränsar möjligheten för textigenkänning. De flesta program som stöder diktering är inställda på en viss användares talmönster för att säkerställa den mest exakta igenkänningen. Talkommandokontrollläget är lättare att implementera, eftersom innehållet i grammatikreglerna är begränsat till tillgängliga kommandon [1] .

Talsyntes

Talsyntes är processen att omvandla text till talade ord. Talsyntes inkluderar:

uppdelning av ord i fonem;
hitta text som behöver konverteras till tecken, såsom siffror, valutabelopp och skiljetecken;
genererar digitalt ljud för uppspelning.

Text-till-tal-motorer kan använda en av två röstsyntesmetoder:

generera ljud som liknar stämbanden och använda olika filter för att modellera längden på halsen, formen på munnen, positionen på läpparna och tungan;
samla in det från många tal som spelats in av utroparen.

Anteckningar

↑ Tomashenko N. A., Khokhlov Yu. Yu.// STUDIE AV PROBLEMET MED DATABALANS VID KONSTRUKTION AV AKUSTISKA MODELLER AV AUTOMATISKA TARGENKÄNNINGSSYSTEM Arkivexemplar daterad 19 september 2015 på Wayback Machine . - Artikel. - Instrumentering. - UDC 004.934

Länkar

Vi introducerar Computer Speech Technology (engelska) (inte tillgänglig länk) . MSDN bibliotek . Microsoft (2012). Hämtad 24 juli 2012. Arkiverad från originalet 29 september 2012.

talsyntes
Proprietär programvara	Bläddra högt CereProc DECtalk IVONA Microsoft Agent Microsoft Speech API Microsoft text-till-tal röster Läshögtalare Prata det! röst webbläsare Vocaloid Kantor voiceroid Utau Programvara Automatisk mun CoolSpeech La La Voice Symfoniska körer Realivox CeVIO Creative Studio Chipspeech Alter/Ego PPG fonem
gratis mjukvara	eSpeak Gnuspeech Festivaltalsyntessystem GratisTTS Gnopernicus späckhuggare Sinsy Automatisk textläsare
Bil	eko 2 Mönsteruppspelning Phasor RIAS Texas Instruments LPC-talchips TuVox
Ansökningar	AOLbyPhone Dialog OS Dr. Sbaitso MBROLA Microsoft berättare Microsoft Speech Server PlainTalk röstteckensnitt
Protokoll	Markeringsspråk för talsyntes
Utvecklare / Forskare	Catherine Browman Franklin Seaney Cooper Gunnar Fant Haskins Laboratories Wolfgang von Kempelen Ignatius Mattingly Philip Rubin Röstwebb VoiceXML Yamaha
Bearbeta	Artikulatorisk syntes Konkatenativ syntes Currah omvänt filter PSOLA Fas vocoder SOBEL Självröstande