Microsoft Speech API
Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från
versionen som granskades den 3 december 2014; kontroller kräver
6 redigeringar .
Speech Application Programming Interface (SAPI) är ett COM - baserat applikationsprogrammeringsgränssnitt för taligenkänning och -syntes.
Taligenkänning
Taligenkänning är processen att omvandla talade ord till tryckt text. Taligenkänning inkluderar:
- fånga och digitalisera ljudet som talas in i mikrofonen;
- konvertera digitaliserat ljud till fonem ;
- konstruktion från fonem av ord;
- analys av sammanhanget där ordet talades, och vid behov ersätta ord med liknande.
Identifieraren (textigenkänningsmotorn) jämför den igenkända texten iterativt med programmets grammatikregler och, om texten matchar en serie regler, genererar en XML -utdataström med Semantic Markup Language (SML) . Utdataströmmen innehåller den igenkända texten, korrekta igenkänningssannolikheter och kan innehålla semantiska värden som tilldelas med semantiktolkningsmarkering . Igenkänd text används vanligtvis för datainmatning med diktering och för att styra applikationer med talkommandon.
Storleken på grammatikregler begränsar möjligheten för textigenkänning. De flesta program som stöder diktering är inställda på en viss användares talmönster för att säkerställa den mest exakta igenkänningen. Talkommandokontrollläget är lättare att implementera, eftersom innehållet i grammatikreglerna är begränsat till tillgängliga kommandon [1] .
Talsyntes
Talsyntes är processen att omvandla text till talade ord. Talsyntes inkluderar:
- uppdelning av ord i fonem;
- hitta text som behöver konverteras till tecken, såsom siffror, valutabelopp och skiljetecken;
- genererar digitalt ljud för uppspelning.
Text-till-tal-motorer kan använda en av två röstsyntesmetoder:
- generera ljud som liknar stämbanden och använda olika filter för att modellera längden på halsen, formen på munnen, positionen på läpparna och tungan;
- samla in det från många tal som spelats in av utroparen.
Anteckningar
- ↑ Tomashenko N. A., Khokhlov Yu. Yu.// STUDIE AV PROBLEMET MED DATABALANS VID KONSTRUKTION AV AKUSTISKA MODELLER AV AUTOMATISKA TARGENKÄNNINGSSYSTEM Arkivexemplar daterad 19 september 2015 på Wayback Machine . - Artikel. - Instrumentering. - UDC 004.934
Länkar
Vi introducerar Computer Speech Technology (engelska) (inte tillgänglig länk) . MSDN bibliotek . Microsoft (2012). Hämtad 24 juli 2012. Arkiverad från originalet 29 september 2012.
talsyntes |
---|
Proprietär programvara |
- Bläddra högt
- CereProc
- DECtalk
- IVONA
- Microsoft Agent
- Microsoft Speech API
- Microsoft text-till-tal röster
- Läshögtalare
- Prata det!
- röst webbläsare
- Vocaloid
- Kantor
- voiceroid
- Utau
- Programvara Automatisk mun
- CoolSpeech
- La La Voice
- Symfoniska körer
- Realivox
- CeVIO Creative Studio
- Chipspeech
- Alter/Ego
- PPG fonem
|
---|
gratis mjukvara |
|
---|
Bil |
- eko 2
- Mönsteruppspelning
- Phasor
- RIAS
- Texas Instruments LPC-talchips
- TuVox
|
---|
Ansökningar |
- AOLbyPhone
- Dialog OS
- Dr. Sbaitso
- MBROLA
- Microsoft berättare
- Microsoft Speech Server
- PlainTalk
- röstteckensnitt
|
---|
Protokoll | Markeringsspråk för talsyntes |
---|
Utvecklare / Forskare |
|
---|
Bearbeta |
- Artikulatorisk syntes
- Konkatenativ syntes
- Currah
- omvänt filter
- PSOLA
- Fas vocoder
- SOBEL
- Självröstande
|
---|