Taligenkänning är den automatiska processen att omvandla en talsignal till digital information (till exempel textdata ). Det omvända problemet är talsyntes .
Den första taligenkänningsenheten dök upp 1952 , den kunde känna igen siffrorna som talas av en person . [1] 1962 introducerades IBM Shoebox på New York Computer Technology Fair .
År 1963, i USA, presenterades miniatyrigenkänningsenheter med en fiberoptisk minnesenhet kallad "Septron" ( Sceptron , men uttalas [ˈseptrɑːn] utan "k"), utvecklad av ingenjörer från Sperry Corporation, [2] utföra en eller annan sekvens av handlingar till vissa fraser som uttalas av den mänskliga operatören. "Septrons" var lämpliga för användning inom området fast (trådbunden) kommunikation för automatisering av uppringning med röst och automatisk inspelning av dikterad text via teletyp , kunde användas inom den militära sfären (för röststyrning av komplexa prover av militär utrustning ), flyg (för att skapa "smart flygelektronik " som reagerar på piloten och besättningsmedlemmarna),kommandon automatiserade kontrollsystem , etc. [2] [3] [4] styrsignaler till utrustningen ombord och en enstavig röst som svarar honom ang. möjligheten att genomföra den uppgift som ställts av honom [5] .
Kommersiella program för taligenkänning dök upp i början av nittiotalet. Vanligtvis används de av personer som på grund av en handskada inte kan skriva en stor mängd text. Dessa program (som Dragon NaturallySpeaking, VoiceNavigator) översätt användarens röst till text och på så sätt lossar hans händer. Översättningstillförlitligheten för sådana program är inte särskilt hög, men den förbättras gradvis med åren.
Ökningen av datorkraft för mobila enheter gjorde det möjligt att skapa program för dem med en taligenkänningsfunktion. Bland sådana program är det värt att notera Microsoft Voice Command-applikationen, som låter dig arbeta med många applikationer med din röst. Du kan till exempel aktivera musikuppspelning i spelaren eller skapa ett nytt dokument.
Användningen av taligenkänning blir allt mer populär inom olika affärsområden, till exempel kan en läkare på en klinik uttala diagnoser som omedelbart kommer att matas in på ett elektroniskt kort. Eller ett annat exempel. Alla drömde säkert minst en gång i livet om att använda sin röst för att släcka ljuset eller öppna fönstret. På senare tid har system för automatisk taligenkänning och -syntes använts alltmer i interaktiva telefonapplikationer. I det här fallet blir kommunikationen med röstportalen mer naturlig, eftersom valet i den kan göras inte bara med hjälp av tonval, utan också med hjälp av röstkommandon. Samtidigt är igenkänningssystem oberoende av talare, det vill säga de känner igen rösten för någon person.
Nästa steg i taligenkänningsteknologier kan betraktas som utvecklingen av de så kallade tysta åtkomstgränssnitten (tyst talgränssnitt, SSI). Dessa talbehandlingssystem är baserade på att ta emot och bearbeta talsignaler i ett tidigt stadium av artikulationen. Detta stadium i utvecklingen av taligenkänning orsakas av två betydande brister hos moderna igenkänningssystem: överdriven känslighet för brus, såväl som behovet av tydligt och distinkt tal vid åtkomst till igenkänningssystemet. Det SSI-baserade tillvägagångssättet är att använda nya, brusfria sensorer för att komplettera de behandlade akustiska signalerna.
Taligenkänningssystem är klassificerade: [6]
För automatiska taligenkänningssystem tillhandahålls brusimmunitet först och främst genom användningen av två mekanismer: [7]
"... det är uppenbart att talsignalbehandlingsalgoritmer i en taluppfattningsmodell bör använda samma system av begrepp och relationer som en person använder" [8] [9] .
Idag bygger taligenkänningssystem på principerna för igenkänning[ av vem? ] former av erkännande [ okänd term ] . De metoder och algoritmer som hittills har använts kan delas in i följande stora klasser: [10] [11]
Klassificering av taligenkänningsmetoder baserat på jämförelse med standarden.
Kontextberoende klassificering. När det implementeras särskiljs separata lexikaliska element från talströmmen - fonem och allofoner, som sedan kombineras till stavelser och morfem.
Algoritmen för dynamisk tidslinjetransformation används för att bestämma om talsignaler representerar samma ursprungliga talade fras.
En av arkitekturerna för automatiska talbehandlingssystem baserade på statistiska data kan vara följande. [12] [13]
Stadier av erkännande [12]
De grundläggande begreppen som kännetecknar parametrarna för mänskligt tal förknippade med formen, storleken, dynamiken för förändringar i det talbildande området och beskriver det känslomässiga tillståndet hos en person kan delas in i fyra grupper av objektiva egenskaper som gör att man kan skilja mellan tal mönster: spektral-temporala, cepstrala, amplitudfrekvens och tecken på icke-linjär dynamik. Mer detaljer, varje grupp av funktioner: [9] [14] [15]
Spektral-temporala egenskaperSpektrala egenskaper:
Tillfälliga tecken:
Spektral-temporala egenskaper karakteriserar talsignalen i dess fysiska och matematiska väsen baserat på närvaron av tre typer av komponenter:
Spektral-temporala egenskaper gör det möjligt att återspegla originaliteten i formen av tidsserien och spektrumet av röstimpulser hos olika individer och egenskaperna hos filtreringsfunktionerna i deras talkanaler. De karakteriserar egenskaperna hos talflödet som är förknippade med dynamiken i omstruktureringen av artikulationsorganen i talarens tal, och är integrerade egenskaper hos talflödet, vilket återspeglar det speciella med förhållandet eller synkronismen i rörelsen av artikulationsorganen i högtalare.
Cepstrala teckenDe flesta moderna automatiska taligenkänningssystem fokuserar på att extrahera frekvenssvaret från den mänskliga röstkanalen, samtidigt som de förkastar excitationssignalens egenskaper. Detta förklaras av det faktum att koefficienterna för den första modellen ger bättre separerbarhet av ljud. För att separera excitationssignalen från röstkanalssignalen används cepstralanalys .
Amplitud-frekvensfunktionerAmplitud-frekvensfunktioner gör det möjligt att erhålla uppskattningar, vars värden kan variera beroende på parametrarna för den diskreta Fourier-transformen (typ och bredd på fönstret), såväl som med mindre förskjutningar av fönstret över provet . En talsignal representerar akustiskt ljudvibrationer av komplex struktur som fortplantar sig i luften, vilka karakteriseras i förhållande till deras frekvens (antal vibrationer per sekund), intensitet (svängningsamplitud) och varaktighet. Amplitud-frekvenstecken bär den nödvändiga och tillräckliga informationen för en person på en talsignal med en minimal uppfattningstid. Men användningen av dessa funktioner tillåter inte att de används fullt ut som ett verktyg för att identifiera känslomässigt färgat tal.
Tecken på icke-linjär dynamikFör gruppen av tecken på olinjär dynamik betraktas talsignalen som ett skalärt värde som observeras i det mänskliga röstsystemet. Processen för talproduktion kan betraktas som icke-linjär och kan analyseras med metoder för icke-linjär dynamik. Uppgiften för icke-linjär dynamik är att i detalj hitta och studera de grundläggande matematiska modellerna och verkliga systemen som utgår från de mest typiska förslagen om egenskaperna hos enskilda element som utgör systemet och lagarna för interaktion mellan dem. För närvarande baseras metoderna för olinjär dynamik på den grundläggande matematiska teorin, som är baserad på Takens sats, som ger en rigorös matematisk grund till idéerna om olinjär autoregression och bevisar möjligheten att återställa fasporträttet av en attraktion från en tidsserie eller från en av dess koordinater. (En atttraktor är en uppsättning punkter eller ett delrum i fasrummet som fasbanan närmar sig efter avklingningen av transienter.) Uppskattningar av signalegenskaperna från de rekonstruerade talbanorna används vid konstruktionen av icke-linjär deterministisk fasrymd modeller av de observerade tidsserierna. De avslöjade skillnaderna i form av attraherande kan användas för diagnostiska regler och funktioner som gör att man kan känna igen och korrekt identifiera olika känslor i en känslomässigt färgad talsignal.
Talkvalitetsparametrar för digitala kanaler: [17]
Användarvänlighet förklarades vara den största fördelen med röstsystem . Talkommandon var tänkta att rädda slutanvändaren från behovet av att använda beröring och andra metoder för datainmatning och kommandon.
Framgångsrika exempel på användning av taligenkänningsteknik i mobilapplikationer är: ange en adress med rösten i Yandex.Navigator, Google Now röstsökning.
Förutom mobila enheter används taligenkänningsteknik i stor utsträckning inom olika affärsområden:
![]() | |
---|---|
I bibliografiska kataloger |
|
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |