Gränssnitt för tyst åtkomst

Silent access interface ( engelska silent speech interfaces , SSI ) - talbehandlingssystem baserade på mottagning och bearbetning av talsignaler i ett tidigt stadium av artikulationen .

Historik

Gränssnitt för tyst åtkomst har en mycket ny historia, som går tillbaka till början av 2000-talet. Under det senaste decenniet har prestandan för automatiska talbehandlingssystem, inklusive taligenkänning , textigenkänning, översättning och talsyntes, förbättrats avsevärt. Detta har lett till användningen av tal- och talteknik i ett brett utbud av tjänster såsom informationshämtningssystem, callcenter , röststyrning av mobiltelefoner och bilnavigeringssystem , personliga översättare och användning av talteknik inom säkerhet. Talgränssnitt baserade på traditionella akustiska talsignaler har dock fortfarande ett antal betydande begränsningar. För det första utsätts akustiska signaler som sänds genom luften för distorsion på grund av brus . Pålitliga talbehandlingssystem som skulle fungera felfritt på trånga restauranger, flygplatser och andra offentliga platser, trots enorma ansträngningar, är fortfarande inte i sikte. För det andra kräver traditionella talgränssnitt tydligt och begripligt tal, vilket har två huvudsakliga nackdelar: på en offentlig plats äventyrar det meddelandets konfidentialitet och för det andra stör det andra. Tjänster som kräver åtkomst, hämtning och överföring av privat eller konfidentiell information såsom PIN-koder och lösenord är särskilt sårbara.

I början av 2000-talet, för att lösa detta problem, föreslogs gränssnitt för tyst åtkomst , som gör det möjligt för användare att kommunicera genom att prata "tyst", det vill säga utan att göra några ljud. Detta görs genom att ta emot talsignaler i de tidiga stadierna av mänsklig artikulation, nämligen innan tal dyker upp i luften; därefter sänds artikulationssignalerna till systemet för vidare bearbetning och tolkning. På grund av detta nya tillvägagångssätt har gränssnitt för tyst åtkomst potential att övervinna de största bristerna i dagens traditionella röstgränssnitt:

begränsa tillförlitligheten av talsignaligenkänning i närvaro av bakgrundsbrus,
bristande tillförlitlighet vid överföring av privat och konfidentiell information,
andras bekymmer.

Dessutom kan gränssnitt för tyst åtkomst vara ett alternativ för personer med talstörningar (t.ex. laryngektomi) och för äldre eller handikappade personer som inte kan tala tillräckligt högt, tydligt och begripligt.

Teknik

pak. H. Chan et al bevisade ( 2001 , 2002) [1] att den myoelektriska signalen från de artikulatoriska ansiktsmusklerna innehåller tillräckligt med information för att exakt särskilja en liten uppsättning ord. Dessa ord känns igen även när de uttalas mjukt, d.v.s. i frånvaro av en ljudsignal (Jorgensen et al. 2003, Bradley et al. 2006). Nyligen arbete tyder på att igenkännandet av fonemiska enheter baserade på elektromyografiska (EMG) enheter (Jou et al. 2006, Walliczek et al. 2006) banar väg för erkännande av omfattande vokabulärbaser.

På senare tid har det också dykt upp forskning som möjliggör utvecklingen av ett gränssnitt för tyst åtkomst baserat på tung- och läpprörelser med hjälp av ultraljud och optisk avbildning (Denby och Stone 2004, Denby et al. 2006, Hueber et al. 2007).

SSI-system som omvandlar "grunt" till tal är främst utvecklade i Japan . I USA finansierar DARPA forskning om glottal aktivitet för användning av sensorer i bullriga miljöer:

Som en del av programmet för modern talkodning ( engelska Advanced speech encoding , förkortning ASE ) [2] kommer tekniker att utvecklas som möjliggör utbyte av information under svåra militära förhållanden.

Stora framsteg har gjorts i utvecklingen av röstkodaren ( vokoder ) under de senaste 50 åren , men röstkodning med ultralåg bithastighet (ULBR) vid 300 bps är fortfarande en stor utmaning. I synnerhet har ULBR-vokoderna fortfarande inte en högkvalitativ talanalysator som skulle känna igen talarens tal utan störningar; dessa nackdelar är överdrivna i akustiskt svåra miljöer (till exempel i ett bullrigt utrymme eller i ett utrymme med ekoljud).

Tillvägagångssättet för programmet Advanced Speech Encoding (ASE) är att använda nya sensorer som inte påverkas av brus som ett komplement till de behandlade akustiska signalerna (se figur). Sådana sensorer kommer att utforskas med avseende på deras potential så att förtal/hörbart tal kan användas som ett alternativt kommunikationsmedel i akustiskt hårda och farliga miljöer där militärt kamouflage är obligatoriskt.

—

Se även

Länkar

Specialsession om gränssnitt för tyst tal
Alexey Yesaulenko . Dåligt bra IVR // "Nätverk / nätverksvärld" nr 4, 2010

Anteckningar

↑ Pack. H. Chan Handbook of Neurochemistry and Molecular Neurobiology
↑ Avancerad talkodning Arkiverad 6 mars 2016 på Wayback Machine . Virtual worldlets nätverk.