Språkidentifiering

Språkidentifiering (eng. language identification ), i metoden för naturlig språkbehandling  - språkdefinition . Språkidentifieringsproblemet är ett specialfall av textkategorisering och löses med statistiska metoder .

Översikt

För språkidentifiering implementeras arkitekturen PPRLM (parallell phonemes recognition + language model) med parallellkoppling av fonetiska igenkännare som är utbildade i flera språk. Fonetisk igenkänning är baserad på dolda Markov-modeller (HMM) som använder Viterbi-algoritmen .

För att fatta ett beslut om ett talmeddelandes tillhörighet till ett visst målspråk, implementeras ett tillvägagångssätt med en klassificerare baserad på stödvektormaskinerna (SVM - stödvektormaskiner).

Funktionsprincipen för ett system byggt på den klassiska PPRLM är som följer:

  1. det finns flera fonetiska igenkännare i systemet;
  2. varje ingångsljudfil känns igen av fonetiska igenkännare;
  3. enligt den resulterande sekvensen av fonem för varje fonetisk igenkännare, beräknas mått på närhet till n-gram-modellen för ett speciellt målspråk;
  4. Språket med det maximala närhetsmåttet för n-gramm-modellen anses vinnaren .

I avancerade PPRLM-system implementeras språkidentifiering som en öppen uppgift: en "tillhör" / "tillhör inte"-kontroll av den bearbetade filen till målspråket görs, beslutet fattas automatiskt, med hänsyn tagen till tröskeln som satts av användare.

Följande steg läggs till i den grundläggande algoritmen:

  1. den resulterande sekvensen av fonem för varje fonetisk igenkännare överlagras med n-gram-modellen för ett eller annat "referensspråk", och mått på n-gram-modellens närhet till fonemsekvensen beaktas;
  2. hela uppsättningen av mått på närhet av n-gram- modeller till fonemsekvenser är en indatavektor för SVM- klassificeraren ;
  3. Baserat på klassificeringsresultatet fattar SVM-klassificeraren ett beslut om att tillhöra målspråket genom att jämföra med den fastställda tröskeln för varje målspråk separat.

Ljudfilen läses upp på målspråket om poängen som ges av SVM-klassificeraren är högre än tröskeln. I det här fallet kan ljudfilen tilldelas ett eller flera språk samtidigt eller inte tilldelas något av dem.

Se även

Litteratur

Länkar

Bibliotek

Webbtjänster