Språkidentifiering
Språkidentifiering (eng. language identification ), i metoden för naturlig språkbehandling - språkdefinition . Språkidentifieringsproblemet är ett specialfall av textkategorisering och löses med statistiska metoder .
Översikt
För språkidentifiering implementeras arkitekturen PPRLM (parallell phonemes recognition + language model) med parallellkoppling av fonetiska igenkännare som är utbildade i flera språk. Fonetisk igenkänning är baserad på dolda Markov-modeller (HMM) som använder Viterbi-algoritmen .
För att fatta ett beslut om ett talmeddelandes tillhörighet till ett visst målspråk, implementeras ett tillvägagångssätt med en klassificerare baserad på stödvektormaskinerna (SVM - stödvektormaskiner).
Funktionsprincipen för ett system byggt på den klassiska PPRLM är som följer:
- det finns flera fonetiska igenkännare i systemet;
- varje ingångsljudfil känns igen av fonetiska igenkännare;
- enligt den resulterande sekvensen av fonem för varje fonetisk igenkännare, beräknas mått på närhet till n-gram-modellen för ett speciellt målspråk;
- Språket med det maximala närhetsmåttet för n-gramm-modellen anses vinnaren .
I avancerade PPRLM-system implementeras språkidentifiering som en öppen uppgift: en "tillhör" / "tillhör inte"-kontroll av den bearbetade filen till målspråket görs, beslutet fattas automatiskt, med hänsyn tagen till tröskeln som satts av användare.
Följande steg läggs till i den grundläggande algoritmen:
- den resulterande sekvensen av fonem för varje fonetisk igenkännare överlagras med n-gram-modellen för ett eller annat "referensspråk", och mått på n-gram-modellens närhet till fonemsekvensen beaktas;
- hela uppsättningen av mått på närhet av n-gram- modeller till fonemsekvenser är en indatavektor för SVM- klassificeraren ;
- Baserat på klassificeringsresultatet fattar SVM-klassificeraren ett beslut om att tillhöra målspråket genom att jämföra med den fastställda tröskeln för varje målspråk separat.
Ljudfilen läses upp på målspråket om poängen som ges av SVM-klassificeraren är högre än tröskeln. I det här fallet kan ljudfilen tilldelas ett eller flera språk samtidigt eller inte tilldelas något av dem.
Se även
Litteratur
- Joshua Goodman. Utökad kommentar om språkträd och zippa . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti och V. Loreto. Språkträd och zippa . Physical Review Letters , 88:4 (2002), Komplexitetsteori .
- Cavnar, William B. och John M. Trenkle. "N-Gram-baserad textkategorisering". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
- Cilibrasi, Rudi och Paul M. B. Vitanyi. Klustring genom kompression . IEEE Transactions on Information Theory 51(4), april 2005, 1523-1545.
- Dunning, T. (1994) "Statistical Identification of Language". Teknisk rapport MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Utökad kommentar till "Språkträd och Zipping" . Microsoft Research, 21 februari 2002. (Detta är en kritik av datakomprimeringen till förmån för Naive Bayes-metoden.)
- Grafenstette, Gregory. (1995) Jämförelse av två språkidentifieringssystem. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
- Poutsma, Arjen. (2001) Att tillämpa Monte Carlo-tekniker för språkidentifiering. SmartHaven, Amsterdam. Presenterad på CLIN 2001 .
- Ekonomen. (2002) " Stilelementen: Analys av komprimerad data leder till imponerande resultat inom lingvistik "
- Radim Řehůrek och Milan Kolkus. (2009) " Language Identification on the Web: Extending the Dictionary Method (länk ej tillgänglig) " Computational Linguistics and Intelligent Text Processing
Länkar
Bibliotek
Webbtjänster