Språkidentifiering

Språkidentifiering (eng. language identification ), i metoden för naturlig språkbehandling - språkdefinition . Språkidentifieringsproblemet är ett specialfall av textkategorisering och löses med statistiska metoder .

Översikt

För språkidentifiering implementeras arkitekturen PPRLM (parallell phonemes recognition + language model) med parallellkoppling av fonetiska igenkännare som är utbildade i flera språk. Fonetisk igenkänning är baserad på dolda Markov-modeller (HMM) som använder Viterbi-algoritmen .

För att fatta ett beslut om ett talmeddelandes tillhörighet till ett visst målspråk, implementeras ett tillvägagångssätt med en klassificerare baserad på stödvektormaskinerna (SVM - stödvektormaskiner).

Funktionsprincipen för ett system byggt på den klassiska PPRLM är som följer:

det finns flera fonetiska igenkännare i systemet;
varje ingångsljudfil känns igen av fonetiska igenkännare;
enligt den resulterande sekvensen av fonem för varje fonetisk igenkännare, beräknas mått på närhet till n-gram-modellen för ett speciellt målspråk;
Språket med det maximala närhetsmåttet för n-gramm-modellen anses vinnaren .

I avancerade PPRLM-system implementeras språkidentifiering som en öppen uppgift: en "tillhör" / "tillhör inte"-kontroll av den bearbetade filen till målspråket görs, beslutet fattas automatiskt, med hänsyn tagen till tröskeln som satts av användare.

Följande steg läggs till i den grundläggande algoritmen:

den resulterande sekvensen av fonem för varje fonetisk igenkännare överlagras med n-gram-modellen för ett eller annat "referensspråk", och mått på n-gram-modellens närhet till fonemsekvensen beaktas;
hela uppsättningen av mått på närhet av n-gram- modeller till fonemsekvenser är en indatavektor för SVM- klassificeraren ;
Baserat på klassificeringsresultatet fattar SVM-klassificeraren ett beslut om att tillhöra målspråket genom att jämföra med den fastställda tröskeln för varje målspråk separat.

Ljudfilen läses upp på målspråket om poängen som ges av SVM-klassificeraren är högre än tröskeln. I det här fallet kan ljudfilen tilldelas ett eller flera språk samtidigt eller inte tilldelas något av dem.

Se även

Litteratur

Joshua Goodman. Utökad kommentar om språkträd och zippa . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti och V. Loreto. Språkträd och zippa . Physical Review Letters , 88:4 (2002), Komplexitetsteori .
Cavnar, William B. och John M. Trenkle. "N-Gram-baserad textkategorisering". Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (1994) [1] .
Cilibrasi, Rudi och Paul M. B. Vitanyi. Klustring genom kompression . IEEE Transactions on Information Theory 51(4), april 2005, 1523-1545.
Dunning, T. (1994) "Statistical Identification of Language". Teknisk rapport MCCS 94-273, New Mexico State University, 1994.
Goodman, Joshua. (2002) Utökad kommentar till "Språkträd och Zipping" . Microsoft Research, 21 februari 2002. (Detta är en kritik av datakomprimeringen till förmån för Naive Bayes-metoden.)
Grafenstette, Gregory. (1995) Jämförelse av två språkidentifieringssystem. Proceedings of the 3rd International Conference on the Statistical Analysis of Textual Data (JADT 1995).
Poutsma, Arjen. (2001) Att tillämpa Monte Carlo-tekniker för språkidentifiering. SmartHaven, Amsterdam. Presenterad på CLIN 2001 .
Ekonomen. (2002) " Stilelementen: Analys av komprimerad data leder till imponerande resultat inom lingvistik "
Radim Řehůrek och Milan Kolkus. (2009) " Language Identification on the Web: Extending the Dictionary Method (länk ej tillgänglig) " Computational Linguistics and Intelligent Text Processing

Länkar

Bibliotek

LID - Language Identification in Python : algoritm och kodexempel på ett n-gram baserat LID-verktyg i Python och Scheme av Damir Cavar.
lid Språkidentifierare : av Lingua-Systems; C / C++- bibliotek och Perl Extension ( onlinedemo ).
lc4j, ett Java-bibliotek för språkkategorisering , av Marco Olivo.
Microsoft Extended Linguistic Services för Windows 7 : inklusive Microsoft Language Detection.
Windows 7 API Code Pack för .NET : inklusive hanterade gränssnitt för ovanstående.
NTextCat - gratis Language Identification API för .NET (C#) : 280+ språk tillgängliga direkt. Känner igen språk och kodning ( UTF-8 , Windows-1252 , Big5 , etc.) av text. Mono kompatibel.
jsli är ett rent JavaScript-språkidentifieringsbibliotek.
cldr -R-bibliotek för Chromium-Authors Compact Language Detection-kod.
språkdetektion : språkdetektionsbibliotek med öppen källkod för Java (gafflar: lang-gissning och språkdetektor ).
cld2 : språkdetektionsbibliotek med öppen källkod för C++ av Google
GuessLanguage : språkdetektionsbibliotek med öppen källkod för javascript
GuessLanguage : språkdetekteringsbibliotek med öppen källkod för python
Text LanguageDetect : päronspråksdetektering (upprätthålls inte för närvarande)
datagram : öppen källkod MIT JavaScript-klassificeringsbibliotek. Klassificera och känna igen språk för indata automatiskt. Den kan användas för alla typer av klassificering baserat på utbildad data.

Webbtjänster

Språkidentifieringswebbtjänst : språkdetektions-API (JSON och XML) som upptäcker 100+ språk i texter, webbplatser och dokument
Language Detection API : enkelt identifieringsspråk API
dataTXT-LI : språkidentifiering RESTful API, en del av maskrosdataTXT semantisk API-familj (namngiven enhetsextraktion, textlikhet etc.)
AlchemyAPI : API för språkidentifiering, tillgängligt som SDK och genom ett RESTfull API ( webbaserad demonstration ).
PetaMem Språkidentifiering : ger ett val mellan ngram, nvect och smarta metoder.
Öppna Xerox LanguageIdentifier , tillgänglig i webbaserad form eller via API.
GlobalNLP : webbaserat identifieringsspråk
Språkdetektor , onlineidentifiering från text eller URL och API tillgängligt för utvecklare.
Vad för språk är det här? Online språkidentifierare : webbaserat verktyg skrivet av Henrik Falck.
Rosette Language Identifier : produkt från Basis Technology.
Språkidentifierare : produkt av Sematext; exponerar Java API och är tillgängligt via REST/Webservice.
G2LI (Global Information Infrastructure Laboratory's Language Identifier )
Rosoka Cloud av IMT Holdings tillhandahåller språk-ID, enhet och relationsextraktion RESTfulla webbtjänster tillgängliga via Amazon Web Services Marketplace.
Semantria sentiment and text analytics API som har språkdetektering
Loque.la Language Detection API : Webbplatsspråkidentifiering med API, (json/XML)
Stel KS Språkidentifiering : Språkidentifiering API (11 språk)

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur