Vektor representation av ord

En vektorrepresentation  är ett allmänt namn för olika tillvägagångssätt för språkmodellering och representationsträning i naturlig språkbehandling som syftar till att matcha ord (och möjligen fraser) från någon ordbok över vektorer från för , ett mycket mindre antal ord i ordboken. Den teoretiska grunden för vektorrepresentationer är distributiv semantik .

Det finns flera metoder för att konstruera en sådan kartläggning. Således använder de neurala nätverk [1] , metoder för dimensionsreduktion tillämpade på matriser för ordsamförekomst [2] och explicita representationer som lär sig om sammanhang med ordomnämnanden (explicita representationer) [3] .

Demonstrerade[ av vem? ] att vektorrepresentationer av ord och fraser avsevärt kan förbättra kvaliteten på vissa metoder för automatisk bearbetning av naturligt språk (till exempel parsning [4] och sentimentanalys [5] ).

Länkar

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg & Dean, Jeffrey (2013), Distribuerade representationer av ord och fraser och deras sammansättning, arΧiv : 1310.4546 [cs.CL]. 
  2. Lebret, Rémi & Collobert, Ronan (2013), Word Emdeddings through Hellinger PCA, arΧiv : 1312.5542 [cs.CL]. 
  3. Levy, Omer; Goldberg, Yoav. Linguistic Regularities in Sparse and Explicit Word Representations  //  Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Baltimore, Maryland, USA, juni. Föreningen för beräkningslingvistik. 2014: tidskrift.
  4. Socher, Richard; Bauer, John; Manning, Christopher; Nej, Andrew. Parsning med sammansättningsvektorgrammatik  (obestämd)  // Proceedings of the ACL conference. 2013.
  5. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris. Rekursiva djupa modeller för semantisk komposition över en sentimentträdbank  //  Conference on Empirical Methods in Natural Language Processing : tidskrift.