Latent semantisk analys

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 maj 2014; kontroller kräver 34 redigeringar .

Latent semantisk analys (LSA ) är en naturligt språklig informationsbearbetningsmetod som analyserar förhållandet mellan ett bibliotek av dokument och termerna som finns i dem, och avslöjar karakteristiska faktorer ( ämnen ) som är inneboende i alla dokument och termer.

Metoden för latent semantisk analys är baserad på principerna för faktoranalys , i synnerhet identifieringen av latenta kopplingar mellan de studerade fenomenen eller objekten. Vid klassificering / klustring av dokument används denna metod för att extrahera de kontextberoende betydelserna av lexikaliska objekt med hjälp av statistisk bearbetning av stora textkorpor [1] .

Historik

LSA:n patenterades 1988 [2] av Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum och Lynn Streeter . Inom området för informationssökning kallas detta tillvägagångssätt latent semantisk indexering (LSI) .

För första gången användes LSA för att automatiskt indexera texter, identifiera textens semantiska struktur och erhålla pseudodokument [3] . Sedan användes denna metod ganska framgångsrikt för att representera kunskapsbaser [4] och bygga kognitiva modeller [5] .

På senare år har LSA-metoden ofta använts för informationssökning ( dokumentindexering ), dokumentklassificering [6] , förståelsemodeller [7] och andra områden där det krävs att man identifierar huvudfaktorerna från en rad informationsdata.

Arbetsbeskrivning LSA

LSA kan jämföras med en enkel typ av neurala nätverk som består av tre lager: det första lagret innehåller en uppsättning ord ( termer ), det andra - en viss uppsättning dokument som motsvarar vissa situationer och det tredje, mitten, dolda lagret är en uppsättning noder med olika viktkoefficienter som förbinder det första och andra lagret.

LSA använder en term-till-dokument-matris som indata , som beskriver datamängden som används för att träna systemet. Elementen i denna matris innehåller som regel vikter som tar hänsyn till hur ofta varje term används i varje dokument och termens deltagande i alla dokument ( TF-IDF ). Den vanligaste versionen av LSA är baserad på användningen av Singular Value Decomposition (SVD ). Med hjälp av SVD-nedbrytningen sönderdelas vilken matris som helst i en uppsättning ortogonala matriser, vars linjära kombination är en ganska exakt approximation till den ursprungliga matrisen.

Mer formellt, enligt singularvärdessatsen [9] , kan vilken verklig rektangulär matris som helst delas upp i en produkt av tre matriser:

${\begin{matrix}A=USV^{T}\end{matrix}}$ ,

där matriserna och är ortogonala, och är en diagonal matris, vars värden på diagonalen kallas matrisens singularvärden . Bokstaven T i uttrycket betyder transponeringen av matrisen. ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {S}}$ ${\textbf {A}}$ ${\textbf {V}}^{T}$

En sådan sönderdelning har en anmärkningsvärd egenskap: om bara de största singularvärdena finns kvar i matrisen och endast kolumnerna som motsvarar dessa värden finns kvar i matriserna och då blir produkten av de resulterande matriserna , och den bästa approximationen av den ursprungliga matrisen till rangmatrisen : ${\textbf {S}}$ ${\textbf {k))$ ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {S}}$ ${\textbf {U}}$ ${\textbf {V}}$ ${\textbf {A}}$ ${\hat {\textbf {A}}}$ ${\textbf {k))$

${\begin{matrix}{\hat A}\approx A=USV^{T}\end{matrix}}$ ,

Huvudidén med latent semantisk analys är att om matrisen av termer-till-dokument användes som en matris , så återspeglar matrisen som bara innehåller de första linjärt oberoende komponenterna huvudstrukturen för olika beroenden som finns i den ursprungliga matrisen. Beroendestrukturen bestäms av termernas viktfunktioner. ${\textbf {A}}$ ${\hat {\textbf {A}}}$ ${\textbf {k))$ ${\textbf {A}}$

Varje term och dokument representeras alltså av vektorer i ett gemensamt dimensionsutrymme (det så kallade hypotesutrymmet). Närheten mellan valfri kombination av termer och/eller dokument beräknas enkelt med hjälp av punktprodukten av vektorer. ${\textbf {k))$

Som regel beror valet på uppgiften och väljs empiriskt. Om det valda värdet är för stort, förlorar metoden sin kraft och närmar sig egenskaperna hos standardvektormetoder. Ett för litet värde på k tillåter inte att fånga skillnader mellan liknande termer eller dokument. ${\textbf {k))$ ${\textbf {k))$

Applikation

Det finns tre huvudtyper av problemlösning med LSA-metoden:

jämföra två termer med varandra;
jämföra två dokument med varandra;
jämförelse av term och dokument.

Fördelar och nackdelar med LSA

Fördelar med metoden:

metoden är den bästa för att avslöja latenta beroenden inom en uppsättning dokument;
metoden kan tillämpas både med träning och utan träning (till exempel för klustring );
värdena för närhetsmatrisen baserade på frekvensegenskaperna för dokument och lexikaliska enheter används;
polysemi och homonymi tas delvis bort .

Brister:

En betydande nackdel med metoden är en betydande minskning av beräkningshastigheten med en ökning av mängden indata (till exempel med en SVD-transformation). Som visas i [3] motsvarar beräkningshastigheten ordningen , där är summan av antalet dokument och termer , och är dimensionen av utrymmet av faktorer. ${\textbf {N}}^{{2*k}}$ ${\textbf {N}}={\textbf {N}}_{{doc}}+{\textbf {N}}_{{term}}$ ${\textbf {k))$
Metodens probabilistiska modell stämmer inte överens med verkligheten. Det antas att ord och dokument har en normalfördelning , även om Poissonfördelningen ligger närmare verkligheten . I detta avseende, för praktiska tillämpningar, är den probabilistiska latenta semantiska analysen baserad på multinomialfördelningen bättre lämpad .

Anteckningar

↑ Thomas Landauer , Peter W. Foltz och Darrell Laham. Introduktion till latent semantisk analys // Diskursprocesser : journal. - 1998. - Vol. 25 . - S. 259-284 . - doi : 10.1080/01638539809545028 .
↑ US-patent 4,839,853
↑ 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexering genom latent semantisk analys // Journal of the American Society for Information Science : journal. - 1990. - Vol. 41 , nr. 6 . - s. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Arkiverad från originalet den 17 juli 2012.
↑ Thomas Landauer , Susan T. Dumais . En lösning på Platons problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge // JPsychological Review. : journal. - 1997. - Vol. 104 . - S. 211-240 . Arkiverad från originalet den 14 mars 2012.
↑ B. Lemaire , G. Denhière . Kognitiva modeller baserade på latent semantisk analys (obestämd) // Handledning ges vid den 5:e internationella konferensen om kognitiv modellering (ICCM'2003), Bamberg, Tyskland, 9 april 2003.. - 2003. (inte tillgänglig länk)
↑ Nekrestyanov I. S. Ämnesorienterade metoder för informationssökning / Avhandling för graden av Ph.D. St. Petersburg State University, 2000.
↑ Solovyov A. N. Modellering av processerna för att förstå tal med hjälp av latent semantisk analys / Avhandling för graden av Ph.D. St. Petersburg State University, 2008.
↑ Arkiverad kopia . Hämtad 1 september 2017. Arkiverad från originalet 1 september 2017. (obestämd)
↑ Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Länkar

https://web.archive.org/web/20090131212818/http://www-timc.imag.fr/Benoit.Lemaire/lsa.html - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Samling av artiklar och länkar om LSA.
http://lsa.colorado.edu/ - webbplats dedikerad till LSA-modellering.

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur