Latent semantisk analys

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 3 maj 2014; kontroller kräver 34 redigeringar .

Latent semantisk analys (LSA ) är en  naturligt språklig informationsbearbetningsmetod som analyserar förhållandet mellan ett bibliotek av dokument och termerna som finns i dem, och avslöjar karakteristiska faktorer ( ämnen ) som är inneboende i alla dokument och termer.

Metoden för latent semantisk analys är baserad på principerna för faktoranalys , i synnerhet identifieringen av latenta kopplingar mellan de studerade fenomenen eller objekten. Vid klassificering / klustring av dokument används denna metod för att extrahera de kontextberoende betydelserna av lexikaliska objekt med hjälp av statistisk bearbetning av stora textkorpor [1] .

Historik

LSA:n patenterades 1988 [2] av Scott Deerwester , Susan Dumais , George Furnas , Richard Harshman , Thomas Landauer , Karen Lochbaum och Lynn Streeter . Inom området för informationssökning kallas detta tillvägagångssätt latent semantisk indexering (LSI) .

För första gången användes LSA för att automatiskt indexera texter, identifiera textens semantiska struktur och erhålla pseudodokument [3] . Sedan användes denna metod ganska framgångsrikt för att representera kunskapsbaser [4] och bygga kognitiva modeller [5] .

På senare år har LSA-metoden ofta använts för informationssökning ( dokumentindexering ), dokumentklassificering [6] , förståelsemodeller [7] och andra områden där det krävs att man identifierar huvudfaktorerna från en rad informationsdata.

Arbetsbeskrivning LSA

LSA kan jämföras med en enkel typ av neurala nätverk som består av tre lager: det första lagret innehåller en uppsättning ord ( termer ), det andra - en viss uppsättning dokument som motsvarar vissa situationer och det tredje, mitten, dolda lagret är en uppsättning noder med olika viktkoefficienter som förbinder det första och andra lagret.

LSA använder en term-till-dokument-matris som indata , som beskriver datamängden som används för att träna systemet. Elementen i denna matris innehåller som regel vikter som tar hänsyn till hur ofta varje term används i varje dokument och termens deltagande i alla dokument ( TF-IDF ). Den vanligaste versionen av LSA är baserad på användningen av Singular Value Decomposition (SVD ). Med hjälp av SVD-nedbrytningen sönderdelas vilken matris som helst i en uppsättning ortogonala matriser, vars linjära kombination är en ganska exakt approximation till den ursprungliga matrisen.

Mer formellt, enligt singularvärdessatsen [9] , kan vilken verklig rektangulär matris som helst delas upp i en produkt av tre matriser:

,

där matriserna och  är ortogonala, och  är en diagonal matris, vars värden på diagonalen kallas matrisens singularvärden . Bokstaven T i uttrycket betyder transponeringen av matrisen.

En sådan sönderdelning har en anmärkningsvärd egenskap: om bara de största singularvärdena finns kvar i matrisen och  endast kolumnerna som motsvarar dessa värden finns kvar i matriserna och då blir produkten av de resulterande matriserna , och den bästa approximationen av den ursprungliga matrisen till rangmatrisen :

,

Huvudidén med latent semantisk analys är att om matrisen av termer-till-dokument användes som en matris , så återspeglar matrisen som bara innehåller de första linjärt oberoende komponenterna huvudstrukturen för olika beroenden som finns i den ursprungliga matrisen. Beroendestrukturen bestäms av termernas viktfunktioner.

Varje term och dokument representeras alltså av vektorer i ett gemensamt dimensionsutrymme (det så kallade hypotesutrymmet). Närheten mellan valfri kombination av termer och/eller dokument beräknas enkelt med hjälp av punktprodukten av vektorer.

Som regel beror valet på uppgiften och väljs empiriskt. Om det valda värdet är för stort, förlorar metoden sin kraft och närmar sig egenskaperna hos standardvektormetoder. Ett för litet värde på k tillåter inte att fånga skillnader mellan liknande termer eller dokument.

Applikation

Det finns tre huvudtyper av problemlösning med LSA-metoden:

Fördelar och nackdelar med LSA

Fördelar med metoden:

Brister:

Anteckningar

  1. Thomas Landauer , Peter W. Foltz och Darrell Laham. Introduktion till latent semantisk  analys //  Diskursprocesser : journal. - 1998. - Vol. 25 . - S. 259-284 . - doi : 10.1080/01638539809545028 .
  2. US-patent 4,839,853
  3. 1 2 Scott Deerwester , Susan T. Dumais , George W. Furnas , Thomas K. Landauer , Richard Harshman . Indexering genom latent semantisk analys  //  Journal of the American Society for Information Science : journal. - 1990. - Vol. 41 , nr. 6 . - s. 391-407 . - doi : 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9 . Arkiverad från originalet den 17 juli 2012.
  4. Thomas Landauer , Susan T. Dumais . En lösning på Platons problem: The Latent Semantic Analysis Theory of Acquisition, Induction, and Representation of Knowledge  //  JPsychological Review. : journal. - 1997. - Vol. 104 . - S. 211-240 . Arkiverad från originalet den 14 mars 2012.
  5. B. Lemaire , G. Denhière . Kognitiva modeller baserade på latent semantisk analys  (obestämd)  // Handledning ges vid den 5:e internationella konferensen om kognitiv modellering (ICCM'2003), Bamberg, Tyskland, 9 april 2003.. - 2003.  (inte tillgänglig länk)
  6. Nekrestyanov I. S. Ämnesorienterade metoder för informationssökning / Avhandling för graden av Ph.D. St. Petersburg State University, 2000.
  7. Solovyov A. N. Modellering av processerna för att förstå tal med hjälp av latent semantisk analys / Avhandling för graden av Ph.D. St. Petersburg State University, 2008.
  8. Arkiverad kopia . Hämtad 1 september 2017. Arkiverad från originalet 1 september 2017.
  9. Golub J., Van Lone C. Matrix Computing. M.: Mir, 1999.

Länkar