Term Dokumentmatris

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 8 juni 2018; kontroller kräver 6 redigeringar .

Term-dokumentmatrisen är en matematisk matris som beskriver frekvensen av termer som förekommer i en samling dokument. I en term-dokumentmatris motsvarar rader dokument i samlingen och kolumner motsvarar termer. Det finns olika scheman för att bestämma värdet på varje matriselement. En av dessa är TF-IDF- schemat . De är användbara inom området naturlig språkbehandling , särskilt i metoder för latent semantisk analys .

Allmänt koncept

När du skapar en databas med termer som används i en uppsättning dokument, bildas termmatrisen som en incidensmatris, vars rader motsvarar dokumenten och elementen i raderna motsvarar närvaron av motsvarande termer i dessa dokument . Till exempel, om det finns två korta dokument:

då kommer motsvarande termmatris att se ut så här:

till mig tycka om gillar inte data
D1 ett ett 0 ett
D2 ett 0 ett ett

som visar vilka termer som finns i vissa dokument och hur många gånger de förekommer. Detta tillvägagångssätt liknar användningen av incidensmatrisen i analysen av meningar som bildar en korpus av ord [1] .

Anteckningar

  1. Slyusar, V.I. Tillämpning av slutprodukt av matriser i naturliga språkbehandlingsproblem. . Neuromuskulära teknologier och utvecklingen av NMT&Z-2020: en samling av vetenskaplig praxis från XIX International Scientific Conference "Neuro-temperance-teknologier och utvecklingen av NMT&Z-2020". - Kramatorsk: Donbas State Machine Building Academy. -2020. 156 - 162. (2020). Hämtad 12 december 2020. Arkiverad från originalet 25 januari 2021.