Term-dokumentmatrisen är en matematisk matris som beskriver frekvensen av termer som förekommer i en samling dokument. I en term-dokumentmatris motsvarar rader dokument i samlingen och kolumner motsvarar termer. Det finns olika scheman för att bestämma värdet på varje matriselement. En av dessa är TF-IDF- schemat . De är användbara inom området naturlig språkbehandling , särskilt i metoder för latent semantisk analys .
När du skapar en databas med termer som används i en uppsättning dokument, bildas termmatrisen som en incidensmatris, vars rader motsvarar dokumenten och elementen i raderna motsvarar närvaron av motsvarande termer i dessa dokument . Till exempel, om det finns två korta dokument:
då kommer motsvarande termmatris att se ut så här:
till mig | tycka om | gillar inte | data | |
---|---|---|---|---|
D1 | ett | ett | 0 | ett |
D2 | ett | 0 | ett | ett |
som visar vilka termer som finns i vissa dokument och hur många gånger de förekommer. Detta tillvägagångssätt liknar användningen av incidensmatrisen i analysen av meningar som bildar en korpus av ord [1] .
naturlig språkbehandling | |
---|---|
Allmänna definitioner | |
Textanalys |
|
Refererar |
|
Maskinöversätta |
|
Identifiering och datainsamling | |
Tematisk modell | |
Peer review |
|
Naturligt språkgränssnitt |