Term Dokumentmatris

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 8 juni 2018; kontroller kräver 6 redigeringar .

Term-dokumentmatrisen är en matematisk matris som beskriver frekvensen av termer som förekommer i en samling dokument. I en term-dokumentmatris motsvarar rader dokument i samlingen och kolumner motsvarar termer. Det finns olika scheman för att bestämma värdet på varje matriselement. En av dessa är TF-IDF- schemat . De är användbara inom området naturlig språkbehandling , särskilt i metoder för latent semantisk analys .

Allmänt koncept

När du skapar en databas med termer som används i en uppsättning dokument, bildas termmatrisen som en incidensmatris, vars rader motsvarar dokumenten och elementen i raderna motsvarar närvaron av motsvarande termer i dessa dokument . Till exempel, om det finns två korta dokument:

D1 = "Jag gillar data"
D2 = "Jag gillar inte data",

då kommer motsvarande termmatris att se ut så här:

	till mig	tycka om	gillar inte	data
D1	ett	ett	0	ett
D2	ett	0	ett	ett

som visar vilka termer som finns i vissa dokument och hur många gånger de förekommer. Detta tillvägagångssätt liknar användningen av incidensmatrisen i analysen av meningar som bildar en korpus av ord [1] .

Anteckningar

↑ Slyusar, V.I. Tillämpning av slutprodukt av matriser i naturliga språkbehandlingsproblem. . Neuromuskulära teknologier och utvecklingen av NMT&Z-2020: en samling av vetenskaplig praxis från XIX International Scientific Conference "Neuro-temperance-teknologier och utvecklingen av NMT&Z-2020". - Kramatorsk: Donbas State Machine Building Academy. -2020. 156 - 162. (2020). Hämtad 12 december 2020. Arkiverad från originalet 25 januari 2021. (obestämd)

naturlig språkbehandling
Allmänna definitioner	Korpus av texter talkorpus Stoppa ord påse med ord AI fullständighet N-gram Bigram chiffer trigram
Textanalys	Textsegmentering Delvis markering Ytanalys Sammansatt ordbehandling Extrahera samlokaliseringar härrörande Lematisering Named Entity Recognition Coreference resolution Textsentimentanalys Konceptextraktion analysera Upplösning av lexikal polysemi Extrahera terminologi Informationsextraktion Språkidentifiering Falldefinition
Refererar	Extrahera meningar Abstrakt generation Referens till flera dokument Textförenkling
Maskinöversätta	automatiserad Hybrid Interlingual Regelbaserad Baserat på exempel Ordboksbaserad Baserat på transformation neural Statistisk Synkron
Identifiering och datainsamling	Taligenkänning talsyntes Optisk teckenigenkänning Textgenerering
Tematisk modell	Pachinko placering Latent Dirichlet placering Latent semantisk analys
Peer review	Automatiserad bedömning av uppsatser Konkordansör Automatisk textinmatning Grammatikkontroll Stavningskontroll Syntax gissning
Naturligt språkgränssnitt	virtuell assistent Virtuell samtalspartner Fråge- och svarsystem Röstgränssnitt Interaktiv litteratur