Coreference

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 16 augusti 2019; kontroller kräver 2 redigeringar .

Corereference eller referensidentitet är förhållandet mellan namn - komponenter i påståendet, där namnen refererar till samma objekt (situation) av extralingvistisk verklighet ( referent ) [1] .

Tack vare coreference kan en text göras sammanhängande, ofta, men inte nödvändigtvis, i form av en anaforisk relation (ett pronominellt ord eller en bestämd betydelse - ett pronomen ).

Exempel

Anaforiskt förhållande "pronominalord - pronomen": " Boken ligger på bordet. Hon är tung."

Anaforisk relation "betydelsen av visshet är ett pronomen": " Boken ligger på bordet. Tom är tung."

Metonymi : " Författaren fick allmänheten att läsa sig själv ." (här själv - författarens verk)

Coreference av namn i datorbehandling av information

Ett namn i informationssystem med en tabellform av informationspresentation ( databaser , webbplatser , kalkylblad , etc.) representeras av ett attribut eller en uppsättning attribut för en tupel (för substantivfraser). Karaktär-för-symbol olika namn i sådana system kan vara coreferential, och attributen som innehåller dem kan vara semantiskt ekvivalenta . Till exempel är namnet "rengöringsmedel" en koppling till namnet "rengöringsmedel" . [2]

Utan tvekan, i avsaknad av särskilda regler, kommer centrala namn att skrivas in av operatörer av olika informationssystem olika tecken för tecken. Vanligtvis anses problemet med att bestämma den semantiska ekvivalensen för symboliska attribut vara algoritmiskt olösligt. På nivån för individuella mjukvarulösningar använder stater och världssamfundet som helhet teknologier som gör det möjligt att implicit överföra namnjämförelsefunktionen till datoroperatören och presentera resultatet i form av en kod, eller på annat algoritmiskt bekvämt sätt. form.

I Ryska federationen måste varje skattebetalare ha sitt eget TIN
Varje produkt i vilken stormarknad som helst i världen har en unik numerisk kod kodad i en streckkod
GOST 7.1-2003 introducerar en enda standard för bibliografiska poster och bibliografiska beskrivningar
Dublin Core är standarden för att beskriva det bredaste utbudet av nätverksresurser
CommerceML använder olika elektroniska dokumentutbytesformat

Framsteg inom datoranalys av naturliga språk gör det möjligt att skapa informationssystem för att lösa sådana problem där införandet av kodbeteckningar eller namnstandarder är omöjligt. Price.ru- systemet för att söka information om varor kan betraktas som en pionjär i Runet för automatisk jämförelse av semantiken för namn . Den använder metoderna för informationshämtningssystem, vilket gör att du kan fastställa den semantiska toleransen för olika namn.

De flesta av forskningen och publikationerna är relaterade till automatiseringen av upprättandet av coreferential relations i en naturlig språktext. Användningen av domänspecifika semantiska modeller gör det möjligt att effektivt utföra semantisk jämförelse av tecken-för-tecken-namn i databaser för olika tillämpade ändamål.

Anteckningar

↑ Linguistic Encyclopedic Dictionary , "Coreference"
↑ Ahmed K. Elmagarmid, Panagiotis G. Ipeirotis, Vassilios S. Verykios. Identifiering av dubbletter av poster: En undersökning . IEEE TRANSAKTIONER OM KUNSKAP OCH DATATEKNIK, VOL. 19, nr. 1 JANUARI 2007. Arkiverad från originalet den 22 juli 2012. (obestämd)

Litteratur

Språklig encyklopedisk ordbok

Länkar

Ordlista på Forensic Experts webbplats, "Coreference (Referential Identity")
Eric Bengtson, Dan Roth Förstå värdet av funktioner för Coreference Resolution
Ermakov A. E. Referensbeteckningar på personer och organisationer i ryskspråkiga medietexter: empiriska mönster för datoranalys
Berdnik V. L. Modeller och metoder för semantisk jämförelse av teckensträngar i en samling dokument