Författarens invariant

Författarens invariant ( eng.  writer invariant, authorial invariant, author's invariant ) är en kvantitativ egenskap hos litterära texter eller en viss parameter som entydigt genom sitt beteende karaktäriserar en författares eller ett litet antal "nära författare", och tar på sig väsentligt olika värden för verk av olika grupper av författare. Författarens invariant används i problemet med att identifiera författarskapet till en text.

Uppgiften att identifiera författarskapet till en text är uppgiften att fastställa författarskapet till en okänd text genom att lyfta fram dragen i författarens stil och jämföra dessa egenskaper med andra verk vars författarskap är känt.

Beskrivning

De huvudsakliga egenskaperna som den numeriska egenskapen hos författarens invariant bör ha:

  1. Det bör vara tillräckligt "mass", integrerat, för att vara svagt kontrollerat av författaren på en medveten nivå. Det måste med andra ord vara hans "omedvetna parameter", rotad så djupt att författaren inte ens tänker på det. Och även om han tänkte på det, skulle han inte kunna kontrollera honom under lång tid och som ett resultat skulle han snarare snabbt återgå till sitt tidigare stabila och typiska tillstånd för honom.
  2. Den önskade parametern bör bibehålla ett "konstant värde" för en given författares verk. Det vill säga att ha en liten avvikelse från medelvärdet (svagt fluktuera) genom alla sina böcker. Det är denna egenskap som låter oss säga att denna parameter är en invariant av .
  3. Parametern bör säkert skilja mellan olika grupper av författare. Med andra ord bör det finnas ett tillräckligt antal författargrupper som skiljer sig märkbart från varandra i invariantens värden.

Sådana kvantitativa egenskaper kan vara:

  1. Meningslängd, det vill säga det genomsnittliga antalet ord i en mening.
  2. Ordlängd, det vill säga det genomsnittliga antalet stavelser i ett ord.
  3. Den allmänna frekvensen av användningen av tjänsteord - prepositioner, konjunktioner, partiklar, det vill säga andelen tjänsteord.
  4. Frekvensen av användningen av substantiv, det vill säga deras procentandel.
  5. Frekvensen av användningen av verb, det vill säga deras procent.
  6. Användningsfrekvens av adjektiv (i procent).
  7. Frekvensen av att använda prepositionen "in" (i procent).
  8. Frekvensen av att använda partikeln "inte" (i procent).
  9. Antalet funktionsord i en mening, det vill säga det genomsnittliga antalet konjunktioner, prepositioner och partiklar i en mening.

Identifiering av textförfattarskap

Uppgiften att identifiera textens författare

Formuleringen av problemet med att identifiera författaren till texten med en begränsad uppsättning alternativ är som följer: [1]

- många texter

- många författare.

För vissa undergrupper av texter är författarna kända, dvs. det finns många text-författarpar . Det är nödvändigt att fastställa vem av de många som är den sanna författaren till de återstående texterna (anonym eller kontroversiell)

Metod för att identifiera författaren till en okänd text

Tekniken inkluderar en sekvens av följande åtgärder: [1]

  1. Att välja en modell för att representera texter i form av funktionsuppsättningar.
  2. Val av en grupp funktioner för verifiering och bildande av en författares invariant från den.
  3. Val av klassificerare och deras parametrar.
  4. Bildande av en modell av författarens stil, som gör det möjligt att separera två eller flera författare baserat på den erhållna författarens invariant och den tränade klassificeraren.
  5. Direkt bestämma författarskapet till en okänd text.
  6. Att fatta ett slutgiltigt beslut om författaren till texten av en ensemble av klassificerare i händelse av att flera informativa grupper av textfunktioner hittades.

Textförfattaridentifieringsprogram

Mjukvaran som används för att identifiera textens författarskap kan delas in i flera typer enligt huvuduppgifterna: [2]

Applikationsnamn Författare (utvecklare) Hemsida Beskrivning
Program för att bestämma författarskapet av texten
stämpelmätare Delitsyn L. L. stämpelmätare Programmet för statistisk analys av texten och bestämning av författarskap.
Linguoanalysator [3] Khmelev D.V. Linguoanalysator Program för matematisk analys av textstruktur. Fungerar online . Specialiserat på verk av rysk science fiction. Programmet bestämmer den ingående textens närhet till en av författarna och ger som ett resultat ut de tre mest sannolika författarna, för var och en som anger de tre närmaste verken.
SMALT PetrSU SMALT Program för morfologisk och syntaktisk analys av text. Specialiserad på journalistik 60-70 år av 1800-talet. Programmet har verktyg för att identifiera statistiska drag i litterära texter efter genre och författarskap.
Stilanalysator Shevelev O.G. Programmet för att analysera författarens stil när det gäller stabilitet, frekvens och unika egenskaper hos författaren.
Program för att upptäcka plagiat
Anti-plagiat JSC "Anti-Plagiat", "Forexis" Anti-plagiat Program för att upptäcka plagiat. Bestämmer hur lik inmatningstexten är texter som publiceras på Internet.
Plagiat Informera SoftInform Plagiat Informera Programmet jämför inmatningsdokumentet med dokument i två databaser: databasen med tryckta källor och databasen med internetartiklar.
AURA-Text St Petersburg State University AURA-Text  (otillgänglig länk) Programmet är ett verktyg för att kontrollera texterna i terminsuppsatser, avhandlingar och avhandlingar för matchningar med externa källor. Specialiserat på verk av ekonomiska ämnen.
Program för datautvinning
Intelligent Miner för text IBM Intelligent Miner för text Systemet består av flera program med funktioner som att bestämma textens språk, klassificera texter, dela in dokument i grupper efter stilnärhet, identifiera nyckelord i dokumentet, identifiera textens betydelse och sammanställa anteckningar.
Textanalytiker, polyanalytiker Megaputer intelligens TextAnalyst , PolyAnalyst PolyAnalyst är ett system för automatisk textanalys. PolyAnalyst inkluderar TextAnalyst-systemet, som hanterar uppgifterna för Text Mining : skapa ett semantiskt nätverk av text, kommentera text, gruppera och klassificera dokument.
Text Miner SAS Text Miner  (nedlänk sedan 2013-05-13 [3457 dagar] - historik ) Program för logisk textbehandling. Programmet integrerar textinformation med strukturerad data.
SemioMap Semio Corporation Systemet består av 2 huvudkomponenter - SemioMap-server och SemioMap-klient. Systemdriften omfattar 3 faser: servern indexerar ostrukturerad text och extraherar nyckelfraser, servern identifierar länkar mellan fraser och bygger ett lexikalt nätverk baserat på den gemensamma förekomsten av dessa fraser , servern presenterar detta nätverk i form av grafer.
Oracle Text, Oracle Data Mining Orakel Oracle Text , Oracle Data Mining Oracle Text är ett statistiskt och språkligt textanalysprogram. För varje text identifierar programmet nyckelämnen, bygger en tematisk sammanfattning och en allmän sammanfattning-abstrakt.
Kunskapsserver Autonomi Kunskapsserver Program för statistisk textanalys. Programmet använder intelligenta algoritmer baserade på statistisk bearbetning.
Program som utgör det psykologiska porträttet av författaren till texten
LINGUA-EXPRESS Batov V.I. Programmet för att identifiera funktionerna i talbeteende och författarens karaktär.
Prostyle USA Ett textstilistiskt analysprogram som bestämmer faktorerna för diskrepans mellan två dokument.
BAAL Belyanina V.P. BAAL Fonosemantisk textanalysprogram .

En analys av kända metoder för att fastställa författarskap har visat att det inte finns något universellt tillvägagångssätt som ger ett stabilt tillförlitligt resultat. En liten mängd texter som verkligen behöver attribution tillåter inte användningen av de flesta av de kända metoderna. [4] Sålunda kan vi dra slutsatsen att det hittills inte finns några effektiva mjukvarulösningar på marknaden utformade för att fastställa författarskapet till en text. [5]

Se även

Anteckningar

  1. 1 2 Generaliserad metod för att identifiera författaren till en okänd text, 2010 , sid. ett.
  2. Programvarugranskning för identifiering av textförfattarskap, 2008 , s. 182.
  3. Erkännande av författaren till texten med hjälp av kedjor A.A. Markova, 2000 .
  4. Programvarugranskning för identifiering av textförfattarskap, 2008 , s. 183.
  5. Programvarugranskning för identifiering av textförfattarskap, 2008 , s. 184.

Litteratur

på ryska på andra språk