GATE (program)

Allmän arkitektur för textteknik (GATE)

Huvudfönster för GATE-utvecklare
Sorts Datautvinning, informationsutvinning
Utvecklare University of Sheffield
Skrivet i Java
Gränssnitt Grafiska, GATE API:er
Operativ system Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris, etc.
Gränssnittsspråk engelsk
Första upplagan 1995
Hårdvaruplattform Java Virtual Machine
senaste versionen
Licens LGPL
Hemsida gate.ac.uk
 Mediafiler på Wikimedia Commons

General Architecture for Text Engineering (GATE, program)  är ett naturligt språkbehandlingssystem med öppen källkod som använder uppsättningar av komponenter i Java-språket [1] . Systemet utvecklades ursprungligen vid University of Sheffield och har utvecklats sedan 1995.

Med hjälp av GATE implementeras uppgifter där det krävs att identifiera textens semantiska innehåll och koda den i en strukturerad form genom att lägga till annoteringar till textsegment. GATE används tillsammans med NLTK , R och RapidMiner [2] . Systemet används för informationsextraktion , manuell och automatisk semantisk annotering, korreferensanalys , arbete med ontologier (till exempel WordNet), maskininlärning (Weka, RASP, MAXENT, SVM Light), flödesanalys av blogginlägg (till exempel Twitter) [3] .

GATE-familjen av verktyg inkluderar: GATE-utvecklare, GATE Mímir, GATE Cloud (för att arbeta med storskaliga språkprojekt), GATE Teamware (serveroptimering för kollaborativ textkommentar), GATE Embedded (objektbibliotek) [4] .

GATE stöds av en stor grupp av utvecklare, användare, lärare, studenter och forskare. Används i kommersiella och forskningsprojekt av stora företag, forskningslaboratorier och universitet, små och medelstora kommersiella företag runt om i världen. GATE tillämpas inom en mängd olika vetenskapliga områden relaterade till beräkningslingvistik , naturlig språkbehandling , modellering av språkprocesser, beräkningsbiologi och medicin [5] . Projekt som använder GATE: ForgetIT (UK), The National Archives (UK), EMILLE (UK), myGRID Arkiverad 29 september 2013 på Wayback Machine (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgarien), MeManage  (ej tillgänglig länk) (Tyskland), Med Dictate (Kanada), IE Denso (Japan) [6] .

Arkitektur och grundläggande funktioner

GATE-arkitekturen består av inbördes relaterade komponenter: "bitar" av mjukvara med väldefinierade gränssnitt som kan användas i en mängd olika sammanhang. GATE implementerar färdiga lösningar för tokenisering, taggning, uppdelning av text i satser (splitter), extrahering av namngivna enheter , maskininlärning . Komponenter är indelade i tre kategorier efter funktion:

Följande dokumentformat stöds: vanlig text, HTML, SGML, XML, RTF, e-post, PDF (vissa dokument), Microsoft Office (vissa format), OpenOffice (vissa format), UIMA CAS, CoNLL/IOB. Att arbeta med dokumentformat i GATE har ett antal specifika funktioner [7] . GATE har inbyggda olika verktyg för att arbeta med Unicode. Språk som stöds: engelska (standard), spanska, kinesiska, arabiska, bulgariska, franska, tyska, hindi, italienska, cebuano, rumänska, ryska.

När programmet startas innehåller dess huvudfönster fyra huvudmenyalternativ: Program, Språkresurser, Bearbetningsresurser, Dataarkiv.

Applikationer

Kontrollanten, tillsammans med dess tillhörande textbehandlingsprogram (Bearbetningsresurser). Definierade och lagrade ordbehandlingsprocesser kan återanvändas på ett enda dokument eller textkorpus. Detta säkerställer tillförlitlig textbehandling och sparar tid.

Språkresurser (LR)

Innehåller tre typer av data: dokument, korpora och anteckningsdiagram.

Bearbetningsresurser (PR)

Program för ordbehandling. I GATE används resurser för att automatiskt skapa och hantera kommentarer. Med PR kan du lägga till eller ändra dokumentuppmärkning. En ny PR skapas på samma sätt som LR. När du skapar en PR ställs parametrar in, vilka är av två typer: initialiseringsparametrar och startparametrar. Den förra måste ställas in när resursen skapas, den senare precis innan den startas från styrenheten. Regulatorerna styr driften av PR. De är ansvariga för den ordning i vilken PR tillämpas och samspelet mellan PR och LR. Huvudtyperna av styrenheter:

Principerna för att arbeta med Pipeline och Corpus Pipeline är liknande: en ny styrenhet skapas (högerklicka på Applications > New > controller name), PRs väljs från listan till vänster och installeras i den ordning som användaren anger. Ange måldokumentet vid Pipeline, målkorpus vid Corpus Pipeline, parametrar för PR definieras. Efter start av Run kommer styrenheten att börja sekventiellt starta PR på de valda dokumenten i den ordning som specificeras av användaren.

Kontrollerkonfigurationer (PR + inställningar) kan sparas i applikationer (Spara applikationstillstånd), helst med tillägget .gapp.

CREOLE resurspaket

Uppsättningen av resurser som är integrerade med GATE är känd som CREOLE  - Reusable Objects for Language Engineering. Resurser lagras i CREOLE-förråd, som innehåller XML-filer, Java-arkivkoder och bibliotek som behövs för resurser. Resurserna som används är grupperade i plugins [8] som lagras på en specifik adress (URL eller file:/URL). Plugins kan vara grundläggande (laddas under GATE-installation) och anpassade, de kan placeras på en lokal enhet eller en fjärrserver. När filen är inläst i GATE ser den ut som en creole.xml-inställningsfil. CREOLE-insticksprogram hanteras via gränssnittet med kommandot Arkiv > Hantera CREOLE-insticksprogram > Lägg till nytt kreolskt arkiv. GATE representeras som en uppsättning inställningar (funktioner) där användaren ansluter CREOLE-komponenter: användaren specificerar en lista med adresser, GATE extraherar motsvarande resurser (PR) från dem. När ett plugin-program är valt visas dess inställningslista i fältet till höger.

databutiker

Datalagring. Behövs för att lagra dokument/ärenden och processer för senare användning. Av alla lagringstyper används Serial DataStore ofta. förvaringsburk

  • skapa (Datalager > Skapa datalager > Serial DataStore > ange en tom mapp utan kyrilliska tecken och mellanslag i sökvägen),
  • öppna tidigare skapade (Öppna datalager),
  • spara dokument och ärenden i den (Öppna dataarkivet > dubbelklicka på ett dokument/ärende),
  • spara ändringar som gjorts i dokumentet eller korpusen (Spara i dess datalager).

En sekvens av ordbehandlingsprocesser från Applications kan köras från DataStore. Du måste öppna DataStore, öppna ärendet och välj sedan det här fallet i Applications. När du kör Application på en body från DataStore kommer varje dokument att laddas, bearbetas, sparas och stängs. Det vill säga att endast ett dokument behandlas åt gången. Detta överbelastas inte minnet, men processen är långsammare än om alla dokument behandlades samtidigt.

Dokumentuppmärkning i GATE Developer

Genom att markera dokument i enlighet med enhetliga regler kan du söka efter och extrahera data från ett dokument, skapa ontologier .

I GATE, efter att ha öppnat dokumentredigeraren, visas flikarna Annotations Sets och Annotations List (eller Annotations beroende på versionen av Gate), där du i listan till höger kan kontrollera vilka typer av kommentarer som du vill visa eller skapa kommentarer . Funktionen Ändra färg finns. När en textbit som en anteckning ska tilldelas är markerad, visas fönstret Annotation Editor, som innehåller följande fält och kontroller:

  1. Anteckningstyp (om några typer redan har lagts till kan du välja bland befintliga)
  2. Attributnamn (tomma fält för nästa attribut visas automatiskt)
  3. Attributvärde
  4. Knappen Ta bort anteckning

Anteckningar grupperas i Annotationsuppsättningar. Detta är en praktisk funktion som låter dig lagra flera uppmärkningsalternativ för ett dokument, till exempel expert och automatisk. Expertuppmärkning lagras vanligtvis i en AnnotationSet som heter Key. Automatisk markering skrivs vanligtvis i en tom AnnotationSet, som finns i alla dokument som standard. Det finns ingen AnnotationSet Key i dokumenten, du måste skapa den, ange ordet Key i fältet under annoteringstyperna och klicka på New.

ANNIE system

GATE har ett AI-system som heter ANNIE (A Nearly-New Information Extraction System), som inkluderar en uppsättning resurser som tillhandahåller tokenisering (ANNIE English Tokenizer), POS-taggning (ANNIE POS-Tagger), uppdelad i meningar (ANNIE Sentence Splitter) , namngiven entitetsextraktion (ANNIE Gazetteer och ANNIE NE Transducer) och coreference-analys (ANNIE OrthoMatcher). Utvecklare: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov och andra. ANNIE-utvecklare använder JAPE [9] finita automatalgoritmer och reguljära uttryck .

ANNIE-komponenter är integrerade i applikationen, så för initiering klickar du bara på motsvarande gröna ikon i GATE-verktygsfältet och väljer med standardinställningar. När alla resurser visas i listan Bearbetningsresurser dubbelklickar du för att öppna ANNIE-applikationen, som finns i applikationslistan. Gränssnittet för ANNIE-appen är detsamma som resten av apparna. På höger sida finns en ordnad lista med resurser som kommer att anropas på dokumentet i exakt den ordningsföljd som anges i listan. ANNIE-applikationen tillhör klassen Corpus Pipeline, det vill säga den måste köras på en korpus av texter. Som ett resultat av driften av ANNIE-systemet läggs ett antal kommentarer till standardanteckningsuppsättningen, inklusive Token (tokens), Mening (meningar), Lookup (ordboksposter), Person, Plats, Organisation. Om korpusen och dokumenten fanns i DataStore innan ANNIE kördes, kommer ANNIE att hämta dokumenten ett i taget, bearbeta dem och lägga tillbaka dem.

Lista över komponenter:

  1. PR-listan har en PR-resurs för återställning av dokument som tar bort markeringar från dokumentet före bearbetning. Resursen har en setsToKeep-parameter, som listar namnen på AnnotationSets som inte behöver rensas. Om det finns manuell markering i dokumentet måste du se till att AnnotationSet som innehåller denna markering finns med i den här listan, annars kommer den att raderas. Som standard anges nyckeluppsättningen där.
  2. Tokenizer . Delar in text i tokens, nämligen siffror, skiljetecken, ord, symboler, mellanslag. Varje token tilldelas sin typ, respektive Word (ortattribut med parametrar: upperInitial, allCaps, SmallCase, mixedCaps), Number, Symbol, Interpunktion, SpaceToken.
  3. Gazetteer . Definierar namngivna enheter i enlighet med listan, det vill säga en textfil (oformaterad text) med en lista över namngivna enheter rad för rad. Varje lista innehåller en annan uppsättning namngivna enheter: städer, organisationer, veckodagar etc. för endast ett av de givna språken. Filen lists.def ger tillgång till en lista med namngivna enheter. Du kan ställa in anteckningstypen för en individuell lista med namngivna enheter. Varje lista måste finnas i samma katalog som lists.def-indexfilen.
  4. Meningsdelare . Delar in texten i meningar. Delaren använder listan över förkortningar från Gazetteer för att skilja slutet på en mening från andra typer av skiljetecken. Varje yttrande tilldelas "Mening"-kommentaren, inuti vilken är "Delad"-kommentaren med värdet "intern" och "extern" för att särskilja fråge-, utrops-, bekräftande meningar.
  5. RegEx meningsdelare . Ett alternativt sätt att dela upp text i meningar med JAPE reguljära uttryck.
  6. En del av Speech Tagger . Annoterar varje ord och tecken. Det finns en lista över använda taggar. Använder ordförråd och många regler baserade på korpusen i Wall Street Journal. Regler och ordförråd kan ändras manuellt.
  7. Semantisk taggare . Semantisk anteckning utförs med JAPE resolver-regler (reguljära uttryck) som använder taggarna som erhållits i tidigare annoteringssteg.
  8. Ortografisk Coreference (OrthoMatcher eller 'NameMatcher'). Lägger till en relationstyp mellan namngivna entitetstaggar och semantiska taggar. Hittar inga nya namngivna enheter, men kan tilldela en oklassificerbar typ till ett egennamn baserat på ordmatchningar.
  9. Pronominal Coreference . Ansluten till PR som en extra resurs för ANNIE-plugin. Kan hitta citerad text, direkt tal, pronomen (substitution av substantiv, anafora ), upprepningar. Kräver preliminär anteckning med taggar: Token (engelsk Tokenizer), Mening (Sentence Splitter), Split (Meningsdelare), Plats (NE Transducer, OrthoMatcher), Person (NE Transducer, OrthoMatcher), Organisation (NE Transducer, OrthoMatcher). Analysen utförs med hjälp av reglerna för JAPE-omvandlaren (reguljära uttryck), en tillståndsmaskin är byggd för att söka efter tecken på direkt tal och citat (enkla och dubbla citattecken, etc.), sök efter pronomenet "det, dess, sig själv" och "jag, jag, min, mig själv."

Testa resultaten av textbearbetning

GATE har inbyggda verktyg för att testa resultatet av textbehandling:

  • AnnotationDiff-verktyget utför en jämförelse på samma dokument (jämför knappen på GATE-panelen).

Parametrar: Nyckeluppsättning (namn på AnnotationSet med markering #1), Responsuppsättning (namn på AnnotationSet med markering #2), Typ (endast en typ kan testas åt gången), Features (attribut som vi jämför). Efter att ha startat jämförelsen (Compare), kommer AnnotationDiff att mata ut par av kommentarer, vilket markerar typen av par med en färg. Typer: Korrekt (full matchning), Saknas (korrekt anteckning hittades inte), falsk/falsk positiv (extra anteckning hittades), Delvis korrekt (korsar delvis anteckningsgränser). Beroende på antalet par av olika typer beräknas standardmåtten Precision, Recall och F.

  • Corpus Quality Assurance (CQA) är utformad för att beräkna kvalitetsmått på en korpus.

Fliken Corpus Quality Assurance öppnas i önskat korpusfönster. CQA kommer att samla in data om uppsättningar, kommentarer och deras attribut. Det är nödvändigt att ställa in parametrarna, välja typer av bedömningar (till exempel F1.0-poäng strikt, mild och genomsnittlig). Kör jämförelse. På fliken Dokumentstatistik kan du se statistik över dokument, samt omedelbart öppna det valda dokumentet eller se AnnotationDiff för det. Testresultat kan exporteras till HTML.

GATE Mimir

GATE Mímir är en sökmotor med öppen källkod på SourceForge, distribuerad under GNU Lesser General Public License 3.0. GATE Mímir tillhandahåller stöd för indexering och sökning efter språklig och semantisk information från applikationer med enorma databaser med språklig data. GATE Mímir ger möjligheten att söka efter information om text, annoteringar, semantiska ontologier och semantiska metadata med hjälp av godtyckliga kombinationer av text, strukturell information och SPARQL. Utvecklarna tillhandahåller inte en färdig paketerad produkt, utan erbjuder att ladda ner källorna och kompilera dina egna filer. Användarmanualen för GATE Mímir [10] , användningsexempel [11] tillhandahålls , för de senaste versionerna finns arkiv för ett helt källträd tillgängliga [12] .

Se även

Anteckningar

  1. tao , sid. 5.
  2. Grimes, 2009 .
  3. TwitIE, 2013 .
  4. tao , sid. 6.
  5. BiomedicalGate, 2013 .
  6. Projekt .
  7. Användarhandbok för GATE , sid. 93.
  8. Lista över GATE-insticksprogram .
  9. Dela upp om JAPE .
  10. Mimir .
  11. MimirExamples .
  12. Mímir källa .

Litteratur

Länkar