Allmän arkitektur för textteknik (GATE) | |
---|---|
| |
Sorts | Datautvinning, informationsutvinning |
Utvecklare | University of Sheffield |
Skrivet i | Java |
Gränssnitt | Grafiska, GATE API:er |
Operativ system | Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris, etc. |
Gränssnittsspråk | engelsk |
Första upplagan | 1995 |
Hårdvaruplattform | Java Virtual Machine |
senaste versionen |
|
Licens | LGPL |
Hemsida | gate.ac.uk |
Mediafiler på Wikimedia Commons |
General Architecture for Text Engineering (GATE, program) är ett naturligt språkbehandlingssystem med öppen källkod som använder uppsättningar av komponenter i Java-språket [1] . Systemet utvecklades ursprungligen vid University of Sheffield och har utvecklats sedan 1995.
Med hjälp av GATE implementeras uppgifter där det krävs att identifiera textens semantiska innehåll och koda den i en strukturerad form genom att lägga till annoteringar till textsegment. GATE används tillsammans med NLTK , R och RapidMiner [2] . Systemet används för informationsextraktion , manuell och automatisk semantisk annotering, korreferensanalys , arbete med ontologier (till exempel WordNet), maskininlärning (Weka, RASP, MAXENT, SVM Light), flödesanalys av blogginlägg (till exempel Twitter) [3] .
GATE-familjen av verktyg inkluderar: GATE-utvecklare, GATE Mímir, GATE Cloud (för att arbeta med storskaliga språkprojekt), GATE Teamware (serveroptimering för kollaborativ textkommentar), GATE Embedded (objektbibliotek) [4] .
GATE stöds av en stor grupp av utvecklare, användare, lärare, studenter och forskare. Används i kommersiella och forskningsprojekt av stora företag, forskningslaboratorier och universitet, små och medelstora kommersiella företag runt om i världen. GATE tillämpas inom en mängd olika vetenskapliga områden relaterade till beräkningslingvistik , naturlig språkbehandling , modellering av språkprocesser, beräkningsbiologi och medicin [5] . Projekt som använder GATE: ForgetIT (UK), The National Archives (UK), EMILLE (UK), myGRID Arkiverad 29 september 2013 på Wayback Machine (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgarien), MeManage (ej tillgänglig länk) (Tyskland), Med Dictate (Kanada), IE Denso (Japan) [6] .
GATE-arkitekturen består av inbördes relaterade komponenter: "bitar" av mjukvara med väldefinierade gränssnitt som kan användas i en mängd olika sammanhang. GATE implementerar färdiga lösningar för tokenisering, taggning, uppdelning av text i satser (splitter), extrahering av namngivna enheter , maskininlärning . Komponenter är indelade i tre kategorier efter funktion:
Följande dokumentformat stöds: vanlig text, HTML, SGML, XML, RTF, e-post, PDF (vissa dokument), Microsoft Office (vissa format), OpenOffice (vissa format), UIMA CAS, CoNLL/IOB. Att arbeta med dokumentformat i GATE har ett antal specifika funktioner [7] . GATE har inbyggda olika verktyg för att arbeta med Unicode. Språk som stöds: engelska (standard), spanska, kinesiska, arabiska, bulgariska, franska, tyska, hindi, italienska, cebuano, rumänska, ryska.
När programmet startas innehåller dess huvudfönster fyra huvudmenyalternativ: Program, Språkresurser, Bearbetningsresurser, Dataarkiv.
Kontrollanten, tillsammans med dess tillhörande textbehandlingsprogram (Bearbetningsresurser). Definierade och lagrade ordbehandlingsprocesser kan återanvändas på ett enda dokument eller textkorpus. Detta säkerställer tillförlitlig textbehandling och sparar tid.
Innehåller tre typer av data: dokument, korpora och anteckningsdiagram.
Program för ordbehandling. I GATE används resurser för att automatiskt skapa och hantera kommentarer. Med PR kan du lägga till eller ändra dokumentuppmärkning. En ny PR skapas på samma sätt som LR. När du skapar en PR ställs parametrar in, vilka är av två typer: initialiseringsparametrar och startparametrar. Den förra måste ställas in när resursen skapas, den senare precis innan den startas från styrenheten. Regulatorerna styr driften av PR. De är ansvariga för den ordning i vilken PR tillämpas och samspelet mellan PR och LR. Huvudtyperna av styrenheter:
Principerna för att arbeta med Pipeline och Corpus Pipeline är liknande: en ny styrenhet skapas (högerklicka på Applications > New > controller name), PRs väljs från listan till vänster och installeras i den ordning som användaren anger. Ange måldokumentet vid Pipeline, målkorpus vid Corpus Pipeline, parametrar för PR definieras. Efter start av Run kommer styrenheten att börja sekventiellt starta PR på de valda dokumenten i den ordning som specificeras av användaren.
Kontrollerkonfigurationer (PR + inställningar) kan sparas i applikationer (Spara applikationstillstånd), helst med tillägget .gapp.
CREOLE resurspaketUppsättningen av resurser som är integrerade med GATE är känd som CREOLE - Reusable Objects for Language Engineering. Resurser lagras i CREOLE-förråd, som innehåller XML-filer, Java-arkivkoder och bibliotek som behövs för resurser. Resurserna som används är grupperade i plugins [8] som lagras på en specifik adress (URL eller file:/URL). Plugins kan vara grundläggande (laddas under GATE-installation) och anpassade, de kan placeras på en lokal enhet eller en fjärrserver. När filen är inläst i GATE ser den ut som en creole.xml-inställningsfil. CREOLE-insticksprogram hanteras via gränssnittet med kommandot Arkiv > Hantera CREOLE-insticksprogram > Lägg till nytt kreolskt arkiv. GATE representeras som en uppsättning inställningar (funktioner) där användaren ansluter CREOLE-komponenter: användaren specificerar en lista med adresser, GATE extraherar motsvarande resurser (PR) från dem. När ett plugin-program är valt visas dess inställningslista i fältet till höger.
Datalagring. Behövs för att lagra dokument/ärenden och processer för senare användning. Av alla lagringstyper används Serial DataStore ofta. förvaringsburk
En sekvens av ordbehandlingsprocesser från Applications kan köras från DataStore. Du måste öppna DataStore, öppna ärendet och välj sedan det här fallet i Applications. När du kör Application på en body från DataStore kommer varje dokument att laddas, bearbetas, sparas och stängs. Det vill säga att endast ett dokument behandlas åt gången. Detta överbelastas inte minnet, men processen är långsammare än om alla dokument behandlades samtidigt.
Genom att markera dokument i enlighet med enhetliga regler kan du söka efter och extrahera data från ett dokument, skapa ontologier .
I GATE, efter att ha öppnat dokumentredigeraren, visas flikarna Annotations Sets och Annotations List (eller Annotations beroende på versionen av Gate), där du i listan till höger kan kontrollera vilka typer av kommentarer som du vill visa eller skapa kommentarer . Funktionen Ändra färg finns. När en textbit som en anteckning ska tilldelas är markerad, visas fönstret Annotation Editor, som innehåller följande fält och kontroller:
Anteckningar grupperas i Annotationsuppsättningar. Detta är en praktisk funktion som låter dig lagra flera uppmärkningsalternativ för ett dokument, till exempel expert och automatisk. Expertuppmärkning lagras vanligtvis i en AnnotationSet som heter Key. Automatisk markering skrivs vanligtvis i en tom AnnotationSet, som finns i alla dokument som standard. Det finns ingen AnnotationSet Key i dokumenten, du måste skapa den, ange ordet Key i fältet under annoteringstyperna och klicka på New.
GATE har ett AI-system som heter ANNIE (A Nearly-New Information Extraction System), som inkluderar en uppsättning resurser som tillhandahåller tokenisering (ANNIE English Tokenizer), POS-taggning (ANNIE POS-Tagger), uppdelad i meningar (ANNIE Sentence Splitter) , namngiven entitetsextraktion (ANNIE Gazetteer och ANNIE NE Transducer) och coreference-analys (ANNIE OrthoMatcher). Utvecklare: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov och andra. ANNIE-utvecklare använder JAPE [9] finita automatalgoritmer och reguljära uttryck .
ANNIE-komponenter är integrerade i applikationen, så för initiering klickar du bara på motsvarande gröna ikon i GATE-verktygsfältet och väljer med standardinställningar. När alla resurser visas i listan Bearbetningsresurser dubbelklickar du för att öppna ANNIE-applikationen, som finns i applikationslistan. Gränssnittet för ANNIE-appen är detsamma som resten av apparna. På höger sida finns en ordnad lista med resurser som kommer att anropas på dokumentet i exakt den ordningsföljd som anges i listan. ANNIE-applikationen tillhör klassen Corpus Pipeline, det vill säga den måste köras på en korpus av texter. Som ett resultat av driften av ANNIE-systemet läggs ett antal kommentarer till standardanteckningsuppsättningen, inklusive Token (tokens), Mening (meningar), Lookup (ordboksposter), Person, Plats, Organisation. Om korpusen och dokumenten fanns i DataStore innan ANNIE kördes, kommer ANNIE att hämta dokumenten ett i taget, bearbeta dem och lägga tillbaka dem.
Lista över komponenter:
GATE har inbyggda verktyg för att testa resultatet av textbehandling:
Parametrar: Nyckeluppsättning (namn på AnnotationSet med markering #1), Responsuppsättning (namn på AnnotationSet med markering #2), Typ (endast en typ kan testas åt gången), Features (attribut som vi jämför). Efter att ha startat jämförelsen (Compare), kommer AnnotationDiff att mata ut par av kommentarer, vilket markerar typen av par med en färg. Typer: Korrekt (full matchning), Saknas (korrekt anteckning hittades inte), falsk/falsk positiv (extra anteckning hittades), Delvis korrekt (korsar delvis anteckningsgränser). Beroende på antalet par av olika typer beräknas standardmåtten Precision, Recall och F.
Fliken Corpus Quality Assurance öppnas i önskat korpusfönster. CQA kommer att samla in data om uppsättningar, kommentarer och deras attribut. Det är nödvändigt att ställa in parametrarna, välja typer av bedömningar (till exempel F1.0-poäng strikt, mild och genomsnittlig). Kör jämförelse. På fliken Dokumentstatistik kan du se statistik över dokument, samt omedelbart öppna det valda dokumentet eller se AnnotationDiff för det. Testresultat kan exporteras till HTML.
GATE Mímir är en sökmotor med öppen källkod på SourceForge, distribuerad under GNU Lesser General Public License 3.0. GATE Mímir tillhandahåller stöd för indexering och sökning efter språklig och semantisk information från applikationer med enorma databaser med språklig data. GATE Mímir ger möjligheten att söka efter information om text, annoteringar, semantiska ontologier och semantiska metadata med hjälp av godtyckliga kombinationer av text, strukturell information och SPARQL. Utvecklarna tillhandahåller inte en färdig paketerad produkt, utan erbjuder att ladda ner källorna och kompilera dina egna filer. Användarmanualen för GATE Mímir [10] , användningsexempel [11] tillhandahålls , för de senaste versionerna finns arkiv för ett helt källträd tillgängliga [12] .