Kunskapsutvinning

Kunskapsextraktion är skapandet av kunskap  från strukturerade ( relationsdatabaser , XML ) och ostrukturerade källor ( texter , dokument, bilder ). Den resulterande kunskapen måste vara i ett format som tillåter datorinmatning och måste representera kunskapen på ett sätt som underlättar slutledning. Även om metoden för processen liknar informationsextraktion ( naturlig språkbehandling , eng. Naturlig språkbehandling , NLP) och processen med " Extraktion, Transformation, Loading " ( eng.  Extrahera, transformera, ladda , ETL, för datalager), det huvudsakliga resultatkriteriet är skapandet av strukturerad information eller transformation till ett relationsschema . Detta kräver antingen omvandling av befintlig formell kunskap (återanvändning av identifierare eller ontologier ) eller generering av ett schema baserat på originaldata.

RDB2RDF W3C-gruppen [1] standardiserar ett språk för att extrahera resursbeskrivningsramverk ( RDF ) från en relationsdatabas .  Ett annat populärt exempel på kunskapsextraktion är att konvertera Wikipedia till strukturerad data och kartläggning till befintlig kunskap (se DBpedia och Freebase ).

Översikt

Efter standardiseringen av kunskapsrepresentationsspråk som Resource Description Framework ( RDF) och Web Ontology Language ( OWL ) har mycket forskning gjorts inom detta område, särskilt angående transformationen av relationsdatabasen. data i RDF , igenkänningsförmåga , kunskapsupptäckt och ontologiinlärning. Huvudprocessen använder traditionella informationsextraktionsmetoder och extrahera , transformera, ladda ( ETL) metoder som konverterar data från källformat till strukturerade format .   

Följande kriterier kan användas för kategoriseringsförsök i detta ämne (några av dem tillhandahåller kunskapsextraktion från relationsdatabaser) [2] :

Källa Vilken data kan behandlas: Text, Relationsdatabas, XML , CSV
Prestanda Hur kan de extraherade data presenteras för användning (ontologi (objektmodell) fil, semantisk databas)? Hur är det möjligt att begära informationen från den mottagna representationen?
Synkronisering Utförs kunskapsutvinning en gång för att producera en dump, eller är resultatet synkroniserat med källan? Är extraktion statisk eller dynamisk? Skrivs förändringar i resultatet tillbaka till källan (dubbelriktad)?
Ordbok Återanvändning Om extraheraren tillåter återanvändning av befintliga ordböcker vid extrahering. Tabellkolumnen 'firstName' kan till exempel mappas till kolumnen foaf: firstName. Vissa automatiska metoder kan inte visa en ordbok.
Automatisering Grad av deltagande / automatisering av extraktion: Manuellt läge, det finns en GUI , halvautomatisk, automatisk.
Behovet av en domänobjektmodell Om en fördefinierad objektmodell måste mappas till den. Sålunda skapas antingen en mappning eller så erhålls ett schema från källan av ( training ontologies ).

Exempel

Namngiven enhetsbindning

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv och PoolParty Extractor tolkar godtycklig text genom att känna igen namngivna enheter , och sedan lösa tvetydigheter genom att lösa namn och länka de hittade entiteterna till DBpedia- kunskapsförrådet [pedia ] 3 ] ( Dandelion dataTXT demo , eller DBpedia Spotlight webbdemo , eller PoolParty Extractor Demo ).

President Obama uppmanade på onsdagen kongressen att inkludera en utökning av studentskatteavdrag i det ekonomiska stimulanspaketet, med argumentet att politiken skulle generera starkare stöd.

Eftersom president Obama i DBpedia är länkad till LinkedData- resursen , kan ytterligare information hämtas automatiskt och den semantiska resoneraren kan till exempel dra slutsatsen att den entitet som avses är en personlighetstyp (med hjälp av FOAF ) och USA:s president (med hjälp av YAGO ). Motexempel: Metoder som bara känner igen enheter och inte associerar med Wikipedia-artiklar eller andra enheter ger inte ytterligare strukturerad data och formell kunskapsextraktion.

Konvertera en relationsdatabas till RDF

  1. Triplify, D2R Server, Ultrawrap och Virtuoso RDF-vyer är verktyg som konverterar en relationsdatabas till RDF. Under denna process tillåter dessa verktyg återanvändning av vokabulärer och ontologi i transformationsprocessen. När en typisk relationstabell som kallas användare konverteras måste en enstaka kolumn (till exempel namn ) eller en grupp kolumner (till exempel förnamn och efternamn ) tillhandahålla en enhetlig identifierare för entiteten som skapas. Vanligtvis används huvudnyckeln. Vilken annan kolumn som helst kan hämtas som relaterad till denna entitet [4] . Sedan används (och återanvänds) egenskaper med formellt definierad semantik för att tolka informationen. Användartabellkolumnen med namnet marriedTo kan till exempel definieras som en semantisk relation, och hemsidaskolumnen kan mappas till en egenskap från FOAF-ordboken som heter foaf: homepage , vilket kvalificerar den som en omvänd funktionalitet . Sedan kan varje post i användartabellen göras till en instans av foaf:Person -klassen (Population ontology). Dessutom kan ett ämnesområde (i form av en ontologi) skapas från status_id genom manuellt skapade regler (om status_id är 2 tillhör tabellraden Lärarklassen) eller med (halv)automatiska metoder ( Learn Ontologies ). Nedan är ett exempel på en transformation:
namn gift med hemsida status_id
Peter Mary http://example.org/Peters_page  (inte tillgänglig länk) ett
Claus Eva http://example.org/Claus_page  (inte tillgänglig länk) 2
: Peter : gift Med : Mary . : gift med OWL : SymmetricProperty . : Peter foaf : hemsida <http://example.org/Peters_page> . : Peter foaf : Person ( Individuell ) . : Peter : Student ( Student ). : Claus : Lärare ( Lärare ).

Extrahera från strukturerade källor i RDF

1:1-mappning från relationsdatabastabeller/vyer till RDF-enheter/attribut/värden

När man bygger en representation av en relationsdatabas (RDB, eng.  relationsdatabas ), är utgångspunkten ofta ett entity-relationship diagram ( eng.  entity-relationship diagram , ERD). Vanligtvis representeras varje entitet som en databastabell, varje entitetsegenskap blir en kolumn i den tabellen och relationen mellan entiteter visas med främmande nycklar. Varje tabell definierar vanligtvis en viss entitetsklass, och varje kolumn definierar en av egenskaperna för den entiteten. Varje rad i tabellen beskriver en instans av en entitet, unikt identifierad av en huvudnyckel. Tabellraderna tillsammans beskriver entitetsuppsättningen. I RDF-ekvivalent representation av samma entitetsuppsättning:

  • Varje kolumn i tabellen är en egenskap (det vill säga ett predikat)
  • Varje värde i en kolumn är en attributegenskap (det vill säga det är ett objekt)
  • Varje radnyckel representerar ett enhets-ID (det vill säga ett ämne)
  • Varje rad representerar en instans av en enhet
  • Varje rad (entitetsinstans) representeras i RDF som en samling tuplar med ett gemensamt ämne (entitets-ID).

Så, för att uttrycka en likvärdig representation baserad på RDF-semantik, skulle den grundläggande algoritmen vara:

  1. skapa en RDF Schema (RDFS) klass för varje tabell
  2. konvertera alla huvudnycklar och främmande nycklar till IRI- identifierare
  3. tilldela ett IRI-predikat till varje kolumn
  4. tilldela predikatet rdf: typ till varje rad genom att associera det med IRI-identifieraren för RDFS-klassen
  5. För varje kolumn som varken är en del av huvudnyckeln eller en del av den främmande nyckeln bygger vi en trippel som innehåller huvudnyckelns IRI som subjekt (ämne), kolumnens IRI som predikat och värdet på kolumn som objekt.

En tidig referens till grundläggande eller direkt kartläggning kan hittas i Tim Berners-Lees jämförelse av ER-modellen med RDF-modellen [4] .

Komplexa relationsdatabasmappningar i RDF

1:1-mappningen som nämns ovan representerar den gamla datan som RDF direkt, och ytterligare förfining kan användas för att förbättra användbarheten av RDF-utgången enligt det givna användningsfallet. Som regel går information förlorad under omvandlingen av ett entity  -relationship diagram (ERD) till relationstabeller (en detaljerad beskrivning finns i artikeln " Objektrelationell missmatchning ") och måste återställas genom omvänd konstruktion . Begreppsmässigt kan utvinningsmetoder komma från två håll. Den första riktningen försöker extrahera eller träna (med hjälp av maskininlärning) ett OWL-schema från ett givet databasschema. Tidiga tillvägagångssätt använde ett fast antal handgjorda kartläggningsregler för att förbättra 1:1 kartläggning [5] [6] [7] . Mer utarbetade metoder använde heuristiska eller inlärningsalgoritmer för att generera schematisk information (metoder överlappar med ontologiinlärning ). Medan vissa tillvägagångssätt försöker extrahera information från strukturen som är inneboende i SQL -schemat [8] (genom att tolka till exempel främmande nycklar), analyserar andra tillvägagångssätt innehållet och värdena i tabeller för att skapa konceptuella hierarkier [9] (till exempel , kolumner med få värden är kandidater för att bli kategorier). Den andra riktningen försöker kartlägga schemat och dess innehåll till en befintlig domänontologi (se även " Ontologikartläggning "). Ofta existerar dock inte en lämplig domänontologi och måste först skapas.

XML

Eftersom XML är strukturerat som ett träd är det lätt att representera vilken data som helst i RDF-format, som är strukturerat som en graf. XML2 RDF är ett exempel på ett tillvägagångssätt som använder tomma RDF-noder och omvandlar XML-element och attribut till RDF-egenskaper. Fallet är dock mer komplext än när det gäller relationsdatabaser. I relationstabeller är huvudnyckeln en idealisk kandidat för ämnet framstående trippel. Ett XML-element kan dock konverteras - beroende på sammanhanget - som ett subjekt, som ett predikat eller som ett trippelobjekt. XSLT kan användas som ett standardtransformationsspråk för manuell konvertering av XML till RDF.

Översikt över metoder/medel

namn Datakälla
_
Presentation av resultatet Datasynkronisering Visa språk Återanvändning av
ordbok
Visningsautomatisering
_
_
Domänontologi krävs Använder
GUI
_
Direkt kartläggning av relationsdata till RDF relationsdata
_
SPARQL / ETL dynamisk Nej automatisk
_
Nej Nej
CSV2RDF4LOD csv ETL statisk RDF Ja manuell Nej Nej
Konvertera2RDF Avgränsad textfil ETL statisk RDF/DAML Ja manuell Nej Ja
D2R Server Arkiverad 26 februari 2012 på Wayback Machine RBD SPARQL dubbelriktad D2R Karta Ja manuell Nej Nej
Dart Grid RBD OWL frågespråk dynamisk visuella hjälpmedel Ja manuell Nej Ja
data master RBD ETL statisk egen Ja manuell Ja Ja
Google Refines RDF-tillägg CSV, XML ETL statisk saknas halvautomatisk
_
Nej Ja
Crextor XML ETL statisk XSLT Ja manuell Ja Nej
MAPONTO RBD ETL statisk egen Ja manuell Ja Nej
METAmorfoser RBD ETL statisk eget språk baserat på xml-mappning Ja manuell Nej Ja
MappingMaster csv ETL statisk MappingMaster Ja GUI Nej Ja
ODEMapster RBD ETL statisk egen Ja manuell Ja Ja
OntoWiki CSV Importer Plug-in - DataCube & Tabular csv ETL statisk RDF Data Cube Vocaublar Ja halvautomatisk
_
Nej Ja
Poolparty Extractor (PPX) XML, text Länkad data dynamisk RDF ( SKOS ) Ja halvautomatisk
_
Ja Nej
RDBToOnto RBD ETL statisk saknas Nej automatiskt
har användaren en chans att finjustera resultatet
Nej Ja
RDF 123 csv ETL statisk Nej Nej manuell Nej Ja
RDOTE RBD ETL statisk SQL Ja manuell Ja Ja
Relationell.OWL RBD ETL statisk saknas Nej automatisk
_
Nej Nej
T2LD csv ETL statisk Nej Nej automatisk
_
Nej Nej
RDF-ordbokdata cube ( eng.  RDF Data Cube Vocabulary ) Flerdimensionell statistisk data i kalkylblad datakub ordbok Ja manuell Nej
TopBraid kompositör csv ETL statisk SKOS Nej halvautomatisk
_
Nej Ja
tredubbla RBD Länkad data dynamisk SQL Ja manuell Nej Nej
ultrawrap RBD SPARQL/ETL dynamisk R2RML Ja halvautomatisk
_
Nej Ja
Virtuosa RDF-vyer RBD SPARQL dynamisk Meta Schema Language Ja halvautomatisk
_
Nej Ja
Virtuos Sponger strukturerade
och semistrukturerade
datakällor
SPARQL dynamisk Virtuos PL & XSLT Ja halvautomatisk
_
Nej Nej
VisAVis RBD RDQL [10] manuell SQL Ja manuell Ja Ja
XLWrap: Kalkylblad till RDF csv ETL statisk TriG-syntax Ja manuell Nej Nej
XML till RDF XML ETL statisk Nej Nej automatisk
_
Nej Nej

Utdrag från en naturlig språkkälla

Den största delen av informationen i ett affärsdokument (cirka 80 % [11] ) är kodad på naturligt språk och därför inte strukturerad. Eftersom ostrukturerad data är en ganska svår uppgift för att utvinna kunskap krävs mer sofistikerade metoder som vanligtvis ger sämre resultat än strukturerad data. Men förmågan att skaffa sig en enorm mängd utvunnen kunskap kompenserar för den ökande komplexiteten och försämrade kvaliteten på utvinningen. Vidare förstås källor i naturligt språk som informationskällor där data ges som ostrukturerad textdata. Om den givna texten infogas i ett uppmärkningsdokument (som ett HTML-dokument), tar dessa system vanligtvis bort markeringselementen automatiskt.

Traditionell informationsextraktion

Traditionell informationsextraktion ( IE [12] ) [13] är en   naturlig språkbehandlingsteknik som extraherar information från naturliga språktexter och strukturerar dem på lämpligt sätt . Vilka typer av information som ska utvinnas måste anges i modellen innan bearbetningsprocessen påbörjas, varför hela processen med traditionell informationsutvinning är beroende av det ämnesområde som behandlas. FROM ( eng. IE ) är uppdelad i följande fem deluppgifter.  

  • Named entity recognition ( eng.  Named entity recognition , NER)
  • Coreference resolution ( CO  )
  • Mallelementkonstruktion ( TE  ) (eller lägga till attribut till entiteter)
  • Identifiering av relationer mellan enheter (BC, eng.  Template relation construction , TR)
  • Bygga en fullständig beskrivning av händelsen (PPO, eng.  Template scenario production , ST)

Uppgiften med namngiven enhetsigenkänning är att känna igen och kategorisera alla namngivna enheter som finns i texten (tilldela namngivna enheter till fördefinierade kategorier). Det fungerar genom att tillämpa grammatikbaserade metoder eller statistiska modeller.

Coreference resolution etablerar likvärdiga enheter som har identifierats i texten av NER-algoritmen. Det finns två relaterade typer av ekvivalensrelationer. Den första relationen avser en relation mellan två olika enheter (t.ex. IBM Europe och IBM) och den andra avser en relation mellan en enhet och dess anaforiska referens (t.ex. den och IBM). Båda arterna kan kännas igen genom coreference resolution .

Under konstruktionen av mallelementen ställer IE-systemet in de beskrivande egenskaperna för de enheter som känns igen av NER- och CO-systemen. Dessa egenskaper motsvarar vanliga egenskaper som "röd" eller "stor".

Identifieringen av relationer mellan enskilda enheter etablerar de relationer som finns mellan elementen i mallen. Dessa relationer kan vara av flera slag, till exempel work-for eller lokaliserade i, med begränsningen att både omfattning och intervall motsvarar entiteter.

Fullständiga beskrivningar av händelser som utförs i texten erkänns och struktureras enligt de enheter som erkänns av NER- och CO-systemen, och sambanden känns igen av BC-systemet.

Utvinning av information baserad på ontologier

Ontologibaserad informationsextraktion ( OBIE  ) [11] är ett underområde av informationsextraktion som använder minst en ontologi för att hantera processen att extrahera information från naturligt språktext. OBIE-systemet använder traditionella informationsextraktionstekniker för att känna igen begreppen , enheterna och relationerna för de använda ontologierna i texten, som kommer att struktureras till en ontologi efter processen. Således bildar ingångsontologierna en modell av den hämtade informationen.

Ontologiinlärning

Ontologiinlärning ( OL ) är det  automatiska eller halvautomatiska skapandet av ontologier, inklusive extraktion av relevanta objektdomäntermer från naturligt språktext. Eftersom att bygga ontologier för hand är extremt arbetskrävande och tidskrävande, finns det ett starkt incitament att automatisera processen.

Semantisk anteckning

Under semantisk annotering ( SA ) [14] åtföljs text på naturligt språk av metadata (ofta representerad i RDF  [ , Resource Description Framework in Attributes ) som bör göra semantiken för de inneslutna elementen förståelig av maskiner . I denna process, som vanligtvis är halvautomatisk, hämtas kunskap i den meningen att en koppling upprättas mellan lexikaliska poster och till exempel begrepp från ontologier. Således får vi kunskap som avslöjar betydelsen av entiteten i det sammanhang som bearbetas, och därför bestämmer textens betydelse i informationen som uppfattas av maskinen med förmågan att dra logiska slutsatser. Den semantiska anteckningen delas vanligtvis upp i följande två deluppgifter.  

  1. Terminologiextraktion
  2. Länka namngivna enheter

På terminologiextraktionsnivån extraheras lexikaliska termer från texten. För detta ändamål bestämmer den lexikala analysatorn först ordgränser och extraherar förkortningar. Termerna som matchar begreppen extraheras sedan från texten med hjälp av en domänspecifik vokabulär för entitetslänkning.

Vid länkning av entiteter [15] upprättas en länk mellan de extraherade lexikaliska medlemmarna från källtexten och begrepp från en ontologi eller kunskapsbas, såsom DBpedia . För att göra detta identifieras kandidatbegrepp enligt vissa elementvärden med hjälp av en ordbok. Slutligen analyseras termernas sammanhang för att bestämma den lämpligaste disambigueringen och det korrekta begreppet tilldelas termen.

Betyder

Följande kriterier kan användas för att kategorisera verktyg som extraherar kunskap från naturliga språktexter.

Källa Vilka inmatningsformat kan bearbetas (t.ex. vanlig text, HTML eller PDF )?
Tillgångsparadigm Kan verktyget fråga en del av data från källan, eller krävs en fullständig dumpning för extraktionsprocessen?
Datasynkronisering Är resultatet av extraheringen synkroniserat med källan?
Använda objektmodellen Förknippar verktyget resultatet med objektmodellen?
Displayautomation Hur automatiserad är utvinningsprocessen (manuell, halvautomatisk eller automatisk)?
Objektmodellkrav Kräver verktyget en objektmodell för att hämtas?
Använder GUI Har verktyget ett grafiskt användargränssnitt ( GUI  ) ?
Ett tillvägagångssätt Vilken metod (IE, OBIE, OL eller SA) använder verktyget?
Extraherbara enheter                    Vilka typer av enheter (som namngivna enheter, begrepp eller relationer) kan hämtas av verktyget?
Tillämpade tekniker Vilka tekniker används (t.ex. NLP, statistiska metoder, klustring eller maskininlärning )?
utgångsmodell Vilken modell används för att representera resultatet av verktyget (t.ex. RDF eller OWL)?
Understödda ämnesområden Vilka ämnesområden stöds (t.ex. ekonomi eller biologi)?
Språk som stöds Vilka språk kan bearbetas (t.ex. engelska, tyska eller ryska)?

Följande tabell beskriver några av verktygen för att extrahera kunskap från naturliga språkkällor.

namn Källa Tillgångsparadigm Datasynkronisering Använda objektmodellen Displayautomation Objektmodellkrav Använder GUI Ett tillvägagångssätt Extraherbara enheter                    Tillämpade tekniker utgångsmodell Stödda områden Språk som stöds
Aero Text [16] textdata, HTML, XML, SGML dumpa Nej Ja automatisk Ja Ja IE namngivna enheter, relationer, händelser språkliga regler egen beror inte på området engelska, spanska, arabiska, kinesiska, indonesiska
Alchemy API [17] textdata, HTML automatisk Ja SA flerspråkig
ANNIE

[arton]

textdata dumpa Ja Ja IE tillståndsmaskinalgoritmer flerspråkig
ASIUM (LRI) textdata dumpa halvautomatisk Ja OL begrepp, begreppshierarki NLP, klustring
Uttömmande extraktion av Attensity automatisk IE namngivna enheter, relationer, händelser NLP
Maskros API textdata, HTML, URL RESTEN Nej Nej automatiskt Nej Ja SA namngivna enheter, begrepp statistiska metoder JSON beror inte på området flerspråkig
DBpedia Spotlight [19] textdata, HTML soptipp, SPARQL Ja Ja automatisk Nej Ja SA anteckning till varje ord, anteckning till non-stopwords NLP, statistiska metoder, maskininlärning RDFa beror inte på området engelsk
EntityClassifier.eu textdata, HTML dumpa Ja Ja automatisk Nej Ja IE, OL, SA anteckning till varje ord, anteckning till non-stopwords regelbaserad grammatik XML beror inte på området engelska, tyska, holländska
Fred [20] textdata dump, REST API Ja Ja automatisk Nej Ja IE, OL, SA, ontologiska designmönster, ramsemantik NIF- eller EarMark-ord abstrakt, predikat, instanser, sammansättningssemantik, taxonomibegrepp , semantiska roller, beskrivande relationer, händelser, humör, grammatisk tid, namngiven entitetslänkning, händelselänkning, känslor NLP, maskininlärning, heuristiska regler RDF/OWL beror inte på området Engelska, andra språk efter översättning
iDocument [21] HTML, PDF , DOC SPARQL Ja Ja OBIE instanser, fastighetsvärden NLP personliga affärer
NetOwl Extractor [22] textdata, HTML, XML, SGML , PDF, MS Office dumpa Nej Ja automatiskt Ja Ja IE namngivna enheter, relationer, händelser NLP XML, JSON , RDF - OWL, andra flera områden engelska, arabiska, kinesiska (förenklad och traditionell), franska, koreanska, persiska (farsi och dari), ryska, spanska
OntoGen Arkiverad 30 mars 2010 på Wayback Machine [23] halvautomatisk Ja OL begrepp, begreppshierarki, icke-taxonomiska relationer, instanser NLP, maskininlärning, klustring
OntoLearn Arkiverad 9 augusti 2017 på Wayback Machine [24] textdata, HTML dumpa Nej Ja automatiskt Ja Nej OL begrepp, begreppshierarki, instanser NLP, statistiska metoder egen beror inte på området engelsk
OntoLearn har laddats om textdata, HTML dumpa Nej Ja automatiskt Ja Nej OL begrepp, begreppshierarki, instanser NLP, statistiska metoder egen beror inte på området engelsk
OntoSiphon [25] HTML, PDF, DOC dump, sökmotorfrågor Nej Ja automatiskt Ja Nej OBIE begrepp, relationer, instanser NLP, statistiska metoder RDF beror inte på området engelsk
ontoX [26] textdata dumpa Nej Ja halvautomatiskt Ja Nej OBIE instanser, datatypegenskapsvärden heuristiskt baserade metoder egen beror inte på området beror inte på språket
Öppna Calais textdata, HTML, XML dumpa Nej Ja automatiskt Ja Nej SA anteckning till enheter, anteckning till händelser, anteckning till fakta NLP, maskininlärning RDF beror inte på området engelska, franska, spanska
Pool Party Extractor (2011) textdata, HTML, DOC, ODT dumpa Nej Ja automatiskt Ja Ja OBIE namngivna enheter, begrepp, relationer, begrepp, som kategoriserar texten, berikningar NLP, maskininlärning, statistiska metoder RDF, UGLA beror inte på området engelska, tyska, spanska, franska
Rosoka textdata, HTML, XML, SGML , PDF, MS Office dumpa Ja Ja automatiskt Nej Ja IE namngiven enhetsextraktion, enhetsupplösning, relation, attribut, konceptextraktion, multi-vektor sentimentanalys, georeferens, språkidentifiering , maskininlärning NLP XML, JSON , POJO flera områden flerspråkig (200+ språk)
SCOOBIE textdata, HTML dumpa Nej Ja automatiskt Nej Nej OBIE instanser, egenskapsvärden, RDFS-typer NLP, maskininlärning RDF, RDFa beror inte på området engelska tyska
SemTag [27] [28] HTML dumpa Nej Ja automatiskt Ja Nej SA maskininlärning databaspost beror inte på området beror inte på språket
smart FIX textdata, HTML, PDF, DOC, e-post dumpa Ja Nej automatiskt Nej Ja OBIE namngivna enheter NLP, maskininlärning egen beror inte på området engelska, tyska, franska, holländska, polska
Text2Onto [29] textdata, HTML, PDF dumpa Ja Nej halvautomatiskt Ja Ja OL begrepp, begreppsbegrepp, icke-taxonomiska relationer, instanser, axiom NLP, statistiska metoder, maskininlärning, regelbaserade metoder UGGLA beror inte på området engelska, tyska, spanska
Text-till-på [30] textdata, HTML, PDF, PostScript dumpa halvautomatiskt Ja Ja OL begrepp, begreppshierarki, icke-taxonomiska relationer, lexikaliska enheter som hänvisar till begrepp, lexikala enheter som hänvisar till relationer NLP, maskininlärning, klustring, statistiska metoder Deutsch
Den där nålen Textdata dumpa automatiskt Nej begrepp, relationer, hierarki NLP, egen JSON flera områden engelsk
The Wiki Machine [31] textdata, HTML, PDF, DOC dumpa Nej Ja automatiskt Ja Ja SA märkning av egennamn, märkning av vanliga substantiv maskininlärning RDFa region oberoende Engelska, tyska, spanska, franska, portugisiska, italienska, ryska
Thing Finder [32] IE namngivna enheter, relationer, händelser flerspråkig

Knowledge Discovery

Knowledge discovery beskriver processen att automatiskt söka i stora datamängder efter modeller som kan betraktas som kunskap om datan [33] . Detta beskrivs ofta som att utvinna kunskap från input . Knowledge discovery är utvecklad för dataanalys och är nära relaterad till både metodik och terminologi [34] .

Den mest kända grenen av datautvinning  är kunskapsupptäckt, även känt som kunskapsupptäckt i databaser . Liksom många andra former av kunskapsupptäckt skapar denna analys abstraktioner av indata. Kunskaper som förvärvats som ett resultat av denna process kan bli ytterligare data som kan användas för vidare användning och sökningar. Ofta har resultatet av en kunskapsupptäcktsprocess inget praktiskt värde, så aktiv kunskapsupptäckt , även känd som " Domändataanalys " [35] , är utformad för att upptäcka och extrahera (av praktisk betydelse) aktiv kunskap och slutsatser från denna kunskap.

En annan lovande tillämpning av kunskapsupptäckt är inom området mjukvarumodernisering detektering av svagheter och efterlevnad av standarder, vilket innebär att man förstår befintlig programvara. Denna process är relaterad till begreppet reverse engineering . Vanligtvis presenteras kunskapen från befintlig programvara i form av modeller som specifika frågor kan göras på vid behov. Entity-relationship-modellen är ett vanligt format som representerar kunskap och härrör från befintlig programvara. Object Management Group- konsortiet har utvecklat en specifikation för Knowledge Discovery Metamodel ( KDM), som definierar en ontologi för mjukvaruresurser och deras relationer, utformad för att upptäcka kunskap i befintlig kod. Upptäckten av kunskap från kända mjukvarusystem, även känd som software mining , är nära relaterad till data mining , eftersom befintliga mjukvaruupptäckter är av stor betydelse för riskhantering och kommersiellt värde , som fungerar som nyckelelement för analys och utveckling av mjukvarusystem. Istället för att analysera enskilda datamängder fokuserar mjukvaruutvinning [sv] på metadata som produktionsflöde (t.ex. dataflöde, kontrollflöde, anropsmönster), arkitektur, databasscheman och affärsregler/termer/processer.  

Datainmatning

Utdataformat

Se även

Anteckningar

  1. RDB2RDF Working Group, Webbplats: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Språk: http://www.w3.org/TR/r2rml/
  2. LOD2 EU  (ej tillgänglig länk) Levereras 3.1.1 Kunskapsutvinning från strukturerade källor
  3. Calais Release 4, 2009 .
  4. 1 2 Berners-Lee, 1998 .
  5. Hu, Qu, 2007 , sid. 225-238.
  6. Ghawi, Cullot, 2007 .
  7. Li, Du, Wang, 2005 , sid. 209-220.
  8. Tirmizi, Miranker, Sequeda, 2008 .
  9. Cerbah, 2008 .
  10. RDQL = RDF Query Language
  11. 1 2 Wimalasuriya, Dou, 2010 , sid. 306 - 323.
  12. Inte att förväxla med MS IE = Microsoft Internet Explorer!
  13. Cunningham, 2005 , sid. 665–677.
  14. Erdmann, Maedche, Schnurr, Staab, 2000 .
  15. Rao, McNamee, Dredze, 2011 , sid. 93-115.
  16. Rocket Software Inc. (2012). "teknik för att extrahera intelligens från text"
  17. Orchestral8 (2012): "AlchemyAPI Översikt"
  18. University of Sheffield (2011). "ANNIE: ett nästan nytt informationsextraktionssystem"
  19. Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , sid. arton.
  20. Gangemi, Presutti, Recupero et al., 2016 .
  21. Adrian, Maus, Dengel, 2009 .
  22. SRA International Inc. (2012). NetOwl Extractor
  23. Fortuna, Grobelnik, Mladenic, 2007 , sid. 309–318.
  24. Missikoff, Navigli, Velardi, 2002 , sid. 60-63.
  25. McDowell, Cafarella, 2006 , sid. 428 - 444.
  26. Yildiz, Miksch, 2007 , sid. 660 - 673.
  27. Dill, Eiron, Gibson et al., 2003 , sid. 178 - 186.
  28. Uren, Cimiano, Iria et al., 2006 , sid. 14 - 28.
  29. Cimiano, Völker, 2005 .
  30. Maedche, Volz, 2001 .
  31. Maskinlänkning. "Vi ansluter till det länkade öppna datamolnet"
  32. Inxight ThingFinder och ThingFinder Professional (nedlänk) . Inxight Federal Systems (2008). Hämtad 18 juni 2012. Arkiverad från originalet 29 juni 2012. 
  33. Frawley, Piatetsky-Shapiro, Matheus, 1992 , sid. 57-70.
  34. Fayyad, Piatetsky-Shapiro, Smyth, 1996 , sid. 37-54.
  35. Cao, 2010 , sid. 755–769.

Litteratur