Kunskapsutvinning

Kunskapsextraktion är skapandet av kunskap från strukturerade ( relationsdatabaser , XML ) och ostrukturerade källor ( texter , dokument, bilder ). Den resulterande kunskapen måste vara i ett format som tillåter datorinmatning och måste representera kunskapen på ett sätt som underlättar slutledning. Även om metoden för processen liknar informationsextraktion ( naturlig språkbehandling , eng. Naturlig språkbehandling , NLP) och processen med " Extraktion, Transformation, Loading " ( eng. Extrahera, transformera, ladda , ETL, för datalager), det huvudsakliga resultatkriteriet är skapandet av strukturerad information eller transformation till ett relationsschema . Detta kräver antingen omvandling av befintlig formell kunskap (återanvändning av identifierare eller ontologier ) eller generering av ett schema baserat på originaldata.

RDB2RDF W3C-gruppen [1] standardiserar ett språk för att extrahera resursbeskrivningsramverk ( RDF ) från en relationsdatabas . Ett annat populärt exempel på kunskapsextraktion är att konvertera Wikipedia till strukturerad data och kartläggning till befintlig kunskap (se DBpedia och Freebase ).

Översikt

Efter standardiseringen av kunskapsrepresentationsspråk som Resource Description Framework ( RDF) och Web Ontology Language ( OWL ) har mycket forskning gjorts inom detta område, särskilt angående transformationen av relationsdatabasen. data i RDF , igenkänningsförmåga , kunskapsupptäckt och ontologiinlärning. Huvudprocessen använder traditionella informationsextraktionsmetoder och extrahera , transformera, ladda ( ETL) metoder som konverterar data från källformat till strukturerade format .

Följande kriterier kan användas för kategoriseringsförsök i detta ämne (några av dem tillhandahåller kunskapsextraktion från relationsdatabaser) [2] :

Källa	Vilken data kan behandlas: Text, Relationsdatabas, XML , CSV
Prestanda	Hur kan de extraherade data presenteras för användning (ontologi (objektmodell) fil, semantisk databas)? Hur är det möjligt att begära informationen från den mottagna representationen?
Synkronisering	Utförs kunskapsutvinning en gång för att producera en dump, eller är resultatet synkroniserat med källan? Är extraktion statisk eller dynamisk? Skrivs förändringar i resultatet tillbaka till källan (dubbelriktad)?
Ordbok Återanvändning	Om extraheraren tillåter återanvändning av befintliga ordböcker vid extrahering. Tabellkolumnen 'firstName' kan till exempel mappas till kolumnen foaf: firstName. Vissa automatiska metoder kan inte visa en ordbok.
Automatisering	Grad av deltagande / automatisering av extraktion: Manuellt läge, det finns en GUI , halvautomatisk, automatisk.
Behovet av en domänobjektmodell	Om en fördefinierad objektmodell måste mappas till den. Sålunda skapas antingen en mappning eller så erhålls ett schema från källan av ( training ontologies ).

Exempel

Namngiven enhetsbindning

DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv och PoolParty Extractor tolkar godtycklig text genom att känna igen namngivna enheter , och sedan lösa tvetydigheter genom att lösa namn och länka de hittade entiteterna till DBpedia- kunskapsförrådet [pedia ] 3 ] ( Dandelion dataTXT demo , eller DBpedia Spotlight webbdemo , eller PoolParty Extractor Demo ).

President Obama uppmanade på onsdagen kongressen att inkludera en utökning av studentskatteavdrag i det ekonomiska stimulanspaketet, med argumentet att politiken skulle generera starkare stöd.

Eftersom president Obama i DBpedia är länkad till LinkedData- resursen , kan ytterligare information hämtas automatiskt och den semantiska resoneraren kan till exempel dra slutsatsen att den entitet som avses är en personlighetstyp (med hjälp av FOAF ) och USA:s president (med hjälp av YAGO ). Motexempel: Metoder som bara känner igen enheter och inte associerar med Wikipedia-artiklar eller andra enheter ger inte ytterligare strukturerad data och formell kunskapsextraktion.

Konvertera en relationsdatabas till RDF

Triplify, D2R Server, Ultrawrap och Virtuoso RDF-vyer är verktyg som konverterar en relationsdatabas till RDF. Under denna process tillåter dessa verktyg återanvändning av vokabulärer och ontologi i transformationsprocessen. När en typisk relationstabell som kallas användare konverteras måste en enstaka kolumn (till exempel namn ) eller en grupp kolumner (till exempel förnamn och efternamn ) tillhandahålla en enhetlig identifierare för entiteten som skapas. Vanligtvis används huvudnyckeln. Vilken annan kolumn som helst kan hämtas som relaterad till denna entitet [4] . Sedan används (och återanvänds) egenskaper med formellt definierad semantik för att tolka informationen. Användartabellkolumnen med namnet marriedTo kan till exempel definieras som en semantisk relation, och hemsidaskolumnen kan mappas till en egenskap från FOAF-ordboken som heter foaf: homepage , vilket kvalificerar den som en omvänd funktionalitet . Sedan kan varje post i användartabellen göras till en instans av foaf:Person -klassen (Population ontology). Dessutom kan ett ämnesområde (i form av en ontologi) skapas från status_id genom manuellt skapade regler (om status_id är 2 tillhör tabellraden Lärarklassen) eller med (halv)automatiska metoder ( Learn Ontologies ). Nedan är ett exempel på en transformation:

namn	gift med	hemsida	status_id
Peter	Mary	http://example.org/Peters_page (inte tillgänglig länk)	ett
Claus	Eva	http://example.org/Claus_page (inte tillgänglig länk)	2

: Peter : gift Med : Mary . : gift med OWL : SymmetricProperty . : Peter foaf : hemsida <http://example.org/Peters_page> . : Peter foaf : Person ( Individuell ) . : Peter : Student ( Student ). : Claus : Lärare ( Lärare ).

Extrahera från strukturerade källor i RDF

1:1-mappning från relationsdatabastabeller/vyer till RDF-enheter/attribut/värden

När man bygger en representation av en relationsdatabas (RDB, eng. relationsdatabas ), är utgångspunkten ofta ett entity-relationship diagram ( eng. entity-relationship diagram , ERD). Vanligtvis representeras varje entitet som en databastabell, varje entitetsegenskap blir en kolumn i den tabellen och relationen mellan entiteter visas med främmande nycklar. Varje tabell definierar vanligtvis en viss entitetsklass, och varje kolumn definierar en av egenskaperna för den entiteten. Varje rad i tabellen beskriver en instans av en entitet, unikt identifierad av en huvudnyckel. Tabellraderna tillsammans beskriver entitetsuppsättningen. I RDF-ekvivalent representation av samma entitetsuppsättning:

Varje kolumn i tabellen är en egenskap (det vill säga ett predikat)
Varje värde i en kolumn är en attributegenskap (det vill säga det är ett objekt)
Varje radnyckel representerar ett enhets-ID (det vill säga ett ämne)
Varje rad representerar en instans av en enhet
Varje rad (entitetsinstans) representeras i RDF som en samling tuplar med ett gemensamt ämne (entitets-ID).

Så, för att uttrycka en likvärdig representation baserad på RDF-semantik, skulle den grundläggande algoritmen vara:

skapa en RDF Schema (RDFS) klass för varje tabell
konvertera alla huvudnycklar och främmande nycklar till IRI- identifierare
tilldela ett IRI-predikat till varje kolumn
tilldela predikatet rdf: typ till varje rad genom att associera det med IRI-identifieraren för RDFS-klassen
För varje kolumn som varken är en del av huvudnyckeln eller en del av den främmande nyckeln bygger vi en trippel som innehåller huvudnyckelns IRI som subjekt (ämne), kolumnens IRI som predikat och värdet på kolumn som objekt.

En tidig referens till grundläggande eller direkt kartläggning kan hittas i Tim Berners-Lees jämförelse av ER-modellen med RDF-modellen [4] .

Komplexa relationsdatabasmappningar i RDF

1:1-mappningen som nämns ovan representerar den gamla datan som RDF direkt, och ytterligare förfining kan användas för att förbättra användbarheten av RDF-utgången enligt det givna användningsfallet. Som regel går information förlorad under omvandlingen av ett entity -relationship diagram (ERD) till relationstabeller (en detaljerad beskrivning finns i artikeln " Objektrelationell missmatchning ") och måste återställas genom omvänd konstruktion . Begreppsmässigt kan utvinningsmetoder komma från två håll. Den första riktningen försöker extrahera eller träna (med hjälp av maskininlärning) ett OWL-schema från ett givet databasschema. Tidiga tillvägagångssätt använde ett fast antal handgjorda kartläggningsregler för att förbättra 1:1 kartläggning [5] [6] [7] . Mer utarbetade metoder använde heuristiska eller inlärningsalgoritmer för att generera schematisk information (metoder överlappar med ontologiinlärning ). Medan vissa tillvägagångssätt försöker extrahera information från strukturen som är inneboende i SQL -schemat [8] (genom att tolka till exempel främmande nycklar), analyserar andra tillvägagångssätt innehållet och värdena i tabeller för att skapa konceptuella hierarkier [9] (till exempel , kolumner med få värden är kandidater för att bli kategorier). Den andra riktningen försöker kartlägga schemat och dess innehåll till en befintlig domänontologi (se även " Ontologikartläggning "). Ofta existerar dock inte en lämplig domänontologi och måste först skapas.

XML

Eftersom XML är strukturerat som ett träd är det lätt att representera vilken data som helst i RDF-format, som är strukturerat som en graf. XML2 RDF är ett exempel på ett tillvägagångssätt som använder tomma RDF-noder och omvandlar XML-element och attribut till RDF-egenskaper. Fallet är dock mer komplext än när det gäller relationsdatabaser. I relationstabeller är huvudnyckeln en idealisk kandidat för ämnet framstående trippel. Ett XML-element kan dock konverteras - beroende på sammanhanget - som ett subjekt, som ett predikat eller som ett trippelobjekt. XSLT kan användas som ett standardtransformationsspråk för manuell konvertering av XML till RDF.

Översikt över metoder/medel

namn	Datakälla _	Presentation av resultatet	Datasynkronisering	Visa språk	Återanvändning av ordbok	Visningsautomatisering _ _	Domänontologi krävs	Använder GUI _
Direkt kartläggning av relationsdata till RDF	relationsdata _	SPARQL / ETL	dynamisk		Nej	automatisk _	Nej	Nej
CSV2RDF4LOD	csv	ETL	statisk	RDF	Ja	manuell	Nej	Nej
Konvertera2RDF	Avgränsad textfil	ETL	statisk	RDF/DAML	Ja	manuell	Nej	Ja
D2R Server Arkiverad 26 februari 2012 på Wayback Machine	RBD	SPARQL	dubbelriktad	D2R Karta	Ja	manuell	Nej	Nej
Dart Grid	RBD	OWL frågespråk	dynamisk	visuella hjälpmedel	Ja	manuell	Nej	Ja
data master	RBD	ETL	statisk	egen	Ja	manuell	Ja	Ja
Google Refines RDF-tillägg	CSV, XML	ETL	statisk	saknas		halvautomatisk _	Nej	Ja
Crextor	XML	ETL	statisk	XSLT	Ja	manuell	Ja	Nej
MAPONTO	RBD	ETL	statisk	egen	Ja	manuell	Ja	Nej
METAmorfoser	RBD	ETL	statisk	eget språk baserat på xml-mappning	Ja	manuell	Nej	Ja
MappingMaster	csv	ETL	statisk	MappingMaster	Ja	GUI	Nej	Ja
ODEMapster	RBD	ETL	statisk	egen	Ja	manuell	Ja	Ja
OntoWiki CSV Importer Plug-in - DataCube & Tabular	csv	ETL	statisk	RDF Data Cube Vocaublar	Ja	halvautomatisk _	Nej	Ja
Poolparty Extractor (PPX)	XML, text	Länkad data	dynamisk	RDF ( SKOS )	Ja	halvautomatisk _	Ja	Nej
RDBToOnto	RBD	ETL	statisk	saknas	Nej	automatiskt har användaren en chans att finjustera resultatet	Nej	Ja
RDF 123	csv	ETL	statisk	Nej	Nej	manuell	Nej	Ja
RDOTE	RBD	ETL	statisk	SQL	Ja	manuell	Ja	Ja
Relationell.OWL	RBD	ETL	statisk	saknas	Nej	automatisk _	Nej	Nej
T2LD	csv	ETL	statisk	Nej	Nej	automatisk _	Nej	Nej
RDF-ordbokdata cube ( eng. RDF Data Cube Vocabulary )	Flerdimensionell statistisk data i kalkylblad			datakub ordbok	Ja	manuell	Nej
TopBraid kompositör	csv	ETL	statisk	SKOS	Nej	halvautomatisk _	Nej	Ja
tredubbla	RBD	Länkad data	dynamisk	SQL	Ja	manuell	Nej	Nej
ultrawrap	RBD	SPARQL/ETL	dynamisk	R2RML	Ja	halvautomatisk _	Nej	Ja
Virtuosa RDF-vyer	RBD	SPARQL	dynamisk	Meta Schema Language	Ja	halvautomatisk _	Nej	Ja
Virtuos Sponger	strukturerade och semistrukturerade datakällor	SPARQL	dynamisk	Virtuos PL & XSLT	Ja	halvautomatisk _	Nej	Nej
VisAVis	RBD	RDQL [10]	manuell	SQL	Ja	manuell	Ja	Ja
XLWrap: Kalkylblad till RDF	csv	ETL	statisk	TriG-syntax	Ja	manuell	Nej	Nej
XML till RDF	XML	ETL	statisk	Nej	Nej	automatisk _	Nej	Nej

Utdrag från en naturlig språkkälla

Den största delen av informationen i ett affärsdokument (cirka 80 % [11] ) är kodad på naturligt språk och därför inte strukturerad. Eftersom ostrukturerad data är en ganska svår uppgift för att utvinna kunskap krävs mer sofistikerade metoder som vanligtvis ger sämre resultat än strukturerad data. Men förmågan att skaffa sig en enorm mängd utvunnen kunskap kompenserar för den ökande komplexiteten och försämrade kvaliteten på utvinningen. Vidare förstås källor i naturligt språk som informationskällor där data ges som ostrukturerad textdata. Om den givna texten infogas i ett uppmärkningsdokument (som ett HTML-dokument), tar dessa system vanligtvis bort markeringselementen automatiskt.

Traditionell informationsextraktion

Traditionell informationsextraktion ( IE [12] ) [13] är en naturlig språkbehandlingsteknik som extraherar information från naturliga språktexter och strukturerar dem på lämpligt sätt . Vilka typer av information som ska utvinnas måste anges i modellen innan bearbetningsprocessen påbörjas, varför hela processen med traditionell informationsutvinning är beroende av det ämnesområde som behandlas. FROM ( eng. IE ) är uppdelad i följande fem deluppgifter.

Named entity recognition ( eng. Named entity recognition , NER)
Coreference resolution ( CO )
Mallelementkonstruktion ( TE ) (eller lägga till attribut till entiteter)
Identifiering av relationer mellan enheter (BC, eng. Template relation construction , TR)
Bygga en fullständig beskrivning av händelsen (PPO, eng. Template scenario production , ST)

Uppgiften med namngiven enhetsigenkänning är att känna igen och kategorisera alla namngivna enheter som finns i texten (tilldela namngivna enheter till fördefinierade kategorier). Det fungerar genom att tillämpa grammatikbaserade metoder eller statistiska modeller.

Coreference resolution etablerar likvärdiga enheter som har identifierats i texten av NER-algoritmen. Det finns två relaterade typer av ekvivalensrelationer. Den första relationen avser en relation mellan två olika enheter (t.ex. IBM Europe och IBM) och den andra avser en relation mellan en enhet och dess anaforiska referens (t.ex. den och IBM). Båda arterna kan kännas igen genom coreference resolution .

Under konstruktionen av mallelementen ställer IE-systemet in de beskrivande egenskaperna för de enheter som känns igen av NER- och CO-systemen. Dessa egenskaper motsvarar vanliga egenskaper som "röd" eller "stor".

Identifieringen av relationer mellan enskilda enheter etablerar de relationer som finns mellan elementen i mallen. Dessa relationer kan vara av flera slag, till exempel work-for eller lokaliserade i, med begränsningen att både omfattning och intervall motsvarar entiteter.

Fullständiga beskrivningar av händelser som utförs i texten erkänns och struktureras enligt de enheter som erkänns av NER- och CO-systemen, och sambanden känns igen av BC-systemet.

Utvinning av information baserad på ontologier

Ontologibaserad informationsextraktion ( OBIE ) [11] är ett underområde av informationsextraktion som använder minst en ontologi för att hantera processen att extrahera information från naturligt språktext. OBIE-systemet använder traditionella informationsextraktionstekniker för att känna igen begreppen , enheterna och relationerna för de använda ontologierna i texten, som kommer att struktureras till en ontologi efter processen. Således bildar ingångsontologierna en modell av den hämtade informationen.

Ontologiinlärning

Ontologiinlärning ( OL ) är det automatiska eller halvautomatiska skapandet av ontologier, inklusive extraktion av relevanta objektdomäntermer från naturligt språktext. Eftersom att bygga ontologier för hand är extremt arbetskrävande och tidskrävande, finns det ett starkt incitament att automatisera processen.

Semantisk anteckning

Under semantisk annotering ( SA ) [14] åtföljs text på naturligt språk av metadata (ofta representerad i RDF [ , Resource Description Framework in Attributes ) som bör göra semantiken för de inneslutna elementen förståelig av maskiner . I denna process, som vanligtvis är halvautomatisk, hämtas kunskap i den meningen att en koppling upprättas mellan lexikaliska poster och till exempel begrepp från ontologier. Således får vi kunskap som avslöjar betydelsen av entiteten i det sammanhang som bearbetas, och därför bestämmer textens betydelse i informationen som uppfattas av maskinen med förmågan att dra logiska slutsatser. Den semantiska anteckningen delas vanligtvis upp i följande två deluppgifter.

Terminologiextraktion
Länka namngivna enheter

På terminologiextraktionsnivån extraheras lexikaliska termer från texten. För detta ändamål bestämmer den lexikala analysatorn först ordgränser och extraherar förkortningar. Termerna som matchar begreppen extraheras sedan från texten med hjälp av en domänspecifik vokabulär för entitetslänkning.

Vid länkning av entiteter [15] upprättas en länk mellan de extraherade lexikaliska medlemmarna från källtexten och begrepp från en ontologi eller kunskapsbas, såsom DBpedia . För att göra detta identifieras kandidatbegrepp enligt vissa elementvärden med hjälp av en ordbok. Slutligen analyseras termernas sammanhang för att bestämma den lämpligaste disambigueringen och det korrekta begreppet tilldelas termen.

Betyder

Följande kriterier kan användas för att kategorisera verktyg som extraherar kunskap från naturliga språktexter.

Källa	Vilka inmatningsformat kan bearbetas (t.ex. vanlig text, HTML eller PDF )?
Tillgångsparadigm	Kan verktyget fråga en del av data från källan, eller krävs en fullständig dumpning för extraktionsprocessen?
Datasynkronisering	Är resultatet av extraheringen synkroniserat med källan?
Använda objektmodellen	Förknippar verktyget resultatet med objektmodellen?
Displayautomation	Hur automatiserad är utvinningsprocessen (manuell, halvautomatisk eller automatisk)?
Objektmodellkrav	Kräver verktyget en objektmodell för att hämtas?
Använder GUI	Har verktyget ett grafiskt användargränssnitt ( GUI ) ?
Ett tillvägagångssätt	Vilken metod (IE, OBIE, OL eller SA) använder verktyget?
Extraherbara enheter	Vilka typer av enheter (som namngivna enheter, begrepp eller relationer) kan hämtas av verktyget?
Tillämpade tekniker	Vilka tekniker används (t.ex. NLP, statistiska metoder, klustring eller maskininlärning )?
utgångsmodell	Vilken modell används för att representera resultatet av verktyget (t.ex. RDF eller OWL)?
Understödda ämnesområden	Vilka ämnesområden stöds (t.ex. ekonomi eller biologi)?
Språk som stöds	Vilka språk kan bearbetas (t.ex. engelska, tyska eller ryska)?

Följande tabell beskriver några av verktygen för att extrahera kunskap från naturliga språkkällor.

namn	Källa	Tillgångsparadigm	Datasynkronisering	Använda objektmodellen	Displayautomation	Objektmodellkrav	Använder GUI	Ett tillvägagångssätt	Extraherbara enheter	Tillämpade tekniker	utgångsmodell	Stödda områden	Språk som stöds
Aero Text [16]	textdata, HTML, XML, SGML	dumpa	Nej	Ja	automatisk	Ja	Ja	IE	namngivna enheter, relationer, händelser	språkliga regler	egen	beror inte på området	engelska, spanska, arabiska, kinesiska, indonesiska
Alchemy API [17]	textdata, HTML				automatisk		Ja	SA					flerspråkig
ANNIE [arton]	textdata	dumpa				Ja	Ja	IE		tillståndsmaskinalgoritmer			flerspråkig
ASIUM (LRI)	textdata	dumpa			halvautomatisk		Ja	OL	begrepp, begreppshierarki	NLP, klustring
Uttömmande extraktion av Attensity					automatisk			IE	namngivna enheter, relationer, händelser	NLP
Maskros API	textdata, HTML, URL	RESTEN	Nej	Nej	automatiskt	Nej	Ja	SA	namngivna enheter, begrepp	statistiska metoder	JSON	beror inte på området	flerspråkig
DBpedia Spotlight [19]	textdata, HTML	soptipp, SPARQL	Ja	Ja	automatisk	Nej	Ja	SA	anteckning till varje ord, anteckning till non-stopwords	NLP, statistiska metoder, maskininlärning	RDFa	beror inte på området	engelsk
EntityClassifier.eu	textdata, HTML	dumpa	Ja	Ja	automatisk	Nej	Ja	IE, OL, SA	anteckning till varje ord, anteckning till non-stopwords	regelbaserad grammatik	XML	beror inte på området	engelska, tyska, holländska
Fred [20]	textdata	dump, REST API	Ja	Ja	automatisk	Nej	Ja	IE, OL, SA, ontologiska designmönster, ramsemantik	NIF- eller EarMark-ord abstrakt, predikat, instanser, sammansättningssemantik, taxonomibegrepp , semantiska roller, beskrivande relationer, händelser, humör, grammatisk tid, namngiven entitetslänkning, händelselänkning, känslor	NLP, maskininlärning, heuristiska regler	RDF/OWL	beror inte på området	Engelska, andra språk efter översättning
iDocument [21]	HTML, PDF , DOC	SPARQL		Ja			Ja	OBIE	instanser, fastighetsvärden	NLP		personliga affärer
NetOwl Extractor [22]	textdata, HTML, XML, SGML , PDF, MS Office	dumpa	Nej	Ja	automatiskt	Ja	Ja	IE	namngivna enheter, relationer, händelser	NLP	XML, JSON , RDF - OWL, andra	flera områden	engelska, arabiska, kinesiska (förenklad och traditionell), franska, koreanska, persiska (farsi och dari), ryska, spanska
OntoGen Arkiverad 30 mars 2010 på Wayback Machine [23]					halvautomatisk		Ja	OL	begrepp, begreppshierarki, icke-taxonomiska relationer, instanser	NLP, maskininlärning, klustring
OntoLearn Arkiverad 9 augusti 2017 på Wayback Machine [24]	textdata, HTML	dumpa	Nej	Ja	automatiskt	Ja	Nej	OL	begrepp, begreppshierarki, instanser	NLP, statistiska metoder	egen	beror inte på området	engelsk
OntoLearn har laddats om	textdata, HTML	dumpa	Nej	Ja	automatiskt	Ja	Nej	OL	begrepp, begreppshierarki, instanser	NLP, statistiska metoder	egen	beror inte på området	engelsk
OntoSiphon [25]	HTML, PDF, DOC	dump, sökmotorfrågor	Nej	Ja	automatiskt	Ja	Nej	OBIE	begrepp, relationer, instanser	NLP, statistiska metoder	RDF	beror inte på området	engelsk
ontoX [26]	textdata	dumpa	Nej	Ja	halvautomatiskt	Ja	Nej	OBIE	instanser, datatypegenskapsvärden	heuristiskt baserade metoder	egen	beror inte på området	beror inte på språket
Öppna Calais	textdata, HTML, XML	dumpa	Nej	Ja	automatiskt	Ja	Nej	SA	anteckning till enheter, anteckning till händelser, anteckning till fakta	NLP, maskininlärning	RDF	beror inte på området	engelska, franska, spanska
Pool Party Extractor (2011)	textdata, HTML, DOC, ODT	dumpa	Nej	Ja	automatiskt	Ja	Ja	OBIE	namngivna enheter, begrepp, relationer, begrepp, som kategoriserar texten, berikningar	NLP, maskininlärning, statistiska metoder	RDF, UGLA	beror inte på området	engelska, tyska, spanska, franska
Rosoka	textdata, HTML, XML, SGML , PDF, MS Office	dumpa	Ja	Ja	automatiskt	Nej	Ja	IE	namngiven enhetsextraktion, enhetsupplösning, relation, attribut, konceptextraktion, multi-vektor sentimentanalys, georeferens, språkidentifiering , maskininlärning	NLP	XML, JSON , POJO	flera områden	flerspråkig (200+ språk)
SCOOBIE	textdata, HTML	dumpa	Nej	Ja	automatiskt	Nej	Nej	OBIE	instanser, egenskapsvärden, RDFS-typer	NLP, maskininlärning	RDF, RDFa	beror inte på området	engelska tyska
SemTag [27] [28]	HTML	dumpa	Nej	Ja	automatiskt	Ja	Nej	SA		maskininlärning	databaspost	beror inte på området	beror inte på språket
smart FIX	textdata, HTML, PDF, DOC, e-post	dumpa	Ja	Nej	automatiskt	Nej	Ja	OBIE	namngivna enheter	NLP, maskininlärning	egen	beror inte på området	engelska, tyska, franska, holländska, polska
Text2Onto [29]	textdata, HTML, PDF	dumpa	Ja	Nej	halvautomatiskt	Ja	Ja	OL	begrepp, begreppsbegrepp, icke-taxonomiska relationer, instanser, axiom	NLP, statistiska metoder, maskininlärning, regelbaserade metoder	UGGLA	beror inte på området	engelska, tyska, spanska
Text-till-på [30]	textdata, HTML, PDF, PostScript	dumpa			halvautomatiskt	Ja	Ja	OL	begrepp, begreppshierarki, icke-taxonomiska relationer, lexikaliska enheter som hänvisar till begrepp, lexikala enheter som hänvisar till relationer	NLP, maskininlärning, klustring, statistiska metoder			Deutsch
Den där nålen	Textdata	dumpa			automatiskt		Nej		begrepp, relationer, hierarki	NLP, egen	JSON	flera områden	engelsk
The Wiki Machine [31]	textdata, HTML, PDF, DOC	dumpa	Nej	Ja	automatiskt	Ja	Ja	SA	märkning av egennamn, märkning av vanliga substantiv	maskininlärning	RDFa	region oberoende	Engelska, tyska, spanska, franska, portugisiska, italienska, ryska
Thing Finder [32]								IE	namngivna enheter, relationer, händelser				flerspråkig

Knowledge Discovery

Knowledge discovery beskriver processen att automatiskt söka i stora datamängder efter modeller som kan betraktas som kunskap om datan [33] . Detta beskrivs ofta som att utvinna kunskap från input . Knowledge discovery är utvecklad för dataanalys och är nära relaterad till både metodik och terminologi [34] .

Den mest kända grenen av datautvinning är kunskapsupptäckt, även känt som kunskapsupptäckt i databaser . Liksom många andra former av kunskapsupptäckt skapar denna analys abstraktioner av indata. Kunskaper som förvärvats som ett resultat av denna process kan bli ytterligare data som kan användas för vidare användning och sökningar. Ofta har resultatet av en kunskapsupptäcktsprocess inget praktiskt värde, så aktiv kunskapsupptäckt , även känd som " Domändataanalys " [35] , är utformad för att upptäcka och extrahera (av praktisk betydelse) aktiv kunskap och slutsatser från denna kunskap.

En annan lovande tillämpning av kunskapsupptäckt är inom området mjukvarumodernisering detektering av svagheter och efterlevnad av standarder, vilket innebär att man förstår befintlig programvara. Denna process är relaterad till begreppet reverse engineering . Vanligtvis presenteras kunskapen från befintlig programvara i form av modeller som specifika frågor kan göras på vid behov. Entity-relationship-modellen är ett vanligt format som representerar kunskap och härrör från befintlig programvara. Object Management Group- konsortiet har utvecklat en specifikation för Knowledge Discovery Metamodel ( KDM), som definierar en ontologi för mjukvaruresurser och deras relationer, utformad för att upptäcka kunskap i befintlig kod. Upptäckten av kunskap från kända mjukvarusystem, även känd som software mining , är nära relaterad till data mining , eftersom befintliga mjukvaruupptäckter är av stor betydelse för riskhantering och kommersiellt värde , som fungerar som nyckelelement för analys och utveckling av mjukvarusystem. Istället för att analysera enskilda datamängder fokuserar mjukvaruutvinning [sv] på metadata som produktionsflöde (t.ex. dataflöde, kontrollflöde, anropsmönster), arkitektur, databasscheman och affärsregler/termer/processer.

Datainmatning

Databas
- Relationsdata
- Databas
- Dokumentlagring
- Datalagring
Programvara
Text
- Konceptextraktion
Grafer
- Intelligent analys av molekyler
Sekvenser
- Dataflödesutvinning
- Concept Drift
webb

Utdataformat

Se även

Anteckningar

↑ RDB2RDF Working Group, Webbplats: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Språk: http://www.w3.org/TR/r2rml/
↑ LOD2 EU (ej tillgänglig länk) Levereras 3.1.1 Kunskapsutvinning från strukturerade källor
↑ Calais Release 4, 2009 .
↑ 1 2 Berners-Lee, 1998 .
↑ Hu, Qu, 2007 , sid. 225-238.
↑ Ghawi, Cullot, 2007 .
↑ Li, Du, Wang, 2005 , sid. 209-220.
↑ Tirmizi, Miranker, Sequeda, 2008 .
↑ Cerbah, 2008 .
↑ RDQL = RDF Query Language
↑ 1 2 Wimalasuriya, Dou, 2010 , sid. 306 - 323.
↑ Inte att förväxla med MS IE = Microsoft Internet Explorer!
↑ Cunningham, 2005 , sid. 665–677.
↑ Erdmann, Maedche, Schnurr, Staab, 2000 .
↑ Rao, McNamee, Dredze, 2011 , sid. 93-115.
↑ Rocket Software Inc. (2012). "teknik för att extrahera intelligens från text"
↑ Orchestral8 (2012): "AlchemyAPI Översikt"
↑ University of Sheffield (2011). "ANNIE: ett nästan nytt informationsextraktionssystem"
↑ Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , sid. arton.
↑ Gangemi, Presutti, Recupero et al., 2016 .
↑ Adrian, Maus, Dengel, 2009 .
↑ SRA International Inc. (2012). NetOwl Extractor
↑ Fortuna, Grobelnik, Mladenic, 2007 , sid. 309–318.
↑ Missikoff, Navigli, Velardi, 2002 , sid. 60-63.
↑ McDowell, Cafarella, 2006 , sid. 428 - 444.
↑ Yildiz, Miksch, 2007 , sid. 660 - 673.
↑ Dill, Eiron, Gibson et al., 2003 , sid. 178 - 186.
↑ Uren, Cimiano, Iria et al., 2006 , sid. 14 - 28.
↑ Cimiano, Völker, 2005 .
↑ Maedche, Volz, 2001 .
↑ Maskinlänkning. "Vi ansluter till det länkade öppna datamolnet"
↑ Inxight ThingFinder och ThingFinder Professional (nedlänk) . Inxight Federal Systems (2008). Hämtad 18 juni 2012. Arkiverad från originalet 29 juni 2012. (obestämd)
↑ Frawley, Piatetsky-Shapiro, Matheus, 1992 , sid. 57-70.
↑ Fayyad, Piatetsky-Shapiro, Smyth, 1996 , sid. 37-54.
↑ Cao, 2010 , sid. 755–769.

Litteratur

Cao L. Domändriven datamining: utmaningar och framtidsutsikter // IEEE Trans. på Knowledge and Data Engineering. - 2010. - T. 22 , nr. 6 . - doi : 10.1109/tkde.2010.32 .
Livet i det länkade datamolnet // www.opencalais.com. - 2009. Arkiverad den 24 november 2009. Utdrag: Wikipedia har en motsvarighet som heter DBpedia. DBpedia har samma strukturerade information som Wikipedia, men konverterad till ett maskinläsbart format.
Benjamin Adrian, Heiko Maus, Andreas Dengel. iDocument: Använda ontologier för att extrahera information från text. — 2009.
William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus. Knowledge Discovery in Databases: An Overview // AI Magazine. - 1992. - T. 13 , nr 3 . - S. 57-70 . Arkiverad från originalet den 4 mars 2016.
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. Från datautvinning till kunskapsupptäckt i databaser // AI Magazine. - 1996. - T. 17 , nr 3 . - S. 37-54 . Arkiverad från originalet den 4 maj 2016.
Tim Berners Lee. Relationsdatabaser på den semantiska webben . — 1998.
Farid Cerbah. Att lära sig mycket strukturerade semantiska arkiv från relationsdatabaser // The Semantic Web: Research and Applications . - Berlin / Heidelberg: Springer, 2008. - T. 5021. - (Lecture Notes in Computer Science). Arkiverad 20 juli 2011 på Wayback Machine
Syed Hamid Tirmizi, Daniel P. Miranker, Juan Sequeda. Översätta SQL-applikationer till den semantiska webben // Databas- och expertsystemapplikationer . - 2008. - T. 5181/2008. — (Föreläsningsanteckningar i datavetenskap).
Wei Hu, Yuzhong Q. Upptäcka enkla mappningar mellan relationella databasscheman och ontologier // Proc. av 6:e internationella semantiska webbkonferensen (ISWC 2007), 2:a asiatiska semantiska webbkonferensen (ASWC 2007) . - Busan, Korea, 11-15 november 2007, 2007. - T. 4825. - S. 225-238. — (Föreläsningsanteckningar i datavetenskap).
Ghawi R., Cullot N. Databas-to-Ontology Mapping Generation for Semantic Interoperability // Third International Workshop on Database Interoperability (InterDB 2007). . – 2007.
Man Li, Xiaoyong Du, Shan Wang. En halvautomatisk ontologiinhämtningsmetod för den semantiska webben // WAIM. - Springer, 2005. - T. 3739. - S. 209-220. — (Föreläsningsanteckningar i datavetenskap). - doi : 10.1007/11563952_19 .
Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, Misael Mongiovì. Semantisk webbmaskinläsning med FRED // Semantisk webbjournal. - 2016. - doi : 10.3233/SW-160240 .
Philipp Cimiano, Johanna Volker. Text2Onto - Ett ramverk för ontologiinlärning och datadriven förändringsupptäckt // Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems. - 2005. - T. 3513. - S. 227 - 238.
Hamish Cunningham. Informationsextraktion, automatisk // Encyclopedia of Language and Linguistics . - 2005. - S. 665 - 677.
Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, R. Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John A. Tomlin, Jason Y. Zien. SemTag and Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation // Proceedings of the 12th international conference on World Wide Web . - 2003. - S. 178 - 186.
Erdmann M., Maedche A., Schnurr H.-P., Staab S. From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools // Proceedings of the COLING. — 2000.
Blaz Fortuna, Marko Grobelnik, Dunja Mladenic. OntoGen: Semi-automatic Ontology Editor // Proceedings of the 2007 conference on Human Interface, Part 2 . - 2007. - S. 309 - 318.
Alexander Maedche, Raphael Volz. Ontology Extraction & Maintenance Framework Text-To-Onto // Proceedings of the IEEE International Conference on Data Mining . – 2001.
Luke K. McDowell, Michael Cafarella. Ontologidriven informationsextraktion med OntoSyphon // Proceedings of the 5th international conference on The Semantic Web . - 2006. - S. 428 - 444.
Pablo N. Mendes, Max Jakob, Andrés Garcia-Sílva, Christian Bizer. DBpedia Spotlight: Shedding Light on the Web of Documents // Proceedings of the 7th International Conference on Semantic Systems . - 2011. - S. 1 - 8. Arkivexemplar av 5 april 2012 på Wayback Machine
Michele Missikoff, Roberto Navigli, Paola Velardi. Integrerat tillvägagångssätt för webbontologiinlärning och teknik // Dator. - 2002. - T. 35 , nr. 11 . - S. 60 - 63 .
Delip Rao, Paul McNamee, Mark Dredze. Entitetslänkning: Hitta extraherade enheter i en kunskapsbas // Flera källor, flerspråkig informationsextraktion och sammanfattning . — 2011. (otillgänglig länk)
Victoria Uren, Philipp Cimiano, José Iria, Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna. Semantisk annotering för kunskapshantering: Krav och en översikt över det senaste // Web Semantics: Science, Services and Agents on the World Wide Web. - 2006. - V. 4 , nr. 1 . - S. 14 - 28 . (inte tillgänglig länk)
Daya C. Wimalasuriya, Dejing Dou. Ontologibaserad informationsextraktion: En introduktion och en undersökning av aktuella tillvägagångssätt // Journal of Information Science. - 2010. - T. 36 , nr. 3 . - S. 306 - 323 .
Burcu Yildiz, Silvia Miksch. ontoX - En metod för ontologidriven informationsextraktion // Proceedings of the 2007 international conference on Computational Science and its applications . - 2007. - T. 3. - S. 660 - 673.

semantisk webb
Grunderna	World Wide Web Internet Hypertext Databas Semantiska nätverk Ontologier Beskrivningslogik
Underavsnitt	Länkad data datawebb Hyperdata Server för exekvering av affärsregel Datautrymmen
Ansökningar	Semantisk Wiki Semantisk publicering Semantisk sökning Semantisk beräkning semantisk reklam Semantisk resonemangsmekanism semantisk matchning semantisk kartläggare semantisk mäklare semantisk analys semantisk tjänsteorienterad arkitektur
Relaterade ämnen	Folksonomi Bibliotek 2.0 Webb 2.0 Länkar Informationsarkitektur Kunskapshantering kollektiv intelligens Tematiska kartor Att göra tankekartor metadata Geotaggning webbvetenskap
Standarder	Syntax : RDF RDF/XML Notation 3 Sköldpadda N-trippel JSON-LD SPARQL URI http XML Schema, ontologier : RDFS UGGLA Regelutbytesformat Semantisk webbregelspråk gemensam logik Schema.org Semantisk anteckning : RDFa eRDF GRDDL Mikroformat Mikrodata Ordböcker : DOAP FOAF SIOC Dublins kärna SKOS FLOCK Historik : Vanlig gammal semantisk HTML DAML+OLJA