Kunskapsextraktion är skapandet av kunskap från strukturerade ( relationsdatabaser , XML ) och ostrukturerade källor ( texter , dokument, bilder ). Den resulterande kunskapen måste vara i ett format som tillåter datorinmatning och måste representera kunskapen på ett sätt som underlättar slutledning. Även om metoden för processen liknar informationsextraktion ( naturlig språkbehandling , eng. Naturlig språkbehandling , NLP) och processen med " Extraktion, Transformation, Loading " ( eng. Extrahera, transformera, ladda , ETL, för datalager), det huvudsakliga resultatkriteriet är skapandet av strukturerad information eller transformation till ett relationsschema . Detta kräver antingen omvandling av befintlig formell kunskap (återanvändning av identifierare eller ontologier ) eller generering av ett schema baserat på originaldata.
RDB2RDF W3C-gruppen [1] standardiserar ett språk för att extrahera resursbeskrivningsramverk ( RDF ) från en relationsdatabas . Ett annat populärt exempel på kunskapsextraktion är att konvertera Wikipedia till strukturerad data och kartläggning till befintlig kunskap (se DBpedia och Freebase ).
Efter standardiseringen av kunskapsrepresentationsspråk som Resource Description Framework ( RDF) och Web Ontology Language ( OWL ) har mycket forskning gjorts inom detta område, särskilt angående transformationen av relationsdatabasen. data i RDF , igenkänningsförmåga , kunskapsupptäckt och ontologiinlärning. Huvudprocessen använder traditionella informationsextraktionsmetoder och extrahera , transformera, ladda ( ETL) metoder som konverterar data från källformat till strukturerade format .
Följande kriterier kan användas för kategoriseringsförsök i detta ämne (några av dem tillhandahåller kunskapsextraktion från relationsdatabaser) [2] :
Källa | Vilken data kan behandlas: Text, Relationsdatabas, XML , CSV |
---|---|
Prestanda | Hur kan de extraherade data presenteras för användning (ontologi (objektmodell) fil, semantisk databas)? Hur är det möjligt att begära informationen från den mottagna representationen? |
Synkronisering | Utförs kunskapsutvinning en gång för att producera en dump, eller är resultatet synkroniserat med källan? Är extraktion statisk eller dynamisk? Skrivs förändringar i resultatet tillbaka till källan (dubbelriktad)? |
Ordbok Återanvändning | Om extraheraren tillåter återanvändning av befintliga ordböcker vid extrahering. Tabellkolumnen 'firstName' kan till exempel mappas till kolumnen foaf: firstName. Vissa automatiska metoder kan inte visa en ordbok. |
Automatisering | Grad av deltagande / automatisering av extraktion: Manuellt läge, det finns en GUI , halvautomatisk, automatisk. |
Behovet av en domänobjektmodell | Om en fördefinierad objektmodell måste mappas till den. Sålunda skapas antingen en mappning eller så erhålls ett schema från källan av ( training ontologies ). |
President Obama uppmanade på onsdagen kongressen att inkludera en utökning av studentskatteavdrag i det ekonomiska stimulanspaketet, med argumentet att politiken skulle generera starkare stöd.
Eftersom president Obama i DBpedia är länkad till LinkedData- resursen , kan ytterligare information hämtas automatiskt och den semantiska resoneraren kan till exempel dra slutsatsen att den entitet som avses är en personlighetstyp (med hjälp av FOAF ) och USA:s president (med hjälp av YAGO ). Motexempel: Metoder som bara känner igen enheter och inte associerar med Wikipedia-artiklar eller andra enheter ger inte ytterligare strukturerad data och formell kunskapsextraktion.namn | gift med | hemsida | status_id |
---|---|---|---|
Peter | Mary | http://example.org/Peters_page (inte tillgänglig länk) | ett |
Claus | Eva | http://example.org/Claus_page (inte tillgänglig länk) | 2 |
När man bygger en representation av en relationsdatabas (RDB, eng. relationsdatabas ), är utgångspunkten ofta ett entity-relationship diagram ( eng. entity-relationship diagram , ERD). Vanligtvis representeras varje entitet som en databastabell, varje entitetsegenskap blir en kolumn i den tabellen och relationen mellan entiteter visas med främmande nycklar. Varje tabell definierar vanligtvis en viss entitetsklass, och varje kolumn definierar en av egenskaperna för den entiteten. Varje rad i tabellen beskriver en instans av en entitet, unikt identifierad av en huvudnyckel. Tabellraderna tillsammans beskriver entitetsuppsättningen. I RDF-ekvivalent representation av samma entitetsuppsättning:
Så, för att uttrycka en likvärdig representation baserad på RDF-semantik, skulle den grundläggande algoritmen vara:
En tidig referens till grundläggande eller direkt kartläggning kan hittas i Tim Berners-Lees jämförelse av ER-modellen med RDF-modellen [4] .
1:1-mappningen som nämns ovan representerar den gamla datan som RDF direkt, och ytterligare förfining kan användas för att förbättra användbarheten av RDF-utgången enligt det givna användningsfallet. Som regel går information förlorad under omvandlingen av ett entity -relationship diagram (ERD) till relationstabeller (en detaljerad beskrivning finns i artikeln " Objektrelationell missmatchning ") och måste återställas genom omvänd konstruktion . Begreppsmässigt kan utvinningsmetoder komma från två håll. Den första riktningen försöker extrahera eller träna (med hjälp av maskininlärning) ett OWL-schema från ett givet databasschema. Tidiga tillvägagångssätt använde ett fast antal handgjorda kartläggningsregler för att förbättra 1:1 kartläggning [5] [6] [7] . Mer utarbetade metoder använde heuristiska eller inlärningsalgoritmer för att generera schematisk information (metoder överlappar med ontologiinlärning ). Medan vissa tillvägagångssätt försöker extrahera information från strukturen som är inneboende i SQL -schemat [8] (genom att tolka till exempel främmande nycklar), analyserar andra tillvägagångssätt innehållet och värdena i tabeller för att skapa konceptuella hierarkier [9] (till exempel , kolumner med få värden är kandidater för att bli kategorier). Den andra riktningen försöker kartlägga schemat och dess innehåll till en befintlig domänontologi (se även " Ontologikartläggning "). Ofta existerar dock inte en lämplig domänontologi och måste först skapas.
Eftersom XML är strukturerat som ett träd är det lätt att representera vilken data som helst i RDF-format, som är strukturerat som en graf. XML2 RDF är ett exempel på ett tillvägagångssätt som använder tomma RDF-noder och omvandlar XML-element och attribut till RDF-egenskaper. Fallet är dock mer komplext än när det gäller relationsdatabaser. I relationstabeller är huvudnyckeln en idealisk kandidat för ämnet framstående trippel. Ett XML-element kan dock konverteras - beroende på sammanhanget - som ett subjekt, som ett predikat eller som ett trippelobjekt. XSLT kan användas som ett standardtransformationsspråk för manuell konvertering av XML till RDF.
namn | Datakälla _ |
Presentation av resultatet | Datasynkronisering | Visa språk | Återanvändning av ordbok |
Visningsautomatisering _ _ |
Domänontologi krävs | Använder GUI _ |
---|---|---|---|---|---|---|---|---|
Direkt kartläggning av relationsdata till RDF | relationsdata _ |
SPARQL / ETL | dynamisk | Nej | automatisk _ |
Nej | Nej | |
CSV2RDF4LOD | csv | ETL | statisk | RDF | Ja | manuell | Nej | Nej |
Konvertera2RDF | Avgränsad textfil | ETL | statisk | RDF/DAML | Ja | manuell | Nej | Ja |
D2R Server Arkiverad 26 februari 2012 på Wayback Machine | RBD | SPARQL | dubbelriktad | D2R Karta | Ja | manuell | Nej | Nej |
Dart Grid | RBD | OWL frågespråk | dynamisk | visuella hjälpmedel | Ja | manuell | Nej | Ja |
data master | RBD | ETL | statisk | egen | Ja | manuell | Ja | Ja |
Google Refines RDF-tillägg | CSV, XML | ETL | statisk | saknas | halvautomatisk _ |
Nej | Ja | |
Crextor | XML | ETL | statisk | XSLT | Ja | manuell | Ja | Nej |
MAPONTO | RBD | ETL | statisk | egen | Ja | manuell | Ja | Nej |
METAmorfoser | RBD | ETL | statisk | eget språk baserat på xml-mappning | Ja | manuell | Nej | Ja |
MappingMaster | csv | ETL | statisk | MappingMaster | Ja | GUI | Nej | Ja |
ODEMapster | RBD | ETL | statisk | egen | Ja | manuell | Ja | Ja |
OntoWiki CSV Importer Plug-in - DataCube & Tabular | csv | ETL | statisk | RDF Data Cube Vocaublar | Ja | halvautomatisk _ |
Nej | Ja |
Poolparty Extractor (PPX) | XML, text | Länkad data | dynamisk | RDF ( SKOS ) | Ja | halvautomatisk _ |
Ja | Nej |
RDBToOnto | RBD | ETL | statisk | saknas | Nej | automatiskt har användaren en chans att finjustera resultatet |
Nej | Ja |
RDF 123 | csv | ETL | statisk | Nej | Nej | manuell | Nej | Ja |
RDOTE | RBD | ETL | statisk | SQL | Ja | manuell | Ja | Ja |
Relationell.OWL | RBD | ETL | statisk | saknas | Nej | automatisk _ |
Nej | Nej |
T2LD | csv | ETL | statisk | Nej | Nej | automatisk _ |
Nej | Nej |
RDF-ordbokdata cube ( eng. RDF Data Cube Vocabulary ) | Flerdimensionell statistisk data i kalkylblad | datakub ordbok | Ja | manuell | Nej | |||
TopBraid kompositör | csv | ETL | statisk | SKOS | Nej | halvautomatisk _ |
Nej | Ja |
tredubbla | RBD | Länkad data | dynamisk | SQL | Ja | manuell | Nej | Nej |
ultrawrap | RBD | SPARQL/ETL | dynamisk | R2RML | Ja | halvautomatisk _ |
Nej | Ja |
Virtuosa RDF-vyer | RBD | SPARQL | dynamisk | Meta Schema Language | Ja | halvautomatisk _ |
Nej | Ja |
Virtuos Sponger | strukturerade och semistrukturerade datakällor |
SPARQL | dynamisk | Virtuos PL & XSLT | Ja | halvautomatisk _ |
Nej | Nej |
VisAVis | RBD | RDQL [10] | manuell | SQL | Ja | manuell | Ja | Ja |
XLWrap: Kalkylblad till RDF | csv | ETL | statisk | TriG-syntax | Ja | manuell | Nej | Nej |
XML till RDF | XML | ETL | statisk | Nej | Nej | automatisk _ |
Nej | Nej |
Den största delen av informationen i ett affärsdokument (cirka 80 % [11] ) är kodad på naturligt språk och därför inte strukturerad. Eftersom ostrukturerad data är en ganska svår uppgift för att utvinna kunskap krävs mer sofistikerade metoder som vanligtvis ger sämre resultat än strukturerad data. Men förmågan att skaffa sig en enorm mängd utvunnen kunskap kompenserar för den ökande komplexiteten och försämrade kvaliteten på utvinningen. Vidare förstås källor i naturligt språk som informationskällor där data ges som ostrukturerad textdata. Om den givna texten infogas i ett uppmärkningsdokument (som ett HTML-dokument), tar dessa system vanligtvis bort markeringselementen automatiskt.
Traditionell informationsextraktion ( IE [12] ) [13] är en naturlig språkbehandlingsteknik som extraherar information från naturliga språktexter och strukturerar dem på lämpligt sätt . Vilka typer av information som ska utvinnas måste anges i modellen innan bearbetningsprocessen påbörjas, varför hela processen med traditionell informationsutvinning är beroende av det ämnesområde som behandlas. FROM ( eng. IE ) är uppdelad i följande fem deluppgifter.
Uppgiften med namngiven enhetsigenkänning är att känna igen och kategorisera alla namngivna enheter som finns i texten (tilldela namngivna enheter till fördefinierade kategorier). Det fungerar genom att tillämpa grammatikbaserade metoder eller statistiska modeller.
Coreference resolution etablerar likvärdiga enheter som har identifierats i texten av NER-algoritmen. Det finns två relaterade typer av ekvivalensrelationer. Den första relationen avser en relation mellan två olika enheter (t.ex. IBM Europe och IBM) och den andra avser en relation mellan en enhet och dess anaforiska referens (t.ex. den och IBM). Båda arterna kan kännas igen genom coreference resolution .
Under konstruktionen av mallelementen ställer IE-systemet in de beskrivande egenskaperna för de enheter som känns igen av NER- och CO-systemen. Dessa egenskaper motsvarar vanliga egenskaper som "röd" eller "stor".
Identifieringen av relationer mellan enskilda enheter etablerar de relationer som finns mellan elementen i mallen. Dessa relationer kan vara av flera slag, till exempel work-for eller lokaliserade i, med begränsningen att både omfattning och intervall motsvarar entiteter.
Fullständiga beskrivningar av händelser som utförs i texten erkänns och struktureras enligt de enheter som erkänns av NER- och CO-systemen, och sambanden känns igen av BC-systemet.
Ontologibaserad informationsextraktion ( OBIE ) [11] är ett underområde av informationsextraktion som använder minst en ontologi för att hantera processen att extrahera information från naturligt språktext. OBIE-systemet använder traditionella informationsextraktionstekniker för att känna igen begreppen , enheterna och relationerna för de använda ontologierna i texten, som kommer att struktureras till en ontologi efter processen. Således bildar ingångsontologierna en modell av den hämtade informationen.
Ontologiinlärning ( OL ) är det automatiska eller halvautomatiska skapandet av ontologier, inklusive extraktion av relevanta objektdomäntermer från naturligt språktext. Eftersom att bygga ontologier för hand är extremt arbetskrävande och tidskrävande, finns det ett starkt incitament att automatisera processen.
Under semantisk annotering ( SA ) [14] åtföljs text på naturligt språk av metadata (ofta representerad i RDF [ , Resource Description Framework in Attributes ) som bör göra semantiken för de inneslutna elementen förståelig av maskiner . I denna process, som vanligtvis är halvautomatisk, hämtas kunskap i den meningen att en koppling upprättas mellan lexikaliska poster och till exempel begrepp från ontologier. Således får vi kunskap som avslöjar betydelsen av entiteten i det sammanhang som bearbetas, och därför bestämmer textens betydelse i informationen som uppfattas av maskinen med förmågan att dra logiska slutsatser. Den semantiska anteckningen delas vanligtvis upp i följande två deluppgifter.
På terminologiextraktionsnivån extraheras lexikaliska termer från texten. För detta ändamål bestämmer den lexikala analysatorn först ordgränser och extraherar förkortningar. Termerna som matchar begreppen extraheras sedan från texten med hjälp av en domänspecifik vokabulär för entitetslänkning.
Vid länkning av entiteter [15] upprättas en länk mellan de extraherade lexikaliska medlemmarna från källtexten och begrepp från en ontologi eller kunskapsbas, såsom DBpedia . För att göra detta identifieras kandidatbegrepp enligt vissa elementvärden med hjälp av en ordbok. Slutligen analyseras termernas sammanhang för att bestämma den lämpligaste disambigueringen och det korrekta begreppet tilldelas termen.
Följande kriterier kan användas för att kategorisera verktyg som extraherar kunskap från naturliga språktexter.
Källa | Vilka inmatningsformat kan bearbetas (t.ex. vanlig text, HTML eller PDF )? |
Tillgångsparadigm | Kan verktyget fråga en del av data från källan, eller krävs en fullständig dumpning för extraktionsprocessen? |
Datasynkronisering | Är resultatet av extraheringen synkroniserat med källan? |
Använda objektmodellen | Förknippar verktyget resultatet med objektmodellen? |
Displayautomation | Hur automatiserad är utvinningsprocessen (manuell, halvautomatisk eller automatisk)? |
Objektmodellkrav | Kräver verktyget en objektmodell för att hämtas? |
Använder GUI | Har verktyget ett grafiskt användargränssnitt ( GUI ) ? |
Ett tillvägagångssätt | Vilken metod (IE, OBIE, OL eller SA) använder verktyget? |
Extraherbara enheter | Vilka typer av enheter (som namngivna enheter, begrepp eller relationer) kan hämtas av verktyget? |
Tillämpade tekniker | Vilka tekniker används (t.ex. NLP, statistiska metoder, klustring eller maskininlärning )? |
utgångsmodell | Vilken modell används för att representera resultatet av verktyget (t.ex. RDF eller OWL)? |
Understödda ämnesområden | Vilka ämnesområden stöds (t.ex. ekonomi eller biologi)? |
Språk som stöds | Vilka språk kan bearbetas (t.ex. engelska, tyska eller ryska)? |
Följande tabell beskriver några av verktygen för att extrahera kunskap från naturliga språkkällor.
namn | Källa | Tillgångsparadigm | Datasynkronisering | Använda objektmodellen | Displayautomation | Objektmodellkrav | Använder GUI | Ett tillvägagångssätt | Extraherbara enheter | Tillämpade tekniker | utgångsmodell | Stödda områden | Språk som stöds |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aero Text [16] | textdata, HTML, XML, SGML | dumpa | Nej | Ja | automatisk | Ja | Ja | IE | namngivna enheter, relationer, händelser | språkliga regler | egen | beror inte på området | engelska, spanska, arabiska, kinesiska, indonesiska |
Alchemy API [17] | textdata, HTML | automatisk | Ja | SA | flerspråkig | ||||||||
ANNIE | textdata | dumpa | Ja | Ja | IE | tillståndsmaskinalgoritmer | flerspråkig | ||||||
ASIUM (LRI) | textdata | dumpa | halvautomatisk | Ja | OL | begrepp, begreppshierarki | NLP, klustring | ||||||
Uttömmande extraktion av Attensity | automatisk | IE | namngivna enheter, relationer, händelser | NLP | |||||||||
Maskros API | textdata, HTML, URL | RESTEN | Nej | Nej | automatiskt | Nej | Ja | SA | namngivna enheter, begrepp | statistiska metoder | JSON | beror inte på området | flerspråkig |
DBpedia Spotlight [19] | textdata, HTML | soptipp, SPARQL | Ja | Ja | automatisk | Nej | Ja | SA | anteckning till varje ord, anteckning till non-stopwords | NLP, statistiska metoder, maskininlärning | RDFa | beror inte på området | engelsk |
EntityClassifier.eu | textdata, HTML | dumpa | Ja | Ja | automatisk | Nej | Ja | IE, OL, SA | anteckning till varje ord, anteckning till non-stopwords | regelbaserad grammatik | XML | beror inte på området | engelska, tyska, holländska |
Fred [20] | textdata | dump, REST API | Ja | Ja | automatisk | Nej | Ja | IE, OL, SA, ontologiska designmönster, ramsemantik | NIF- eller EarMark-ord abstrakt, predikat, instanser, sammansättningssemantik, taxonomibegrepp , semantiska roller, beskrivande relationer, händelser, humör, grammatisk tid, namngiven entitetslänkning, händelselänkning, känslor | NLP, maskininlärning, heuristiska regler | RDF/OWL | beror inte på området | Engelska, andra språk efter översättning |
iDocument [21] | HTML, PDF , DOC | SPARQL | Ja | Ja | OBIE | instanser, fastighetsvärden | NLP | personliga affärer | |||||
NetOwl Extractor [22] | textdata, HTML, XML, SGML , PDF, MS Office | dumpa | Nej | Ja | automatiskt | Ja | Ja | IE | namngivna enheter, relationer, händelser | NLP | XML, JSON , RDF - OWL, andra | flera områden | engelska, arabiska, kinesiska (förenklad och traditionell), franska, koreanska, persiska (farsi och dari), ryska, spanska |
OntoGen Arkiverad 30 mars 2010 på Wayback Machine [23] | halvautomatisk | Ja | OL | begrepp, begreppshierarki, icke-taxonomiska relationer, instanser | NLP, maskininlärning, klustring | ||||||||
OntoLearn Arkiverad 9 augusti 2017 på Wayback Machine [24] | textdata, HTML | dumpa | Nej | Ja | automatiskt | Ja | Nej | OL | begrepp, begreppshierarki, instanser | NLP, statistiska metoder | egen | beror inte på området | engelsk |
OntoLearn har laddats om | textdata, HTML | dumpa | Nej | Ja | automatiskt | Ja | Nej | OL | begrepp, begreppshierarki, instanser | NLP, statistiska metoder | egen | beror inte på området | engelsk |
OntoSiphon [25] | HTML, PDF, DOC | dump, sökmotorfrågor | Nej | Ja | automatiskt | Ja | Nej | OBIE | begrepp, relationer, instanser | NLP, statistiska metoder | RDF | beror inte på området | engelsk |
ontoX [26] | textdata | dumpa | Nej | Ja | halvautomatiskt | Ja | Nej | OBIE | instanser, datatypegenskapsvärden | heuristiskt baserade metoder | egen | beror inte på området | beror inte på språket |
Öppna Calais | textdata, HTML, XML | dumpa | Nej | Ja | automatiskt | Ja | Nej | SA | anteckning till enheter, anteckning till händelser, anteckning till fakta | NLP, maskininlärning | RDF | beror inte på området | engelska, franska, spanska |
Pool Party Extractor (2011) | textdata, HTML, DOC, ODT | dumpa | Nej | Ja | automatiskt | Ja | Ja | OBIE | namngivna enheter, begrepp, relationer, begrepp, som kategoriserar texten, berikningar | NLP, maskininlärning, statistiska metoder | RDF, UGLA | beror inte på området | engelska, tyska, spanska, franska |
Rosoka | textdata, HTML, XML, SGML , PDF, MS Office | dumpa | Ja | Ja | automatiskt | Nej | Ja | IE | namngiven enhetsextraktion, enhetsupplösning, relation, attribut, konceptextraktion, multi-vektor sentimentanalys, georeferens, språkidentifiering , maskininlärning | NLP | XML, JSON , POJO | flera områden | flerspråkig (200+ språk) |
SCOOBIE | textdata, HTML | dumpa | Nej | Ja | automatiskt | Nej | Nej | OBIE | instanser, egenskapsvärden, RDFS-typer | NLP, maskininlärning | RDF, RDFa | beror inte på området | engelska tyska |
SemTag [27] [28] | HTML | dumpa | Nej | Ja | automatiskt | Ja | Nej | SA | maskininlärning | databaspost | beror inte på området | beror inte på språket | |
smart FIX | textdata, HTML, PDF, DOC, e-post | dumpa | Ja | Nej | automatiskt | Nej | Ja | OBIE | namngivna enheter | NLP, maskininlärning | egen | beror inte på området | engelska, tyska, franska, holländska, polska |
Text2Onto [29] | textdata, HTML, PDF | dumpa | Ja | Nej | halvautomatiskt | Ja | Ja | OL | begrepp, begreppsbegrepp, icke-taxonomiska relationer, instanser, axiom | NLP, statistiska metoder, maskininlärning, regelbaserade metoder | UGGLA | beror inte på området | engelska, tyska, spanska |
Text-till-på [30] | textdata, HTML, PDF, PostScript | dumpa | halvautomatiskt | Ja | Ja | OL | begrepp, begreppshierarki, icke-taxonomiska relationer, lexikaliska enheter som hänvisar till begrepp, lexikala enheter som hänvisar till relationer | NLP, maskininlärning, klustring, statistiska metoder | Deutsch | ||||
Den där nålen | Textdata | dumpa | automatiskt | Nej | begrepp, relationer, hierarki | NLP, egen | JSON | flera områden | engelsk | ||||
The Wiki Machine [31] | textdata, HTML, PDF, DOC | dumpa | Nej | Ja | automatiskt | Ja | Ja | SA | märkning av egennamn, märkning av vanliga substantiv | maskininlärning | RDFa | region oberoende | Engelska, tyska, spanska, franska, portugisiska, italienska, ryska |
Thing Finder [32] | IE | namngivna enheter, relationer, händelser | flerspråkig |
Knowledge discovery beskriver processen att automatiskt söka i stora datamängder efter modeller som kan betraktas som kunskap om datan [33] . Detta beskrivs ofta som att utvinna kunskap från input . Knowledge discovery är utvecklad för dataanalys och är nära relaterad till både metodik och terminologi [34] .
Den mest kända grenen av datautvinning är kunskapsupptäckt, även känt som kunskapsupptäckt i databaser . Liksom många andra former av kunskapsupptäckt skapar denna analys abstraktioner av indata. Kunskaper som förvärvats som ett resultat av denna process kan bli ytterligare data som kan användas för vidare användning och sökningar. Ofta har resultatet av en kunskapsupptäcktsprocess inget praktiskt värde, så aktiv kunskapsupptäckt , även känd som " Domändataanalys " [35] , är utformad för att upptäcka och extrahera (av praktisk betydelse) aktiv kunskap och slutsatser från denna kunskap.
En annan lovande tillämpning av kunskapsupptäckt är inom området mjukvarumodernisering detektering av svagheter och efterlevnad av standarder, vilket innebär att man förstår befintlig programvara. Denna process är relaterad till begreppet reverse engineering . Vanligtvis presenteras kunskapen från befintlig programvara i form av modeller som specifika frågor kan göras på vid behov. Entity-relationship-modellen är ett vanligt format som representerar kunskap och härrör från befintlig programvara. Object Management Group- konsortiet har utvecklat en specifikation för Knowledge Discovery Metamodel ( KDM), som definierar en ontologi för mjukvaruresurser och deras relationer, utformad för att upptäcka kunskap i befintlig kod. Upptäckten av kunskap från kända mjukvarusystem, även känd som software mining , är nära relaterad till data mining , eftersom befintliga mjukvaruupptäckter är av stor betydelse för riskhantering och kommersiellt värde , som fungerar som nyckelelement för analys och utveckling av mjukvarusystem. Istället för att analysera enskilda datamängder fokuserar mjukvaruutvinning [sv] på metadata som produktionsflöde (t.ex. dataflöde, kontrollflöde, anropsmönster), arkitektur, databasscheman och affärsregler/termer/processer.
semantisk webb | |
---|---|
Grunderna | |
Underavsnitt |
|
Ansökningar |
|
Relaterade ämnen | |
Standarder |
|