Semantic web (från engelska semantic web ) - ett offentligt globalt semantiskt nätverk , bildat på basis av World Wide Web genom att standardisera presentationen av information i en form som lämpar sig för maskinell bearbetning.
I en konventionell HTML -baserad World Wide Web är information inbäddad i texten på sidorna och är avsedd att läsas och förstås av människor. Den semantiska webben består av maskinläsbara element - noderna i den semantiska webben , baserat på ontologi . Tack vare detta kan klientprogram direkt ta emot uttalanden av formen "ämne-typ av relation - ett annat objekt" från Internet och beräkna logiska slutsatser på dem . Den semantiska webben fungerar parallellt med och ovanpå den vanliga World Wide Web, med hjälp av HTTP-protokollet och URI - resursidentifierare .
Namnet "Semantic Web" introducerades först av Tim Berners-Lee (uppfinnaren av World Wide Web) i september 1998 [1] , och han kallar det "nästa steg i utvecklingen av World Wide Web". Senare, i sin blogg, föreslog han [2] som en synonym för termen "giant global graph" ( eng. giant global graph , GGG , i analogi med WWW). Konceptet med den semantiska webben har antagits och främjas av World Wide Web Consortium [3] .
Den semantiska webben är ett tillägg till den befintliga World Wide Web utformad för att göra information som publiceras på Internet lämplig för maskinbearbetning. Den information som finns tillgänglig på webben är läsbar för människor. Den semantiska webben är utformad för att göra information lämplig för automatisk analys, syntes av slutsatser och omvandling av både själva datan och slutsatserna från dem till olika representationer som är användbara i praktiken.
Maskinbearbetning är möjlig på grund av två egenskaper den semantiska webben:
URI är en enhetlig resursidentifierare eller adress , som används för att indikera länkar till något objekt (till exempel en webbsida , fil eller e -postlåda). URI:er används för att namnge objekt. Varje objekt i det globala semantiska nätverket har en unik URI. En URI namnger ett objekt unikt. Separata URI:er skapas inte bara för sidor utan också för verkliga objekt (människor, städer, konstverk och så vidare), och till och med för abstrakta koncept (till exempel "namn", "position", "färg" ). På grund av det unika med URI:er kan samma objekt namnges likadant på olika platser på den semantiska webben. Med hjälp av en URI kan du samla in information om samma objekt från olika platser. Det rekommenderas att inkludera namnet på ett av World Wide Web-protokollen ( HTTP eller HTTPS ) i URI-adressen. Det vill säga, URI-adressen rekommenderas att börja med "http://" eller "https://"). En sådan adress kan användas både som URI -adress och som webbadress ( URL ). På webbsidor vars webbadresser matchar URI:er rekommenderar W3C att du inkluderar en beskrivning av föremålet. Det är önskvärt att tillhandahålla en beskrivning i två format [5] :
Använda semantiska nätverk och ontologier . Data på World Wide Web presenteras vanligtvis som text skriven på naturliga språk . Sådana texter är designade för att vara läsbara för människor, men en maskin kan förstå deras betydelse med hjälp av en av de naturliga språkbehandlingsteknikerna . Metoderna utför frekvensanalys och/eller lexikal analys av texten.
W3C föreslår att man använder RDF - språket som ett maskinläsbart format . RDF-språket låter dig beskriva strukturen i det semantiska nätverket i form av en graf . Varje nod och varje båge i grafen kan tilldelas en separat URI. Påståenden skrivna i RDF kan tolkas med hjälp av ontologier. För att skapa ontologier rekommenderas det att använda RDF Schema (engelska) och OWL- språken . Ontologier skapas för att dra logiska slutsatser från data . Ontologier är baserade på matematiska formalismer som kallas beskrivningslogik .
Den tekniska delen av Semantic Web är en familj av standarder för beskrivningsspråk, inklusive XML , XML Schema , RDF , RDF Schema , OWL , och några andra. Genom att ordna dem i ordning för att öka abstraktionsnivån som implementeras av ett visst språk får vi:
Formaten för att beskriva metadata i den semantiska webben innebär att man drar en logisk slutsats om denna metadata och har utvecklats med sikte på de befintliga matematiska formalisterna inom detta område. Den formalism som ligger bakom formatet gör det möjligt att dra slutsatser om egenskaperna hos program som behandlar data i detta format.
Detta gäller särskilt för språket OWL . Den grundläggande formalismen för det är beskrivningslogik , och själva språket är uppdelat i tre kapslade delmängder (i kapslingsordning): OWL Lite, OWL DL och OWL Full [6] . Det har bevisats [7] att inferens på metadata med OWL Lite uttrycksfullhet utförs i polynomtid (med andra ord, inferensproblemet tillhör klass P ). OWL DL beskriver den största lösbara delmängden av beskrivningslogiker, men vissa frågor om sådan data kan kräva exponentiell exekveringstid . OWL Full implementerar alla befintliga beskrivningslogikkonstruktörer genom att ta bort den obligatoriska lösbarheten för frågor.
Den enkla predikatstrukturen i RDF- språket låter dig i sin tur använda erfarenhet från logiska databasteorier , predikatlogik etc. i dess bearbetning.
2006 publicerade tidskriften IEEE Intelligent Systems en ny artikel av Tim Berners-Lee, "Semantic Web Revisited" (Semantic Web: Revisited) [8] , där författaren kallar det beskrivna tillvägagångssättet för att organisera information på webben "en enkel idé, tills nu i stort sett outnyttjad tills nu”, trots alla fördelar som den semantiska webben skulle ge om den implementerades.
Hittills finns det inga allmänt tillgängliga sätt att se och direkt använda informationen från webbplatser på den semantiska webben. Sällsynta prover är utspridda och klientprogram går inte utöver nivån för lokala forskningsprojekt för enskilda entusiaster.
Kommentatorer pekar på olika skäl som hindrar den aktiva utvecklingen av den semantiska webben, allt från den mänskliga faktorn [9] (människor tenderar att undvika arbetet med att underhålla dokument med metadata, metadatasanningsproblem förblir öppna, etc.), och slutar med Aristoteles s indirekta hänvisning till frånvaron av ett självklart sätt att dela upp världen i urskiljbara begrepp. Detta ställer tvivel om möjligheten av en ontologi på toppnivå som är avgörande för den semantiska webben. Aristoteles i Topeka använder begreppet differentia specifica , eller närvaron av en särskiljbar kvalitet i begrepp , som grund för att gruppera begrepp i klasser. Filosofen är säker på att det finns ett oändligt antal begrepp, vilket innebär en oändlighet av antalet klasser i vilka de kan kombineras. För att peka ut så många klasser behövs ett oändligt antal urskiljbara egenskaper, vars existens Aristoteles ifrågasätter.
Behovet av att beskriva metadata leder på något sätt till duplicering av information. Varje dokument måste skapas i två exemplar: märkt för mänsklig läsning, och även i ett maskinorienterat format. Denna brist på den semantiska webben var den främsta drivkraften för skapandet av så kallade mikroformat [10] och RDF -språket [11] . Det senare är en variant av RDF- språket och skiljer sig från det genom att det inte definierar sin egen syntax, utan är avsett att bäddas in i XHTML- sidors XML-attribut. Dessutom visas semantiska taggar i själva HTML-standarderna .
Ett av de första seriösa och populära projekten baserade på principerna för den semantiska webben var Dublin Core - projektet , implementerat av Dublin Core Metadata Initiative (DCMI) . Det är ett öppet projekt som syftar till att utveckla metadatastandarder som är plattformsoberoende och lämpliga för en lång rad applikationer. Mer specifikt utvecklar DCMI allmänna metadataordböcker som standardiserar RDF-resursbeskrivningar. [femton]
Versioner 0.90 och 1.0 av RSS -formatet är baserade på RDF. Information i den representeras, som i RDF, av subjekt-relation-objekt trippel . Det bör noteras att även om det lider av många av bristerna med den semantiska webben (som duplicering av information), blev detta enkla format snabbt extremt populärt på grund av den snäva kategoriseringen av undergruppen av metadata som används. Skillnaden mellan RSS och RDF är att ämnet för trippeln alltid är källplatsen för RSS-filen, och de mest uppenbara egenskaperna hos dokument relaterade till ofta uppdaterade informationskällor används som relationer: datum för skrivning, författare, permalänk, etc. RSS är med andra ord en mycket specialiserad delmängd av RDF. [16]
Observera att RSS version 2.0-formatet, även om det inte är ett RDF-baserat format, tillåter injicering av godtyckligt XML-innehåll i inbyggda XML - namnrymder . Detta gör att RDF-beskrivningar kan användas i den också (med namnutrymmet rdf). [17]
Projektet " Vän till en vän " låter dig beskriva bekantskapsförhållandet med hjälp av RDF. Varje medlem kan unikt identifiera sig med en URI (t.ex. mailto- e- postadress , bloggadress, etc.), skapa sin profil med de fördefinierade RDF-relationerna för FOAF och lista ID:n för de personer som denna deltagare känner. Denna beskrivning kan bearbetas automatiskt; baserat på det kan du bygga nätverk av förtroende, analysera strukturen hos sociala grupper, etc. [18]
DBpedia är ett projekt som syftar till att extrahera strukturerad information från data som skapats av Wikipedia-projektet. DBpedia tillåter användare att fråga information baserad på relationerna och egenskaperna hos Wikipedia-resurser, inklusive länkar till relaterade databaser. Startades av en grupp volontärer från Free University of Berlin och University of Leipzig , i samarbete med OpenLink Software , och publicerades första gången 2007. DBpedia-projektet använder RDF ( Resource Description Framework ) för att representera extraherad information. I april 2010 består DBpedias databaser av över 1 miljard informationsobjekt, varav 257 miljoner hämtades från den engelska versionen av Wikipedia och 766 miljoner extraherades från versioner på andra språk [19] .
Webb och hemsidor | |
---|---|
globalt | |
Lokalt | |
Typer av webbplatser och tjänster |
|
Skapande och underhåll | |
Typer av layouter, sidor, webbplatser | |
Teknisk | |
Marknadsföring | |
Samhälle och kultur |
semantisk webb | |
---|---|
Grunderna | |
Underavsnitt |
|
Ansökningar |
|
Relaterade ämnen | |
Standarder |
|