Semantisk webb

Semantic web (från engelska semantic web ) - ett offentligt globalt semantiskt nätverk , bildat på basis av World Wide Web genom att standardisera presentationen av information i en form som lämpar sig för maskinell bearbetning.

I en konventionell HTML -baserad World Wide Web är information inbäddad i texten på sidorna och är avsedd att läsas och förstås av människor. Den semantiska webben består av maskinläsbara element - noderna i den semantiska webben , baserat på ontologi . Tack vare detta kan klientprogram direkt ta emot uttalanden av formen "ämne-typ av relation - ett annat objekt" från Internet och beräkna logiska slutsatser på dem . Den semantiska webben fungerar parallellt med och ovanpå den vanliga World Wide Web, med hjälp av HTTP-protokollet och URI - resursidentifierare .

Namnet "Semantic Web" introducerades först av Tim Berners-Lee (uppfinnaren av World Wide Web) i september 1998 [1] , och han kallar det "nästa steg i utvecklingen av World Wide Web". Senare, i sin blogg, föreslog han [2] som en synonym för termen "giant global graph" ( eng. giant global graph , GGG , i analogi med WWW). Konceptet med den semantiska webben har antagits och främjas av World Wide Web Consortium [3] .

Huvudidé

Den semantiska webben är ett tillägg till den befintliga World Wide Web utformad för att göra information som publiceras på Internet lämplig för maskinbearbetning. Den information som finns tillgänglig på webben är läsbar för människor. Den semantiska webben är utformad för att göra information lämplig för automatisk analys, syntes av slutsatser och omvandling av både själva datan och slutsatserna från dem till olika representationer som är användbara i praktiken.

Maskinbearbetning är möjlig på grund av två egenskaper den semantiska webben:

närvaron av en URI ;
användningen av semantiska nätverk och ontologier .

URI är en enhetlig resursidentifierare eller adress , som används för att indikera länkar till något objekt (till exempel en webbsida , fil eller e -postlåda). URI:er används för att namnge objekt. Varje objekt i det globala semantiska nätverket har en unik URI. En URI namnger ett objekt unikt. Separata URI:er skapas inte bara för sidor utan också för verkliga objekt (människor, städer, konstverk och så vidare), och till och med för abstrakta koncept (till exempel "namn", "position", "färg" ). På grund av det unika med URI:er kan samma objekt namnges likadant på olika platser på den semantiska webben. Med hjälp av en URI kan du samla in information om samma objekt från olika platser. Det rekommenderas att inkludera namnet på ett av World Wide Web-protokollen ( HTTP eller HTTPS ) i URI-adressen. Det vill säga, URI-adressen rekommenderas att börja med "http://" eller "https://"). En sådan adress kan användas både som URI -adress och som webbadress ( URL ). På webbsidor vars webbadresser matchar URI:er rekommenderar W3C att du inkluderar en beskrivning av föremålet. Det är önskvärt att tillhandahålla en beskrivning i två format [5] :

i ett läsbart format för människor;
maskinläsbart format.

Använda semantiska nätverk och ontologier . Data på World Wide Web presenteras vanligtvis som text skriven på naturliga språk . Sådana texter är designade för att vara läsbara för människor, men en maskin kan förstå deras betydelse med hjälp av en av de naturliga språkbehandlingsteknikerna . Metoderna utför frekvensanalys och/eller lexikal analys av texten.

W3C föreslår att man använder RDF - språket som ett maskinläsbart format . RDF-språket låter dig beskriva strukturen i det semantiska nätverket i form av en graf . Varje nod och varje båge i grafen kan tilldelas en separat URI. Påståenden skrivna i RDF kan tolkas med hjälp av ontologier. För att skapa ontologier rekommenderas det att använda RDF Schema (engelska) och OWL- språken . Ontologier skapas för att dra logiska slutsatser från data . Ontologier är baserade på matematiska formalismer som kallas beskrivningslogik .

Arkitektur

Den tekniska delen av Semantic Web är en familj av standarder för beskrivningsspråk, inklusive XML , XML Schema , RDF , RDF Schema , OWL , och några andra. Genom att ordna dem i ordning för att öka abstraktionsnivån som implementeras av ett visst språk får vi:

XML tillhandahåller en syntax för att definiera strukturen för ett dokument som ska bearbetas. XML-syntaxen har ingen semantisk belastning.
XML Schema definierar begränsningar för strukturen av ett XML-dokument. Standardtolken av XML-språket kan kontrollera att ett godtyckligt XML-dokument överensstämmer med dess struktur med det så kallade dokumentschemat som beskrivs i XML Schema.
RDF är ett enkelt sätt att beskriva instansdata i ett subjekt-relation-objekt- format som endast använder resursidentifierare som någon medlem av tripletten (med undantag för ett objekt, som tillåts vara en bokstavlig). Det finns en standardiserad mappning av dessa trippel till XML-dokument med en fördefinierad struktur (det vill säga W3-konsortiet definierar ett schema för XML-dokument som innehåller RDF-beskrivningar), såväl som till andra presentationsformat (till exempel till N3- notationen ).
RDF Schema beskriver en uppsättning attribut (mer exakt kallade relationer här ), såsomrdfs:Class, för att definiera nya typer av RDF-data. Språket stöder även typarvrdfs:subClassOf.
OWL utökar möjligheterna att beskriva nya typer (särskilt genom att lägga till uppräkningar ), och låter dig även beskriva nya RDF Schema-datatyper i termer av befintliga (till exempel för att definiera en typ som är skärningspunkten eller föreningen av två befintliga sådana).
Mikrodata (HTML-mikrodata) är en internationell standard för semantisk uppmärkning av HTML-sidor, som använder attribut som beskriver innebörden av informationen i vissa HTML-element. Sådana attribut gör innehållet på sidorna maskinläsbart, det vill säga de låter dig automatiskt hitta och extrahera nödvändig data.

Inferens

Formaten för att beskriva metadata i den semantiska webben innebär att man drar en logisk slutsats om denna metadata och har utvecklats med sikte på de befintliga matematiska formalisterna inom detta område. Den formalism som ligger bakom formatet gör det möjligt att dra slutsatser om egenskaperna hos program som behandlar data i detta format.

Detta gäller särskilt för språket OWL . Den grundläggande formalismen för det är beskrivningslogik , och själva språket är uppdelat i tre kapslade delmängder (i kapslingsordning): OWL Lite, OWL DL och OWL Full [6] . Det har bevisats [7] att inferens på metadata med OWL Lite uttrycksfullhet utförs i polynomtid (med andra ord, inferensproblemet tillhör klass P ). OWL DL beskriver den största lösbara delmängden av beskrivningslogiker, men vissa frågor om sådan data kan kräva exponentiell exekveringstid . OWL Full implementerar alla befintliga beskrivningslogikkonstruktörer genom att ta bort den obligatoriska lösbarheten för frågor.

Den enkla predikatstrukturen i RDF- språket låter dig i sin tur använda erfarenhet från logiska databasteorier , predikatlogik etc. i dess bearbetning.

Kritik

Implementeringsfrågor

2006 publicerade tidskriften IEEE Intelligent Systems en ny artikel av Tim Berners-Lee, "Semantic Web Revisited" (Semantic Web: Revisited) [8] , där författaren kallar det beskrivna tillvägagångssättet för att organisera information på webben "en enkel idé, tills nu i stort sett outnyttjad tills nu”, trots alla fördelar som den semantiska webben skulle ge om den implementerades.

Hittills finns det inga allmänt tillgängliga sätt att se och direkt använda informationen från webbplatser på den semantiska webben. Sällsynta prover är utspridda och klientprogram går inte utöver nivån för lokala forskningsprojekt för enskilda entusiaster.

Kommentatorer pekar på olika skäl som hindrar den aktiva utvecklingen av den semantiska webben, allt från den mänskliga faktorn [9] (människor tenderar att undvika arbetet med att underhålla dokument med metadata, metadatasanningsproblem förblir öppna, etc.), och slutar med Aristoteles s indirekta hänvisning till frånvaron av ett självklart sätt att dela upp världen i urskiljbara begrepp. Detta ställer tvivel om möjligheten av en ontologi på toppnivå som är avgörande för den semantiska webben. Aristoteles i Topeka använder begreppet differentia specifica , eller närvaron av en särskiljbar kvalitet i begrepp , som grund för att gruppera begrepp i klasser. Filosofen är säker på att det finns ett oändligt antal begrepp, vilket innebär en oändlighet av antalet klasser i vilka de kan kombineras. För att peka ut så många klasser behövs ett oändligt antal urskiljbara egenskaper, vars existens Aristoteles ifrågasätter.

Duplicering av information

Behovet av att beskriva metadata leder på något sätt till duplicering av information. Varje dokument måste skapas i två exemplar: märkt för mänsklig läsning, och även i ett maskinorienterat format. Denna brist på den semantiska webben var den främsta drivkraften för skapandet av så kallade mikroformat [10] och RDF -språket [11] . Det senare är en variant av RDF- språket och skiljer sig från det genom att det inte definierar sin egen syntax, utan är avsett att bäddas in i XHTML- sidors XML-attribut. Dessutom visas semantiska taggar i själva HTML-standarderna .

Konsekvenser av implementering

Enkel maskinbearbetning gör att en mellanhand som en sökmotor kan välja vilken information som ska presenteras för användaren [12] .
- Detta gör det möjligt att endast tillhandahålla den nödvändiga delen av informationen. Som ett resultat kan användaren ta emot information utan att besöka källsidan, och mellanhanden kan visa information utan att ge en länk till källan (eller ge den, förutsatt att mellanhanden känner till övergången). Trafiken på källwebbplatsen minskar således och trafiken för mellanhanden ökar; och effekten av internetannonsering , som utgör den huvudsakliga finansieringen för många webbplatser, beror på trafiken . [13] Citat av delar av nyheterna från webbaggregatorer har varit föremål för rättstvister med varierande resultat. [14] För webbplatser som publicerar innehåll för att locka läsare till närliggande annonser verkar det inte vara fördelaktigt att tillhandahålla innehåll i maskinläsbar form, men för webbplatser vars innehåll i sig är information om det utannonserade objektet - till exempel för webbplatser för tillverkare av varor och tjänster - att tillhandahålla information om de annonserade objekten i maskinläsbar form är fördelaktigt, eftersom det kan underlätta dess distribution och användning.
- Detta underlättar automatisk censur.
Sökmotorernas preferenser för taggade sidor gör otaggade sidor till en del av (relativt) Deep Web .
Att hitta personuppgifter och dess kopplingar till annan information (författare, platser, sociala länkar) underlättas .

Projekt

Dublin Core

Ett av de första seriösa och populära projekten baserade på principerna för den semantiska webben var Dublin Core - projektet , implementerat av Dublin Core Metadata Initiative (DCMI) . Det är ett öppet projekt som syftar till att utveckla metadatastandarder som är plattformsoberoende och lämpliga för en lång rad applikationer. Mer specifikt utvecklar DCMI allmänna metadataordböcker som standardiserar RDF-resursbeskrivningar. [femton]

RSS (version 0.90 och 1.0)

Versioner 0.90 och 1.0 av RSS -formatet är baserade på RDF. Information i den representeras, som i RDF, av subjekt-relation-objekt trippel . Det bör noteras att även om det lider av många av bristerna med den semantiska webben (som duplicering av information), blev detta enkla format snabbt extremt populärt på grund av den snäva kategoriseringen av undergruppen av metadata som används. Skillnaden mellan RSS och RDF är att ämnet för trippeln alltid är källplatsen för RSS-filen, och de mest uppenbara egenskaperna hos dokument relaterade till ofta uppdaterade informationskällor används som relationer: datum för skrivning, författare, permalänk, etc. RSS är med andra ord en mycket specialiserad delmängd av RDF. [16]

Observera att RSS version 2.0-formatet, även om det inte är ett RDF-baserat format, tillåter injicering av godtyckligt XML-innehåll i inbyggda XML - namnrymder . Detta gör att RDF-beskrivningar kan användas i den också (med namnutrymmet rdf). [17]

FOAF

Projektet " Vän till en vän " låter dig beskriva bekantskapsförhållandet med hjälp av RDF. Varje medlem kan unikt identifiera sig med en URI (t.ex. mailto- e- postadress , bloggadress, etc.), skapa sin profil med de fördefinierade RDF-relationerna för FOAF och lista ID:n för de personer som denna deltagare känner. Denna beskrivning kan bearbetas automatiskt; baserat på det kan du bygga nätverk av förtroende, analysera strukturen hos sociala grupper, etc. [18]

dbpedia

DBpedia är ett projekt som syftar till att extrahera strukturerad information från data som skapats av Wikipedia-projektet. DBpedia tillåter användare att fråga information baserad på relationerna och egenskaperna hos Wikipedia-resurser, inklusive länkar till relaterade databaser. Startades av en grupp volontärer från Free University of Berlin och University of Leipzig , i samarbete med OpenLink Software , och publicerades första gången 2007. DBpedia-projektet använder RDF ( Resource Description Framework ) för att representera extraherad information. I april 2010 består DBpedias databaser av över 1 miljard informationsobjekt, varav 257 miljoner hämtades från den engelska versionen av Wikipedia och 766 miljoner extraherades från versioner på andra språk [19] .

Se även

Anteckningar

↑ Tim Berners-Lee. Semantic Web Roadmap (09.1998). Hämtad 28 juni 2014. Arkiverad från originalet 6 december 2003. (obestämd)
↑ Jätte globalt diagram. Arkiverad 13 juli 2016 på Wayback Machine , rysk översättning: Tim Burners-Lee. Giant Global Graph Arkiverad 20 november 2012 på Wayback Machine
↑ Semantisk webbsektion på W3C Arkiverad 20 september 2010 på Wayback Machine
↑ Resursbeskrivningsramverk (RDF) : begrepp och abstrakt syntax . World Wide Web Consortium (10 februari 2004). — W3C-rekommendation. Hämtad 12 september 2010. Arkiverad från originalet 24 augusti 2011.
↑ Coola URI:er för den semantiska webben . World Wide Web Consortium (3 december 2008). — W3C Intressegrupp Anmärkning. Hämtad 12 september 2010. Arkiverad från originalet 24 augusti 2011.
↑ Species of OWL in OWL Language Guide . Hämtad 15 maj 2010. Arkiverad från originalet 18 januari 2006. (obestämd)
↑ OWL Full, OWL DL och OWL Lite i OWL Language Reference . Hämtad 2 juni 2007. Arkiverad från originalet 18 januari 2006. (obestämd)
↑ Semantic Web Revisited Arkiverad 20 mars 2013 på Wayback Machine , IEEE Intelligent Systems, juni 2006
↑ [https://web.archive.org/web/20070508200721/http://www.well.com/~doctorow/metacrap.htm Arkiverad 8 maj 2007 på Wayback Machine Cory Doctorow, Metacrap: Putting the torch to meta-utopins sju halmgubbar, augusti 2001 ]
↑ (nedlänk) Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, januari 2006
↑ RDFa Primer . Hämtad 15 maj 2010. Arkiverad från originalet 25 maj 2010. (obestämd)
↑ Bessmertny I. A. / Context Management in Information Systems Arkiverad 18 februari 2015 på Wayback Machine . - Artikel. - Informationsteknik, instrumentering - Oktober 2012 - UDC 004.89
↑ Viktor Shepelev. Akilleshäl på den semantiska webben (länk ej tillgänglig) . Computerra (15 juli 2008). Hämtad 5 februari 2010. Arkiverad från originalet 26 november 2009. (obestämd)
↑ Se sv:Medieövervakningstjänst#Law cases , sv:Google News#Copyright variations .
↑ Dublin Core Metadata Initiative (DCMI) . Hämtad 2 juli 2005. Arkiverad från originalet 3 augusti 2019. (obestämd)
↑ RSS 1.0-specifikation (nedlänk) . Hämtad 15 maj 2010. Arkiverad från originalet 12 januari 2013. (obestämd)
↑ RSS 2.0-specifikation . Hämtad 15 maj 2010. Arkiverad från originalet 18 februari 2011. (obestämd)
↑ En väns vän . Hämtad 15 maj 2010. Arkiverad från originalet 10 juni 2006. (obestämd)
↑ DBpedia Mappings . Hämtad 24 januari 2011. Arkiverad från originalet 24 oktober 2020. (obestämd)

Litteratur

Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler. Spinning the Semantic Web: Att få World Wide Web till sin fulla potential. - The MIT Press, 2002. - ISBN 0262062321 .
Mot den semantiska webben: Ontologidriven kunskapshantering. - John Wiley & Sons, 2003. - ISBN 0470848677 .
Toby Segaran, Colin Evans, Jamie Taylor. Programmering av den semantiska webben. - 2009. - ISBN 0596153813 .
Luciano Floridi. Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. - 2009. - V. 6 , nr 1 . - S. 25-37 . - doi : 10.3366/E174236000800052X .

Länkar

Officiell portal (engelska)
- Böcker (engelska) - böcker dedikerade specifikt till den semantiska webben och länkad data
Gemenskapsportal _
Ryska webbplats om den semantiska webben (teknik, projekt, verktyg)
OWL Language Specifikationer: OWL Language Reference och OWL Language Guide
Dublin Core Metadata Initiative (DCMI )
Mikroformat _
Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web (länk ej tillgänglig )
En introduktionsguide till RDFa- markering för HTML- och xHTML- layoutdesigners
Föreläsning i PDF " Semantic Web " av Yuri Lifshitz kurs " Algorithms for the Internet "

Webb och hemsidor
globalt	World Wide Web Webb 1.0 Webb 2.0 Webb 3.0 semantisk webb Neuronet
Lokalt	Hemsida Portal Sida Service Ringa
Typer av webbplatser och tjänster	Virtuell atlas banner nätverk Bibliotek Blogg ( plattform ) Videohosting Wiki Visitkortsajt Fråga Svar Bokmärken dejtingtjänster webbläsarspel Resurskatalog Webbutik mikroblogg nyhetssajt Söksystem porrsajt Webbmail Socialt nätverk Tumblelog BitTorrent tracker Filvärd Forum Service Bildtavla Fotovärd Chatt
Skapande och underhåll	Bemästra Utveckling Design Layout Programmering användbarhet Interaktionsupplevelse Webbsida marknadsföring Sökmotoroptimering (SEO) Värdskap Systemadministratör moderator konto Tillstånd
Typer av layouter, sidor, webbplatser	Statisk Dynamisk Fast Sudd dynamiskt elastisk Adaptiv
Teknisk	webbserver Webbläsare DNS CMF CMS HTTP ( svar rubriker ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML kaka DOM XML AJAX JSON Blixt RSS atom angivare Mikroformat favicon.ico _ robots.txt Webbplatskartor webbplatsens karta .htaccess
Marknadsföring	Internet marknadsföring Internetreklam Baner kontextuell reklam Förhandstitt Cybersquatting
Samhälle och kultur	Bloggsfären Internetgemenskap ( distrikt ) Nätverkslitteratur

semantisk webb
Grunderna	World Wide Web Internet Hypertext Databas Semantiska nätverk Ontologier Beskrivningslogik
Underavsnitt	Länkad data datawebb Hyperdata Server för exekvering av affärsregel Datautrymmen
Ansökningar	Semantisk Wiki Semantisk publicering Semantisk sökning Semantisk beräkning semantisk reklam Semantisk resonemangsmekanism semantisk matchning semantisk kartläggare semantisk mäklare semantisk analys semantisk tjänsteorienterad arkitektur
Relaterade ämnen	Folksonomi Bibliotek 2.0 Webb 2.0 Länkar Informationsarkitektur Kunskapshantering kollektiv intelligens Tematiska kartor Att göra tankekartor metadata Geotaggning webbvetenskap
Standarder	Syntax : RDF RDF/XML Notation 3 Sköldpadda N-trippel JSON-LD SPARQL URI http XML Schema, ontologier : RDFS UGGLA Regelutbytesformat Semantisk webbregelspråk gemensam logik Schema.org Semantisk anteckning : RDFa eRDF GRDDL Mikroformat Mikrodata Ordböcker : DOAP FOAF SIOC Dublins kärna SKOS FLOCK Historik : Vanlig gammal semantisk HTML DAML+OLJA