Djup webb

The Deep Web (även känd som "Invisible Web", "Deep Web", "Deep Internet"; engelska deep web ;) är en uppsättning webbsidor på webben som inte indexeras av sökmotorer .

Termen härstammar från enl. engelsk osynlig väv [1] . Den mest betydande delen av den djupa webben är Deep Web (från engelskan. deep web, hidden web ), som består av webbsidor som dynamiskt genereras av förfrågningar till onlinedatabaser [2] .

Begreppet Deep Web bör inte förväxlas med begreppet Dark Web (från engelska dark web ), som hänvisar till nätverkssegment , även om de är anslutna till det allmänna Internet , men som kräver vissa mjukvaruverktyg för åtkomst.

Kärnan i problemet

Den djupa webben innehåller webbsidor som inte är kopplade till andra hyperlänkar (till exempel återvändsgränd webbsidor som skapas dynamiskt av skript på själva webbplatserna, på begäran, till vilka direktlänkar inte leder), samt webbplatser som endast är tillgängliga för registrerade användare användare och webbsidor endast tillgängliga med ett lösenord.

Sökmotorer använder speciella sökrobotar som följer hyperlänkar och indexerar innehållet på webbsidorna där de befinner sig, anger deras innehåll och hyperlänkar till dem i sina databaser. Efter att ha hittat länkar till andra sidor på den indexerade webbsidan, följer sökroboten dem och indexerar innehållet på var och en av de hittade sidorna, hittar nya hyperlänkar och följer dem för indexering; till följd av att man klickar på länkar som leder utanför de indexerade sidorna ökar antalet indexerade webbsidor ständigt. Sökboten kan inte komma till webbsidor som inte är länkade från andra sidor, varför innehållet på dessa sidor inte indexeras. Som ett resultat, utan att känna till webbadressen till en webbplats eller webbsida på Deep Web, kommer en vanlig användare inte att kunna komma till dem.

Den djupa webben inkluderar också webbplatser vars ägare frivilligt vägrade att bli indexerade av sökmotorer (till exempel genom att använda filen "robots.txt" ), samt webbplatser och webbsidor som skyddas av tillstånd från tredje part att se information. I det här fallet, utan att känna till inloggningsuppgifterna och (eller) lösenordet till webbsidan, är det omöjligt att helt se dess innehåll eller använda webbplatsen.

Skala

Storleken på det djupa nätet är okänd. Det finns relativt tillförlitliga uppskattningar av det totala antalet webbplatser som leder till onlinedatabaser: cirka 300 000 sådana webbplatser på hela webben 2004 och cirka 14 000 på RuNet 2006 [3] [4] .

Deep Web Search

År 2005 , Yahoo! tog ett seriöst steg för att lösa detta problem. Företaget släppte sökmotorn "Yahoo! Prenumerationer”, som söker efter webbplatser (fortfarande få), som endast är öppen för registrerade medlemmar på dessa webbplatser. Detta löste dock inte det befintliga problemet helt. Sökmotorexperter försöker fortfarande hitta tekniska alternativ för att indexera databasinnehåll och komma åt privata webbplatser.

En av de populära djupwebbdatatjänsterna är UFOseek , ursprungligen designad för att organisera paranormala data [5] .

Innehållstyper

Även om det inte alltid är möjligt att direkt hitta innehållet på en viss webbserver så att det kan indexeras, är det fortfarande möjligt att komma åt en sådan sida (på grund av datorsårbarheter ).

För att upptäcka innehåll på webben använder sökmotorer webbsökare som följer hyperlänkar genom kända virtuella portnummer för protokoll. Den här metoden är idealisk för att upptäcka innehåll på World Wide Web , men är ofta ineffektiv när du söker efter innehåll på den djupa webben. Webbsökrobotar letar till exempel inte efter dynamiska sidor som är resultatet av databasfrågor på grund av det obestämda antalet samma frågor. Det har noterats att detta (delvis) kan övervinnas genom att tillhandahålla länkar till frågeresultat, men detta kan oavsiktligt öka populariteten för en medlem av det djupa nätverket.

Det finns flera sökmotorer som har nått den djupa webben. Intute har avslutat sin finansiering och är nu ett tillfälligt arkiv från och med juli 2011. Scirus stängde i slutet av januari 2013.

Forskare har studerat hur den djupa webben kan skannas automatiskt, inklusive innehåll som endast kan nås med dedikerad programvara som Tor . År 2001 presenterade Sriram Raghavan och Hector Garcia-Molina (Stanford Computer Science Department, Stanford University ) en arkitektonisk modell av en dold sökmotor som använde nyckelord från användare eller insamlade från frågegränssnitt för att söka och genomsöka den djupa webben.

Kommersiella sökmotorer har börjat utforska alternativa metoder för att genomsöka den djupa webben. Sitemap - protokollet (första gången utvecklat och implementerat av Google 2005) och mod_oai är mekanismer som gör att sökmotorer och andra intressenter kan upptäcka djupa webbresurser på specifika webbservrar. Båda mekanismerna tillåter webbservrar att vara värd för tillgängliga URL:er på dem, vilket möjliggör automatisk upptäckt av resurser som inte är direkt anslutna till World Wide Web . Googles djupa webbnavigeringssystem beräknar visningar för varje HTML-formulär och lägger till de resulterande HTML-sidorna till Googles sökmotorindex. Resultaten baseras på 1000 förfrågningar per sekund för djupwebbinnehåll. I detta system utförs representationsförberäkning med hjälp av tre algoritmer:

välja textsökningsingångar som accepterar nyckelord;
vissa ingångar som bara accepterar värden av en viss typ (till exempel datum);
välja ett litet antal indatakombinationer som genererar webbadresser som är lämpliga för inkludering i webbsökningsindex.

Se även

Anteckningar

↑ Gary Price, Chris Sherman. Den osynliga webben: Avslöja informationskällor som sökmotorer inte kan se. - CyberAge Books, 2001 , ISBN 0-910965-51-X .
↑ Denis Shestakov, Natalia Vorontsova (2005). " Strukturen för den rysktalande delen av den djupa webben (otillgänglig länk) ". Internet Mathematics 2005 , s. 320-341.
↑ Denis Shestakov (2011). " Sampling the National Deep Web (länk ej tillgänglig) ". Proceedings of the 22nd International Conference on Database and Expert System Applications (DEXA) , s. 331-340.
↑ Hur stort är internet? . Hämtad 30 juli 2015. Arkiverad från originalet 29 juni 2015. (obestämd)
↑ Igor Raikhman, 2013 , sid. 118.

Litteratur

Igor Raykhman. Utövandet av mediamätningar. Granska. Rapportering. Utvärdering av effektiviteten av PR. — M .: Alpina Publisher , 2013. — 432 sid. - ISBN 978-5-9614-4499-5 .