Robotundantag Standard

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 18 augusti 2020; kontroller kräver 8 redigeringar .

Robotexkluderingsstandard  - en standard för att begränsa robotar från att komma åt innehåll på en http -server med hjälp av en textfil som robots.txt finns i roten av webbplatsen (det vill säga har en sökväg i förhållande till webbplatsens namn /robots.txt). Åtgärden för filen gäller inte för webbplatser som finns på underdomäner .

Att följa standarden är frivilligt. Standarden antogs av W3C den 30 januari 1994 via e- postlistan [email protected] och har sedan dess använts av de flesta större sökmotorer.

Filen robots.txt används för att delvis kontrollera genomsökningen av webbplatsen av sökrobotar . Den här filen består av en uppsättning instruktioner för sökmotorer för att specificera vilka filer, sidor eller kataloger på en webbplats som inte ska efterfrågas.

Beskrivning av strukturen

Filen består av poster. Poster separeras av en eller flera tomma rader (terminator : tecknen CR , CR+ LF , LF ). Varje post innehåller icke-tomma rader i följande form:

<fält>:<valfritt utrymme><värde><valfritt utrymme>

var поле är antingen User-agent, eller Disallow.

Direktivet User-agentanger vilka robotar som måste följa de angivna instruktionerna (till exempel , , ) . User-agent: YandexUser-agent: YandexBotUser-agent: *

Jämförelsen görs med en enkel sökmetod för delsträngar. Till exempel posten

Disallow: /about

kommer att neka åtkomst till både partitionen http://example.com/about/och filen http://example.com/about.php, och skriva

Disallow: /about/

- endast till sektionen http://example.com/about/.

Filen kan innehålla kommentarer - den del av raden som börjar med tecknet #.

Syntaxkontroll

Felaktigt sammansatt robots.txt kan leda till negativa konsekvenser. Till exempel kan hela webbplatsen "falla ut" ur sökindexet . Det finns ett antal specialiserade onlinetjänster för att kontrollera syntaxen och strukturen för robots.txt-filen:

Exempel

Neka åtkomst för alla robotar till hela webbplatsen:

Användaragent: * disallow: /

Neka åtkomst för en specifik robot till katalogen /private/:

Användaragent: googlebot Disallow: /privat/

Icke-standardiserade direktiv

Tillåt : har motsatt effekt av Disallow-direktivet - tillåter åtkomst till en specifik del av resursen. Stöds av alla större sökmotorer. Följande exempel tillåter åtkomst till filen photo.html, samtidigt som sökmotorer nekas åtkomst till all annan information i katalogen /album1/.

Tillåt: /album1/photo.html Disallow: /album1/

Genomsökningsfördröjning : ställer in den tid roboten måste vänta mellan sidladdningar. Om roboten laddar ner sidor för ofta kan detta skapa en onödig belastning på servern. Men moderna sökmotorer ställer som standard in en tillräcklig fördröjning på 1-2 sekunder. För närvarande beaktas inte detta direktiv av Googlebot och YandexBot [1] .

Användaragent: * Genomsökningsfördröjning: 10

Webbplatskarta : Platsen för webbplatskartfilerna som kan visa dig exakt vad sökroboten behöver indexera.

Webbplatskarta: http://example.com/sitemap.xml

Extended Standard

1996 föreslogs en utökad robots.txt-standard , inklusive direktiv som Request-rate och Visit-time. Till exempel:

Användaragent: * Disallow: /nedladdningar/ Request-rate: 1/5 # nedladdning högst en sida per fem sekunder besökstid: 0600-0845 # Ladda bara sidor mellan 06:00 och 08:45 GMT.

Se även

Anteckningar

  1. Genomsökningsfördröjningsdirektiv - Webbansvarig. Hjälp . yandex.ru . Hämtad 1 augusti 2021. Arkiverad från original 1 augusti 2021.

Länkar