Robotexkluderingsstandard - en standard för att begränsa robotar från att komma åt innehåll på en http -server med hjälp av en textfil som robots.txt finns i roten av webbplatsen (det vill säga har en sökväg i förhållande till webbplatsens namn /robots.txt). Åtgärden för filen gäller inte för webbplatser som finns på underdomäner .
Att följa standarden är frivilligt. Standarden antogs av W3C den 30 januari 1994 via e- postlistan [email protected] och har sedan dess använts av de flesta större sökmotorer.
Filen robots.txt används för att delvis kontrollera genomsökningen av webbplatsen av sökrobotar . Den här filen består av en uppsättning instruktioner för sökmotorer för att specificera vilka filer, sidor eller kataloger på en webbplats som inte ska efterfrågas.
Filen består av poster. Poster separeras av en eller flera tomma rader (terminator : tecknen CR , CR+ LF , LF ). Varje post innehåller icke-tomma rader i följande form:
<fält>:<valfritt utrymme><värde><valfritt utrymme>var поле är antingen User-agent, eller Disallow.
Direktivet User-agentanger vilka robotar som måste följa de angivna instruktionerna (till exempel , , ) . User-agent: YandexUser-agent: YandexBotUser-agent: *
Jämförelsen görs med en enkel sökmetod för delsträngar. Till exempel posten
Disallow: /aboutkommer att neka åtkomst till både partitionen http://example.com/about/och filen http://example.com/about.php, och skriva
Disallow: /about/- endast till sektionen http://example.com/about/.
Filen kan innehålla kommentarer - den del av raden som börjar med tecknet #.
Felaktigt sammansatt robots.txt kan leda till negativa konsekvenser. Till exempel kan hela webbplatsen "falla ut" ur sökindexet . Det finns ett antal specialiserade onlinetjänster för att kontrollera syntaxen och strukturen för robots.txt-filen:
Neka åtkomst för alla robotar till hela webbplatsen:
Användaragent: * disallow: /Neka åtkomst för en specifik robot till katalogen /private/:
Användaragent: googlebot Disallow: /privat/Tillåt : har motsatt effekt av Disallow-direktivet - tillåter åtkomst till en specifik del av resursen. Stöds av alla större sökmotorer. Följande exempel tillåter åtkomst till filen photo.html, samtidigt som sökmotorer nekas åtkomst till all annan information i katalogen /album1/.
Tillåt: /album1/photo.html Disallow: /album1/Genomsökningsfördröjning : ställer in den tid roboten måste vänta mellan sidladdningar. Om roboten laddar ner sidor för ofta kan detta skapa en onödig belastning på servern. Men moderna sökmotorer ställer som standard in en tillräcklig fördröjning på 1-2 sekunder. För närvarande beaktas inte detta direktiv av Googlebot och YandexBot [1] .
Användaragent: * Genomsökningsfördröjning: 10Webbplatskarta : Platsen för webbplatskartfilerna som kan visa dig exakt vad sökroboten behöver indexera.
Webbplatskarta: http://example.com/sitemap.xml1996 föreslogs en utökad robots.txt-standard , inklusive direktiv som Request-rate och Visit-time. Till exempel:
Användaragent: * Disallow: /nedladdningar/ Request-rate: 1/5 # nedladdning högst en sida per fem sekunder besökstid: 0600-0845 # Ladda bara sidor mellan 06:00 och 08:45 GMT.sökmotoroptimering | |
---|---|
Undantag | |
Marknadsföring |
|
Sökmarknadsföring _ |
|
Spam |
|
Länkar |
|
Övrig |
|
Webb och hemsidor | |
---|---|
globalt | |
Lokalt | |
Typer av webbplatser och tjänster |
|
Skapande och underhåll | |
Typer av layouter, sidor, webbplatser | |
Teknisk | |
Marknadsföring | |
Samhälle och kultur |