Robotundantag Standard

Den aktuella versionen av sidan har ännu inte granskats av erfarna bidragsgivare och kan skilja sig väsentligt från versionen som granskades den 18 augusti 2020; kontroller kräver 8 redigeringar .

Robotexkluderingsstandard - en standard för att begränsa robotar från att komma åt innehåll på en http -server med hjälp av en textfil som robots.txt finns i roten av webbplatsen (det vill säga har en sökväg i förhållande till webbplatsens namn /robots.txt). Åtgärden för filen gäller inte för webbplatser som finns på underdomäner .

Att följa standarden är frivilligt. Standarden antogs av W3C den 30 januari 1994 via e- postlistan [email protected] och har sedan dess använts av de flesta större sökmotorer.

Filen robots.txt används för att delvis kontrollera genomsökningen av webbplatsen av sökrobotar . Den här filen består av en uppsättning instruktioner för sökmotorer för att specificera vilka filer, sidor eller kataloger på en webbplats som inte ska efterfrågas.

Beskrivning av strukturen

Filen består av poster. Poster separeras av en eller flera tomma rader (terminator : tecknen CR , CR+ LF , LF ). Varje post innehåller icke-tomma rader i följande form:

<fält>:<valfritt utrymme><värde><valfritt utrymme>

var поле är antingen User-agent, eller Disallow.

Direktivet User-agentanger vilka robotar som måste följa de angivna instruktionerna (till exempel , , ) . User-agent: YandexUser-agent: YandexBotUser-agent: *

Jämförelsen görs med en enkel sökmetod för delsträngar. Till exempel posten

Disallow: /about

kommer att neka åtkomst till både partitionen http://example.com/about/och filen http://example.com/about.php, och skriva

Disallow: /about/

- endast till sektionen http://example.com/about/.

Filen kan innehålla kommentarer - den del av raden som börjar med tecknet #.

Syntaxkontroll

Felaktigt sammansatt robots.txt kan leda till negativa konsekvenser. Till exempel kan hela webbplatsen "falla ut" ur sökindexet . Det finns ett antal specialiserade onlinetjänster för att kontrollera syntaxen och strukturen för robots.txt-filen:

Yandex.Webmaster - Robots.txt-analys (ryska) (utför syntax- och behörighetskontroller för varje enskild sida)
Google Search Console - Robots.txt Checker (ryska) (låter dig kontrollera behörigheter för varje enskild sida)

Exempel

Neka åtkomst för alla robotar till hela webbplatsen:

Användaragent: * disallow: /

Neka åtkomst för en specifik robot till katalogen /private/:

Användaragent: googlebot Disallow: /privat/

Icke-standardiserade direktiv

Tillåt : har motsatt effekt av Disallow-direktivet - tillåter åtkomst till en specifik del av resursen. Stöds av alla större sökmotorer. Följande exempel tillåter åtkomst till filen photo.html, samtidigt som sökmotorer nekas åtkomst till all annan information i katalogen /album1/.

Tillåt: /album1/photo.html Disallow: /album1/

Genomsökningsfördröjning : ställer in den tid roboten måste vänta mellan sidladdningar. Om roboten laddar ner sidor för ofta kan detta skapa en onödig belastning på servern. Men moderna sökmotorer ställer som standard in en tillräcklig fördröjning på 1-2 sekunder. För närvarande beaktas inte detta direktiv av Googlebot och YandexBot [1] .

Användaragent: * Genomsökningsfördröjning: 10

Webbplatskarta : Platsen för webbplatskartfilerna som kan visa dig exakt vad sökroboten behöver indexera.

Webbplatskarta: http://example.com/sitemap.xml

Extended Standard

1996 föreslogs en utökad robots.txt-standard , inklusive direktiv som Request-rate och Visit-time. Till exempel:

Användaragent: * Disallow: /nedladdningar/ Request-rate: 1/5 # nedladdning högst en sida per fem sekunder besökstid: 0600-0845 # Ladda bara sidor mellan 06:00 och 08:45 GMT.

Se även

Anteckningar

↑ Genomsökningsfördröjningsdirektiv - Webbansvarig. Hjälp . yandex.ru . Hämtad 1 augusti 2021. Arkiverad från original 1 augusti 2021. (ryska)

Länkar

En standard för uteslutning av robotar
robotstxt.org.ru - om robots.txt-filen och robotar i Runet på ryska
Om robots.txt-filer - Google Hjälp
Använda robots.txt — Yandex hjälp
Använda robots.txt - Mail.Ru hjälp

sökmotoroptimering
Undantag	robots.txt Metataggar nofollow noindex
Marknadsföring	Internet marknadsföring Affiliate program E-post marknadsföring Skärmannonsering Internetstatistik
Sökmarknadsföring _	Sökmarknadsföring Webbplatsoptimering för sociala nätverk (SMO) Social media marketing (SMM) Hantera närvaron av personlig information på nätverket Betald inkludering i index Betala per klick sökbomb
Spam	Sök spam Pessimisering Automatisk datainsamling Webbplatser med icke-original innehåll Linkofarm dörröppningar cloaking
Länkar	Externa faktorer i sökmotoroptimering Länk popularitet Länkbyte Ömsesidiga länkar Multilänkar Länkutbyte Bakåtlänkar (länkar till webbplatsen) Sök index
Övrig	Landningssida Geografisk inriktning Sökmotor med manuellt urval av resultat Begär statistik Stoppa ord Misstänksamma ord

Webb och hemsidor
globalt	World Wide Web Webb 1.0 Webb 2.0 Webb 3.0 semantisk webb Neuronet
Lokalt	Hemsida Portal Sida Service Ringa
Typer av webbplatser och tjänster	Virtuell atlas banner nätverk Bibliotek Blogg ( plattform ) Videohosting Wiki Visitkortsajt Fråga Svar Bokmärken dejtingtjänster webbläsarspel Resurskatalog Webbutik mikroblogg nyhetssajt Söksystem porrsajt Webbmail Socialt nätverk Tumblelog BitTorrent tracker Filvärd Forum Service Bildtavla Fotovärd Chatt
Skapande och underhåll	Bemästra Utveckling Design Layout Programmering användbarhet Interaktionsupplevelse Webbsida marknadsföring Sökmotoroptimering (SEO) Värdskap Systemadministratör moderator konto Tillstånd
Typer av layouter, sidor, webbplatser	Statisk Dynamisk Fast Sudd dynamiskt elastisk Adaptiv
Teknisk	webbserver Webbläsare DNS CMF CMS HTTP ( svar rubriker ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML kaka DOM XML AJAX JSON Blixt RSS atom angivare Mikroformat favicon.ico _ robots.txt Webbplatskartor webbplatsens karta .htaccess
Marknadsföring	Internet marknadsföring Internetreklam Baner kontextuell reklam Förhandstitt Cybersquatting
Samhälle och kultur	Bloggsfären Internetgemenskap ( distrikt ) Nätverkslitteratur