Průvodce stavovými kódy HTTP a hlavičkami a jejich vliv na SEO

03.07.2019 13:30:22

V architektuře klient-server v síti World Wide Web je interakce mezi prohlížeči a webovými stránkami zpracována pomocí protokolu HTTP (Hypertext Transfer Protocol). Tento protokol byl zaveden v roce 1991 a je oficiálním webovým standardem. Téměř veškerý provoz na webu je zpracováván přes HTTP. Když roboti vyhledávačů, například Googlebot, procházejí webovou stránku, chovají se jako prohlížeče, které chtějí zobrazit stránky z webu, a protokol HTTP je právě to, co jim tento přístup zprostředkuje.

Proto je důležité, aby specialisté na optimalizaci pro vyhledávače (SEO) pochopili, jak protokol HTTP funguje a jaký má dopad na funkci robotů a indexování webových stránek. V následujícím článku se pokusíme vysvětlit vše, co potřebujete k tomuto tématu vědět.

HTTP stavové kódy a hlavičky nejsou pro běžného návštěvníka webu viditelné, proto k jejich zobrazení budete potřebovat nějaký nástroj. V prohlížeči Chrome můžete použít aplikaci Google Chrome DevTools, nebo Live HTTP Headers for Chrome. Pro ostatní prohlížeče existují další zásuvné moduly, které mají stejnou funkci.

Stavové kódy HTTP

Zaměřme se nyní na stavové kódy HTTP. Pokud si prohlížeč vyžádá stránku z webu, server odpoví stavovým kódem HTTP. Tento kód je potvrzením požadavku klienta a udává typ odpovědi, kterou server klientovi odesílá. Existují stovky různých stavových kódů, na které může webový server reagovat a se kterými se můžete setkat při optimalizaci pro vyhledávače. Seznamte se s nimi, abyste věděli, jak s nimi efektivně pracovat. Zde je seznam nejběžnějších stavových kódů HTTP:

• 200 - OK.
• 300 - Dokument je dostupný na více umístěních.
• 301 - Trvale přesunuto.
• 302 - Dočasně přesunuto.
• 304 - Od posledního požadavku se zdrojový dokument nezměnil.
• 307 - Dočasné přesměrování.
• 400 - Nesprávný požadavek.
• 401 - Neautorizováno.
• 404 - Nenalezeno.
• 410 - Dokument již není dostupný.
• 429 - Příliš mnoho požadavků.
• 500 - Interní chyba serveru.
• 501 - Nebyla rozpoznána metoda požadavku, nebo server tuto metodu neovládá.
• 503 - Služba je nedostupná.
• 550 - Oprávnění bylo odepřeno.

Kromě seznámení se stavovými kódy byste měli pochopit, jak vyhledávače jako Google tyto stavové kódy zpracovávají. Podívejme se na některé z těch běžnějších.

200 - OK

Začněme od toho nejběžnějšího. Stavový kód 200 znamená, že požadavek byl úspěšný, že požadovaná webová stránka existuje a webový server začne klientovi odesílat tuto stránku a související zdroje (obrázky, soubory CSS a JS atd.).

Tento kód odpovědi je velmi jednoduchý. Spolu s ním jsou často odesílány další hlavičky, které mohou ovlivnit způsob, jakým vyhledávače zpracovávají URL adresu.

301 - Trvale přesunuto

Stavový kód 301 HTTP je mezi optimalizátory stránek velmi oblíbený, protože oznamuje prohlížečům a vyhledávačům, že webová stránka byla nahrazena jinou stránkou a že tato změna je trvalá. Pro vyhledávače se jedná o signál, který potřebují k aktualizaci svých indexů a k přiřazení metrik původního dokumentu k dokumentu na nové adrese.

Kolik z původních metrik se přenese na nové umístění prostřednictvím přesměrování 301, je otázkou spekulací a prohlášení Google jsou k tomuto tématu poněkud rozporuplná. Pravděpodobně má přesměrování 301 podobný faktor tlumení jako odkaz - to znamená, že když je stránka A přesměrována na stránku B, má to stejný účinek jako když stránka A odkazuje na stránku B.

Přesměrování 301 je důležitým SEO nástrojem, který dokáže webovým stránkám pomoci zachovat odkazovou autoritu ze stránek, které byly přesunuty nebo zrušeny.

302 - Dočasně přesunuto

Dalším typem přesměrování je stavový kód 302, který označuje, že stránka byla dočasně přesunuta na jinou URL adresu. Z krátkodobého hlediska to znamená, že vyhledávače si ponechají původní URL ve svém indexu, zatímco uživatelé budou přesměrování na cílovou adresu. V dlouhodobém horizontu však Google interpretuje přesměrování 302 jako trvalé přesměrování 301 a začne s ním odpovídajícím způsobem pracovat.

Mnoho webů používá přesměrování 302 pro automatické geografické přesměrování, aby posílalo uživatelům správnou verzi určenou pro konkrétní jazyk nebo zemi. I když se to může teoreticky zdát v pořádku, obecně se nedoporučuje pro tento účel používat přesměrování, protože to může znamenat, že vyhledávače, jako je například Google, vidí pouze jednu verzi obsahu stránek dané země.

Google prochází web primárně z amerických IP adres, takže automatické přesměrování 302 pro veškeré návštěvy z USA znamená, že Google bude indexovat pouze obsah stránek určený pro USA. Verze pro ostatní země a jazyky by byly pro Google neviditelné, pokud byste pro Googlebot nevytvořili výjimku v souboru .htaccess.

304 - Beze změny

Stavový kód HTTP 304 se nepoužívá tak často, jak by se možná používat měl. Jeho úkolem je informovat prohlížeče a roboty vyhledávačů, že se soubor od poslední návštěvy nezměnil. To znamená, že soubor nemusí být znovu stahován a klient může použít verzi souboru, kterou má již uloženu v mezipaměti.

U velkých webových stránek může správná aplikace stavových kódů 304 pomoci ušetřit spoustu serverových zdrojů. Pokud Googlebotovi vrátí server stavový kód 304, stránka nebyla od posledního procházení aktualizována, nemusí být stránka (a všechny její přidružené zdroje) znovu generována ani stahována, takže můžete ušetřit spoustu výkonu CPU a také datový přenos.

404 - Nenalezeno a 410 - Dokument již není dostupný

Ve čtyřstovkových stavových kódech existují dva, které jsou pro SEO velmi důležité. První a nejběžnější je 404 - nenalezeno. To znamená, že adresa URL neexistuje a Google Search Console zobrazí tyto chyby ve zprávě o chybách procházení webu. Nejčastěji je odpověď 404 výsledkem chybného odkazu někde na webových stránkách, které robot vyhledávače najde a pokusí se je následovat. Chyba 404 tedy znamená, že někde existuje nesprávně zadaný odkaz.

Pokud byla adresa, které se chyba 404 týká, odstraněna, neměli byste zobrazovat stavový kód 404; ale měli byste buď přesměrovat URL na platnou aktivní stránku pomocí trvalého přesměrování 301, nebo odesílat stavový kód 410 dokument již není dostupný.

Stavový kód 410 je „úmyslná 404.“ S odpovědí 410 říkáte: ano, kdysi zde byla stránka, ale byla trvale odstraněna. Vyhledávače zpracovávají kód 410 jinak než kód 404. Zatímco oba stavové kódy jsou v Google Search Console hlášeny jako nenalezené stránky, 410 je jasným signálem vyhledávači k odstranění této adresy z jeho indexu. Zatímco 404 bude Google interpretovat jako náhodnou chybu a ponechá si původní adresu ještě nějakou dobu ve svém indexu, odpověď 410 bude považována za výslovný požadavek na odstranění této adresy z Google.

429 - Příliš mnoho žádostí

Odpověď 429 znamená, že klient zadal v daném časovém úseku příliš mnoho požadavků a proto namísto správné URL adresy získáte odpověď 429. V takové případě se pravděpodobně jedná o výsledek nějaké formy technologie omezující rychlost nebo počet návštěv, která zabraňuje přetížení webových stránek externími požadavky. Tento stavový kód HTTP pravděpodobně uvidíte, pokud budete procházet webovou stránku pomocí nějakého programu na analýzu SEO.

Některé z technologií omezující přetížení webových stránek však tímto způsobem blokují také roboty vyhledávačů, což může mít vážný dopad na rychlost a efektivitu, s jakou mohou procházet stránky.

Tento problém však může být obtížné identifikovatelný, protože Google Search Console odpovědi 429 ve zprávě o chybách procházení bohužel nehlásí. Pokud tedy váš web používá nějakou technologii, která omezuje rychlost nebo počet požadavků, vždy stojí za to si ověřit, zda je nastavena výjimka pro roboty vyhledávačů

500 - Interní chyba serveru a 503 služba není k dispozici

Jakýkoliv typ odpovědi HTTP 5xx indikuje nějaký problém na straně serveru. Jsou to kódy, které značí vážný problém s vaším serverem a které byste měli neprodleně začít řešit. Hlášení o těchto chybách se dozvíte v Google Search Console

Pro SEO mají chyby serveru dopad primárně na efektivitu procházení. Pokud webová stránka začne vracet odpovědi typu 5xx, Googlebot sníží frekvenci, s jakou bude procházet web, nebo jej dokonce přestane procházet úplně, dokud chyby nezmizí.

Tyto chyby mají dopad na rychlost procházení webu. Díky tomu dochází k indexování nového nebo změněného obsahu se zpožděním. Těchto chyb byste se proto měli vyvarovat, a pokud k nim dojde, co nejrychleji je odstranit. Pokud musíte použít chybovou zprávu 5xx, například v případě vypnutí stránek kvůli údržbě, měli byste vždy použít kód stavu služby 503 - služba není k dispozici.
503 má podobný význam jako 410: Jde o záměrný signál, takže roboti vyhledávačů, vědí, že jste stránku vypnuli záměrně a nejedná se o chybu.

Když server Googlebotovi vrátí chybu 503, bot přijde znovu později a stav vaší stránky v indexu se nezmění. Během práce na svých webových stránkách můžete proto vracet kód 503 bez obav z dopadu na hodnocení stránek v Google.

Pouze pokud by chyba 503 přetrvávala po delší dobu, Google ji začne interpretovat jako trvalou chybu a odpovídajícím způsobem aktualizuje svůj index.

HTTP hlavičky

Stavový kód je pouze částí úplné HTTP odpovědi, kterou server odešle klientovi. Spolu se stavovým kódem se odesílají i další informace. Plná odpověď serveru se skládá ze stavového kódu plus další informace, nazývané HTTP hlavičky.

Tyto hlavičky obsahují instrukce, které mohou prohlížeče a roboti vyhledávačů používat ke správnému zpracování URL adresy.

Vzhledem k rozšiřitelné povaze HTTP hlavičky neexistuje v podstatě žádný limit na to, co může úplná HTTP odpověď obsahovat. Podívejme se na některé z prvků HTTP hlavičky a jejich důležitost pro SEO.

Kanonické odkazy

Kanonické tagy jsme zvyklí hledat ve zdrojovém kódu jazyka HTML (hypertext markup language) webové stránky. Kanonický odkaz však můžete odeslat také jako součást HTTP hlavičky. Google tuto funkci plně podporuje a ta má tak přesně stejný dopad jako odkaz rel = canonical ve zdrojovém kódu HTML stránky.

Protože je relativně snadné implementovat značky rel = canonical do kódu HTML stránky, je poměrně vzácné najít kanonické odkazy odeslané jako součást odpovědi HTTP stránky.

Pokud se však setkáte s neobvyklými problémy s indexováním nebo hodnocením stránky, stojí za to, HTTP hlavičky zkontrolovat.

Hreflang odkazy

Stejně tak jako kanonické odkazy, mohou být součástí HTTP hlavičky i odkazy "hreflang". Tyto odkazy říkají vyhledávačům, že stránka má alternativní verze cílené na různé jazyky nebo země. Obvykle jsou obsaženy ve zdrojovém kódu HTML stránky v záhlaví nebo jako součást souboru sitemap.xml, například:

<link rel="alternate" hreflang="es" href="https://www.vasedomena.com/es/" />
<link rel="alternate" hreflang="en-gb" href="https://www. vasedomena.com/uk/" />
<link rel="alternate" hreflang="fr" href="https://www. vasedomena.com/fr/" />
<link rel="alternate" hreflang="x-default" href="https://www. vasedomena.com/us/" />

Implementace Hreflang pomocí záhlaví HTTP jsou vzácné a většinou se příliš nedoporučují kvůli možným problémům. Nejjednodušší je implementace pomocí XML souborů sitemap.

Meta tagy "Robots" a "X-Robots"

Chcete-li vyhledávačům sdělit, aby stránku neindexovaly, můžete k tomu použít meta tag "robots". Tento meta tag říká robotům vyhledávačů, aby stránku neindexovali, eventuálně aby neprocházeli ani žádné odkazy na stránce. Tato meta značka má však svá omezení: lze ji použit pouze pro URL adresy s HTML dokumenty. Chcete-li však například zajistit, aby na vašich stránkách nebyly indexovány soubory PDF, nelze tuto meta značku použít, protože pro soubory PDF nefunguje.
Namísto toho můžete použít v hlavičce HTTP tag "X-Robots", který robotům odešle stejný signál.

Konfigurace webového serveru pro odesílání tagu X-Robots pomocí hlavičky HTTP s hodnotou „noindex“ pro všechny soubory ve formátu PDF je poměrně jednoduché. Na webových serverech s Apache je to jen několik řádků kódu, které lze přidat do souboru .htaccess v kořenovém adresáři webu.

Vzhledem k tomu, že tagy X-Robots lze snadno konfigurovat pro celé adresáře, jde také o účinnou metodu, jak zabránit vyhledávačům v indexování zabezpečených složek. Kromě „noindex“ a „nofollow“ může tag X-Robots poskytnout i několik dalších odpovědí, které ovlivňují způsob, jakým roboti zpracovávají URL adresu.

Kontrola mezipaměti

Další sada odpovědí HTTP hlavičky může ovlivnit způsob, jakým webový prohlížeč ukládá stránku a související zdroje. Můžete například poskytnout odpověď „max-age“, která řekne prohlížeči, že po určité době musí být stránka znovu vyžádána ze serveru.

Hlavičky sloužící ke kontrole mezipaměti primárně ovlivňují rychlost načítání stránky a nemají příliš velký vliv na to, jak vyhledávače procházejí a indexují stránku. Nicméně vzhledem k důležitosti rychlosti načítání pro SEO, uživatelskou zkušenost a použitelnost stojí za to se s těmito HTTP hlavičkami seznámit.

HTTP hlavičky "Vary"

Hlavička Vary slouží jako pomocná informace pro ukládání dokumentů v proxy cache serverech, k různým účelům komprese, nebo ukládání cookies.

Proxy cache server musí ukládat dokumenty, které existují ve více variantách, společně se všemi odpovídajícími hlavičkami "Accept-*", které použil pro jejich získání a které jsou uvedeny v hlavičce "Vary". Například si musí zapamatovat použité hlavičky Accept-Language a Accept-Charset. Takto uložený dokument může poskytnout klientovi pouze tehdy, pokud klient zadal stejné nebo ekvivalentní preference v těchto hlavičkách. Na hodnotě ostatních hlaviček Accept-* neuvedených v hlavičce Vary nezáleží, protože nemají vliv na výběr varianty požadovaného dokumentu.

HTTP hlavičky Vary slouží k účelům komprese, ukládán cookies a zobrazování mobilních webových stránek.

Hlavičky "Vary" mohou být obzvláště důležité, pokud web používá dynamické služby pro mobilní uživatele, protože prohlížeči nebo robotovi vyhledávače sdělí, kterou verzi webu má zobrazit nebo indexovat. Tato konkrétní HTTP hlavička se jmenuje Vary: User-Agent a říká vyhledávacím robotům, že web poskytuje jiný obsah uživatelům přistupujícím z počítačů a jiný uživatelům mobilních telefonů.

Zabezpečovací HTTP hlavičky

I když tyto HTTP hlavičky nesouvisí přímo se SEO, lepší zabezpečení stránky není nikdy špatná věc. HTTP hlavičky hrají v oblasti bezpečnosti velkou roli, protože správné používání HTTP hlaviček může učinit web méně zranitelným pro řadu potenciálních bezpečnostních problémů. Existují desítky HTTP hlaviček, které slouží pro účely zabezpečení, například:

Strict-Transport-Security.
X-XSS-Protection.
X-Content-Type.
X-Frame-Options.

Různých typů HTTP hlaviček a stavových kódů je velké množství. Zvládnout tento aspekt webové technologie vám pomůže být efektivnější v SEO i v jiných oblastech digitálního marketingu. Konec konců, digitální marketing, je většinou zaměřen na webové aktivity, takže lepší pochopení základních technologií webu je velmi užitečné.

Článek připravila digitální agentura PPC Profits, která realizuje SEO, PPC reklamu, emailing, správu sociálních sítí, správu zbožových vyhledávačů a obsahový marketing.

Zpět na blog