Robots.txt

V tem članku bomo preučili ključno vlogo datoteke robots.txt pri upravljanju prometa na spletnih mestih, razpravljali o nujnosti njene prisotnosti in podali priporočila za njeno nastavitev za učinkovito upravljanje indeksiranja strani. Poleg tega bomo analizirali primere pravilne uporabe direktiv v datoteki robots.txt in podali navodila, kako preveriti pravilnost njenih nastavitev.

Zakaj je potreben Robots.txt

Robots.txt je datoteka, ki se nahaja na strežniku spletnega mesta v njegovem korenskem imeniku. Obvešča robote iskalnikov, kako naj skenirajo vsebino vira. Pravilna uporaba te datoteke pomaga preprečiti indeksiranje neželenih strani, ščiti zaupne podatke in lahko izboljša učinkovitost SEO optimizacije ter vidnost spletnega mesta v rezultatih iskanja. Konfiguracija datoteke robots.txt poteka prek direktiv, ki si jih bomo podrobneje ogledali.

Nastavitev direktiv v Robots.txt

User-Agent

Primarna direktiva je znana kot User-Agent, kjer nastavimo posebno ključno besedo za robote. Ko zazna to besedo, robot razume, da je pravilo namenjeno prav njemu.

Razmislite o primeru uporabe uporabniškega agenta v datoteki robots.txt:

User-Agent: *
Disallow: /private/

Ta primer kaže, da vsi iskalni roboti (predstavljeni s simbolom "*") naj prezre strani, ki se nahajajo v /zasebno/ imenik.

Takole je videti navodilo za določene iskalne robote:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

V tem primeru je Googlebot iskalni robot naj prezre strani v /admin/ imenik, medtem ko Bingbot naj prezre strani v /zasebno/ imenik.

Ne dovoli

Ne dovoli pove iskalnim robotom, katere URL-je naj preskočijo ali naj ne indeksirajo na spletnem mestu. Ta direktiva je uporabna, če želite skriti občutljive podatke ali strani z nizko kakovostno vsebino, da jih iskalniki ne bi indeksirali. Če datoteka robots.txt vsebuje vnos Disallow: /imeniki/, bo robotom onemogočen dostop do vsebine navedenega imenika. na primer

User-agent: *
Disallow: /admin/

Ta vrednost kaže na to vsi roboti naj prezre URL-je, ki se začnejo z /admin/. Če želite preprečiti indeksiranje celotnega spletnega mesta s strani katerega koli robota, nastavite korenski imenik kot pravilo:

User-agent: *
Disallow: /

Dovoli

Vrednost »Dovoli« deluje nasprotno od »Disallow«: dovoli iskalnim robotom dostop do določene strani ali imenika, tudi če druge direktive v datoteki robots.txt prepovedujejo dostop do njega.

Razmislite o primeru:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

V tem primeru je določeno, da robotom ni dovoljen dostop do /admin/ imenik, razen za /admin/login.html strani, ki je na voljo za indeksiranje in skeniranje.

Robots.txt in zemljevid spletnega mesta

Zemljevid spletnega mesta je datoteka XML, ki vsebuje seznam URL-jev vseh strani in datotek na spletnem mestu, ki jih iskalniki lahko indeksirajo. Ko iskalni robot dostopi do datoteke robots.txt in vidi povezavo do datoteke XML zemljevida spletnega mesta, lahko to datoteko uporabi za iskanje vseh razpoložljivih URL-jev in virov na spletnem mestu. Direktiva je navedena v obliki:

Sitemap: https://yoursite.com/filesitemap.xml

To pravilo je običajno postavljeno na konec dokumenta, ne da bi bilo vezano na določenega uporabniškega agenta, in ga obdelujejo vsi roboti brez izjeme. Če lastnik spletnega mesta ne uporablja sitemap.xml, pravila ni treba dodati.

Primeri konfigurirane datoteke Robots.txt

Nastavitev Robots.txt za WordPress

V tem razdelku bomo obravnavali že pripravljeno konfiguracijo za WordPress. Raziskali bomo blokiranje dostopa do zaupnih podatkov in omogočanje dostopa do glavnih strani.

Kot pripravljeno rešitev lahko uporabite naslednjo kodo:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Čeprav so vse direktive opremljene s komentarji, se poglobimo v zaključke.

Roboti ne bodo indeksirali občutljivih datotek in imenikov.
Hkrati je robotom dovoljen dostop do glavnih strani in virov spletnega mesta.
prepoved je nastavljena na indeksiranje starih različic objav in parametriziranih poizvedb, da se prepreči podvajanje vsebine.
Lokacija zemljevida mesta je označena za izboljšano indeksiranje.

Tako smo obravnavali splošen primer pripravljene konfiguracije, v kateri so nekatere občutljive datoteke in poti skrite pred indeksiranjem, vendar so glavni imeniki dostopni.

Za razliko od mnogih priljubljenih CMS ali spletnih mest, napisanih po meri, ima WordPress več vtičnikov, ki olajšajo ustvarjanje in upravljanje datoteke robots.txt. Ena izmed priljubljenih rešitev za ta namen je Yoast SEO.

Če ga želite namestiti, morate:

Pojdite na skrbniško ploščo WordPress.
V razdelku »Vtičniki« izberite »Dodaj novo«.
Poiščite vtičnik "Yoast SEO" in ga namestite.
Vključite vtičnik.

Če želite urediti datoteko robots.txt, morate:

Pojdite na razdelek »SEO« v stranskem meniju skrbniške plošče in izberite »Splošno«.
Pojdite na zavihek "Orodja".
Kliknite na "Datoteke". Tukaj boste videli različne datoteke, vključno z robots.txt.
Vnesite potrebna pravila indeksiranja glede na vaše zahteve.
Ko spremenite datoteko, kliknite gumb »Shrani spremembe v robots.txt«.

Upoštevajte, da je vsaka nastavitev datoteke robots.txt za WordPress edinstvena in odvisna od posebnih potreb in funkcij spletnega mesta. Univerzalne predloge, ki bi ustrezala vsem virom brez izjeme, ni. Vendar lahko ta primer in uporaba vtičnikov bistveno poenostavita nalogo.

Ročna nastavitev Robots.txt

Podobno lahko nastavite svojo konfiguracijo datoteke, tudi če za spletno mesto ni pripravljenega CMS. Uporabnik mora tudi naložiti datoteko robots.txt v korenski imenik spletnega mesta in določiti potrebna pravila. Tukaj je eden od primerov, v katerem so navedene vse razpoložljive direktive:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Kako preveriti datoteko robots.txt

Kot pomožno orodje pri preverjanju napak v datoteki robots.txt je priporočljivo uporabljati spletne storitve.

Razmislite o primeru Spletni skrbnik Yandex storitev. Če želite preveriti, morate v ustrezno polje vnesti povezavo do vašega spletnega mesta, če je datoteka že naložena na strežnik. Po tem bo orodje samo naložilo konfiguracijo datoteke. Obstaja tudi možnost ročnega vnosa konfiguracije:

Nato morate zahtevati pregled in počakati na rezultate:

V navedenem primeru ni napak. Če obstajajo, bo storitev pokazala problematična področja in načine za njihovo odpravo.

zaključek

Če povzamemo, smo poudarili, kako pomembna je datoteka robots.txt za nadzor prometa na spletnem mestu. Zagotovili smo nasvete o tem, kako ga pravilno nastaviti za upravljanje, kako iskalniki indeksirajo strani. Poleg tega smo si ogledali tudi primere pravilne uporabe te datoteke in podali navodila, kako preveriti, ali vse nastavitve delujejo pravilno.

❮ Prejšnji članek Kako konfigurirati spletni strežnik (Apache-PHP-MySQL/MariaDB) v sistemu Linux

Naslednji članek ❯ Kako se povezati s strežnikom Linux prek SSH