Tässä artikkelissa tutkimme robots.txt-tiedoston keskeistä roolia verkkosivustojen liikenteen hallinnassa, keskustelemme sen välttämättömyydestä ja annamme suosituksia sen määrittämiseksi tehokkaan sivun indeksoinnin hallintaan. Lisäksi analysoimme esimerkkejä oikeista ohjeiden käytöstä robots.txt-tiedostossa ja annamme oppaan sen asetusten oikeellisuuden tarkistamiseen.
Miksi Robots.txt tarvitaan
Robots.txt on tiedosto, joka sijaitsee sivuston palvelimella sen juurihakemistossa. Se kertoo hakukoneroboteille, kuinka heidän tulee skannata resurssin sisältö. Tämän tiedoston oikea käyttö auttaa estämään ei-toivottujen sivujen indeksoinnin, suojaa luottamuksellisia tietoja ja voi parantaa SEO-optimoinnin tehokkuutta ja sivuston näkyvyyttä hakutuloksissa. Robots.txt-tiedoston konfigurointi tapahtuu ohjeiden avulla, joita tarkastellaan tarkemmin.
Ohjeiden asettaminen Robots.txt-tiedostossa
User-Agent
Ensisijainen direktiivi tunnetaan nimellä User-Agent, jossa asetamme erityisen avainsanan roboteille. Havaittuaan tämän sanan robotti ymmärtää, että sääntö on tarkoitettu erityisesti sille.
Harkitse esimerkkiä User-Agentin käyttämisestä robots.txt-tiedostossa:
User-Agent: *
Disallow: /private/
Tämä esimerkki osoittaa, että kaikki hakurobotit (esitetty symbolilla "*") pitäisi jättää huomiotta sivut, jotka sijaitsevat /yksityinen/ hakemistoon.
Näin ohje näyttää tietyille hakuroboteille:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Tässä tapauksessa Googlebot hakurobotin tulee jättää huomioimatta sivut /admin/ hakemistoon, kun Bingbot sivut tulee jättää huomiotta /yksityinen/ hakemistoon.
Estä
Estä kertoo hakuroboteille, mitkä URL-osoitteet tulee ohittaa tai jättää indeksoimatta verkkosivustolla. Tämä ohje on hyödyllinen, kun haluat piilottaa arkaluontoiset tiedot tai heikkolaatuiset sisältösivut hakukoneiden indeksoimasta. Jos robots.txt-tiedosto sisältää merkinnän Disallow: /hakemistot/, silloin robotit eivät pääse käsiksi määritetyn hakemiston sisältöön. Esimerkiksi,
User-agent: *
Disallow: /admin/
Tämä arvo osoittaa sen kaikki robotit tulee jättää huomioimatta URL-osoitteet, jotka alkavat /admin/. Voit estää robottien indeksoimasta koko sivustoa asettamalla päähakemiston säännöksi:
User-agent: *
Disallow: /
allow
"Allow"-arvo toimii päinvastoin kuin "Disallow": se sallii hakurobottien pääsyn tietylle sivulle tai hakemistoon, vaikka muut robots.txt-tiedoston käskyt estävät pääsyn siihen.
Harkitse esimerkkiä:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Tässä esimerkissä on määritetty, että robotit eivät saa käyttää /admin/ hakemisto, paitsi /admin/login.html sivu, joka on käytettävissä indeksointia ja skannausta varten.
Robots.txt ja sivustokartta
Sivustokartta on XML-tiedosto, joka sisältää luettelon kaikista sivuston sivuista ja tiedostoista, jotka hakukoneet voivat indeksoida. Kun hakurobotti käyttää robots.txt-tiedostoa ja näkee linkin sivustokartan XML-tiedostoon, se voi käyttää tätä tiedostoa löytääkseen kaikki sivustolta saatavilla olevat URL-osoitteet ja resurssit. Direktiivi on määritelty muodossa:
Sitemap: https://yoursite.com/filesitemap.xml
Tämä sääntö sijoitetaan yleensä asiakirjan loppuun ilman, että se on sidottu tiettyyn User-Agentiin, ja kaikki robotit käsittelevät sen poikkeuksetta. Jos sivuston omistaja ei käytä sitemap.xml-tiedostoa, sääntöä ei tarvitse lisätä.
Esimerkkejä määritetystä Robots.txt-tiedostosta
Robots.txt:n määrittäminen WordPressille
Tässä osiossa tarkastelemme valmiita WordPress-kokoonpanoja. Selvitämme luottamuksellisten tietojen käytön estämistä ja pääsyn sallimista pääsivuille.
Valmiina ratkaisuna voit käyttää seuraavaa koodia:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Vaikka kaikkiin direktiiveihin liittyy kommentteja, syvennytään johtopäätöksiin.
- Robotit eivät indeksoi arkaluonteisia tiedostoja ja hakemistoja.
- Samaan aikaan robotit saavat pääsyn sivuston pääsivuille ja resursseihin.
- Viestien vanhojen versioiden ja parametroitujen kyselyiden indeksointi on kielletty sisällön päällekkäisyyden estämiseksi.
- Sivustokartan sijainti on osoitettu indeksoinnin parantamiseksi.
Siksi olemme tarkastelleet yleistä esimerkkiä valmiista kokoonpanosta, jossa jotkut arkaluontoiset tiedostot ja polut on piilotettu indeksoinnista, mutta päähakemistot ovat käytettävissä.
Toisin kuin monet suositut sisällönhallintajärjestelmät tai räätälöidyt sivustot, WordPressissä on useita laajennuksia, jotka helpottavat robots.txt-tiedoston luomista ja hallintaa. Yksi suosituimmista ratkaisuista tähän tarkoitukseen on Yoast SEO.
Asentaaksesi sen tarvitset:
- Siirry WordPressin hallintapaneeliin.
- Valitse "Lisäosat"-osiossa "Lisää uusi".
- Etsi "Yoast SEO" -laajennus ja asenna se.
- Aktivoi laajennus.
Voit muokata robots.txt-tiedostoa seuraavasti:
- Siirry hallintapaneelin sivuvalikon "SEO"-osioon ja valitse "Yleiset".
- Siirry "Työkalut"-välilehteen.
- Napsauta "Tiedostot". Täällä näet erilaisia tiedostoja, mukaan lukien robots.txt.
- Syötä tarvittavat indeksointisäännöt tarpeidesi mukaan.
- Kun olet tehnyt muutokset tiedostoon, napsauta Tallenna muutokset tiedostoon robots.txt -painiketta.
Huomaa, että jokainen WordPressin robots.txt-tiedostoasetus on ainutlaatuinen ja riippuu sivuston erityistarpeista ja ominaisuuksista. Ei ole olemassa universaalia mallia, joka sopisi poikkeuksetta kaikille resursseille. Tämä esimerkki ja lisäosien käyttö voivat kuitenkin yksinkertaistaa tehtävää merkittävästi.
Robots.txt-tiedoston manuaalinen asetus
Vastaavasti voit määrittää tiedoston määritykset, vaikka sivustolle ei olisi valmiita sisällönhallintajärjestelmää. Käyttäjän tulee myös ladata robots.txt-tiedosto sivuston juurihakemistoon ja määrittää tarvittavat säännöt. Tässä on yksi esimerkeistä, jossa on ilmoitettu kaikki saatavilla olevat direktiivit:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Robots.txt-tiedoston tarkistaminen
Apuvälineenä robots.txt-tiedoston virheiden varalta tarkistettaessa on suositeltavaa käyttää verkkopalveluita.
Mieti esimerkkiä Yandex Webmaster palvelua. Tarkistaaksesi sinun on lisättävä linkki sivustollesi vastaavaan kenttään, jos tiedosto on jo ladattu palvelimelle. Tämän jälkeen työkalu itse lataa tiedostokokoonpanon. On myös mahdollisuus syöttää asetukset manuaalisesti:
Seuraavaksi sinun on pyydettävä tarkistus ja odotettava tuloksia:
Annetussa esimerkissä ei ole virheitä. Jos sellaisia on, palvelu näyttää ongelmakohdat ja keinot niiden korjaamiseen.
Yhteenveto
Yhteenvetona korostimme, kuinka tärkeä robots.txt-tiedosto on sivuston liikenteen hallinnassa. Annoimme neuvoja sen määrittämiseen, jotta voit hallita sitä, miten hakukoneet indeksoivat sivuja. Tämän lisäksi tarkastelimme myös esimerkkejä tämän tiedoston oikeasta käytöstä ja annoimme ohjeita kuinka tarkistaa, että kaikki asetukset toimivat oikein.