Jakintza Profitserver zerbitzuarekin lan egiteko argibide errazak
Main Jakintza robots.txt

robots.txt


Artikulu honetan, robots.txt fitxategiak webguneetako trafikoa kudeatzen duen funtsezko eginkizuna aztertuko dugu, haren presentziaren beharraz eztabaidatuko dugu eta orrien indexatzeko kudeaketa eraginkorra konfiguratzeko gomendioak emango ditugu. Gainera, robots.txt fitxategian zuzentarauen erabilera zuzenaren adibideak aztertuko ditugu eta bere ezarpenen zuzentasuna egiaztatzeko gida emango dugu.

Zergatik behar den Robots.txt

Robots.txt guneko zerbitzarian kokatutako fitxategi bat da, bere erro-direktorioan. Bilatzaileen robotei baliabidearen edukia nola eskaneatu behar duten jakinarazten die. Fitxategi hau behar bezala erabiltzeak nahi ez diren orrialdeak indexatzea saihesten du, isilpeko datuak babesten ditu eta SEO optimizazioaren eraginkortasuna eta webgunearen ikusgarritasuna hobetu dezake bilaketa-emaitzetan. Robots.txt-en konfigurazioa jarraibideen bidez egiten da, eta horiek gehiago aztertuko ditugu.

Zuzentarauak ezartzea Robots.txt-en

Erabiltzaile Agente

Zuzentarau nagusia Erabiltzaile-Agente bezala ezagutzen da, non robotentzako gako-hitz berezi bat ezartzen dugun. Hitz hori detektatzean, robotak ulertzen du araua berariaz zuzenduta dagoela.

Demagun robots.txt fitxategian User-Agent erabiltzearen adibide bat:

User-Agent: *
Disallow: /private/

Adibide honek adierazten du bilaketa-robot guztiek (" ikurrez irudikatuta)*") atalean kokatutako orriei ez ikusi egin behar die /pribatua/ direktorioa.

Hona hemen argibideak bilaketa-robot zehatz batzuentzat:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Kasu honetan, Googlebot bilaketa-robotak orrialdeak baztertu behar ditu /admin/ direktorioa, bitartean bingbot orrialdeak baztertu behar ditu /pribatua/ direktorioa.

Baimendu

Baimendu bilaketa-robotei esaten die zein URL saltatu edo ez indexatu webgunean. Zuzentarau hau erabilgarria da datu sentikorrak edo kalitate baxuko edukiaren orriak bilatzaileen indexatzetik ezkutatu nahi dituzunean. Robots.txt fitxategiak sarrera badu Ez baimendu: /direktorioa/, orduan robotei zehaztutako direktorioko edukietarako sarbidea ukatuko zaie. Adibidez,

User-agent: *
Disallow: /admin/

Balio honek hori adierazten du robot guztiak hasierako URLak alde batera utzi behar ditu /admin/. Gune osoa edozein robotek indexatzea blokeatzeko, ezarri erroko direktorioa arau gisa:

User-agent: *
Disallow: /

Baimendu

"Baimendu" balioak "Ez baimendu"-ren kontra jokatzen du: bilaketa-robotei orri edo direktorio jakin batera atzitzea ahalbidetzen die, nahiz eta robots.txt fitxategiko beste zuzentarau batzuek hura atzitzea debekatu.

Demagun adibide bat:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Adibide honetan, zehazten da robotek ez dutela sarbiderik onartzen /admin/ direktorioa, izan ezik /admin/login.html orrialdea, indexatzeko eta eskaneatzeko erabilgarri dagoena.

Robots.txt eta Sitemap

Gune-mapa XML fitxategi bat da, eta webguneko orrialde eta fitxategi guztien URLen zerrenda bat da, bilatzaileek indexatu ditzaketenak. Bilaketa-robot bat robots.txt fitxategira sartzen denean eta gune-mapa XML fitxategi baterako esteka bat ikusten duenean, fitxategi hau erabil dezake webgunean eskuragarri dauden URL eta baliabide guztiak aurkitzeko. Zuzentaraua formatuan zehazten da:

Sitemap: https://yoursite.com/filesitemap.xml

Arau hau normalean dokumentuaren amaieran jartzen da Erabiltzaile-Agente zehatz bati lotuta egon gabe eta robot guztiek prozesatzen dute salbuespenik gabe. Gunearen jabeak ez badu sitemap.xml erabiltzen, ez da beharrezkoa araua gehitzea.

Konfiguratutako Robots.txt-en adibideak

WordPress-erako Robots.txt konfiguratzea

Atal honetan, WordPress-erako prest egindako konfigurazioa kontuan hartuko dugu. Isilpeko datuetarako sarbidea blokeatzea eta orri nagusietarako sarbidea baimentzea aztertuko dugu.

Prest irtenbide gisa, honako kode hau erabil dezakezu:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Zuzentarau guztiek iruzkinekin batera badaude ere, sakon ditzagun ondorioetan.

  1. Robotek ez dituzte fitxategi eta direktorio sentikorrak indexatuko.
  2. Aldi berean, robotei webguneko orrialde eta baliabide nagusietara sartzeko baimena ematen zaie.
  3. debekua argitalpenen bertsio zaharrak eta parametrizatutako kontsultak indexatzeko ezarrita dago, edukia bikoiztea ekiditeko.
  4. Webgunearen maparen kokapena indexatzeko hobekuntzarako adierazten da.

Horrela, prest dagoen konfigurazio baten adibide orokor bat hartu dugu kontuan, zeinetan fitxategi eta bide sentikor batzuk indexatzeko ezkutatuta dauden, baina direktorio nagusiak eskuragarri dauden.

CMS ezagun edo pertsonalizatutako gune askotan ez bezala, WordPress-ek robots.txt fitxategia sortzea eta kudeatzea errazten duten hainbat plugin ditu. Horretarako irtenbide ezagunenetako bat da Yoast SEO.

Instalatzeko, honako hau behar duzu:

  1. Joan WordPress admin panelera.
  2. "Pluginak" atalean, hautatu "Gehitu berria".
  3. Bilatu "Yoast SEO" plugina eta instalatu.
  4. Aktibatu plugina.

Robots.txt fitxategia editatzeko, hau egin behar duzu:

  1. Joan administrazio panelaren alboko menuko "SEO" atalera eta hautatu "Orokorra".
  2. Joan "Tresnak" fitxara.
  3. Egin klik "Fitxategiak". Hemen hainbat fitxategi ikusiko dituzu, robots.txt barne.
  4. Sartu beharrezko indexatzeko arauak zure eskakizunen arabera.
  5. Fitxategian aldaketak egin ondoren, egin klik "Gorde aldaketak robots.txt-en" botoian.

Kontuan izan WordPress-en robots.txt fitxategien ezarpen bakoitza bakarra dela eta gunearen behar eta ezaugarri zehatzen araberakoa dela. Ez dago salbuespenik gabe baliabide guztietara egokituko litzatekeen txantiloi unibertsala. Hala ere, adibide honek eta pluginen erabilerak zeregina nabarmen erraztu dezakete.

Robots.txt-en eskuzko ezarpena

Era berean, fitxategiaren konfigurazioa konfigura dezakezu gunerako CMS prest egon ezean ere. Erabiltzaileak robots.txt fitxategia gunearen erroko direktoriora ere igo behar du eta beharrezko arauak zehaztu. Hona hemen adibideetako bat, zeinetan erabilgarri dauden zuzentarau guztiak adierazten diren:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Nola egiaztatu Robots.txt fitxategia

Robots.txt fitxategia akatsik dagoen egiaztatzean tresna laguntzaile gisa, lineako zerbitzuak erabiltzea gomendatzen da.

Demagun adibidea Yandex Webmasterra zerbitzua. Egiaztatzeko, zure gunerako esteka bat txertatu behar duzu dagokion eremuan fitxategia zerbitzarian kargatuta badago. Horren ondoren, tresnak berak fitxategiaren konfigurazioa kargatuko du. Konfigurazioa eskuz sartzeko aukera ere badago:

Robots.txt konfigurazioa

Ondoren, egiaztapena eskatu eta emaitzen zain egon behar duzu:

Robots.txt ezarpenaren emaitza

Emandako adibidean, ez dago akatsik. Hala badagokio, zerbitzuak arazo-eremuak eta horiek konpontzeko bideak erakutsiko ditu.

Ondorioa

Laburbilduz, robots.txt fitxategiak guneko trafikoa kontrolatzeko zein garrantzitsua den azpimarratu dugu. Bilatzaileek orriak nola indexatzen dituzten kudeatzeko behar bezala konfiguratzeko aholkuak eman ditugu. Honetaz gain, fitxategi hau behar bezala erabiltzeko adibideak ere aztertu ditugu eta ezarpen guztiak behar bezala funtzionatzen duten egiaztatzeko argibideak eman ditugu.

❮ Aurreko artikulua Nola konfiguratu web zerbitzari bat (Apache-PHP-MySQL/MariaDB) Linux-en
Hurrengo artikulua ❯ Nola konektatu Linux zerbitzari batera SSH bidez

Galde iezaguzu VPS-i buruz

Zure galderei erantzuteko prest gaude eguneko edo gaueko edozein ordutan.