En aquest article, examinarem el paper clau del fitxer robots.txt en la gestió del trànsit als llocs web, parlarem de la necessitat de la seva presència i oferirem recomanacions per configurar-lo per a una gestió eficaç de la indexació de pàgines. A més, analitzarem exemples d'ús correcte de directives al fitxer robots.txt i proporcionarem una guia sobre com comprovar la correcció de la seva configuració.
Per què es necessita Robots.txt
Robots.txt és un fitxer situat al servidor del lloc al seu directori arrel. Informa als robots dels motors de cerca com han d'escanejar el contingut del recurs. L'ús adequat d'aquest fitxer ajuda a prevenir la indexació de pàgines no desitjades, protegeix les dades confidencials i pot millorar l'eficiència de l'optimització de SEO i la visibilitat del lloc als resultats de la cerca. La configuració de robots.txt es fa mitjançant directives, que veurem més endavant.
Configuració de directives a Robots.txt
Agent d'usuari
La directiva principal es coneix com User-Agent, on establim una paraula clau especial per als robots. En detectar aquesta paraula, el robot entén que la regla està pensada específicament per a ell.
Penseu en un exemple d'ús de User-Agent al fitxer robots.txt:
User-Agent: *
Disallow: /private/
Aquest exemple indica que tots els robots de cerca (representats pel símbol "*") hauria d'ignorar les pàgines ubicades al fitxer /privada/ directori.
A continuació es mostra com es veu la instrucció per a robots de cerca específics:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
En aquest cas, el Googlebot El robot de cerca hauria d'ignorar les pàgines del fitxer /administrador/ directori, mentre bingbot hauria d'ignorar les pàgines del /privada/ directori.
no permetre
no permetre indica als robots de cerca quins URL han de saltar o no indexar al lloc web. Aquesta directiva és útil quan voleu ocultar dades sensibles o pàgines de contingut de baixa qualitat perquè els motors de cerca indexin. Si el fitxer robots.txt conté l'entrada No permetre: /directories/, llavors als robots se'ls negarà l'accés al contingut del directori especificat. Per exemple,
User-agent: *
Disallow: /admin/
Aquest valor indica que tots els robots hauria d'ignorar els URL que comencen per /administrador/. Per evitar que cap robot indexi tot el lloc, configureu el directori arrel com a regla:
User-agent: *
Disallow: /
Permetre
El valor "Permetre" actua oposat a "No permetre": permet als robots de cerca accedir a una pàgina o directori específics, fins i tot si altres directives del fitxer robots.txt en prohibeixen.
Considereu un exemple:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
En aquest exemple, s'especifica que els robots no poden accedir al /administrador/ directori, excepte el /admin/login.html pàgina, que està disponible per indexar i escanejar.
Robots.txt i mapa del lloc
El mapa del lloc és un fitxer XML que conté una llista d'URL de totes les pàgines i fitxers del lloc que els motors de cerca poden indexar. Quan un robot de cerca accedeix al fitxer robots.txt i veu un enllaç a un fitxer XML de mapa del lloc, pot utilitzar aquest fitxer per trobar tots els URL i recursos disponibles al lloc. La directiva s'especifica en el format:
Sitemap: https://yoursite.com/filesitemap.xml
Aquesta regla normalment es col·loca al final del document sense estar vinculada a un User-Agent específic i la processen tots els robots sense excepció. Si el propietari del lloc no utilitza sitemap.xml, no cal afegir la regla.
Exemples de Robots.txt configurats
Configuració de Robots.txt per a WordPress
En aquesta secció, considerarem una configuració ja feta per a WordPress. Explorarem bloquejar l'accés a dades confidencials i permetre l'accés a les pàgines principals.
Com a solució preparada, podeu utilitzar el codi següent:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Tot i que totes les directrius van acompanyades de comentaris, aprofundim en les conclusions.
- Els robots no indexaran fitxers i directoris sensibles.
- Al mateix temps, els robots poden accedir a les pàgines i recursos principals del lloc.
- prohibició s'estableix per indexar versions antigues de publicacions i consultes parametritzades per evitar la duplicació de contingut.
- La ubicació del mapa del lloc està indicada per millorar la indexació.
Així, hem considerat un exemple general d'una configuració preparada, en la qual alguns fitxers i camins sensibles estan ocults de la indexació, però els directoris principals són accessibles.
A diferència de molts CMS populars o llocs escrits a mida, WordPress té diversos connectors que faciliten la creació i gestió del fitxer robots.txt. Una de les solucions populars per a aquest propòsit és Yoast SEO.
Per instal·lar-lo, heu de:
- Aneu al tauler d'administració de WordPress.
- A la secció "Connectors", seleccioneu "Afegeix nou".
- Cerqueu el connector "Yoast SEO" i instal·leu-lo.
- Activa el connector.
Per editar el fitxer robots.txt, heu de:
- Aneu a la secció "SEO" al menú lateral del tauler d'administració i seleccioneu "General".
- Aneu a la pestanya "Eines".
- Feu clic a "Fitxers". Aquí veureu diversos fitxers, inclòs robots.txt.
- Introduïu les regles d'indexació necessàries segons els vostres requisits.
- Després de fer canvis al fitxer, feu clic al botó "Desa els canvis a robots.txt".
Tingueu en compte que cada configuració de fitxer robots.txt per a WordPress és única i depèn de les necessitats i característiques específiques del lloc. No hi ha cap plantilla universal que s'adapti a tots els recursos sense excepció. Tanmateix, aquest exemple i l'ús de connectors poden simplificar significativament la tasca.
Configuració manual de Robots.txt
De la mateixa manera, podeu configurar la vostra configuració del fitxer fins i tot en absència d'un CMS preparat per al lloc. L'usuari també ha de carregar el fitxer robots.txt al directori arrel del lloc i especificar les regles necessàries. Aquest és un dels exemples, en el qual s'indiquen totes les directives disponibles:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Com comprovar el fitxer Robots.txt
Com a eina auxiliar per comprovar si hi ha errors al fitxer robots.txt, es recomana utilitzar serveis en línia.
Considereu l'exemple de la Webmaster de Yandex servei. Per comprovar-ho, heu d'inserir un enllaç al vostre lloc al camp corresponent si el fitxer ja està penjat al servidor. Després d'això, la pròpia eina carregarà la configuració del fitxer. També hi ha una opció per introduir la configuració manualment:
A continuació, heu de sol·licitar una comprovació i esperar els resultats:
En l'exemple donat, no hi ha errors. Si n'hi ha, el servei mostrarà les àrees problemàtiques i les maneres de solucionar-les.
Conclusió
En resum, hem posat èmfasi en la importància del fitxer robots.txt per controlar el trànsit al lloc. Vam oferir consells sobre com configurar-lo correctament per gestionar com els motors de cerca indexen les pàgines. A més d'això, també vam mirar exemples de com utilitzar correctament aquest fitxer i vam donar instruccions sobre com comprovar que tots els paràmetres funcionen correctament.