Neste artigo, examinaremos o papel clave do ficheiro robots.txt na xestión do tráfico en sitios web, discutiremos a necesidade da súa presenza e proporcionaremos recomendacións para configuralo para unha xestión eficaz da indexación de páxinas. Ademais, analizaremos exemplos de uso correcto de directivas no ficheiro robots.txt e proporcionaremos unha guía sobre como comprobar a corrección da súa configuración.
Por que se necesita Robots.txt
Robots.txt é un ficheiro situado no servidor do sitio no seu directorio raíz. Infórmalles aos robots dos buscadores como deben escanear o contido do recurso. O uso axeitado deste ficheiro axuda a evitar a indexación de páxinas non desexadas, protexe os datos confidenciais e pode mellorar a eficiencia da optimización de SEO e a visibilidade do sitio nos resultados de busca. A configuración de robots.txt realízase mediante directivas, que veremos máis adiante.
Establecer directivas en Robots.txt
Axente de usuario
A directiva principal coñécese como User-Agent, onde establecemos unha palabra clave especial para robots. Ao detectar esta palabra, o robot entende que a regra está destinada especificamente a el.
Considere un exemplo de uso de User-Agent no ficheiro robots.txt:
User-Agent: *
Disallow: /private/
Este exemplo indica que todos os robots de busca (representados polo símbolo "*") debería ignorar as páxinas situadas no ficheiro /privado/ directorio.
Así é como se ve a instrución para robots de busca específicos:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Neste caso, o googlebot o robot de busca debe ignorar as páxinas do /administrador/ directorio, mentres bingbot debería ignorar as páxinas do /privado/ directorio.
Non permitir
Non permitir indica aos robots de busca que URL deben omitir ou non indexar no sitio web. Esta directiva é útil cando queres ocultar datos confidenciais ou páxinas de contido de baixa calidade para que os motores de busca non indexen. Se o ficheiro robots.txt contén a entrada Non permitir: /directorio/, entón os robots terán acceso ao contido do directorio especificado. Por exemplo,
User-agent: *
Disallow: /admin/
Este valor indica que todos os robots debería ignorar os URL que comezan por /administrador/. Para evitar que ningún robot indexe todo o sitio, establece o directorio raíz como regra:
User-agent: *
Disallow: /
Permitir
O valor "Permitir" actúa oposto ao "Non permitir": permite que os robots de busca accedan a unha páxina ou directorio específicos, aínda que outras directivas do ficheiro robots.txt prohiban o acceso a ela.
Considere un exemplo:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Neste exemplo, especifícase que aos robots non se lles permite o acceso ao /administrador/ directorio, excepto o /admin/login.html páxina, que está dispoñible para indexar e dixitalizar.
Robots.txt e mapa do sitio
O mapa do sitio é un ficheiro XML que contén unha lista de URL de todas as páxinas e ficheiros do sitio que poden ser indexados polos buscadores. Cando un robot de busca accede ao ficheiro robots.txt e ve unha ligazón a un ficheiro XML de mapa do sitio, pode utilizar este ficheiro para atopar todos os URL e recursos dispoñibles no sitio. A directiva especifícase no formato:
Sitemap: https://yoursite.com/filesitemap.xml
Esta regra adoita colocarse ao final do documento sen estar vinculada a un axente de usuario específico e é procesada por todos os robots sen excepción. Se o propietario do sitio non usa sitemap.xml, non é necesario engadir a regra.
Exemplos de Robots.txt configurados
Configurando Robots.txt para WordPress
Nesta sección, consideraremos unha configuración preparada para WordPress. Exploraremos bloquear o acceso a datos confidenciais e permitir o acceso ás páxinas principais.
Como solución lista, podes usar o seguinte código:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Aínda que todas as directivas van acompañadas de comentarios, afondemos nas conclusións.
- Os robots non indexarán ficheiros e directorios sensibles.
- Ao mesmo tempo, os robots poden acceder ás páxinas e recursos principais do sitio.
- A prohibición está establecida para indexar versións antigas de publicacións e consultas parametrizadas para evitar a duplicación de contido.
- A localización do mapa do sitio está indicada para mellorar a indexación.
Así, consideramos un exemplo xeral de configuración preparada, na que algúns ficheiros e camiños sensibles están ocultos da indexación, pero os directorios principais son accesibles.
A diferenza de moitos CMS populares ou sitios personalizados, WordPress ten varios complementos que facilitan a creación e xestión do ficheiro robots.txt. Unha das solucións populares para este fin é Yoast SEO.
Para instalalo, cómpre:
- Vaia ao panel de administración de WordPress.
- Na sección "Complementos", seleccione "Engadir novo".
- Busca o complemento "Yoast SEO" e instálao.
- Activar o complemento.
Para editar o ficheiro robots.txt, cómpre:
- Vaia á sección "SEO" no menú lateral do panel de administración e seleccione "Xeral".
- Vaia á pestana "Ferramentas".
- Fai clic en "Arquivos". Aquí verás varios ficheiros, incluído robots.txt.
- Introduza as regras de indexación necesarias segundo os seus requisitos.
- Despois de facer cambios no ficheiro, fai clic no botón "Gardar os cambios en robots.txt".
Teña en conta que cada configuración de ficheiro robots.txt para WordPress é única e depende das necesidades e funcións específicas do sitio. Non existe un modelo universal que se adapte a todos os recursos sen excepción. Non obstante, este exemplo e o uso de complementos poden simplificar significativamente a tarefa.
Configuración manual de Robots.txt
Do mesmo xeito, pode configurar a súa configuración do ficheiro aínda que non teña un CMS preparado para o sitio. O usuario tamén debe cargar o ficheiro robots.txt no directorio raíz do sitio e especificar as regras necesarias. Este é un dos exemplos, no que se indican todas as directivas dispoñibles:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Como comprobar o ficheiro Robots.txt
Como ferramenta auxiliar ao comprobar se hai erros no ficheiro robots.txt, recoméndase utilizar servizos en liña.
Considere o exemplo do Webmaster de Yandex servizo. Para comprobar, debes inserir unha ligazón ao teu sitio no campo correspondente se o ficheiro xa está cargado no servidor. Despois diso, a propia ferramenta cargará a configuración do ficheiro. Tamén hai unha opción para introducir a configuración manualmente:
A continuación, cómpre solicitar unha comprobación e esperar os resultados:
No exemplo dado, non hai erros. Se hai algún, o servizo mostrará as áreas problemáticas e as formas de solucionalas.
Conclusión
En resumo, destacamos o importante que é o ficheiro robots.txt para controlar o tráfico no sitio. Proporcionamos consellos sobre como configuralo correctamente para xestionar como os motores de busca indexan as páxinas. Ademais disto, tamén analizamos exemplos de como usar correctamente este ficheiro e demos instrucións sobre como comprobar que todas as opcións funcionan correctamente.