Base de Coñecemento Instrucións sinxelas para traballar co servizo Profitserver

Robots.txt


Neste artigo, examinaremos o papel clave do ficheiro robots.txt na xestión do tráfico en sitios web, discutiremos a necesidade da súa presenza e proporcionaremos recomendacións para configuralo para unha xestión eficaz da indexación de páxinas. Ademais, analizaremos exemplos de uso correcto de directivas no ficheiro robots.txt e proporcionaremos unha guía sobre como comprobar a corrección da súa configuración.

Por que se necesita Robots.txt

Robots.txt é un ficheiro situado no servidor do sitio no seu directorio raíz. Infórmalles aos robots dos buscadores como deben escanear o contido do recurso. O uso axeitado deste ficheiro axuda a evitar a indexación de páxinas non desexadas, protexe os datos confidenciais e pode mellorar a eficiencia da optimización de SEO e a visibilidade do sitio nos resultados de busca. A configuración de robots.txt realízase mediante directivas, que veremos máis adiante.

Establecer directivas en Robots.txt

Axente de usuario

A directiva principal coñécese como User-Agent, onde establecemos unha palabra clave especial para robots. Ao detectar esta palabra, o robot entende que a regra está destinada especificamente a el.

Considere un exemplo de uso de User-Agent no ficheiro robots.txt:

User-Agent: *
Disallow: /private/

Este exemplo indica que todos os robots de busca (representados polo símbolo "*") debería ignorar as páxinas situadas no ficheiro /privado/ directorio.

Así é como se ve a instrución para robots de busca específicos:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Neste caso, o googlebot o robot de busca debe ignorar as páxinas do /administrador/ directorio, mentres bingbot debería ignorar as páxinas do /privado/ directorio.

Non permitir

Non permitir indica aos robots de busca que URL deben omitir ou non indexar no sitio web. Esta directiva é útil cando queres ocultar datos confidenciais ou páxinas de contido de baixa calidade para que os motores de busca non indexen. Se o ficheiro robots.txt contén a entrada Non permitir: /directorio/, entón os robots terán acceso ao contido do directorio especificado. Por exemplo,

User-agent: *
Disallow: /admin/

Este valor indica que todos os robots debería ignorar os URL que comezan por /administrador/. Para evitar que ningún robot indexe todo o sitio, establece o directorio raíz como regra:

User-agent: *
Disallow: /

Permitir

O valor "Permitir" actúa oposto ao "Non permitir": permite que os robots de busca accedan a unha páxina ou directorio específicos, aínda que outras directivas do ficheiro robots.txt prohiban o acceso a ela.

Considere un exemplo:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Neste exemplo, especifícase que aos robots non se lles permite o acceso ao /administrador/ directorio, excepto o /admin/login.html páxina, que está dispoñible para indexar e dixitalizar.

Robots.txt e mapa do sitio

O mapa do sitio é un ficheiro XML que contén unha lista de URL de todas as páxinas e ficheiros do sitio que poden ser indexados polos buscadores. Cando un robot de busca accede ao ficheiro robots.txt e ve unha ligazón a un ficheiro XML de mapa do sitio, pode utilizar este ficheiro para atopar todos os URL e recursos dispoñibles no sitio. A directiva especifícase no formato:

Sitemap: https://yoursite.com/filesitemap.xml

Esta regra adoita colocarse ao final do documento sen estar vinculada a un axente de usuario específico e é procesada por todos os robots sen excepción. Se o propietario do sitio non usa sitemap.xml, non é necesario engadir a regra.

Exemplos de Robots.txt configurados

Configurando Robots.txt para WordPress

Nesta sección, consideraremos unha configuración preparada para WordPress. Exploraremos bloquear o acceso a datos confidenciais e permitir o acceso ás páxinas principais.

Como solución lista, podes usar o seguinte código:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Aínda que todas as directivas van acompañadas de comentarios, afondemos nas conclusións.

  1. Os robots non indexarán ficheiros e directorios sensibles.
  2. Ao mesmo tempo, os robots poden acceder ás páxinas e recursos principais do sitio.
  3. A prohibición está establecida para indexar versións antigas de publicacións e consultas parametrizadas para evitar a duplicación de contido.
  4. A localización do mapa do sitio está indicada para mellorar a indexación.

Así, consideramos un exemplo xeral de configuración preparada, na que algúns ficheiros e camiños sensibles están ocultos da indexación, pero os directorios principais son accesibles.

A diferenza de moitos CMS populares ou sitios personalizados, WordPress ten varios complementos que facilitan a creación e xestión do ficheiro robots.txt. Unha das solucións populares para este fin é Yoast SEO.

Para instalalo, cómpre:

  1. Vaia ao panel de administración de WordPress.
  2. Na sección "Complementos", seleccione "Engadir novo".
  3. Busca o complemento "Yoast SEO" e instálao.
  4. Activar o complemento.

Para editar o ficheiro robots.txt, cómpre:

  1. Vaia á sección "SEO" no menú lateral do panel de administración e seleccione "Xeral".
  2. Vaia á pestana "Ferramentas".
  3. Fai clic en "Arquivos". Aquí verás varios ficheiros, incluído robots.txt.
  4. Introduza as regras de indexación necesarias segundo os seus requisitos.
  5. Despois de facer cambios no ficheiro, fai clic no botón "Gardar os cambios en robots.txt".

Teña en conta que cada configuración de ficheiro robots.txt para WordPress é única e depende das necesidades e funcións específicas do sitio. Non existe un modelo universal que se adapte a todos os recursos sen excepción. Non obstante, este exemplo e o uso de complementos poden simplificar significativamente a tarefa.

Configuración manual de Robots.txt

Do mesmo xeito, pode configurar a súa configuración do ficheiro aínda que non teña un CMS preparado para o sitio. O usuario tamén debe cargar o ficheiro robots.txt no directorio raíz do sitio e especificar as regras necesarias. Este é un dos exemplos, no que se indican todas as directivas dispoñibles:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Como comprobar o ficheiro Robots.txt

Como ferramenta auxiliar ao comprobar se hai erros no ficheiro robots.txt, recoméndase utilizar servizos en liña.

Considere o exemplo do Webmaster de Yandex servizo. Para comprobar, debes inserir unha ligazón ao teu sitio no campo correspondente se o ficheiro xa está cargado no servidor. Despois diso, a propia ferramenta cargará a configuración do ficheiro. Tamén hai unha opción para introducir a configuración manualmente:

Configuración de Robots.txt

A continuación, cómpre solicitar unha comprobación e esperar os resultados:

Resultado da configuración de Robots.txt

No exemplo dado, non hai erros. Se hai algún, o servizo mostrará as áreas problemáticas e as formas de solucionalas.

Conclusión

En resumo, destacamos o importante que é o ficheiro robots.txt para controlar o tráfico no sitio. Proporcionamos consellos sobre como configuralo correctamente para xestionar como os motores de busca indexan as páxinas. Ademais disto, tamén analizamos exemplos de como usar correctamente este ficheiro e demos instrucións sobre como comprobar que todas as opcións funcionan correctamente.

❮ Artigo anterior Como configurar un servidor web (Apache-PHP-MySQL/MariaDB) en Linux
Próximo artigo ❯ Como conectarse a un servidor Linux mediante SSH

Pregúntanos por VPS

Sempre estamos preparados para responder ás súas preguntas a calquera hora do día ou da noite.