En este artículo, examinaremos la función clave del archivo robots.txt en la gestión del tráfico web, analizaremos su necesidad y ofreceremos recomendaciones para configurarlo y lograr una gestión eficaz de la indexación de páginas. Además, analizaremos ejemplos del uso correcto de directivas en el archivo robots.txt y ofreceremos una guía para comprobar la corrección de su configuración.
¿Por qué es necesario Robots.txt?
Robots.txt es un archivo ubicado en el directorio raíz del servidor del sitio. Indica a los robots de los motores de búsqueda cómo deben analizar el contenido del recurso. El uso correcto de este archivo ayuda a evitar la indexación de páginas no deseadas, protege la información confidencial y puede mejorar la eficiencia de la optimización SEO y la visibilidad del sitio en los resultados de búsqueda. La configuración de robots.txt se realiza mediante directivas, que analizaremos más adelante.
Establecer directivas en Robots.txt
User-Agent
La directiva principal se conoce como User-Agent, donde se establece una palabra clave especial para los robots. Al detectar esta palabra, el robot entiende que la regla está diseñada específicamente para él.
Considere un ejemplo de uso de User-Agent en el archivo robots.txt:
User-Agent: *
Disallow: /private/
Este ejemplo indica que todos los robots de búsqueda (representados por el símbolo "*") debe ignorar las páginas ubicadas en el /privado/ directorio.
Así es como se ve la instrucción para robots de búsqueda específicos:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
En este caso, el Googlebot El robot de búsqueda debe ignorar las páginas en el /administración/ directorio, mientras Bingbot Debería ignorar las páginas en el /privado/ directorio.
rechazar
rechazar Indica a los robots de búsqueda qué URL deben omitir o no indexar en el sitio web. Esta directiva es útil cuando se desea ocultar información confidencial o páginas con contenido de baja calidad para que no sean indexadas por los motores de búsqueda. Si el archivo robots.txt contiene la entrada No permitir: /directorios/, entonces se denegará a los robots el acceso al contenido del directorio especificado. Por ejemplo,
User-agent: *
Disallow: /admin/
Este valor indica que todos los robots debe ignorar las URL que comienzan con /administración/Para evitar que cualquier robot indexe todo el sitio, configure el directorio raíz como regla:
User-agent: *
Disallow: /
Permitir
El valor "Permitir" actúa de forma opuesta a "No permitir": permite a los robots de búsqueda acceder a una página o directorio específico, incluso si otras directivas en el archivo robots.txt prohíben el acceso a él.
Considere un ejemplo:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
En este ejemplo, se especifica que a los robots no se les permite el acceso a la /administración/ directorio, excepto el /admin/login.html página, que está disponible para indexar y escanear.
Robots.txt y mapa del sitio
Un mapa del sitio es un archivo XML que contiene una lista de URLs de todas las páginas y archivos del sitio que pueden ser indexados por los motores de búsqueda. Cuando un robot de búsqueda accede al archivo robots.txt y ve un enlace a un archivo XML de mapa del sitio, puede usarlo para encontrar todas las URLs y recursos disponibles en el sitio. La directiva se especifica con el siguiente formato:
Sitemap: https://yoursite.com/filesitemap.xml
Esta regla suele colocarse al final del documento, sin estar vinculada a un agente de usuario específico, y la procesan todos los robots sin excepción. Si el propietario del sitio no utiliza sitemap.xml, no es necesario añadir la regla.
Ejemplos de Robots.txt configurados
Configuración de Robots.txt para WordPress
En esta sección, analizaremos una configuración predefinida para WordPress. Exploraremos cómo bloquear el acceso a datos confidenciales y permitir el acceso a las páginas principales.
Como solución inmediata, puedes utilizar el siguiente código:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Aunque todas las directivas van acompañadas de comentarios, profundicemos en las conclusiones.
- Los robots no indexarán archivos y directorios confidenciales.
- Al mismo tiempo, a los robots se les permite acceder a las páginas principales y recursos del sitio.
- Se prohíbe la indexación de versiones antiguas de publicaciones y consultas parametrizadas para evitar la duplicación de contenido.
- Se indica la ubicación del mapa del sitio para una mejor indexación.
Por lo tanto, hemos considerado un ejemplo general de una configuración lista, en la que algunos archivos y rutas sensibles están ocultos a la indexación, pero los directorios principales son accesibles.
A diferencia de muchos CMS populares o sitios web personalizados, WordPress cuenta con varios plugins que facilitan la creación y gestión del archivo robots.txt. Una de las soluciones más populares para este propósito es Yoast SEO.
Para instalarlo necesitas:
- Vaya al panel de administración de WordPress.
- En la sección “Complementos”, seleccione “Agregar nuevo”.
- Busque el complemento "Yoast SEO" e instálelo.
- Activar el plugin.
Para editar el archivo robots.txt, debe:
- Vaya a la sección "SEO" en el menú lateral del panel de administración y seleccione "General".
- Vaya a la pestaña "Herramientas".
- Haz clic en "Archivos". Aquí verás varios archivos, incluido el archivo robots.txt.
- Introduzca las reglas de indexación necesarias según sus requisitos.
- Después de realizar cambios en el archivo, haga clic en el botón "Guardar cambios en robots.txt".
Tenga en cuenta que la configuración de cada archivo robots.txt para WordPress es única y depende de las necesidades y características específicas del sitio. No existe una plantilla universal que se adapte a todos los recursos sin excepción. Sin embargo, este ejemplo y el uso de plugins pueden simplificar considerablemente la tarea.
Configuración manual de Robots.txt
De igual forma, puede configurar el archivo incluso si no dispone de un CMS para el sitio. El usuario también debe subir el archivo robots.txt al directorio raíz del sitio y especificar las reglas necesarias. A continuación, se muestra un ejemplo con todas las directivas disponibles:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Cómo comprobar el archivo Robots.txt
Como herramienta auxiliar al comprobar si hay errores en el archivo robots.txt, se recomienda utilizar servicios en línea.
Considere el ejemplo de la Webmaster de Yandex Servicio. Para comprobarlo, inserte un enlace a su sitio web en el campo correspondiente si el archivo ya está subido al servidor. Después, la herramienta cargará la configuración del archivo. También puede introducir la configuración manualmente:
A continuación, debes solicitar una verificación y esperar los resultados:
En el ejemplo dado, no hay errores. Si los hay, el servicio mostrará las áreas problemáticas y las maneras de solucionarlas.
Conclusión
En resumen, enfatizamos la importancia del archivo robots.txt para controlar el tráfico del sitio. Ofrecemos consejos sobre cómo configurarlo correctamente para gestionar la indexación de las páginas por parte de los motores de búsqueda. Además, también analizamos ejemplos de cómo usar este archivo correctamente y proporcionamos instrucciones para comprobar que todas las configuraciones funcionan correctamente.