知识库 使用 Profitserver 服务的简单说明
主要 知识库 的robots.txt

的robots.txt


在本文中,我们将研究 robots.txt 文件在管理网站流量方面的关键作用,讨论其存在的必要性,并提供设置它以进行有效页面索引管理的建议。此外,我们将分析 robots.txt 文件中正确使用指令的示例,并提供如何检查其设置正确性的指南。

为什么需要 Robots.txt

Robots.txt 是位于网站服务器根目录中的文件。它告知搜索引擎机器人应如何扫描资源的内容。正确使用此文件有助于防止索引不需要的页面,保护机密数据,并可以提高 SEO 优化的效率和网站在搜索结果中的可见性。robots.txt 的配置是通过指令完成的,我们将进一步讨论。

在 Robots.txt 中设置指令

用户代理

主要指令称为 User-Agent,我们为机器人设置了一个特殊关键字。检测到这个词后,机器人就会明白该规则是专门针对它的。

考虑在 robots.txt 文件中使用 User-Agent 的示例:

User-Agent: *
Disallow: /private/

此示例表示所有搜索机器人(用符号“*“)应忽略位于 /私人的/ 目录。

以下是指令如何查找特定的搜索机器人:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

在这种情况下, Googlebot的 搜索机器人应该忽略 /行政/ 目录,而 Bingbot 应该忽略 /私人的/ 目录。

不允许

不允许 告诉搜索机器人跳过或不索引网站上的哪些 URL。当您想隐藏敏感数据或低质量内容页面以防止搜索引擎索引时,此指令很有用。如果 robots.txt 文件包含以下条目 不允许:/目录/,则 robots 将被拒绝访问指定目录的内容。例如,

User-agent: *
Disallow: /admin/

该值表明 所有机器人 应忽略以 开头的 URL /行政/。要阻止整个站点被任何 robots 编入索引,请将根目录设置为规则:

User-agent: *
Disallow: /

“允许”值的作用与“不允许”相反:它允许搜索机器人访问特定页面或目录,即使 robots.txt 文件中的其他指令禁止访问它。

考虑一个例子:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

在此示例中,指定机器人不得访问 /行政/ 目录,除了 /管理员/登录.html 页面,可供索引和扫描。

Robots.txt 和站点地图

Sitemap 是一个 XML 文件,其中包含网站上所有可被搜索引擎索引的页面和文件的 URL 列表。当搜索机器人访问 robots.txt 文件并看到指向站点地图 XML 文件的链接时,它可以使用此文件查找网站上所有可用的 URL 和资源。该指令的格式如下:

Sitemap: https://yoursite.com/filesitemap.xml

此规则通常放在文档末尾,不与特定 User-Agent 绑定,所有机器人都会无一例外地处理此规则。如果网站所有者不使用 sitemap.xml,则无需添加此规则。

配置 Robots.txt 的示例

为 WordPress 设置 Robots.txt

在本节中,我们将考虑 WordPress 的现成配置。我们将探讨如何阻止对机密数据的访问并允许访问主页。

作为一个现成的解决方案,您可以使用以下代码:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

尽管所有指令都附有评论,但让我们更深入地探讨一下结论。

  1. 机器人不会索引敏感文件和目录。
  2. 同时,允许机器人访问该网站的主页和资源。
  3. 禁止索引帖子的旧版本和参数化查询,以防止内容重复。
  4. 标明站点地图的位置是为了改进索引。

因此,我们考虑了一个现成配置的一般示例,其中一些敏感文件和路径在索引中隐藏,但主要目录是可访问的。

与许多流行的 CMS 或自定义编写的网站不同,WordPress 有几个插件可以方便创建和管理 robots.txt 文件。为此目的,一种流行的解决方案是 Yoast SEO.

要安装它,您需要:

  1. 转到 WordPress 管理面板。
  2. 在“插件”部分中,选择“添加新”。
  3. 找到“Yoast SEO”插件并安装。
  4. 激活插件。

要编辑 robots.txt 文件,您需要:

  1. 转到管理面板侧面菜单中的“SEO”部分并选择“常规”。
  2. 转到“工具”选项卡。
  3. 点击“文件”。在这里你会看到各种文件,包括 robots.txt。
  4. 根据您的要求输入必要的索引规则。
  5. 对文件进行更改后,单击“将更改保存到 robots.txt”按钮。

请注意,WordPress 的每个 robots.txt 文件设置都是独一无二的,取决于网站的具体需求和功能。没有通用模板可以毫无例外地适合所有资源。但是,此示例和插件的使用可以大大简化任务。

Robots.txt 的手动设置

同样,即使网站没有现成的 CMS,您也可以设置文件的配置。用户还需要将 robots.txt 文件上传到网站的根目录并指定必要的规则。以下是其中一个示例,其中指示了所有可用的指令:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

如何检查 Robots.txt 文件

作为检查robots.txt文件是否有错误的辅助工具,建议使用在线服务。

考虑下面的例子 Yandex 网站管理员 服务。要检查,您需要在相应字段中插入指向您网站的链接,以确认文件是否已上传到服务器。之后,该工具本身将加载文件配置。还有一个选项可以手动输入配置:

Robots.txt配置

接下来您需要申请检查并等待结果:

robots.txt 设置结果

在给定的示例中,没有错误。如果有错误,服务将显示问题区域以及修复方法。

结语

总之,我们强调了 robots.txt 文件对于控制网站流量的重要性。我们提供了有关如何正确设置该文件以管理搜索引擎索引页面方式的建议。除此之外,我们还查看了如何正确使用此文件的示例,并提供了有关如何检查所有设置是否正常工作的说明。

❮ 上一篇文章 如何在 Linux 上配置 Web 服务器 (Apache-PHP-MySQL/MariaDB)
下一篇文章❯ 如何通过 SSH 连接到 Linux 服务器

向我们咨询有关 VPS 的问题

无论白天还是黑夜,我们随时准备解答您的问题。