Robots.txt – 利潤伺服器

在本文中，我們將研究 robots.txt 檔案在管理網站流量方面的關鍵作用，討論其存在的必要性，並提供設定有效頁面索引管理的建議。此外，我們將分析 robots.txt 檔案中正確使用指令的範例，並提供如何檢查其設定正確性的指南。

為什麼需要 Robots.txt

Robots.txt 是位於網站伺服器根目錄中的檔案。它告知搜尋引擎機器人應該如何掃描資源的內容。正確使用該文件有助於防止索引不需要的頁面，保護機密數據，並可以提高SEO優化的效率和網站在搜尋結果中的可見性。 robots.txt 的設定是透過指令完成的，我們將進一步討論。

在 Robots.txt 中設定指令

用戶代理

主要指令稱為 User-Agent，我們在其中為機器人設定一個特殊的關鍵字。當偵測到這個詞時，機器人就明白這個規則是專門針對它的。

考慮在 robots.txt 檔案中使用 User-Agent 的範例：

User-Agent: *
Disallow: /private/

此範例表示所有搜尋機器人（用符號“*「）應忽略位於 /私人的/ 目錄。

以下是指令如何找到特定的搜尋機器人：

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

在這種情況下， Googlebot的 搜索機器人應該忽略 /行政/ 目錄，而 Bingbot 應該忽略 /私人的/ 目錄。

不允許

不允許 告訴搜尋機器人需要跳過或不索引網站上的哪些 URL。當您想要隱藏敏感資料或低品質內容頁面而不被搜尋引擎索引時，此指令很有用。如果 robots.txt 檔案包含以下條目 禁止：/目錄/，則機器人將被拒絕存取指定目錄的內容。例如，

User-agent: *
Disallow: /admin/

該值表明 所有機器人 應忽略以開頭的 URL /行政/。為了阻止整個網站被任何機器人索引，請將根目錄設定為規則：

User-agent: *
Disallow: /

讓

「允許」值的作用與「不允許」相反：它允許搜尋機器人存取特定頁面或目錄，即使 robots.txt 檔案中的其他指令禁止存取它。

考慮一個例子：

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

在此範例中，指定機器人不得訪問 /行政/ 目錄，除了 /管理員/登入.html 頁面，可供索引和掃描。

Robots.txt 和網站地圖

網站地圖是一個 XML 文件，其中包含網站上所有可供搜尋引擎索引的頁面和文件的 URL 清單。當搜尋機器人造訪 robots.txt 檔案並看到網站地圖 XML 檔案的連結時，它可以使用此檔案尋找網站上所有可用的 URL 和資源。該指令的指定格式如下：

Sitemap: https://yoursite.com/filesitemap.xml

此規則通常放在文件的末尾，不與特定的 User-Agent 綁定，所有機器人都會無例外地處理該規則。如果網站擁有者不使用sitemap.xml，則無需新增該規則。

配置 Robots.txt 的範例

為 WordPress 設定 Robots.txt

在本節中，我們將考慮 WordPress 的現成配置。我們將探索阻止對機密資料的存取並允許存取主要頁面。

作為一個現成的解決方案，您可以使用以下程式碼：

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

儘管所有指示都附有評論，但讓我們更深入地探討一下結論。

機器人不會索引敏感檔案和目錄。
同時，允許機器人存取該網站的主頁和資源。
禁止索引貼文的舊版本和參數化查詢，以防止內容重複。
標明網站地圖的位置是為了改進索引。

因此，我們考慮了一個現成配置的一般範例，其中一些敏感檔案和路徑在索引中隱藏，但主目錄是可存取的。

與許多流行的 CMS 或定製網站不同，WordPress 有幾個外掛程式可以輕鬆建立和管理 robots.txt 檔案。為此目的，一種流行的解決方案是 Yoast SEO.

要安裝它，您需要：

前往 WordPress 管理面板。
在“插件”部分中，選擇“新增”。
找到“Yoast SEO”外掛程式並安裝。
激活插件。

要編輯 robots.txt 文件，您需要：

前往管理面板側面選單中的“SEO”部分並選擇“常規”。
轉到“工具”標籤。
點選“文件” 。在這裡您將看到各種文件，包括 robots.txt。
根據您的要求輸入必要的索引規則。
對文件進行更改後，按一下「將變更儲存到 robots.txt」按鈕。

請注意，WordPress 的每個 robots.txt 檔案設定都是唯一的，並且取決於網站的特定需求和功能。不存在一個通用模板，可以無一例外地適合所有的資源。但是，這個範例和插件的使用可以顯著簡化任務。

Robots.txt 的手動設定

同樣，即使沒有現成的網站 CMS，您也可以設定檔案的配置。使用者還需要將robots.txt檔案上傳到網站根目錄，並指定必要的規則。下面是其中一個例子，其中列出了所有可用的指令：

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

如何檢查 Robots.txt 文件

作為檢查robots.txt檔案是否有錯誤的輔助工具，建議使用線上服務。

考慮下面的例子 Yandex 網站管理員服務。要檢查，您需要在相應的欄位中插入指向您網站的連結以確認檔案已上傳到伺服器。此後，該工具本身將載入檔案配置。還有一個選項是手動輸入配置：

接下來您需要申請檢查並等待結果：

在給定的範例中，沒有錯誤。如果有，該服務將顯示問題區域和解決方法。

結語

總而言之，我們強調了 robots.txt 檔案對於控制網站流量的重要性。我們提供了有關如何正確設定以管理搜尋引擎如何索引頁面的建議。除此之外，我們還查看瞭如何正確使用此文件的範例，並提供如何檢查所有設定是否正常運作的說明。

❮ 上一篇文章如何在 Linux 上設定 Web 伺服器 (Apache-PHP-MySQL/MariaDB)

下一篇文章❯ 如何透過 SSH 連接到 Linux 伺服器

robots.txt的