知識ベース Profitserver サービスの操作方法の簡単な説明

robots.txtの


この記事では、ウェブサイトのトラフィック管理における robots.txt ファイルの主な役割を検討し、その存在の必要性について説明し、効果的なページ インデックス管理のために robots.txt ファイルを設定するための推奨事項を示します。さらに、robots.txt ファイルでの正しいディレクティブの使用例を分析し、その設定の正確性を確認する方法についてのガイドを提供します。

Robots.txt が必要な理由

robots.txt は、サイトのサーバーのルート ディレクトリにあるファイルです。検索エンジン ロボットにリソースのコンテンツをスキャンする方法を通知します。このファイルを適切に使用すると、不要なページのインデックス作成を防ぎ、機密データを保護し、SEO 最適化の効率と検索結果でのサイトの可視性を向上させることができます。robots.txt の構成はディレクティブを通じて行われます。これについては後で詳しく説明します。

Robots.txt でのディレクティブの設定

ユーザエージェント

主なディレクティブは User-Agent と呼ばれ、ロボット用の特別なキーワードを設定します。この単語を検出すると、ロボットはルールが自分専用であることを理解します。

robots.txt ファイルで User-Agent を使用する例を考えてみましょう。

User-Agent: *
Disallow: /private/

この例では、すべての検索ロボット(記号「*")は、 /プライベート/ ディレクトリにあります。

特定の検索ロボットに対する指示は次のようになります。

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

この場合、 Googlebotが 検索ロボットは、 /管理者/ ディレクトリ、一方 Bingbot ページを無視する /プライベート/ ディレクトリにあります。

禁じます

禁じます 検索ロボットに、ウェブサイト上のどのURLをスキップするか、またはインデックスしないかを伝えます。このディレクティブは、機密データや低品質のコンテンツページを検索エンジンによるインデックスから隠したい場合に便利です。robots.txtファイルに次のエントリが含まれている場合 許可しない: /directories/ロボットは指定されたディレクトリの内容へのアクセスを拒否されます。例えば、

User-agent: *
Disallow: /admin/

この値は、 すべてのロボット で始まるURLは無視されます /管理者/サイト全体がロボットによってインデックスされないようにブロックするには、ルート ディレクトリをルールとして設定します。

User-agent: *
Disallow: /

許可する

「許可」値は「許可しない」と逆の動作をします。つまり、robots.txt ファイル内の他のディレクティブによってアクセスが禁止されている場合でも、検索ロボットが特定のページまたはディレクトリにアクセスすることを許可します。

例を考えてみましょう:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

この例では、ロボットがアクセスできないように指定されています。 /管理者/ ディレクトリ、ただし /admin/ログイン.html インデックス作成とスキャンに使用できるページです。

Robots.txt とサイトマップ

サイトマップは、検索エンジンによってインデックス化できるサイト上のすべてのページとファイルの URL のリストを含む XML ファイルです。検索ロボットが robots.txt ファイルにアクセスし、サイトマップ XML ファイルへのリンクを見つけると、このファイルを使用して、サイト上の利用可能なすべての URL とリソースを見つけることができます。ディレクティブは次の形式で指定されます。

Sitemap: https://yoursite.com/filesitemap.xml

このルールは通常、特定の User-Agent に結び付けられることなくドキュメントの最後に配置され、例外なくすべてのロボットによって処理されます。サイト所有者が sitemap.xml を使用していない場合は、ルールを追加する必要はありません。

設定された Robots.txt の例

WordPress の Robots.txt の設定

このセクションでは、WordPress の既成構成を検討します。機密データへのアクセスをブロックし、メイン ページへのアクセスを許可する方法について説明します。

すぐに使える解決策として、次のコードを使用できます。

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

すべての指示にはコメントが付随していますが、結論をさらに深く掘り下げてみましょう。

  1. ロボットは機密ファイルやディレクトリをインデックスしません。
  2. 同時に、ロボットはサイトのメインページとリソースにアクセスできるようになります。
  3. コンテンツの重複を防ぐため、古いバージョンの投稿やパラメータ化されたクエリのインデックス作成が禁止されています。
  4. インデックス作成を改善するために、サイトマップの場所が示されます。

このように、一部の機密ファイルとパスがインデックスから隠されているが、メインディレクトリにはアクセスできる、準備完了の構成の一般的な例を検討しました。

多くの一般的なCMSやカスタム作成されたサイトとは異なり、WordPressにはrobots.txtファイルの作成と管理を容易にするプラグインがいくつかあります。この目的のための一般的なソリューションの1つは Yoast SEO.

インストールするには、次の手順が必要です。

  1. WordPress 管理パネルに移動します。
  2. 「プラグイン」セクションで、「新規追加」を選択します。
  3. 「Yoast SEO」プラグインを見つけてインストールします。
  4. プラグインを有効にします。

robots.txt ファイルを編集するには、次の手順を実行する必要があります。

  1. 管理パネルのサイドメニューの「SEO」セクションに移動し、「一般」を選択します。
  2. 「ツール」タブに移動します。
  3. 「ファイル」をクリックします。ここには robots.txt を含むさまざまなファイルが表示されます。
  4. 要件に応じて必要なインデックス作成ルールを入力します。
  5. ファイルに変更を加えたら、「robots.txt への変更を保存」ボタンをクリックします。

WordPress の各 robots.txt ファイル設定はそれぞれ異なり、サイトの特定のニーズと機能によって異なります。例外なくすべてのリソースに適合する汎用テンプレートはありません。ただし、この例とプラグインの使用により、タスクを大幅に簡素化できます。

Robots.txt の手動設定

同様に、サイト用の CMS が準備されていない場合でも、ファイルの構成を設定できます。ユーザーは、robots.txt ファイルをサイトのルート ディレクトリにアップロードし、必要なルールを指定する必要があります。次に、使用可能なすべてのディレクティブが示されている例の 1 つを示します。

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Robots.txt ファイルを確認する方法

robots.txt ファイルのエラーをチェックする際の補助ツールとして、オンライン サービスを使用することをお勧めします。

の例を考えます Yandex ウェブマスター サービス。確認するには、ファイルがすでにサーバーにアップロードされている場合は、対応するフィールドにサイトへのリンクを挿入する必要があります。その後、ツール自体がファイル構成を読み込みます。手動で構成を入力するオプションもあります。

Robots.txt の構成

次に、チェックをリクエストして結果を待つ必要があります。

robots.txt設定結果

この例ではエラーはありません。エラーがある場合は、問題のある箇所とその修正方法が表示されます。

結論

要約すると、サイトのトラフィックを制御するために robots.txt ファイルがどれほど重要であるかを強調しました。検索エンジンがページをインデックスする方法を管理するために、robots.txt ファイルを適切に設定する方法についてアドバイスを提供しました。これに加えて、このファイルを正しく使用する方法の例も示し、すべての設定が正しく機能しているかどうかを確認する方法についても説明しました。

❮ 前の記事 Linux で Web サーバー (Apache-PHP-MySQL/MariaDB) を構成する方法
次の記事❯ SSH経由でLinuxサーバーに接続する方法

VPSについてお問い合わせください

私たちは昼夜を問わずいつでもお客様のご質問にお答えする準備ができています。