ملف Robots.txt

في هذه المقالة، سنتناول الدور الرئيسي لملف robots.txt في إدارة حركة المرور على المواقع الإلكترونية، ونناقش أهمية وجوده، ونقدم توصيات لإعداده لإدارة فهرسة الصفحات بفعالية. بالإضافة إلى ذلك، سنحلل أمثلة على الاستخدام الصحيح للتوجيهات في ملف robots.txt، ونقدم دليلاً لكيفية التحقق من صحة إعداداته.

لماذا نحتاج إلى ملف Robots.txt

ملف Robots.txt هو ملف موجود على خادم الموقع في جذره. يُعلم هذا الملف روبوتات محركات البحث بكيفية فحص محتوى المصدر. يساعد الاستخدام الصحيح لهذا الملف على منع فهرسة الصفحات غير المرغوب فيها، وحماية البيانات السرية، وتحسين كفاءة تحسين محركات البحث (SEO) وظهور الموقع في نتائج البحث. يتم إعداد ملف robots.txt من خلال التوجيهات، والتي سنتناولها لاحقًا.

ضبط التوجيهات في ملف Robots.txt

عامل المستخدم

التوجيه الأساسي يُعرف باسم User-Agent، حيث نُعيّن كلمة رئيسية خاصة للروبوتات. عند اكتشاف هذه الكلمة، يفهم الروبوت أن القاعدة مُصممة خصيصًا له.

خذ بعين الاعتبار مثالاً لاستخدام User-Agent في ملف robots.txt:

User-Agent: *
Disallow: /private/

يشير هذا المثال إلى أن جميع روبوتات البحث (الممثلة بالرمز "*") يجب أن تتجاهل الصفحات الموجودة في /خاص/ الدليل.

فيما يلي كيفية ظهور التعليمات لروبوتات البحث المحددة:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

في هذه الحالة ، فإن غوغلبوت يجب على روبوت البحث أن يتجاهل الصفحات الموجودة في /مسؤل/ الدليل ، بينما Bingbot يجب تجاهل الصفحات الموجودة في /خاص/ الدليل.

رفض

رفض يُخبر روبوتات البحث بعناوين URL التي يجب تخطيها أو عدم فهرستها على الموقع. يُعد هذا التوجيه مفيدًا عند الرغبة في إخفاء فهرسة محركات البحث للصفحات ذات البيانات الحساسة أو المحتوى منخفض الجودة. إذا كان ملف robots.txt يحتوي على الإدخال Disallow: / الدلائل /، فسيتم منع الروبوتات من الوصول إلى محتويات الدليل المحدد. على سبيل المثال،

User-agent: *
Disallow: /admin/

تشير هذه القيمة إلى أن جميع الروبوتات يجب تجاهل عناوين URL التي تبدأ بـ /مسؤل/لمنع فهرسة الموقع بأكمله بواسطة أي روبوتات، قم بتعيين الدليل الجذر كقاعدة:

User-agent: *
Disallow: /

السماح

تعمل قيمة "السماح" على عكس "عدم السماح": فهي تسمح لروبوتات البحث بالوصول إلى صفحة أو دليل معين، حتى لو كانت التوجيهات الأخرى في ملف robots.txt تحظر الوصول إليه.

فكر في مثال:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

في هذا المثال، تم تحديد أنه لا يُسمح للروبوتات بالوصول إلى /مسؤل/ الدليل، باستثناء /admin/login.html الصفحة المتاحة للفهرسة والمسح الضوئي.

ملف Robots.txt وخريطة الموقع

خريطة الموقع هي ملف XML يحتوي على قائمة بعناوين URL لجميع الصفحات والملفات على الموقع التي يمكن لمحركات البحث فهرستها. عندما يصل روبوت البحث إلى ملف robots.txt ويرى رابطًا لملف خريطة الموقع XML، يمكنه استخدام هذا الملف للعثور على جميع عناوين URL والموارد المتاحة على الموقع. يتم تحديد التوجيه بالتنسيق التالي:

Sitemap: https://yoursite.com/filesitemap.xml

عادةً ما تُوضع هذه القاعدة في نهاية المستند دون ربطها بوكيل مستخدم محدد، وتتم معالجتها بواسطة جميع الروبوتات دون استثناء. إذا لم يستخدم مالك الموقع ملف sitemap.xml، فليس من الضروري إضافة القاعدة.

أمثلة على ملف Robots.txt المُهيأ

إعداد ملف Robots.txt لـ WordPress

في هذا القسم، سنتناول إعدادًا جاهزًا لـ WordPress. سنستكشف كيفية حظر الوصول إلى البيانات السرية والسماح بالوصول إلى الصفحات الرئيسية.

كحل جاهز، يمكنك استخدام الكود التالي:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

ورغم أن جميع التوجيهات مصحوبة بتعليقات، فلنبحث بشكل أعمق في الاستنتاجات.

لن تقوم الروبوتات بفهرسة الملفات والدلائل الحساسة.
وفي الوقت نفسه، يُسمح للروبوتات بالوصول إلى الصفحات الرئيسية وموارد الموقع.
تم حظر فهرسة الإصدارات القديمة من المنشورات والاستعلامات المعلمية لمنع تكرار المحتوى.
يتم الإشارة إلى موقع خريطة الموقع لتحسين الفهرسة.

وبالتالي، قمنا بدراسة مثال عام لتكوين جاهز، حيث تكون بعض الملفات والمسارات الحساسة مخفية عن الفهرسة، ولكن يمكن الوصول إلى الدلائل الرئيسية.

بخلاف العديد من أنظمة إدارة المحتوى الشائعة أو المواقع المصممة خصيصًا، يحتوي ووردبريس على العديد من الإضافات التي تُسهّل إنشاء وإدارة ملف robots.txt. ومن الحلول الشائعة لهذا الغرض: Yoast كبار المسئولين الاقتصاديين.

لتثبيته، تحتاج إلى:

انتقل إلى لوحة إدارة WordPress.
في قسم "المكونات الإضافية"، حدد "إضافة جديد".
ابحث عن البرنامج الإضافي "Yoast SEO" وقم بتثبيته.
قم بتنشيط المكون الإضافي.

لتحرير ملف robots.txt، يجب عليك:

انتقل إلى قسم "SEO" في القائمة الجانبية للوحة الإدارة وحدد "عام".
انتقل إلى علامة التبويب "أدوات".
انقر على "الملفات". ستجد هنا ملفات متنوعة، بما فيها ملف robots.txt.
أدخل قواعد الفهرسة اللازمة وفقًا لمتطلباتك.
بعد إجراء التغييرات على الملف، انقر فوق الزر "حفظ التغييرات في robots.txt".

تجدر الإشارة إلى أن كل إعداد لملف robots.txt في ووردبريس فريد ويعتمد على احتياجات وميزات الموقع. لا يوجد قالب شامل يناسب جميع الموارد دون استثناء. ومع ذلك، فإن هذا المثال واستخدام الإضافات يُبسطان المهمة بشكل كبير.

الإعداد اليدوي لملف Robots.txt

وبالمثل، يمكنك إعداد ملفك حتى في حال عدم وجود نظام إدارة محتوى جاهز للموقع. يحتاج المستخدم أيضًا إلى تحميل ملف robots.txt إلى المجلد الجذر للموقع وتحديد القواعد اللازمة. إليك أحد الأمثلة، الذي يوضح جميع التوجيهات المتاحة:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

كيفية التحقق من ملف Robots.txt

كأداة مساعدة عند فحص ملف robots.txt بحثًا عن الأخطاء، يوصى باستخدام الخدمات عبر الإنترنت.

النظر في مثال ياندكس ويب ماستر للتحقق، أدخل رابط موقعك في الحقل المخصص إذا كان الملف مُحمّلًا مسبقًا على الخادم. بعد ذلك، ستقوم الأداة بتحميل إعدادات الملف. كما يتوفر خيار لإدخال الإعدادات يدويًا:

بعد ذلك، عليك طلب فحص وانتظار النتائج:

في المثال المذكور، لا توجد أخطاء. في حال وجود أي أخطاء، ستعرض الخدمة مواطن الخلل وسبل إصلاحها.

خاتمة

باختصار، شددنا على أهمية ملف robots.txt للتحكم في حركة المرور على الموقع. وقدمنا نصائح حول كيفية إعداده بشكل صحيح لإدارة فهرسة محركات البحث للصفحات. بالإضافة إلى ذلك، استعرضنا أمثلة على كيفية استخدام هذا الملف بشكل صحيح، وقدمنا إرشادات حول كيفية التحقق من عمل جميع الإعدادات بشكل صحيح.

❮ المقال السابق كيفية تكوين خادم الويب (Apache-PHP-MySQL/MariaDB) على Linux

المقال التالي ❯ كيفية الاتصال بخادم Linux عبر SSH