معلومات جي بنياد تي پرافٽ سرور سروس سان ڪم ڪرڻ لاءِ سادي هدايتون

روبوٽس.txt


هن آرٽيڪل ۾، اسين ويب سائيٽن تي ٽرئفڪ کي منظم ڪرڻ ۾ robots.txt فائل جي اهم ڪردار جو جائزو وٺنداسين، ان جي موجودگي جي ضرورت تي بحث ڪنداسين، ۽ مؤثر پيج انڊيڪسنگ مئنيجمينٽ لاءِ ان کي سيٽ اپ ڪرڻ لاءِ سفارشون فراهم ڪنداسين. اضافي طور تي، اسين robots.txt فائل ۾ صحيح هدايتن جي استعمال جي مثالن جو تجزيو ڪنداسين ۽ ان جي سيٽنگن جي درستگي کي ڪيئن جانچجي ان بابت هڪ گائيڊ فراهم ڪنداسين.

Robots.txt جي ضرورت ڇو آهي؟

Robots.txt هڪ فائل آهي جيڪا سائيٽ جي سرور تي ان جي روٽ ڊاريڪٽري ۾ واقع آهي. اهو سرچ انجن روبوٽس کي ٻڌائي ٿو ته انهن کي وسيلن جي مواد کي ڪيئن اسڪين ڪرڻ گهرجي. هن فائل جو صحيح استعمال ناپسنديده صفحن جي انڊيڪسنگ کي روڪڻ ۾ مدد ڪري ٿو، رازدارانه ڊيٽا جي حفاظت ڪري ٿو، ۽ SEO اصلاح جي ڪارڪردگي ۽ ڳولا جي نتيجن ۾ سائيٽ جي نمائش کي بهتر بڻائي سگهي ٿو. robots.txt جي ترتيب هدايتن ذريعي ڪئي ويندي آهي، جنهن تي اسين اڳتي ڏسنداسين.

Robots.txt ۾ هدايتون مقرر ڪرڻ

استعمال ڪندڙ ايجنٽ

بنيادي هدايت کي يوزر-ايجنٽ جي نالي سان سڃاتو وڃي ٿو، جتي اسان روبوٽس لاءِ هڪ خاص ڪي ورڊ مقرر ڪندا آهيون. هن لفظ کي ڳولڻ تي، روبوٽ سمجهي ٿو ته اهو قاعدو خاص طور تي ان لاءِ آهي.

robots.txt فائل ۾ User-Agent استعمال ڪرڻ جي هڪ مثال تي غور ڪريو:

User-Agent: *
Disallow: /private/

هي مثال ظاهر ڪري ٿو ته سڀئي سرچ روبوٽ (علامت "" سان نمائندگي ڪن ٿا).*") ۾ واقع صفحن کي نظرانداز ڪرڻ گهرجي / خانگي/ ڊاريڪٽري.

هتي مخصوص سرچ روبوٽس لاءِ هدايتون ڪيئن نظر اچن ٿيون:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

هن حالت ۾، سنڌ Googlebot سرچ روبوٽ کي صفحن کي نظرانداز ڪرڻ گهرجي /ايڊمن/ ڊاريڪٽري، جڏهن ته بنگبٽ صفحن کي نظرانداز ڪرڻ گهرجي / خانگي/ ڊاريڪٽري.

اجازت نه ڏيو

اجازت نه ڏيو سرچ روبوٽس کي ٻڌائي ٿو ته ڪهڙن URL کي ويب سائيٽ تي انڊيڪس ڪرڻ گهرجي يا نه ڪرڻ گهرجي. هي هدايت ڪارآمد آهي جڏهن توهان حساس ڊيٽا يا گهٽ معيار جي مواد جي صفحن کي سرچ انجن پاران انڊيڪس ٿيڻ کان لڪائڻ چاهيو ٿا. جيڪڏهن robots.txt فائل ۾ داخلا شامل آهي اجازت نه ڏيو: /ڊائريڪٽري/، پوءِ روبوٽس کي مخصوص ڊاريڪٽري جي مواد تائين رسائي کان انڪار ڪيو ويندو. مثال طور،

User-agent: *
Disallow: /admin/

هي قدر ظاهر ڪري ٿو ته سڀ روبوٽ سان شروع ٿيندڙ URL کي نظرانداز ڪرڻ گهرجي /ايڊمن/. ڪنهن به روبوٽ پاران پوري سائيٽ کي انڊيڪس ٿيڻ کان روڪڻ لاءِ، روٽ ڊاريڪٽري کي قاعدي طور تي سيٽ ڪريو:

User-agent: *
Disallow: /

جي اجازت

"اجازت ڏيو" قدر "اجازت ڏيو" جي برعڪس ڪم ڪري ٿو: اهو سرچ روبوٽس کي هڪ مخصوص صفحي يا ڊاريڪٽري تائين رسائي جي اجازت ڏئي ٿو، جيتوڻيڪ robots.txt فائل ۾ ٻيون هدايتون ان تائين رسائي کي منع ڪن ٿيون.

هڪ مثال تي غور ڪريو:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

هن مثال ۾، اهو بيان ڪيو ويو آهي ته روبوٽس کي رسائي جي اجازت ناهي /ايڊمن/ ڊاريڪٽري، سواءِ /ايڊمن/لاگ ان.html صفحو، جيڪو انڊيڪسنگ ۽ اسڪيننگ لاءِ موجود آهي.

Robots.txt ۽ سائيٽ ميپ

سائيٽ ميپ هڪ XML فائل آهي جنهن ۾ سائيٽ تي سڀني صفحن ۽ فائلن جي URLs جي هڪ فهرست شامل آهي جيڪي سرچ انجن پاران انڊيڪس ڪري سگهجن ٿيون. جڏهن هڪ سرچ روبوٽ robots.txt فائل تائين رسائي حاصل ڪري ٿو ۽ سائيٽ ميپ XML فائل جو لنڪ ڏسي ٿو، ته اهو سائيٽ تي موجود سڀني URLs ۽ وسيلن کي ڳولڻ لاءِ هن فائل کي استعمال ڪري سگهي ٿو. هدايت فارميٽ ۾ بيان ڪئي وئي آهي:

Sitemap: https://yoursite.com/filesitemap.xml

هي قاعدو عام طور تي دستاويز جي آخر ۾ رکيل هوندو آهي بغير ڪنهن مخصوص يوزر-ايجنٽ سان ڳنڍيل ۽ سڀني روبوٽس پاران بغير ڪنهن استثنا جي پروسيس ڪيو ويندو آهي. جيڪڏهن سائيٽ جو مالڪ sitemap.xml استعمال نٿو ڪري، ته قاعدو شامل ڪرڻ ضروري ناهي.

ترتيب ڏنل Robots.txt جون مثالون

ورڈپریس لاءِ Robots.txt سيٽ اپ ڪرڻ

هن حصي ۾، اسين ورڈپریس لاءِ تيار ڪيل ترتيب تي غور ڪنداسين. اسين رازدارانه ڊيٽا تائين رسائي کي روڪڻ ۽ مکيه صفحن تائين رسائي جي اجازت ڏيڻ جي ڳولا ڪنداسين.

تيار حل جي طور تي، توهان هيٺ ڏنل ڪوڊ استعمال ڪري سگهو ٿا:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

جيتوڻيڪ سڀئي هدايتون تبصرن سان گڏ آهن، اچو ته نتيجن ۾ وڌيڪ تفصيل سان غور ڪريون.

  1. روبوٽ حساس فائلن ۽ ڊائريڪٽرين کي انڊيڪس نه ڪندا.
  2. ساڳئي وقت، روبوٽس کي سائيٽ جي مکيه صفحن ۽ وسيلن تائين رسائي جي اجازت آهي.
  3. مواد جي نقل کي روڪڻ لاءِ پوسٽن جي پراڻن ورزن ۽ پيرا ميٽرائيزڊ سوالن جي انڊيڪسنگ تي پابندي لڳائي وئي آهي.
  4. سائيٽ ميپ جي جڳھ کي بهتر انڊيڪسنگ لاءِ اشارو ڪيو ويو آهي.

اهڙيءَ طرح، اسان هڪ تيار ترتيب جي هڪ عام مثال تي غور ڪيو آهي، جنهن ۾ ڪجهه حساس فائلون ۽ رستا انڊيڪسنگ کان لڪيل آهن، پر مکيه ڊائريڪٽريون دستياب آهن.

ڪيترن ئي مشهور CMS يا ڪسٽم-لکيل سائيٽن جي برعڪس، ورڈپریس ۾ ڪيترائي پلگ ان آهن جيڪي robots.txt فائل جي تخليق ۽ انتظام کي آسان بڻائين ٿا. هن مقصد لاءِ مشهور حلن مان هڪ آهي يوسو ايس اي.

ان کي انسٽال ڪرڻ لاءِ، توهان کي گهرجي:

  1. ورڈپریس ايڊمن پينل ڏانهن وڃو.
  2. "پلگ ان" سيڪشن ۾، "نئون شامل ڪريو" چونڊيو.
  3. "Yoast SEO" پلگ ان ڳوليو ۽ ان کي انسٽال ڪريو.
  4. پلگ ان کي چالو ڪريو.

robots.txt فائل کي ايڊٽ ڪرڻ لاءِ، توهان کي گهرجي:

  1. ايڊمن پينل جي سائڊ مينيو ۾ "SEO" سيڪشن ۾ وڃو ۽ "جنرل" چونڊيو.
  2. "ٽولز" ٽيب ڏانهن وڃو.
  3. "فائلز" تي ڪلڪ ڪريو. هتي توهان کي مختلف فائلون نظر اينديون، جن ۾ robots.txt به شامل آهي.
  4. پنهنجي گهرجن مطابق ضروري انڊيڪسنگ قاعدا داخل ڪريو.
  5. فائل ۾ تبديليون ڪرڻ کان پوءِ، "robots.txt ۾ تبديليون محفوظ ڪريو" بٽڻ تي ڪلڪ ڪريو.

ياد رهي ته ورڈپریس لاءِ هر robots.txt فائل سيٽنگ منفرد آهي ۽ سائيٽ جي مخصوص ضرورتن ۽ خاصيتن تي منحصر آهي. ڪو به عالمگير ٽيمپليٽ ناهي جيڪو سڀني وسيلن کي بغير ڪنهن استثنا جي مناسب هجي. جڏهن ته، هي مثال ۽ پلگ ان جو استعمال ڪم کي تمام گهڻو آسان بڻائي سگهي ٿو.

Robots.txt جي دستي سيٽنگ

ساڳي طرح، توهان سائيٽ لاءِ تيار CMS جي غير موجودگي ۾ به فائل جي ترتيب ترتيب ڏئي سگهو ٿا. استعمال ڪندڙ کي سائيٽ جي روٽ ڊاريڪٽري ۾ robots.txt فائل اپ لوڊ ڪرڻ ۽ ضروري قاعدن جي وضاحت ڪرڻ جي ضرورت آهي. هتي هڪ مثال آهي، جنهن ۾ سڀئي موجود هدايتون ظاهر ڪيون ويون آهن:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Robots.txt فائل کي ڪيئن چيڪ ڪجي

robots.txt فائل کي غلطين لاءِ چيڪ ڪرڻ وقت هڪ معاون اوزار جي طور تي، آن لائن خدمتون استعمال ڪرڻ جي صلاح ڏني وئي آهي.

جي مثال تي غور ڪريو ياندڪس ويب ماسٽر سروس. چيڪ ڪرڻ لاءِ، توهان کي لاڳاپيل فيلڊ ۾ پنهنجي سائيٽ جو لنڪ داخل ڪرڻ جي ضرورت آهي جيڪڏهن فائل اڳ ۾ ئي سرور تي اپ لوڊ ٿيل آهي. ان کان پوءِ، ٽول پاڻ فائل جي ترتيب لوڊ ڪندو. دستي طور تي ترتيب داخل ڪرڻ جو آپشن پڻ آهي:

Robots.txt ترتيب

اڳيون، توهان کي چيڪ جي درخواست ڪرڻ ۽ نتيجن جو انتظار ڪرڻ جي ضرورت آهي:

Robots.txt سيٽنگ جو نتيجو

ڏنل مثال ۾، ڪا به غلطي ناهي. جيڪڏهن ڪا به غلطي آهي، ته سروس مسئلا وارا علائقا ۽ انهن کي درست ڪرڻ جا طريقا ڏيکاريندي.

ٿڪل

مختصر ۾، اسان زور ڏنو ته سائيٽ تي ٽرئفڪ کي ڪنٽرول ڪرڻ لاءِ robots.txt فائل ڪيتري اهم آهي. اسان صلاح ڏني ته ان کي ڪيئن صحيح طريقي سان سيٽ اپ ڪجي ته جيئن سرچ انجن صفحن کي انڊيڪس ڪري سگهن. ان کان علاوه، اسان هن فائل کي صحيح طريقي سان استعمال ڪرڻ جي مثالن تي پڻ غور ڪيو ۽ هدايتون ڏنيون ته ڪيئن چيڪ ڪجي ته سڀئي سيٽنگون صحيح طريقي سان ڪم ڪري رهيون آهن.

❮ پوئين مضمون لينڪس تي ويب سرور (Apache-PHP-MySQL/MariaDB) کي ڪيئن ترتيب ڏجي
ايندڙ مضمون ❯ SSH ذريعي لينڪس سرور سان ڪيئن ڳنڍجي

اسان کان VPS بابت پڇو

اسين ڏينهن يا رات جي ڪنهن به وقت توهان جي سوالن جا جواب ڏيڻ لاءِ هميشه تيار آهيون.