या लेखात, आपण वेबसाइटवरील ट्रॅफिक व्यवस्थापित करण्यात robots.txt फाइलची महत्त्वाची भूमिका तपासू, तिच्या उपस्थितीची आवश्यकता काय आहे यावर चर्चा करू आणि प्रभावी पेज इंडेक्सिंग व्यवस्थापनासाठी ती सेट करण्यासाठी शिफारसी देऊ. याव्यतिरिक्त, आपण robots.txt फाइलमधील योग्य निर्देशांच्या वापराच्या उदाहरणांचे विश्लेषण करू आणि त्याच्या सेटिंग्जची शुद्धता कशी तपासायची याबद्दल मार्गदर्शन देऊ.
Robots.txt का आवश्यक आहे?
Robots.txt ही साइटच्या सर्व्हरवर त्याच्या रूट डायरेक्टरीमध्ये असलेली एक फाइल आहे. ती सर्च इंजिन रोबोट्सना संसाधनातील सामग्री कशी स्कॅन करावी हे सांगते. या फाइलचा योग्य वापर अवांछित पृष्ठांचे अनुक्रमणिका रोखण्यास मदत करतो, गोपनीय डेटाचे संरक्षण करतो आणि शोध परिणामांमध्ये SEO ऑप्टिमायझेशन आणि साइटची दृश्यमानता सुधारू शकतो. robots.txt चे कॉन्फिगरेशन निर्देशांद्वारे केले जाते, जे आपण पुढे पाहू.
Robots.txt मध्ये निर्देश सेट करणे
वापरकर्ता एजंट
प्राथमिक निर्देशाला वापरकर्ता-एजंट म्हणून ओळखले जाते, जिथे आपण रोबोट्ससाठी एक विशेष कीवर्ड सेट करतो. हा शब्द शोधल्यानंतर, रोबोटला समजते की हा नियम विशेषतः त्याच्यासाठी आहे.
robots.txt फाइलमध्ये User-Agent वापरण्याचे उदाहरण विचारात घ्या:
User-Agent: *
Disallow: /private/
हे उदाहरण दर्शवते की सर्व शोध रोबोट ("" या चिन्हाने दर्शविलेले)*") मध्ये असलेल्या पृष्ठांकडे दुर्लक्ष करावे /खाजगी/ डिरेक्ट्री.
विशिष्ट शोध रोबोट्ससाठी सूचना कशा दिसतात ते येथे आहे:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
या प्रकरणात, Googlebot शोध रोबोटने मधील पृष्ठांकडे दुर्लक्ष करावे /प्रशासक/ निर्देशिका, तर बिंगबॉट मधील पृष्ठांकडे दुर्लक्ष करावे /खाजगी/ डिरेक्ट्री.
नकार द्या
नकार द्या वेबसाइटवर कोणते URL वगळायचे किंवा अनुक्रमित करायचे नाहीत हे सर्च रोबोट्सना सांगते. जेव्हा तुम्ही संवेदनशील डेटा किंवा कमी दर्जाची सामग्री पृष्ठे शोध इंजिनद्वारे अनुक्रमित होण्यापासून लपवू इच्छित असाल तेव्हा हे निर्देश उपयुक्त ठरते. जर robots.txt फाइलमध्ये एंट्री असेल तर परवानगी नाही: /directory/, तर रोबोट्सना निर्दिष्ट निर्देशिकेतील सामग्रीमध्ये प्रवेश नाकारला जाईल. उदाहरणार्थ,
User-agent: *
Disallow: /admin/
हे मूल्य दर्शवते की सर्व रोबोट ने सुरू होणाऱ्या URL दुर्लक्षित कराव्यात /प्रशासक/. संपूर्ण साइटला कोणत्याही रोबोटद्वारे अनुक्रमित करण्यापासून रोखण्यासाठी, नियम म्हणून रूट डायरेक्टरी सेट करा:
User-agent: *
Disallow: /
परवानगी द्या
"अनुमती द्या" हे मूल्य "अनुमती द्या" च्या विरुद्ध कार्य करते: ते शोध रोबोटना विशिष्ट पृष्ठ किंवा निर्देशिकेत प्रवेश करण्यास परवानगी देते, जरी robots.txt फाइलमधील इतर निर्देश त्यात प्रवेश करण्यास प्रतिबंधित करतात तरीही.
एक उदाहरण विचारात घ्या:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
या उदाहरणात, हे निर्दिष्ट केले आहे की रोबोट्सना प्रवेश करण्याची परवानगी नाही /प्रशासक/ निर्देशिका वगळता, /प्रशासक/लॉगिन.html पृष्ठ, जे अनुक्रमणिका आणि स्कॅनिंगसाठी उपलब्ध आहे.
Robots.txt आणि साइटमॅप
साइटमॅप ही एक XML फाइल आहे ज्यामध्ये सर्च इंजिनद्वारे अनुक्रमित केल्या जाऊ शकणाऱ्या साइटवरील सर्व पेज आणि फाइल्सच्या URL ची यादी असते. जेव्हा सर्च रोबोट robots.txt फाइलमध्ये प्रवेश करतो आणि साइटमॅप XML फाइलची लिंक पाहतो, तेव्हा तो साइटवरील सर्व उपलब्ध URL आणि संसाधने शोधण्यासाठी या फाइलचा वापर करू शकतो. निर्देश खालील स्वरूपात निर्दिष्ट केला आहे:
Sitemap: https://yoursite.com/filesitemap.xml
हा नियम सामान्यतः दस्तऐवजाच्या शेवटी विशिष्ट वापरकर्ता-एजंटशी जोडला न जाता ठेवला जातो आणि अपवादाशिवाय सर्व रोबोट्सद्वारे त्यावर प्रक्रिया केली जाते. जर साइट मालक sitemap.xml वापरत नसेल, तर नियम जोडण्याची आवश्यकता नाही.
कॉन्फिगर केलेल्या Robots.txt ची उदाहरणे
वर्डप्रेससाठी Robots.txt सेट करणे
या विभागात, आपण वर्डप्रेससाठी तयार केलेल्या कॉन्फिगरेशनचा विचार करू. आपण गोपनीय डेटामध्ये प्रवेश अवरोधित करणे आणि मुख्य पृष्ठांवर प्रवेश देणे यावर विचार करू.
तयार उपाय म्हणून, तुम्ही खालील कोड वापरू शकता:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
जरी सर्व निर्देशांसोबत टिप्पण्या आहेत, तरी चला निष्कर्षांचा सखोल अभ्यास करूया.
- रोबोट संवेदनशील फाइल्स आणि डायरेक्टरीज इंडेक्स करणार नाहीत.
- त्याच वेळी, रोबोट्सना साइटच्या मुख्य पृष्ठांवर आणि संसाधनांमध्ये प्रवेश करण्याची परवानगी आहे.
- कंटेंट डुप्लिकेशन टाळण्यासाठी पोस्टच्या जुन्या आवृत्त्या आणि पॅरामीटराइज्ड क्वेरीज इंडेक्स करण्यावर बंदी घालण्यात आली आहे.
- सुधारित अनुक्रमणिकेसाठी साइटमॅपचे स्थान दर्शविले आहे.
अशाप्रकारे, आम्ही तयार कॉन्फिगरेशनचे एक सामान्य उदाहरण पाहिले आहे, ज्यामध्ये काही संवेदनशील फाइल्स आणि पथ अनुक्रमणिकेपासून लपवलेले आहेत, परंतु मुख्य निर्देशिका प्रवेशयोग्य आहेत.
अनेक लोकप्रिय CMS किंवा कस्टम-राइट केलेल्या साइट्सच्या विपरीत, वर्डप्रेसमध्ये अनेक प्लगइन्स आहेत जे robots.txt फाइल तयार करणे आणि व्यवस्थापित करणे सुलभ करतात. या उद्देशासाठी लोकप्रिय उपायांपैकी एक म्हणजे Yoast एसइओ.
ते स्थापित करण्यासाठी, तुम्हाला हे करावे लागेल:
- वर्डप्रेस अॅडमिन पॅनलवर जा.
- "प्लगइन्स" विभागात, "नवीन जोडा" निवडा.
- "Yoast SEO" प्लगइन शोधा आणि ते स्थापित करा.
- प्लगइन सक्रिय करा.
robots.txt फाइल संपादित करण्यासाठी, तुम्हाला हे करावे लागेल:
- अॅडमिन पॅनलच्या साईड मेनूमधील "SEO" विभागात जा आणि "जनरल" निवडा.
- "टूल्स" टॅबवर जा.
- "Files" वर क्लिक करा. येथे तुम्हाला robots.txt सह विविध फाइल्स दिसतील.
- तुमच्या गरजेनुसार आवश्यक अनुक्रमणिका नियम प्रविष्ट करा.
- फाइलमध्ये बदल केल्यानंतर, "रोबोट्स.टीएक्सटीमध्ये बदल जतन करा" बटणावर क्लिक करा.
लक्षात ठेवा की वर्डप्रेससाठी प्रत्येक robots.txt फाइल सेटिंग अद्वितीय आहे आणि साइटच्या विशिष्ट गरजा आणि वैशिष्ट्यांवर अवलंबून असते. अपवाद वगळता सर्व संसाधनांना अनुकूल असा कोणताही सार्वत्रिक टेम्पलेट नाही. तथापि, हे उदाहरण आणि प्लगइनचा वापर कार्य लक्षणीयरीत्या सुलभ करू शकतो.
Robots.txt ची मॅन्युअल सेटिंग
त्याचप्रमाणे, साइटसाठी तयार CMS नसतानाही तुम्ही फाइलचे कॉन्फिगरेशन सेट करू शकता. वापरकर्त्याला साइटच्या रूट डायरेक्टरीमध्ये robots.txt फाइल अपलोड करावी लागेल आणि आवश्यक नियम निर्दिष्ट करावे लागतील. येथे एक उदाहरण आहे, ज्यामध्ये सर्व उपलब्ध निर्देश दर्शविले आहेत:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Robots.txt फाइल कशी तपासायची
robots.txt फाइल त्रुटींसाठी तपासताना सहाय्यक साधन म्हणून, ऑनलाइन सेवा वापरण्याची शिफारस केली जाते.
उदाहरण विचारात घ्या यांडेक्स वेबमास्टर सेवा. तपासण्यासाठी, जर फाइल आधीच सर्व्हरवर अपलोड केली असेल तर तुम्हाला संबंधित फील्डमध्ये तुमच्या साइटची लिंक टाकावी लागेल. त्यानंतर, टूल स्वतः फाइल कॉन्फिगरेशन लोड करेल. कॉन्फिगरेशन मॅन्युअली एंटर करण्याचा पर्याय देखील आहे:
पुढे, तुम्हाला तपासणीची विनंती करावी लागेल आणि निकालांची वाट पहावी लागेल:
दिलेल्या उदाहरणात, कोणत्याही त्रुटी नाहीत. जर काही असतील तर, सेवा समस्याग्रस्त क्षेत्रे आणि त्या दुरुस्त करण्याचे मार्ग दाखवेल.
निष्कर्ष
थोडक्यात, आम्ही साइटवरील रहदारी नियंत्रित करण्यासाठी robots.txt फाइल किती महत्त्वाची आहे यावर भर दिला. शोध इंजिन पृष्ठे कशी अनुक्रमित करतात हे व्यवस्थापित करण्यासाठी आम्ही ती योग्यरित्या कशी सेट करावी याबद्दल सल्ला दिला. या व्यतिरिक्त, आम्ही ही फाइल योग्यरित्या कशी वापरायची याची उदाहरणे देखील पाहिली आणि सर्व सेटिंग्ज योग्यरित्या कसे कार्य करत आहेत हे कसे तपासायचे याबद्दल सूचना दिल्या.