Knowledgebase പ്രോഫിറ്റ്സെർവർ സേവനവുമായി പ്രവർത്തിക്കുന്നതിനുള്ള ലളിതമായ നിർദ്ദേശങ്ങൾ

robots.txt


ഈ ലേഖനത്തിൽ, വെബ്‌സൈറ്റുകളിലെ ട്രാഫിക് കൈകാര്യം ചെയ്യുന്നതിൽ robots.txt ഫയലിന്റെ പ്രധാന പങ്ക് ഞങ്ങൾ പരിശോധിക്കും, അതിന്റെ സാന്നിധ്യത്തിന്റെ ആവശ്യകതയെക്കുറിച്ച് ചർച്ച ചെയ്യും, ഫലപ്രദമായ പേജ് ഇൻഡെക്സിംഗ് മാനേജ്മെന്റിനായി അത് സജ്ജീകരിക്കുന്നതിനുള്ള ശുപാർശകൾ നൽകും. കൂടാതെ, robots.txt ഫയലിലെ ശരിയായ നിർദ്ദേശങ്ങളുടെ ഉപയോഗത്തിന്റെ ഉദാഹരണങ്ങൾ ഞങ്ങൾ വിശകലനം ചെയ്യുകയും അതിന്റെ ക്രമീകരണങ്ങളുടെ കൃത്യത എങ്ങനെ പരിശോധിക്കാമെന്ന് ഒരു ഗൈഡ് നൽകുകയും ചെയ്യും.

എന്തുകൊണ്ട് Robots.txt ആവശ്യമാണ്?

Robots.txt എന്നത് സൈറ്റിന്റെ സെർവറിൽ അതിന്റെ റൂട്ട് ഡയറക്ടറിയിൽ സ്ഥിതി ചെയ്യുന്ന ഒരു ഫയലാണ്. റിസോഴ്‌സിന്റെ ഉള്ളടക്കം എങ്ങനെ സ്കാൻ ചെയ്യണമെന്ന് സെർച്ച് എഞ്ചിൻ റോബോട്ടുകളെ ഇത് അറിയിക്കുന്നു. ഈ ഫയലിന്റെ ശരിയായ ഉപയോഗം അനാവശ്യ പേജുകളുടെ ഇൻഡെക്‌സിംഗ് തടയാൻ സഹായിക്കുന്നു, രഹസ്യ ഡാറ്റ സംരക്ഷിക്കുന്നു, കൂടാതെ തിരയൽ ഫലങ്ങളിൽ സൈറ്റിന്റെ SEO ഒപ്റ്റിമൈസേഷന്റെയും ദൃശ്യപരതയുടെയും കാര്യക്ഷമത മെച്ചപ്പെടുത്താൻ കഴിയും. robots.txt ന്റെ കോൺഫിഗറേഷൻ നിർദ്ദേശങ്ങളിലൂടെയാണ് ചെയ്യുന്നത്, അത് ഞങ്ങൾ കൂടുതൽ പരിശോധിക്കും.

Robots.txt-ൽ നിർദ്ദേശങ്ങൾ സജ്ജീകരിക്കുന്നു

ഉപയോക്തൃ ഏജൻറ്

പ്രാഥമിക നിർദ്ദേശം യൂസർ-ഏജന്റ് എന്നറിയപ്പെടുന്നു, അവിടെ നമ്മൾ റോബോട്ടുകൾക്കായി ഒരു പ്രത്യേക കീവേഡ് സജ്ജീകരിക്കുന്നു. ഈ വാക്ക് കണ്ടെത്തുമ്പോൾ, നിയമം അതിനായി പ്രത്യേകം ഉദ്ദേശിച്ചുള്ളതാണെന്ന് റോബോട്ട് മനസ്സിലാക്കുന്നു.

robots.txt ഫയലിൽ User-Agent ഉപയോഗിക്കുന്നതിനുള്ള ഒരു ഉദാഹരണം പരിഗണിക്കുക:

User-Agent: *
Disallow: /private/

ഈ ഉദാഹരണം സൂചിപ്പിക്കുന്നത് എല്ലാ തിരയൽ റോബോട്ടുകളും (" എന്ന ചിഹ്നത്താൽ പ്രതിനിധീകരിക്കുന്നു*") എന്നതിൽ സ്ഥിതി ചെയ്യുന്ന പേജുകൾ അവഗണിക്കണം /സ്വകാര്യ/ ഡയറക്ടറി.

നിർദ്ദിഷ്ട തിരയൽ റോബോട്ടുകൾക്കായുള്ള നിർദ്ദേശം ഇങ്ങനെയാണ്:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

ഈ സാഹചര്യത്തിൽ, ദി Googlebot ന് സെർച്ച് റോബോട്ട് പേജുകൾ അവഗണിക്കണം /അഡ്മിൻ/ ഡയറക്ടറി, അതേസമയം ബിംഗ്ബോട്ട് എന്നതിലെ പേജുകൾ അവഗണിക്കണം /സ്വകാര്യ/ ഡയറക്ടറി.

അനുവദിക്കരുത്

അനുവദിക്കരുത് വെബ്‌സൈറ്റിൽ ഏതൊക്കെ URL-കൾ ഒഴിവാക്കണമെന്നും സൂചികയിലാക്കരുതെന്നും സെർച്ച് റോബോട്ടുകളോട് പറയുന്നു. സെർച്ച് എഞ്ചിനുകൾ സൂചികയിലാക്കുന്നതിൽ നിന്ന് സെൻസിറ്റീവ് ഡാറ്റയോ നിലവാരം കുറഞ്ഞ ഉള്ളടക്ക പേജുകളോ മറയ്ക്കാൻ നിങ്ങൾ ആഗ്രഹിക്കുമ്പോൾ ഈ നിർദ്ദേശം ഉപയോഗപ്രദമാണ്. robots.txt ഫയലിൽ എൻട്രി അടങ്ങിയിട്ടുണ്ടെങ്കിൽ അനുവദിക്കരുത്: /directory/, അങ്ങനെ ചെയ്താൽ നിർദ്ദിഷ്ട ഡയറക്ടറിയുടെ ഉള്ളടക്കങ്ങളിലേക്ക് റോബോട്ടുകൾക്ക് പ്രവേശനം നിഷേധിക്കപ്പെടും. ഉദാഹരണത്തിന്,

User-agent: *
Disallow: /admin/

ഈ മൂല്യം സൂചിപ്പിക്കുന്നത് എല്ലാ റോബോട്ടുകളും എന്ന് തുടങ്ങുന്ന URL-കൾ അവഗണിക്കണം /അഡ്മിൻ/. മുഴുവൻ സൈറ്റും ഏതെങ്കിലും റോബോട്ടുകൾ സൂചികയിലാക്കുന്നത് തടയാൻ, ഒരു നിയമമായി റൂട്ട് ഡയറക്ടറി സജ്ജമാക്കുക:

User-agent: *
Disallow: /

അനുവദിക്കുക

"അനുവദിക്കുക" എന്ന മൂല്യം "അനുവദിക്കരുത്" എന്നതിന് വിപരീതമായി പ്രവർത്തിക്കുന്നു: robots.txt ഫയലിലെ മറ്റ് ഡയറക്റ്റീവുകൾ അതിലേക്കുള്ള ആക്‌സസ് നിരോധിക്കുകയാണെങ്കിൽപ്പോലും, ഒരു പ്രത്യേക പേജിലേക്കോ ഡയറക്‌ടറിയിലേക്കോ സെർച്ച് റോബോട്ടുകൾക്ക് ആക്‌സസ് അനുവദിക്കുന്നു.

ഒരു ഉദാഹരണം പരിഗണിക്കുക:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

ഈ ഉദാഹരണത്തിൽ, റോബോട്ടുകൾക്ക് ഇതിലേക്ക് പ്രവേശനം അനുവദനീയമല്ലെന്ന് വ്യക്തമാക്കിയിട്ടുണ്ട് /അഡ്മിൻ/ ഡയറക്ടറി, ഒഴികെ /അഡ്മിൻ/ലോഗിൻ.എച്ച്.എം.എൽ സൂചികയിലാക്കുന്നതിനും സ്കാനിംഗിനും ലഭ്യമായ പേജ്.

Robots.txt ഉം സൈറ്റ്മാപ്പും

സൈറ്റ്മാപ്പ് എന്നത് ഒരു XML ഫയലാണ്, അതിൽ സെർച്ച് എഞ്ചിനുകൾക്ക് ഇൻഡെക്സ് ചെയ്യാൻ കഴിയുന്ന സൈറ്റിലെ എല്ലാ പേജുകളുടെയും ഫയലുകളുടെയും URL-കളുടെ ഒരു ലിസ്റ്റ് അടങ്ങിയിരിക്കുന്നു. ഒരു സെർച്ച് റോബോട്ട് robots.txt ഫയൽ ആക്‌സസ് ചെയ്‌ത് ഒരു സൈറ്റ്മാപ്പ് XML ഫയലിലേക്കുള്ള ലിങ്ക് കാണുമ്പോൾ, സൈറ്റിൽ ലഭ്യമായ എല്ലാ URL-കളും ഉറവിടങ്ങളും കണ്ടെത്താൻ അതിന് ഈ ഫയൽ ഉപയോഗിക്കാൻ കഴിയും. ഡയറക്റ്റീവ് ഇനിപ്പറയുന്ന ഫോർമാറ്റിൽ വ്യക്തമാക്കിയിരിക്കുന്നു:

Sitemap: https://yoursite.com/filesitemap.xml

ഈ നിയമം സാധാരണയായി ഒരു പ്രത്യേക ഉപയോക്തൃ-ഏജന്റുമായി ബന്ധിപ്പിക്കാതെ ഡോക്യുമെന്റിന്റെ അവസാനം സ്ഥാപിക്കുകയും എല്ലാ റോബോട്ടുകളും ഒഴിവാക്കാതെ പ്രോസസ്സ് ചെയ്യുകയും ചെയ്യുന്നു. സൈറ്റ് ഉടമ sitemap.xml ഉപയോഗിക്കുന്നില്ലെങ്കിൽ, നിയമം ചേർക്കേണ്ടതില്ല.

കോൺഫിഗർ ചെയ്‌ത Robots.txt ന്റെ ഉദാഹരണങ്ങൾ

WordPress-നായി Robots.txt സജ്ജീകരിക്കുന്നു

ഈ വിഭാഗത്തിൽ, വേർഡ്പ്രസ്സിനുള്ള ഒരു റെഡിമെയ്ഡ് കോൺഫിഗറേഷൻ ഞങ്ങൾ പരിഗണിക്കും. രഹസ്യ ഡാറ്റയിലേക്കുള്ള ആക്‌സസ് തടയുന്നതും പ്രധാന പേജുകളിലേക്ക് ആക്‌സസ് അനുവദിക്കുന്നതും ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യും.

ഒരു റെഡി സൊല്യൂഷൻ എന്ന നിലയിൽ, നിങ്ങൾക്ക് ഇനിപ്പറയുന്ന കോഡ് ഉപയോഗിക്കാം:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

എല്ലാ നിർദ്ദേശങ്ങളും അഭിപ്രായങ്ങളോടൊപ്പമുണ്ടെങ്കിലും, നമുക്ക് നിഗമനങ്ങളിലേക്ക് കൂടുതൽ ആഴത്തിൽ പോകാം.

  1. സെൻസിറ്റീവ് ഫയലുകളും ഡയറക്ടറികളും റോബോട്ടുകൾ ഇൻഡെക്സ് ചെയ്യില്ല.
  2. അതേസമയം, സൈറ്റിന്റെ പ്രധാന പേജുകളിലേക്കും ഉറവിടങ്ങളിലേക്കും റോബോട്ടുകൾക്ക് പ്രവേശനം അനുവദിച്ചിരിക്കുന്നു.
  3. ഉള്ളടക്കത്തിന്റെ തനിപ്പകർപ്പ് തടയുന്നതിനായി പോസ്റ്റുകളുടെ പഴയ പതിപ്പുകളും പാരാമീറ്ററൈസ് ചെയ്ത ചോദ്യങ്ങളും ഇൻഡെക്സ് ചെയ്യുന്നതിന് നിരോധനം ഏർപ്പെടുത്തിയിട്ടുണ്ട്.
  4. മെച്ചപ്പെട്ട ഇൻഡെക്സിംഗിനായി സൈറ്റ്മാപ്പിന്റെ സ്ഥാനം സൂചിപ്പിച്ചിരിക്കുന്നു.

അങ്ങനെ, ചില സെൻസിറ്റീവ് ഫയലുകളും പാത്തുകളും ഇൻഡെക്സിംഗിൽ നിന്ന് മറച്ചിരിക്കുന്നതും എന്നാൽ പ്രധാന ഡയറക്ടറികൾ ആക്‌സസ് ചെയ്യാൻ കഴിയുന്നതുമായ ഒരു റെഡി കോൺഫിഗറേഷന്റെ ഒരു പൊതു ഉദാഹരണം ഞങ്ങൾ പരിഗണിച്ചു.

പല ജനപ്രിയ CMS-കളിൽ നിന്നോ ഇഷ്ടാനുസൃതമായി എഴുതിയ സൈറ്റുകളിൽ നിന്നോ വ്യത്യസ്തമായി, robots.txt ഫയൽ സൃഷ്ടിക്കുന്നതിനും കൈകാര്യം ചെയ്യുന്നതിനും സഹായിക്കുന്ന നിരവധി പ്ലഗിനുകൾ WordPress-ൽ ഉണ്ട്. ഈ ആവശ്യത്തിനുള്ള ജനപ്രിയ പരിഹാരങ്ങളിലൊന്നാണ് Yoast എസ്.ഇ.ഒ..

ഇത് ഇൻസ്റ്റാൾ ചെയ്യാൻ, നിങ്ങൾക്ക് ഇത് ആവശ്യമാണ്:

  1. വേർഡ്പ്രസ്സ് അഡ്മിൻ പാനലിലേക്ക് പോകുക.
  2. "പ്ലഗിനുകൾ" വിഭാഗത്തിൽ, "പുതിയത് ചേർക്കുക" തിരഞ്ഞെടുക്കുക.
  3. "Yoast SEO" പ്ലഗിൻ കണ്ടെത്തി അത് ഇൻസ്റ്റാൾ ചെയ്യുക.
  4. പ്ലഗിൻ സജീവമാക്കുക.

robots.txt ഫയൽ എഡിറ്റ് ചെയ്യാൻ, നിങ്ങൾ ഇവ ചെയ്യേണ്ടതുണ്ട്:

  1. അഡ്മിൻ പാനലിന്റെ സൈഡ് മെനുവിലെ "SEO" വിഭാഗത്തിലേക്ക് പോയി "General" തിരഞ്ഞെടുക്കുക.
  2. "ഉപകരണങ്ങൾ" ടാബിലേക്ക് പോകുക.
  3. "ഫയലുകൾ" ക്ലിക്ക് ചെയ്യുക. ഇവിടെ നിങ്ങൾക്ക് robots.txt ഉൾപ്പെടെയുള്ള വിവിധ ഫയലുകൾ കാണാൻ കഴിയും.
  4. നിങ്ങളുടെ ആവശ്യങ്ങൾക്കനുസരിച്ച് ആവശ്യമായ ഇൻഡെക്സിംഗ് നിയമങ്ങൾ നൽകുക.
  5. ഫയലിൽ മാറ്റങ്ങൾ വരുത്തിയ ശേഷം, "robots.txt-ലേക്ക് മാറ്റങ്ങൾ സംരക്ഷിക്കുക" ബട്ടൺ ക്ലിക്ക് ചെയ്യുക.

WordPress-നുള്ള ഓരോ robots.txt ഫയൽ ക്രമീകരണവും അദ്വിതീയമാണെന്നും സൈറ്റിന്റെ പ്രത്യേക ആവശ്യങ്ങളെയും സവിശേഷതകളെയും ആശ്രയിച്ചിരിക്കുന്നുവെന്നും ശ്രദ്ധിക്കുക. എല്ലാ ഉറവിടങ്ങൾക്കും ഒരു അപവാദവുമില്ലാതെ അനുയോജ്യമായ ഒരു സാർവത്രിക ടെംപ്ലേറ്റ് ഇല്ല. എന്നിരുന്നാലും, ഈ ഉദാഹരണവും പ്ലഗിനുകളുടെ ഉപയോഗവും ചുമതലയെ ഗണ്യമായി ലളിതമാക്കും.

Robots.txt ന്റെ മാനുവൽ ക്രമീകരണം

അതുപോലെ, സൈറ്റിനായി തയ്യാറായ ഒരു CMS ഇല്ലെങ്കിൽ പോലും നിങ്ങൾക്ക് ഫയലിന്റെ കോൺഫിഗറേഷൻ സജ്ജമാക്കാൻ കഴിയും. ഉപയോക്താവ് സൈറ്റിന്റെ റൂട്ട് ഡയറക്ടറിയിലേക്ക് robots.txt ഫയൽ അപ്‌ലോഡ് ചെയ്യുകയും ആവശ്യമായ നിയമങ്ങൾ വ്യക്തമാക്കുകയും വേണം. ലഭ്യമായ എല്ലാ നിർദ്ദേശങ്ങളും സൂചിപ്പിച്ചിരിക്കുന്ന ഉദാഹരണങ്ങളിൽ ഒന്ന് ഇതാ:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Robots.txt ഫയൽ എങ്ങനെ പരിശോധിക്കാം

പിശകുകൾക്കായി robots.txt ഫയൽ പരിശോധിക്കുമ്പോൾ ഒരു സഹായ ഉപകരണമായി, ഓൺലൈൻ സേവനങ്ങൾ ഉപയോഗിക്കാൻ ശുപാർശ ചെയ്യുന്നു.

ഉദാഹരണം പരിഗണിക്കുക യാൻഡെക്സ് വെബ്‌മാസ്റ്റർ സേവനം. ഫയൽ ഇതിനകം സെർവറിലേക്ക് അപ്‌ലോഡ് ചെയ്‌തിട്ടുണ്ടെങ്കിൽ, പരിശോധിക്കുന്നതിന്, നിങ്ങളുടെ സൈറ്റിലേക്കുള്ള ഒരു ലിങ്ക് അനുബന്ധ ഫീൽഡിൽ ചേർക്കേണ്ടതുണ്ട്. അതിനുശേഷം, ഉപകരണം തന്നെ ഫയൽ കോൺഫിഗറേഷൻ ലോഡ് ചെയ്യും. കോൺഫിഗറേഷൻ സ്വമേധയാ നൽകാനുള്ള ഒരു ഓപ്ഷനും ഉണ്ട്:

Robots.txt കോൺഫിഗറേഷൻ

അടുത്തതായി, നിങ്ങൾ ഒരു പരിശോധനയ്ക്ക് അഭ്യർത്ഥിക്കുകയും ഫലങ്ങൾക്കായി കാത്തിരിക്കുകയും വേണം:

Robots.txt ക്രമീകരണ ഫലം

നൽകിയിരിക്കുന്ന ഉദാഹരണത്തിൽ, പിശകുകളൊന്നുമില്ല. എന്തെങ്കിലും ഉണ്ടെങ്കിൽ, സേവനം പ്രശ്നമുള്ള മേഖലകളും അവ പരിഹരിക്കാനുള്ള വഴികളും കാണിക്കും.

തീരുമാനം

ചുരുക്കത്തിൽ, സൈറ്റിലെ ട്രാഫിക് നിയന്ത്രിക്കുന്നതിന് robots.txt ഫയൽ എത്രത്തോളം പ്രധാനമാണെന്ന് ഞങ്ങൾ ഊന്നിപ്പറഞ്ഞു. സെർച്ച് എഞ്ചിനുകൾ പേജുകൾ സൂചികയിലാക്കുന്നത് എങ്ങനെയെന്ന് കൈകാര്യം ചെയ്യുന്നതിന് അത് എങ്ങനെ ശരിയായി സജ്ജീകരിക്കാമെന്ന് ഞങ്ങൾ ഉപദേശം നൽകി. ഇതിനുപുറമെ, ഈ ഫയൽ എങ്ങനെ ശരിയായി ഉപയോഗിക്കാമെന്നതിന്റെ ഉദാഹരണങ്ങളും എല്ലാ ക്രമീകരണങ്ങളും ശരിയായി പ്രവർത്തിക്കുന്നുണ്ടോ എന്ന് പരിശോധിക്കുന്നതിനുള്ള നിർദ്ദേശങ്ങളും ഞങ്ങൾ നൽകി.

❮ മുൻ ലേഖനം ലിനക്സിൽ ഒരു വെബ് സെർവർ (Apache-PHP-MySQL/MariaDB) എങ്ങനെ കോൺഫിഗർ ചെയ്യാം
അടുത്ത ലേഖനം ❯ SSH വഴി ഒരു ലിനക്സ് സെർവറിലേക്ക് എങ്ങനെ ബന്ധിപ്പിക്കാം

VPS-നെക്കുറിച്ച് ഞങ്ങളോട് ചോദിക്കൂ

നിങ്ങളുടെ ചോദ്യങ്ങൾക്ക് പകലും രാത്രിയും ഏത് സമയത്തും ഉത്തരം നൽകാൻ ഞങ്ങൾ എപ്പോഴും തയ്യാറാണ്.