Katika makala haya, tutachunguza jukumu muhimu la faili ya robots.txt katika kudhibiti trafiki kwenye tovuti, kujadili umuhimu wa kuwepo kwake, na kutoa mapendekezo ya kuiweka kwa ajili ya usimamizi bora wa kuorodhesha ukurasa. Zaidi ya hayo, tutachanganua mifano ya matumizi sahihi ya maagizo katika faili ya robots.txt na kutoa mwongozo wa jinsi ya kuangalia usahihi wa mipangilio yake.
Kwa nini Robots.txt Inahitajika
Robots.txt ni faili iliyo kwenye seva ya tovuti katika saraka yake ya mizizi. Hufahamisha roboti za injini tafuti jinsi zinavyopaswa kuchanganua maudhui ya rasilimali. Matumizi sahihi ya faili hii husaidia kuzuia uwekaji faharasa wa kurasa zisizohitajika, hulinda data ya siri, na inaweza kuboresha ufanisi wa uboreshaji wa SEO na mwonekano wa tovuti katika matokeo ya utafutaji. Usanidi wa robots.txt unafanywa kwa njia ya maagizo, ambayo tutaangalia zaidi.
Kuweka Maagizo katika Robots.txt
Wakala wa Mtumiaji
Maagizo ya msingi yanajulikana kama Ajenti wa Mtumiaji, ambapo tunaweka nenomsingi maalum la roboti. Baada ya kugundua neno hili, roboti inaelewa kuwa sheria hiyo imekusudiwa mahsusi.
Fikiria mfano wa kutumia User-Agent katika faili ya robots.txt:
User-Agent: *
Disallow: /private/
Mfano huu unaonyesha kuwa roboti zote za utafutaji (zinazowakilishwa na ishara "*") inapaswa kupuuza kurasa zilizo kwenye faili ya /Privat/ saraka.
Hivi ndivyo maagizo yanavyotafuta roboti maalum za utaftaji:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Katika kesi hii, Googlebot roboti ya utafutaji inapaswa kupuuza kurasa kwenye faili ya /msimamizi/ saraka, wakati bingbot inapaswa kupuuza kurasa kwenye faili ya /Privat/ saraka.
Usiruhusu
Usiruhusu huambia roboti za utafutaji ni URL zipi za kuruka au kutoweka fahirisi kwenye tovuti. Maagizo haya ni muhimu unapotaka kuficha data nyeti au kurasa za maudhui ya ubora wa chini zisionyeshwe na injini tafuti. Ikiwa faili ya robots.txt ina ingizo Usiruhusu: /saraka/, basi roboti zitanyimwa ufikiaji wa yaliyomo kwenye saraka iliyobainishwa. Kwa mfano,
User-agent: *
Disallow: /admin/
Thamani hii inaonyesha kuwa roboti zote inapaswa kupuuza URL kuanzia /msimamizi/. Ili kuzuia tovuti nzima kuorodheshwa na roboti zozote, weka saraka ya mizizi kama sheria:
User-agent: *
Disallow: /
Kuruhusu
Thamani ya "Ruhusu" inafanya kazi kinyume na "Usiruhusu": huruhusu roboti za utafutaji kufikia ukurasa au saraka mahususi, hata kama maagizo mengine katika faili ya robots.txt yanakataza kuifikia.
Fikiria mfano:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Katika mfano huu, imeelezwa kuwa roboti haziruhusiwi kufikia /msimamizi/ saraka, isipokuwa kwa /admin/login.html ukurasa, ambayo inapatikana kwa indexing na skanning.
Robots.txt na Ramani ya Tovuti
Ramani ya tovuti ni faili ya XML ambayo ina orodha ya URL za kurasa na faili zote kwenye tovuti ambazo zinaweza kuorodheshwa na injini za utafutaji. Roboti ya utafutaji inapofikia faili ya robots.txt na kuona kiungo cha faili ya XML ya ramani ya tovuti, inaweza kutumia faili hii kupata URL na nyenzo zote zinazopatikana kwenye tovuti. Maagizo yameainishwa katika muundo:
Sitemap: https://yoursite.com/filesitemap.xml
Sheria hii kwa kawaida huwekwa mwishoni mwa hati bila kuunganishwa na Wakala mahususi wa Mtumiaji na huchakatwa na roboti zote bila ubaguzi. Ikiwa mmiliki wa tovuti hatumii sitemap.xml, si lazima kuongeza sheria.
Mifano ya Roboti Zilizosanidiwa.txt
Kuanzisha Robots.txt kwa WordPress
Katika sehemu hii, tutazingatia usanidi uliotengenezwa tayari kwa WordPress. Tutachunguza kuzuia ufikiaji wa data ya siri na kuruhusu ufikiaji wa kurasa kuu.
Kama suluhisho tayari, unaweza kutumia nambari ifuatayo:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Ingawa maagizo yote yanaambatana na maoni, wacha tuzame kwa undani hitimisho.
- Roboti hazitaorodhesha faili na saraka nyeti.
- Wakati huo huo, roboti zinaruhusiwa kufikia kurasa kuu na rasilimali za tovuti.
- marufuku imewekwa kwenye kuorodhesha matoleo ya zamani ya machapisho na hoja zilizoainishwa ili kuzuia kunakili maudhui.
- Eneo la ramani ya tovuti limeonyeshwa kwa uwekaji faharasa ulioboreshwa.
Kwa hivyo, tumezingatia mfano wa jumla wa usanidi tayari, ambapo baadhi ya faili nyeti na njia zimefichwa kutoka kwa indexing, lakini saraka kuu zinapatikana.
Tofauti na CMS nyingi au tovuti zilizoandikwa maalum, WordPress ina programu-jalizi kadhaa zinazowezesha uundaji na usimamizi wa faili ya robots.txt. Moja ya ufumbuzi maarufu kwa kusudi hili ni Yoast SEO.
Ili kuiweka, unahitaji:
- Nenda kwenye paneli ya msimamizi ya WordPress.
- Katika sehemu ya "Plugins", chagua "Ongeza Mpya".
- Pata programu-jalizi ya "Yoast SEO" na uisakinishe.
- Ondoa Plugin.
Ili kuhariri faili ya robots.txt, unahitaji:
- Nenda kwenye sehemu ya "SEO" kwenye menyu ya upande wa paneli ya msimamizi na uchague "Jumla".
- Nenda kwenye kichupo cha "Zana".
- Bonyeza "Faili". Hapa utaona faili mbalimbali, ikiwa ni pamoja na robots.txt.
- Ingiza sheria muhimu za kuorodhesha kulingana na mahitaji yako.
- Baada ya kufanya mabadiliko kwenye faili, bofya kitufe cha "Hifadhi mabadiliko kwenye robots.txt".
Kumbuka kuwa kila mpangilio wa faili wa robots.txt kwa WordPress ni wa kipekee na unategemea mahitaji na vipengele mahususi vya tovuti. Hakuna kiolezo cha ulimwengu wote ambacho kingefaa rasilimali zote bila ubaguzi. Walakini, mfano huu na utumiaji wa programu-jalizi zinaweza kurahisisha kazi kwa kiasi kikubwa.
Mpangilio wa Mwongozo wa Robots.txt
Vile vile, unaweza kuanzisha usanidi wako wa faili hata kwa kutokuwepo kwa CMS tayari kwa tovuti. Mtumiaji pia anahitaji kupakia faili ya robots.txt kwenye saraka ya mizizi ya tovuti na kutaja sheria zinazohitajika. Hapa kuna moja ya mifano, ambayo maagizo yote yanayopatikana yanaonyeshwa:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Jinsi ya Kuangalia Faili ya Robots.txt
Kama zana kisaidizi unapokagua faili ya robots.txt kwa hitilafu, inashauriwa kutumia huduma za mtandaoni.
Fikiria mfano wa Msimamizi wa wavuti wa Yandex huduma. Ili kuangalia, unahitaji kuingiza kiungo kwenye tovuti yako kwenye uwanja unaofanana ikiwa faili tayari imepakiwa kwenye seva. Baada ya hayo, chombo yenyewe kitapakia usanidi wa faili. Pia kuna chaguo la kuingiza usanidi kwa mikono:
Ifuatayo, unahitaji kuomba ukaguzi na usubiri matokeo:
Katika mfano uliotolewa, hakuna makosa. Ikiwa kuna yoyote, huduma itaonyesha maeneo yenye shida na njia za kuzirekebisha.
Hitimisho
Kwa muhtasari, tulisisitiza jinsi faili ya robots.txt ilivyo muhimu kwa kudhibiti trafiki kwenye tovuti. Tulitoa ushauri wa jinsi ya kuiweka vizuri ili kudhibiti jinsi kurasa za faharasa za injini za utafutaji. Mbali na hili, tuliangalia pia mifano ya jinsi ya kutumia faili hii kwa usahihi na tukatoa maagizo ya jinsi ya kuangalia kwamba mipangilio yote inafanya kazi kwa usahihi.