ໃນບົດຄວາມນີ້, ພວກເຮົາຈະກວດເບິ່ງບົດບາດສໍາຄັນຂອງໄຟລ໌ robots.txt ໃນການຄຸ້ມຄອງການຈະລາຈອນຢູ່ໃນເວັບໄຊທ໌, ປຶກສາຫາລືກ່ຽວກັບຄວາມຈໍາເປັນຂອງການປະກົດຕົວຂອງມັນ, ແລະໃຫ້ຄໍາແນະນໍາສໍາລັບການຕັ້ງຄ່າມັນສໍາລັບການຄຸ້ມຄອງດັດສະນີຫນ້າທີ່ມີປະສິດທິພາບ. ນອກຈາກນັ້ນ, ພວກເຮົາຈະວິເຄາະຕົວຢ່າງຂອງການນໍາໃຊ້ຄໍາແນະນໍາທີ່ຖືກຕ້ອງໃນໄຟລ໌ robots.txt ແລະໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການກວດສອບຄວາມຖືກຕ້ອງຂອງການຕັ້ງຄ່າຂອງມັນ.
ເປັນຫຍັງຕ້ອງການ Robots.txt
Robots.txt ແມ່ນໄຟລ໌ທີ່ຢູ່ໃນເຊີບເວີຂອງເວັບໄຊທ໌ຢູ່ໃນລະບົບຮາກຂອງມັນ. ມັນແຈ້ງໃຫ້ຫຸ່ນຍົນເຄື່ອງຈັກຊອກຫາຮູ້ວ່າພວກເຂົາຄວນຈະສະແກນເນື້ອຫາຂອງຊັບພະຍາກອນແນວໃດ. ການນໍາໃຊ້ທີ່ເຫມາະສົມຂອງໄຟລ໌ນີ້ຊ່ວຍປ້ອງກັນການດັດສະນີຫນ້າທີ່ບໍ່ຕ້ອງການ, ປົກປ້ອງຂໍ້ມູນທີ່ເປັນຄວາມລັບ, ແລະສາມາດປັບປຸງປະສິດທິພາບຂອງການເພີ່ມປະສິດທິພາບ SEO ແລະການເບິ່ງເຫັນຂອງເວັບໄຊທ໌ໃນຜົນການຄົ້ນຫາ. ການຕັ້ງຄ່າຂອງ robots.txt ແມ່ນເຮັດຜ່ານຄໍາສັ່ງ, ເຊິ່ງພວກເຮົາຈະເບິ່ງຕື່ມອີກ.
ການຕັ້ງຄ່າຄໍາສັ່ງໃນ Robots.txt
ຕົວແທນຜູ້ໃຊ້
ຄໍາສັ່ງຕົ້ນຕໍແມ່ນເອີ້ນວ່າ User-Agent, ບ່ອນທີ່ພວກເຮົາກໍານົດຄໍາສໍາຄັນພິເສດສໍາລັບຫຸ່ນຍົນ. ເມື່ອກວດພົບຄໍານີ້, ຫຸ່ນຍົນເຂົ້າໃຈວ່າກົດລະບຽບແມ່ນມີຈຸດປະສົງໂດຍສະເພາະສໍາລັບມັນ.
ພິຈາລະນາຕົວຢ່າງຂອງການໃຊ້ User-Agent ໃນໄຟລ໌ robots.txt:
User-Agent: *
Disallow: /private/
ຕົວຢ່າງນີ້ຊີ້ໃຫ້ເຫັນວ່າຫຸ່ນຍົນຄົ້ນຫາທັງຫມົດ (ສະແດງໂດຍສັນຍາລັກ "*") ຄວນບໍ່ສົນໃຈຫນ້າທີ່ຕັ້ງຢູ່ໃນ /ເອກະຊົນ/ ລະບົບ.
ນີ້ແມ່ນວິທີທີ່ຄໍາແນະນໍາຊອກຫາຫຸ່ນຍົນຄົ້ນຫາສະເພາະ:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
ໃນກໍລະນີນີ້, ໄດ້ googlebot ຫຸ່ນຍົນຄົ້ນຫາຄວນຈະບໍ່ສົນໃຈຫນ້າເວັບຕ່າງໆໃນ /admin/ ໄດເລກະທໍລີ, ໃນຂະນະທີ່ bingbot ຄວນບໍ່ສົນໃຈຫນ້າເວັບຕ່າງໆໃນ /ເອກະຊົນ/ ລະບົບ.
ບໍ່ອະນຸຍາດ
ບໍ່ອະນຸຍາດ ບອກຫຸ່ນຍົນຄົ້ນຫາວ່າ URL ໃດທີ່ຈະຂ້າມຫຼືບໍ່ດັດສະນີຢູ່ໃນເວັບໄຊທ໌. ຄໍາແນະນໍານີ້ແມ່ນເປັນປະໂຫຍດໃນເວລາທີ່ທ່ານຕ້ອງການຊ່ອນຂໍ້ມູນທີ່ລະອຽດອ່ອນຫຼືຫນ້າເນື້ອຫາທີ່ມີຄຸນນະພາບຕ່ໍາຈາກການຖືກດັດສະນີໂດຍເຄື່ອງຈັກຊອກຫາ. ຖ້າໄຟລ໌ robots.txt ມີລາຍການເຂົ້າ ບໍ່ອະນຸຍາດ: /directories/, ຫຼັງຈາກນັ້ນຫຸ່ນຍົນຈະຖືກປະຕິເສດການເຂົ້າເຖິງເນື້ອໃນຂອງໄດເລກະທໍລີທີ່ລະບຸ. ຕົວຢ່າງ,
User-agent: *
Disallow: /admin/
ມູນຄ່ານີ້ຊີ້ໃຫ້ເຫັນ ຫຸ່ນຍົນທັງຫມົດ ຄວນບໍ່ສົນໃຈ URL ທີ່ເລີ່ມຕົ້ນດ້ວຍ /admin/. ເພື່ອສະກັດເວັບໄຊທ໌ທັງຫມົດຈາກການຖືກດັດສະນີໂດຍຫຸ່ນຍົນໃດໆ, ກໍານົດໄດເລກະທໍລີຮາກເປັນກົດລະບຽບ:
User-agent: *
Disallow: /
ອະນຸຍາດໃຫ້
ມູນຄ່າ "ອະນຸຍາດ" ປະຕິບັດກົງກັນຂ້າມກັບ "Disallow": ມັນອະນຸຍາດໃຫ້ຫຸ່ນຍົນຄົ້ນຫາເຂົ້າເຖິງຫນ້າຫຼືໄດເລກະທໍລີສະເພາະ, ເຖິງແມ່ນວ່າຄໍາສັ່ງອື່ນໆໃນໄຟລ໌ robots.txt ຫ້າມການເຂົ້າເຖິງມັນ.
ພິຈາລະນາຕົວຢ່າງ:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
ໃນຕົວຢ່າງນີ້, ມັນໄດ້ຖືກລະບຸວ່າຫຸ່ນຍົນບໍ່ໄດ້ຮັບອະນຸຍາດໃຫ້ເຂົ້າເຖິງ /admin/ ໄດເລກະທໍລີ, ຍົກເວັ້ນສໍາລັບ /admin/login.html ຫນ້າ, ເຊິ່ງສາມາດໃຊ້ໄດ້ສໍາລັບການດັດສະນີແລະການສະແກນ.
Robots.txt ແລະແຜນຜັງເວັບໄຊທ໌
ແຜນຜັງເວັບໄຊທ໌ແມ່ນໄຟລ໌ XML ທີ່ມີບັນຊີລາຍຊື່ຂອງ URL ຂອງທຸກຫນ້າແລະໄຟລ໌ທີ່ຢູ່ໃນເວັບໄຊທ໌ທີ່ສາມາດຖືກດັດສະນີໂດຍເຄື່ອງຈັກຊອກຫາ. ເມື່ອຫຸ່ນຍົນຄົ້ນຫາເຂົ້າເຖິງໄຟລ໌ robots.txt ແລະເຫັນການເຊື່ອມຕໍ່ກັບໄຟລ໌ XML ແຜນຜັງເວັບໄຊທ໌, ມັນສາມາດນໍາໃຊ້ໄຟລ໌ນີ້ເພື່ອຊອກຫາທຸກ URL ແລະຊັບພະຍາກອນທີ່ມີຢູ່ໃນເວັບໄຊທ໌. ຄໍາແນະນໍາແມ່ນໄດ້ລະບຸໄວ້ໃນຮູບແບບ:
Sitemap: https://yoursite.com/filesitemap.xml
ກົດລະບຽບນີ້ມັກຈະຖືກວາງໄວ້ໃນຕອນທ້າຍຂອງເອກະສານໂດຍບໍ່ມີການຜູກມັດກັບຕົວແທນຜູ້ໃຊ້ສະເພາະແລະຖືກປຸງແຕ່ງໂດຍຫຸ່ນຍົນທັງຫມົດໂດຍບໍ່ມີຂໍ້ຍົກເວັ້ນ. ຖ້າເຈົ້າຂອງເວັບໄຊທ໌ບໍ່ໃຊ້ sitemap.xml, ມັນບໍ່ຈໍາເປັນຕ້ອງເພີ່ມກົດລະບຽບ.
ຕົວຢ່າງຂອງ Configured Robots.txt
ການຕັ້ງຄ່າ Robots.txt ສໍາລັບ WordPress
ໃນພາກນີ້, ພວກເຮົາຈະພິຈາລະນາການຕັ້ງຄ່າທີ່ກຽມພ້ອມສໍາລັບ WordPress. ພວກເຮົາຈະຄົ້ນຫາການຂັດຂວາງການເຂົ້າເຖິງຂໍ້ມູນລັບແລະອະນຸຍາດໃຫ້ເຂົ້າເຖິງຫນ້າຫລັກ.
ເປັນການແກ້ໄຂທີ່ກຽມພ້ອມ, ທ່ານສາມາດນໍາໃຊ້ລະຫັດຕໍ່ໄປນີ້:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
ເຖິງແມ່ນວ່າຄໍາແນະນໍາທັງຫມົດແມ່ນປະກອບດ້ວຍຄໍາຄິດຄໍາເຫັນ, ໃຫ້ພວກເຮົາເຈາະເລິກເຂົ້າໄປໃນບົດສະຫຼຸບ.
- ຫຸ່ນຍົນຈະບໍ່ດັດສະນີໄຟລ໌ທີ່ລະອຽດອ່ອນ ແລະໄດເລກະທໍລີ.
- ໃນເວລາດຽວກັນ, ຫຸ່ນຍົນໄດ້ຮັບອະນຸຍາດໃຫ້ເຂົ້າເຖິງຫນ້າຫລັກແລະຊັບພະຍາກອນຂອງເວັບໄຊທ໌.
- ການເກືອດຫ້າມແມ່ນກໍານົດກ່ຽວກັບການດັດສະນີສະບັບເກົ່າຂອງຂໍ້ຄວາມແລະການສອບຖາມຕົວກໍານົດການເພື່ອປ້ອງກັນການຊ້ໍາກັນຂອງເນື້ອຫາ.
- ສະຖານທີ່ຂອງແຜນຜັງເວັບໄຊທ໌ແມ່ນຊີ້ໃຫ້ເຫັນເຖິງການປັບປຸງດັດສະນີ.
ດັ່ງນັ້ນ, ພວກເຮົາໄດ້ພິຈາລະນາຕົວຢ່າງທົ່ວໄປຂອງການຕັ້ງຄ່າທີ່ກຽມພ້ອມ, ເຊິ່ງບາງໄຟລ໌ທີ່ລະອຽດອ່ອນແລະເສັ້ນທາງຖືກເຊື່ອງໄວ້ຈາກການດັດສະນີ, ແຕ່ໄດເລກະທໍລີຕົ້ນຕໍແມ່ນສາມາດເຂົ້າເຖິງໄດ້.
ບໍ່ເຫມືອນກັບ CMS ທີ່ນິຍົມຫຼາຍຫຼືເວັບໄຊທ໌ທີ່ຂຽນເອງ, WordPress ມີ plugins ຫຼາຍອັນທີ່ອໍານວຍຄວາມສະດວກໃນການສ້າງແລະການຄຸ້ມຄອງໄຟລ໌ robots.txt. ຫນຶ່ງໃນການແກ້ໄຂທີ່ນິຍົມສໍາລັບຈຸດປະສົງນີ້ແມ່ນ yoast SEO.
ເພື່ອຕິດຕັ້ງມັນ, ທ່ານຈໍາເປັນຕ້ອງ:
- ໄປທີ່ກະດານ admin WordPress.
- ໃນສ່ວນ "Plugins", ເລືອກ "ເພີ່ມໃຫມ່".
- ຊອກຫາ plugin "Yoast SEO" ແລະຕິດຕັ້ງມັນ.
- ເປີດໃຊ້ໂປແກຼມ.
ເພື່ອແກ້ໄຂໄຟລ໌ robots.txt, ທ່ານຈໍາເປັນຕ້ອງ:
- ໄປທີ່ສ່ວນ "SEO" ໃນເມນູດ້ານຂ້າງຂອງກະດານ admin ແລະເລືອກ "ທົ່ວໄປ".
- ໄປທີ່ແຖບ "ເຄື່ອງມື".
- ໃຫ້ຄລິກໃສ່ "Files". ທີ່ນີ້ທ່ານຈະເຫັນໄຟລ໌ຕ່າງໆ, ລວມທັງ robots.txt.
- ໃສ່ກົດລະບຽບການດັດສະນີທີ່ຈໍາເປັນຕາມຄວາມຕ້ອງການຂອງເຈົ້າ.
- ຫຼັງຈາກເຮັດການປ່ຽນແປງໄຟລ໌, ໃຫ້ຄລິກໃສ່ປຸ່ມ "ບັນທຶກການປ່ຽນແປງໃສ່ robots.txt".
ໃຫ້ສັງເກດວ່າແຕ່ລະການຕັ້ງຄ່າໄຟລ໌ robots.txt ສໍາລັບ WordPress ແມ່ນເປັນເອກະລັກແລະຂຶ້ນກັບຄວາມຕ້ອງການສະເພາະແລະລັກສະນະຂອງເວັບໄຊທ໌. ບໍ່ມີແມ່ແບບທົ່ວໄປທີ່ຈະເຫມາະສົມກັບຊັບພະຍາກອນທັງຫມົດໂດຍບໍ່ມີຂໍ້ຍົກເວັ້ນ. ຢ່າງໃດກໍຕາມ, ຕົວຢ່າງນີ້ແລະການນໍາໃຊ້ plugins ສາມາດເຮັດໃຫ້ວຽກງານງ່າຍດາຍຢ່າງຫຼວງຫຼາຍ.
ການຕັ້ງຄ່າຄູ່ມືຂອງ Robots.txt
ເຊັ່ນດຽວກັນ, ທ່ານສາມາດຕັ້ງຄ່າການຕັ້ງຄ່າໄຟລ໌ຂອງທ່ານເຖິງແມ່ນວ່າໃນເວລາທີ່ບໍ່ມີ CMS ກຽມພ້ອມສໍາລັບເວັບໄຊທ໌. ຜູ້ໃຊ້ຍັງຕ້ອງການອັບໂຫລດໄຟລ໌ robots.txt ໄປຫາໄດເລກະທໍລີຮາກຂອງເວັບໄຊທ໌ແລະລະບຸກົດລະບຽບທີ່ຈໍາເປັນ. ນີ້ແມ່ນໜຶ່ງໃນຕົວຢ່າງ, ເຊິ່ງບັນດາທິດທາງທີ່ມີຢູ່ທັງໝົດແມ່ນຊີ້ໃຫ້ເຫັນ:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
ວິທີການກວດສອບໄຟລ໌ Robots.txt
ໃນຖານະເປັນເຄື່ອງມືຊ່ວຍໃນເວລາທີ່ການກວດສອບໄຟລ໌ robots.txt ສໍາລັບຄວາມຜິດພາດ, ແນະນໍາໃຫ້ໃຊ້ບໍລິການອອນໄລນ໌.
ພິຈາລະນາຕົວຢ່າງຂອງ ຜູ້ຄຸ້ມຄອງເວັບ Yandex ການບໍລິການ. ເພື່ອກວດສອບ, ທ່ານຈໍາເປັນຕ້ອງໃສ່ລິ້ງໄປຫາເວັບໄຊຂອງທ່ານໃນຊ່ອງທີ່ສອດຄ້ອງກັນຖ້າໄຟລ໌ຖືກອັບໂຫລດໄປໃສ່ເຄື່ອງແມ່ຂ່າຍ. ຫຼັງຈາກນັ້ນ, ເຄື່ອງມືຕົວມັນເອງຈະໂຫລດການຕັ້ງຄ່າໄຟລ໌. ນອກຈາກນີ້ຍັງມີທາງເລືອກທີ່ຈະເຂົ້າໄປໃນການຕັ້ງຄ່າດ້ວຍຕົນເອງ:
ຕໍ່ໄປ, ທ່ານຈໍາເປັນຕ້ອງຮ້ອງຂໍການກວດສອບແລະລໍຖ້າຜົນໄດ້ຮັບ:
ໃນຕົວຢ່າງທີ່ໃຫ້, ບໍ່ມີຂໍ້ຜິດພາດ. ຖ້າມີ, ການບໍລິການຈະສະແດງພື້ນທີ່ທີ່ມີບັນຫາແລະວິທີການແກ້ໄຂ.
ສະຫຼຸບ
ສະຫຼຸບແລ້ວ, ພວກເຮົາໄດ້ເນັ້ນໜັກວ່າໄຟລ໌ robots.txt ມີຄວາມສຳຄັນແນວໃດສຳລັບການຄວບຄຸມການສັນຈອນຢູ່ໃນເວັບໄຊ. ພວກເຮົາໄດ້ໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການຕັ້ງມັນຢ່າງຖືກຕ້ອງເພື່ອຈັດການວິທີການຄົ້ນຫາຫນ້າດັດສະນີ. ນອກຈາກນັ້ນ, ພວກເຮົາຍັງໄດ້ເບິ່ງຕົວຢ່າງຂອງວິທີການນໍາໃຊ້ໄຟລ໌ນີ້ຢ່າງຖືກຕ້ອງແລະໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການກວດສອບວ່າການຕັ້ງຄ່າທັງຫມົດເຮັດວຽກຢ່າງຖືກຕ້ອງ.