Knowledgebase ຄໍາແນະນໍາງ່າຍໆທີ່ຈະເຮັດວຽກກັບບໍລິການ Profitserver

robots.txt


ໃນບົດຄວາມນີ້, ພວກເຮົາຈະກວດເບິ່ງບົດບາດສໍາຄັນຂອງໄຟລ໌ robots.txt ໃນການຄຸ້ມຄອງການຈະລາຈອນຢູ່ໃນເວັບໄຊທ໌, ປຶກສາຫາລືກ່ຽວກັບຄວາມຈໍາເປັນຂອງການປະກົດຕົວຂອງມັນ, ແລະໃຫ້ຄໍາແນະນໍາສໍາລັບການຕັ້ງຄ່າມັນສໍາລັບການຄຸ້ມຄອງດັດສະນີຫນ້າທີ່ມີປະສິດທິພາບ. ນອກຈາກນັ້ນ, ພວກເຮົາຈະວິເຄາະຕົວຢ່າງຂອງການນໍາໃຊ້ຄໍາແນະນໍາທີ່ຖືກຕ້ອງໃນໄຟລ໌ robots.txt ແລະໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການກວດສອບຄວາມຖືກຕ້ອງຂອງການຕັ້ງຄ່າຂອງມັນ.

ເປັນຫຍັງຕ້ອງການ Robots.txt

Robots.txt ແມ່ນໄຟລ໌ທີ່ຢູ່ໃນເຊີບເວີຂອງເວັບໄຊທ໌ຢູ່ໃນລະບົບຮາກຂອງມັນ. ມັນແຈ້ງໃຫ້ຫຸ່ນຍົນເຄື່ອງຈັກຊອກຫາຮູ້ວ່າພວກເຂົາຄວນຈະສະແກນເນື້ອຫາຂອງຊັບພະຍາກອນແນວໃດ. ການນໍາໃຊ້ທີ່ເຫມາະສົມຂອງໄຟລ໌ນີ້ຊ່ວຍປ້ອງກັນການດັດສະນີຫນ້າທີ່ບໍ່ຕ້ອງການ, ປົກປ້ອງຂໍ້ມູນທີ່ເປັນຄວາມລັບ, ແລະສາມາດປັບປຸງປະສິດທິພາບຂອງການເພີ່ມປະສິດທິພາບ SEO ແລະການເບິ່ງເຫັນຂອງເວັບໄຊທ໌ໃນຜົນການຄົ້ນຫາ. ການຕັ້ງຄ່າຂອງ robots.txt ແມ່ນເຮັດຜ່ານຄໍາສັ່ງ, ເຊິ່ງພວກເຮົາຈະເບິ່ງຕື່ມອີກ.

ການຕັ້ງຄ່າຄໍາສັ່ງໃນ Robots.txt

ຕົວແທນຜູ້ໃຊ້

ຄໍາສັ່ງຕົ້ນຕໍແມ່ນເອີ້ນວ່າ User-Agent, ບ່ອນທີ່ພວກເຮົາກໍານົດຄໍາສໍາຄັນພິເສດສໍາລັບຫຸ່ນຍົນ. ເມື່ອກວດພົບຄໍານີ້, ຫຸ່ນຍົນເຂົ້າໃຈວ່າກົດລະບຽບແມ່ນມີຈຸດປະສົງໂດຍສະເພາະສໍາລັບມັນ.

ພິຈາລະນາຕົວຢ່າງຂອງການໃຊ້ User-Agent ໃນໄຟລ໌ robots.txt:

User-Agent: *
Disallow: /private/

ຕົວຢ່າງນີ້ຊີ້ໃຫ້ເຫັນວ່າຫຸ່ນຍົນຄົ້ນຫາທັງຫມົດ (ສະແດງໂດຍສັນຍາລັກ "*") ຄວນບໍ່ສົນໃຈຫນ້າທີ່ຕັ້ງຢູ່ໃນ /ເອກະຊົນ/ ລະບົບ.

ນີ້ແມ່ນວິທີທີ່ຄໍາແນະນໍາຊອກຫາຫຸ່ນຍົນຄົ້ນຫາສະເພາະ:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

ໃນກໍລະນີນີ້, ໄດ້ googlebot ຫຸ່ນຍົນຄົ້ນຫາຄວນຈະບໍ່ສົນໃຈຫນ້າເວັບຕ່າງໆໃນ /admin/ ໄດເລກະທໍລີ, ໃນຂະນະທີ່ bingbot ຄວນບໍ່ສົນໃຈຫນ້າເວັບຕ່າງໆໃນ /ເອກະຊົນ/ ລະບົບ.

ບໍ່ອະນຸຍາດ

ບໍ່ອະນຸຍາດ ບອກຫຸ່ນຍົນຄົ້ນຫາວ່າ URL ໃດທີ່ຈະຂ້າມຫຼືບໍ່ດັດສະນີຢູ່ໃນເວັບໄຊທ໌. ຄໍາແນະນໍານີ້ແມ່ນເປັນປະໂຫຍດໃນເວລາທີ່ທ່ານຕ້ອງການຊ່ອນຂໍ້ມູນທີ່ລະອຽດອ່ອນຫຼືຫນ້າເນື້ອຫາທີ່ມີຄຸນນະພາບຕ່ໍາຈາກການຖືກດັດສະນີໂດຍເຄື່ອງຈັກຊອກຫາ. ຖ້າໄຟລ໌ robots.txt ມີລາຍການເຂົ້າ ບໍ່ອະນຸຍາດ: /directories/, ຫຼັງຈາກນັ້ນຫຸ່ນຍົນຈະຖືກປະຕິເສດການເຂົ້າເຖິງເນື້ອໃນຂອງໄດເລກະທໍລີທີ່ລະບຸ. ຕົວຢ່າງ,

User-agent: *
Disallow: /admin/

ມູນຄ່ານີ້ຊີ້ໃຫ້ເຫັນ ຫຸ່ນຍົນທັງຫມົດ ຄວນບໍ່ສົນໃຈ URL ທີ່ເລີ່ມຕົ້ນດ້ວຍ /admin/. ເພື່ອສະກັດເວັບໄຊທ໌ທັງຫມົດຈາກການຖືກດັດສະນີໂດຍຫຸ່ນຍົນໃດໆ, ກໍານົດໄດເລກະທໍລີຮາກເປັນກົດລະບຽບ:

User-agent: *
Disallow: /

ອະນຸຍາດໃຫ້

ມູນຄ່າ "ອະນຸຍາດ" ປະຕິບັດກົງກັນຂ້າມກັບ "Disallow": ມັນອະນຸຍາດໃຫ້ຫຸ່ນຍົນຄົ້ນຫາເຂົ້າເຖິງຫນ້າຫຼືໄດເລກະທໍລີສະເພາະ, ເຖິງແມ່ນວ່າຄໍາສັ່ງອື່ນໆໃນໄຟລ໌ robots.txt ຫ້າມການເຂົ້າເຖິງມັນ.

ພິຈາລະນາຕົວຢ່າງ:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

ໃນຕົວຢ່າງນີ້, ມັນໄດ້ຖືກລະບຸວ່າຫຸ່ນຍົນບໍ່ໄດ້ຮັບອະນຸຍາດໃຫ້ເຂົ້າເຖິງ /admin/ ໄດເລກະທໍລີ, ຍົກເວັ້ນສໍາລັບ /admin/login.html ຫນ້າ, ເຊິ່ງສາມາດໃຊ້ໄດ້ສໍາລັບການດັດສະນີແລະການສະແກນ.

Robots.txt ແລະແຜນຜັງເວັບໄຊທ໌

ແຜນຜັງເວັບໄຊທ໌ແມ່ນໄຟລ໌ XML ທີ່ມີບັນຊີລາຍຊື່ຂອງ URL ຂອງທຸກຫນ້າແລະໄຟລ໌ທີ່ຢູ່ໃນເວັບໄຊທ໌ທີ່ສາມາດຖືກດັດສະນີໂດຍເຄື່ອງຈັກຊອກຫາ. ເມື່ອຫຸ່ນຍົນຄົ້ນຫາເຂົ້າເຖິງໄຟລ໌ robots.txt ແລະເຫັນການເຊື່ອມຕໍ່ກັບໄຟລ໌ XML ແຜນຜັງເວັບໄຊທ໌, ມັນສາມາດນໍາໃຊ້ໄຟລ໌ນີ້ເພື່ອຊອກຫາທຸກ URL ແລະຊັບພະຍາກອນທີ່ມີຢູ່ໃນເວັບໄຊທ໌. ຄໍາ​ແນະ​ນໍາ​ແມ່ນ​ໄດ້​ລະ​ບຸ​ໄວ້​ໃນ​ຮູບ​ແບບ​:

Sitemap: https://yoursite.com/filesitemap.xml

ກົດລະບຽບນີ້ມັກຈະຖືກວາງໄວ້ໃນຕອນທ້າຍຂອງເອກະສານໂດຍບໍ່ມີການຜູກມັດກັບຕົວແທນຜູ້ໃຊ້ສະເພາະແລະຖືກປຸງແຕ່ງໂດຍຫຸ່ນຍົນທັງຫມົດໂດຍບໍ່ມີຂໍ້ຍົກເວັ້ນ. ຖ້າເຈົ້າຂອງເວັບໄຊທ໌ບໍ່ໃຊ້ sitemap.xml, ມັນບໍ່ຈໍາເປັນຕ້ອງເພີ່ມກົດລະບຽບ.

ຕົວຢ່າງຂອງ Configured Robots.txt

ການຕັ້ງຄ່າ Robots.txt ສໍາລັບ WordPress

ໃນພາກນີ້, ພວກເຮົາຈະພິຈາລະນາການຕັ້ງຄ່າທີ່ກຽມພ້ອມສໍາລັບ WordPress. ພວກເຮົາຈະຄົ້ນຫາການຂັດຂວາງການເຂົ້າເຖິງຂໍ້ມູນລັບແລະອະນຸຍາດໃຫ້ເຂົ້າເຖິງຫນ້າຫລັກ.

ເປັນການແກ້ໄຂທີ່ກຽມພ້ອມ, ທ່ານສາມາດນໍາໃຊ້ລະຫັດຕໍ່ໄປນີ້:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

ເຖິງແມ່ນວ່າຄໍາແນະນໍາທັງຫມົດແມ່ນປະກອບດ້ວຍຄໍາຄິດຄໍາເຫັນ, ໃຫ້ພວກເຮົາເຈາະເລິກເຂົ້າໄປໃນບົດສະຫຼຸບ.

  1. ຫຸ່ນຍົນຈະບໍ່ດັດສະນີໄຟລ໌ທີ່ລະອຽດອ່ອນ ແລະໄດເລກະທໍລີ.
  2. ໃນເວລາດຽວກັນ, ຫຸ່ນຍົນໄດ້ຮັບອະນຸຍາດໃຫ້ເຂົ້າເຖິງຫນ້າຫລັກແລະຊັບພະຍາກອນຂອງເວັບໄຊທ໌.
  3. ການເກືອດຫ້າມແມ່ນກໍານົດກ່ຽວກັບການດັດສະນີສະບັບເກົ່າຂອງຂໍ້ຄວາມແລະການສອບຖາມຕົວກໍານົດການເພື່ອປ້ອງກັນການຊ້ໍາກັນຂອງເນື້ອຫາ.
  4. ສະຖານທີ່ຂອງແຜນຜັງເວັບໄຊທ໌ແມ່ນຊີ້ໃຫ້ເຫັນເຖິງການປັບປຸງດັດສະນີ.

ດັ່ງນັ້ນ, ພວກເຮົາໄດ້ພິຈາລະນາຕົວຢ່າງທົ່ວໄປຂອງການຕັ້ງຄ່າທີ່ກຽມພ້ອມ, ເຊິ່ງບາງໄຟລ໌ທີ່ລະອຽດອ່ອນແລະເສັ້ນທາງຖືກເຊື່ອງໄວ້ຈາກການດັດສະນີ, ແຕ່ໄດເລກະທໍລີຕົ້ນຕໍແມ່ນສາມາດເຂົ້າເຖິງໄດ້.

ບໍ່ເຫມືອນກັບ CMS ທີ່ນິຍົມຫຼາຍຫຼືເວັບໄຊທ໌ທີ່ຂຽນເອງ, WordPress ມີ plugins ຫຼາຍອັນທີ່ອໍານວຍຄວາມສະດວກໃນການສ້າງແລະການຄຸ້ມຄອງໄຟລ໌ robots.txt. ຫນຶ່ງໃນການແກ້ໄຂທີ່ນິຍົມສໍາລັບຈຸດປະສົງນີ້ແມ່ນ yoast SEO.

ເພື່ອຕິດຕັ້ງມັນ, ທ່ານຈໍາເປັນຕ້ອງ:

  1. ໄປທີ່ກະດານ admin WordPress.
  2. ໃນສ່ວນ "Plugins", ເລືອກ "ເພີ່ມໃຫມ່".
  3. ຊອກຫາ plugin "Yoast SEO" ແລະຕິດຕັ້ງມັນ.
  4. ເປີດໃຊ້ໂປແກຼມ.

ເພື່ອແກ້ໄຂໄຟລ໌ robots.txt, ທ່ານຈໍາເປັນຕ້ອງ:

  1. ໄປທີ່ສ່ວນ "SEO" ໃນເມນູດ້ານຂ້າງຂອງກະດານ admin ແລະເລືອກ "ທົ່ວໄປ".
  2. ໄປທີ່ແຖບ "ເຄື່ອງມື".
  3. ໃຫ້ຄລິກໃສ່ "Files". ທີ່ນີ້ທ່ານຈະເຫັນໄຟລ໌ຕ່າງໆ, ລວມທັງ robots.txt.
  4. ໃສ່ກົດລະບຽບການດັດສະນີທີ່ຈໍາເປັນຕາມຄວາມຕ້ອງການຂອງເຈົ້າ.
  5. ຫຼັງຈາກເຮັດການປ່ຽນແປງໄຟລ໌, ໃຫ້ຄລິກໃສ່ປຸ່ມ "ບັນທຶກການປ່ຽນແປງໃສ່ robots.txt".

ໃຫ້ສັງເກດວ່າແຕ່ລະການຕັ້ງຄ່າໄຟລ໌ robots.txt ສໍາລັບ WordPress ແມ່ນເປັນເອກະລັກແລະຂຶ້ນກັບຄວາມຕ້ອງການສະເພາະແລະລັກສະນະຂອງເວັບໄຊທ໌. ບໍ່ມີແມ່ແບບທົ່ວໄປທີ່ຈະເຫມາະສົມກັບຊັບພະຍາກອນທັງຫມົດໂດຍບໍ່ມີຂໍ້ຍົກເວັ້ນ. ຢ່າງໃດກໍຕາມ, ຕົວຢ່າງນີ້ແລະການນໍາໃຊ້ plugins ສາມາດເຮັດໃຫ້ວຽກງານງ່າຍດາຍຢ່າງຫຼວງຫຼາຍ.

ການຕັ້ງຄ່າຄູ່ມືຂອງ Robots.txt

ເຊັ່ນດຽວກັນ, ທ່ານສາມາດຕັ້ງຄ່າການຕັ້ງຄ່າໄຟລ໌ຂອງທ່ານເຖິງແມ່ນວ່າໃນເວລາທີ່ບໍ່ມີ CMS ກຽມພ້ອມສໍາລັບເວັບໄຊທ໌. ຜູ້ໃຊ້ຍັງຕ້ອງການອັບໂຫລດໄຟລ໌ robots.txt ໄປຫາໄດເລກະທໍລີຮາກຂອງເວັບໄຊທ໌ແລະລະບຸກົດລະບຽບທີ່ຈໍາເປັນ. ນີ້ແມ່ນໜຶ່ງໃນຕົວຢ່າງ, ເຊິ່ງບັນດາທິດທາງທີ່ມີຢູ່ທັງໝົດແມ່ນຊີ້ໃຫ້ເຫັນ:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

ວິທີການກວດສອບໄຟລ໌ Robots.txt

ໃນຖານະເປັນເຄື່ອງມືຊ່ວຍໃນເວລາທີ່ການກວດສອບໄຟລ໌ robots.txt ສໍາລັບຄວາມຜິດພາດ, ແນະນໍາໃຫ້ໃຊ້ບໍລິການອອນໄລນ໌.

ພິຈາລະນາຕົວຢ່າງຂອງ ຜູ້ຄຸ້ມຄອງເວັບ Yandex ການບໍລິການ. ເພື່ອກວດສອບ, ທ່ານຈໍາເປັນຕ້ອງໃສ່ລິ້ງໄປຫາເວັບໄຊຂອງທ່ານໃນຊ່ອງທີ່ສອດຄ້ອງກັນຖ້າໄຟລ໌ຖືກອັບໂຫລດໄປໃສ່ເຄື່ອງແມ່ຂ່າຍ. ຫຼັງຈາກນັ້ນ, ເຄື່ອງມືຕົວມັນເອງຈະໂຫລດການຕັ້ງຄ່າໄຟລ໌. ນອກຈາກນີ້ຍັງມີທາງເລືອກທີ່ຈະເຂົ້າໄປໃນການຕັ້ງຄ່າດ້ວຍຕົນເອງ:

ການຕັ້ງຄ່າ robots.txt

ຕໍ່ໄປ, ທ່ານຈໍາເປັນຕ້ອງຮ້ອງຂໍການກວດສອບແລະລໍຖ້າຜົນໄດ້ຮັບ:

ຜົນໄດ້ຮັບການຕັ້ງຄ່າ robots.txt

ໃນຕົວຢ່າງທີ່ໃຫ້, ບໍ່ມີຂໍ້ຜິດພາດ. ຖ້າມີ, ການບໍລິການຈະສະແດງພື້ນທີ່ທີ່ມີບັນຫາແລະວິທີການແກ້ໄຂ.

ສະຫຼຸບ

ສະຫຼຸບແລ້ວ, ພວກເຮົາໄດ້ເນັ້ນໜັກວ່າໄຟລ໌ robots.txt ມີຄວາມສຳຄັນແນວໃດສຳລັບການຄວບຄຸມການສັນຈອນຢູ່ໃນເວັບໄຊ. ພວກເຮົາໄດ້ໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການຕັ້ງມັນຢ່າງຖືກຕ້ອງເພື່ອຈັດການວິທີການຄົ້ນຫາຫນ້າດັດສະນີ. ນອກຈາກນັ້ນ, ພວກເຮົາຍັງໄດ້ເບິ່ງຕົວຢ່າງຂອງວິທີການນໍາໃຊ້ໄຟລ໌ນີ້ຢ່າງຖືກຕ້ອງແລະໃຫ້ຄໍາແນະນໍາກ່ຽວກັບວິທີການກວດສອບວ່າການຕັ້ງຄ່າທັງຫມົດເຮັດວຽກຢ່າງຖືກຕ້ອງ.

❮ ບົດຄວາມທີ່ຜ່ານມາ ວິທີການປັບຄ່າເວັບເຊີບເວີ (Apache-PHP-MySQL/MariaDB) ໃນ Linux
ບົດຄວາມຕໍ່ໄປ ❯ ວິທີການເຊື່ອມຕໍ່ກັບເຄື່ອງແມ່ຂ່າຍຂອງ Linux ຜ່ານ SSH

ຖາມພວກເຮົາກ່ຽວກັບ VPS

ພວກເຮົາພ້ອມທີ່ຈະຕອບຄໍາຖາມຂອງເຈົ້າຢູ່ຕະຫຼອດເວລາຂອງມື້ຫຼືກາງຄືນ.