Суурь мэдлэг Profitserver үйлчилгээтэй ажиллах энгийн заавар

robots.txt


Энэ нийтлэлд бид вэб сайтын траффикийг удирдахад robots.txt файлын гол үүргийг судалж, шаардлагатай эсэхийг ярилцаж, хуудсыг үр дүнтэй индексжүүлэх менежментийг бий болгох зөвлөмжийг өгөх болно. Нэмж дурдахад бид robots.txt файл дахь удирдамжийг зөв ашиглах жишээнүүдэд дүн шинжилгээ хийж, тохиргооны зөв эсэхийг шалгах зааварчилгааг өгөх болно.

Robots.txt яагаад хэрэгтэй вэ?

Robots.txt нь сайтын сервер дээр өөрийн үндсэн директорт байрладаг файл юм. Энэ нь хайлтын системийн роботуудад нөөцийн агуулгыг хэрхэн сканнердах ёстойг мэдээлдэг. Энэ файлыг зөв ашиглах нь хүсээгүй хуудсыг индексжүүлэхээс сэргийлж, нууц мэдээллийг хамгаалж, SEO оновчтой болгох үр ашиг, хайлтын үр дүнд сайтын харагдах байдлыг сайжруулж чадна. Robots.txt файлын тохиргоо нь удирдамжаар хийгддэг бөгөөд бид үүнийг цаашид авч үзэх болно.

Robots.txt доторх удирдамжийг тохируулах

Хэрэглэгчийн-Agent

Үндсэн удирдамжийг Хэрэглэгч-Агент гэж нэрлэдэг бөгөөд бид роботуудад зориулсан тусгай түлхүүр үгийг тохируулдаг. Энэ үгийг олж мэдсэний дараа робот дүрэм нь түүнд тусгайлан зориулагдсан гэдгийг ойлгодог.

Robots.txt файлд User-Agent ашиглах жишээг авч үзье.

User-Agent: *
Disallow: /private/

Энэ жишээ нь бүх хайлтын роботууд (" тэмдгээр төлөөлдөг" гэдгийг харуулж байна.*") дотор байрлах хуудсыг үл тоомсорлох ёстой /хувийн/ сан.

Тусгай хайлтын роботуудад заавар хэрхэн харагдахыг энд харуулав.

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Энэ тохиолдолд Googlebot хайлтын робот доторх хуудсыг үл тоомсорлох ёстой /админ/ лавлах, while Bingbot доторх хуудсыг үл тоомсорлох ёстой /хувийн/ сан.

хаах

хаах Хайлтын роботуудад вэб сайт дээр аль URL-уудыг алгасах эсвэл индексжүүлэхгүй байхыг хэлдэг. Хайлтын системээр индексжүүлсэн нууц мэдээлэл эсвэл чанар муутай контентын хуудсуудыг нуухыг хүсвэл энэ заавар хэрэг болно. Хэрэв robots.txt файлд оруулга байгаа бол Зөвшөөрөхгүй: /лавлах/, дараа нь роботууд заасан лавлахын агуулгад хандах эрхгүй болно. Жишээлбэл,

User-agent: *
Disallow: /admin/

Энэ утга нь үүнийг харуулж байна бүх роботууд -ээр эхэлсэн URL-г үл тоомсорлох хэрэгтэй /админ/. Сайтыг бүхэлд нь ямар ч робот индексжүүлэхийг хориглохын тулд үндсэн лавлахыг дүрмээр тохируулна уу:

User-agent: *
Disallow: /

зөвшөөрөх

"Зөвшөөрөх" утга нь "Зөвшөөрөх"-ийн эсрэг үйлчилнэ: robots.txt файлын бусад зааварт хандахыг хориглосон байсан ч хайлтын роботуудад тодорхой хуудас эсвэл лавлах руу хандахыг зөвшөөрдөг.

Жишээ авч үзье:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Энэ жишээнд роботууд руу нэвтрэхийг хориглоно гэж заасан /админ/ лавлахаас бусад нь /admin/login.html хуудас, индексжүүлэх, сканнердах боломжтой.

Robots.txt болон Сайтын газрын зураг

Sitemap нь хайлтын системээр индексжүүлж болох сайтын бүх хуудас, файлуудын URL-уудын жагсаалтыг агуулсан XML файл юм. Хайлтын робот robots.txt файл руу нэвтэрч, сайтын XML файлын холбоосыг харвал энэ файлыг ашиглан сайт дээрх бүх боломжтой URL болон нөөцийг олох боломжтой. Удирдамжийг дараах форматаар зааж өгсөн болно.

Sitemap: https://yoursite.com/filesitemap.xml

Энэ дүрмийг ихэвчлэн тодорхой Хэрэглэгч-Агенттай холбоогүй баримт бичгийн төгсгөлд байрлуулдаг бөгөөд бүх роботууд үүнийг үл харгалзан боловсруулдаг. Хэрэв сайтын эзэн sitemap.xml ашигладаггүй бол дүрмийг нэмэх шаардлагагүй.

Тохируулсан Robots.txt-ийн жишээнүүд

WordPress-д зориулсан Robots.txt-г тохируулж байна

Энэ хэсэгт бид WordPress-д зориулсан бэлэн тохиргоог авч үзэх болно. Бид нууц мэдээлэлд хандах хандалтыг хаах, үндсэн хуудас руу нэвтрэх боломжийг судлах болно.

Бэлэн шийдэл болгон та дараах кодыг ашиглаж болно.

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Хэдийгээр бүх удирдамжийг тайлбар дагалддаг ч дүгнэлтийг илүү гүнзгийрүүлье.

  1. Роботууд эмзэг файлууд болон лавлахуудыг индексжүүлэхгүй.
  2. Үүний зэрэгцээ роботууд сайтын үндсэн хуудсууд болон эх сурвалжид хандахыг зөвшөөрдөг.
  3. Агуулгын давхардлаас урьдчилан сэргийлэхийн тулд нийтлэлүүдийн хуучин хувилбаруудыг индексжүүлэх, параметржүүлсэн асуулгад хориг тавьсан.
  4. Сайжруулсан индексжүүлэх зорилгоор сайтын газрын зургийн байршлыг зааж өгсөн болно.

Тиймээс бид бэлэн тохиргооны ерөнхий жишээг авч үзсэн бөгөөд үүнд зарим мэдрэмтгий файлууд болон замууд нь индексжүүлэхээс нуугдаж байгаа боловч үндсэн сангууд нь хандах боломжтой байдаг.

Олон алдартай CMS эсвэл захиалгаар бичсэн сайтуудаас ялгаатай нь WordPress нь robots.txt файлыг үүсгэх, удирдахад туслах хэд хэдэн залгаасуудтай. Энэ зорилгоор түгээмэл шийдлүүдийн нэг юм Yoast SEO.

Үүнийг суулгахын тулд танд дараах зүйлс хэрэгтэй:

  1. WordPress админ самбар руу очно уу.
  2. "Plugins" хэсэгт "Шинэ нэмэх" гэснийг сонгоно уу.
  3. "Yoast SEO" залгаасыг олоод суулгана уу.
  4. Залгаасыг идэвхжүүлэх.

Robots.txt файлыг засварлахын тулд та дараах зүйлсийг хийх хэрэгтэй:

  1. Админ самбарын хажуугийн цэсний "SEO" хэсэгт очоод "Ерөнхий" хэсгийг сонгоно уу.
  2. "Хэрэгслүүд" таб руу очно уу.
  3. "Файл" дээр дарна уу. Энд та robots.txt гэх мэт янз бүрийн файлуудыг харах болно.
  4. Өөрийн шаардлагын дагуу шаардлагатай индексжүүлэх дүрмийг оруулна уу.
  5. Файлд өөрчлөлт оруулсны дараа "Robots.txt-д өөрчлөлтийг хадгалах" товчийг дарна уу.

WordPress-д зориулсан robots.txt файлын тохиргоо бүр өвөрмөц бөгөөд тухайн сайтын хэрэгцээ, онцлогоос хамаарна гэдгийг анхаарна уу. Бүх нөөцөд тохирох бүх нийтийн загвар байдаггүй. Гэсэн хэдий ч энэ жишээ болон залгаасуудыг ашиглах нь даалгаврыг ихээхэн хялбаршуулж чадна.

Robots.txt-ийн гараар тохируулах

Үүний нэгэн адил та сайтад бэлэн CMS байхгүй байсан ч файлын тохиргоогоо тохируулж болно. Хэрэглэгч мөн robots.txt файлыг сайтын үндсэн лавлах руу байршуулж, шаардлагатай дүрмийг зааж өгөх шаардлагатай. Энд байгаа бүх удирдамжийг харуулсан жишээнүүдийн нэг юм.

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Robots.txt файлыг хэрхэн шалгах вэ

Robots.txt файлд алдаа байгаа эсэхийг шалгахад туслах хэрэгсэл болгон онлайн үйлчилгээг ашиглахыг зөвлөж байна.

-ийн жишээг авч үзье Yandex вэбмастер үйлчилгээ. Файлыг серверт аль хэдийн байршуулсан бол шалгахын тулд холбогдох талбарт өөрийн сайтын холбоосыг оруулах шаардлагатай. Үүний дараа хэрэгсэл өөрөө файлын тохиргоог ачаалах болно. Тохиргоог гараар оруулах сонголт бас бий:

Robots.txt тохиргоо

Дараа нь та шалгалт өгөх хүсэлт гаргаж, үр дүнг хүлээх хэрэгтэй.

Robots.txt тохиргооны үр дүн

Өгөгдсөн жишээнд ямар ч алдаа байхгүй. Хэрэв байгаа бол үйлчилгээ нь асуудалтай газар, тэдгээрийг засах арга замыг харуулах болно.

Дүгнэлт

Дүгнэж хэлэхэд, бид robots.txt файл нь сайтын урсгалыг хянахад хэр чухал болохыг онцолсон. Хайлтын системүүд хуудсыг хэрхэн индексжүүлэхийг удирдахын тулд бид үүнийг хэрхэн зөв тохируулах талаар зөвлөгөө өгсөн. Үүнээс гадна бид энэ файлыг хэрхэн зөв ашиглах жишээг авч үзээд бүх тохиргоо зөв ажиллаж байгаа эсэхийг шалгах зааварчилгааг өгсөн.

❮ Өмнөх нийтлэл Линукс дээр вэб серверийг (Apache-PHP-MySQL/MariaDB) хэрхэн тохируулах вэ
Дараагийн нийтлэл ❯ SSH-ээр дамжуулан Линукс серверт хэрхэн холбогдох вэ

VPS-ийн талаар биднээс асуу

Бид таны асуултанд өдөр, шөнийн аль ч цагт хариулахад бэлэн байна.