Ma'lumotlar bazasi Profitserver xizmati bilan ishlash bo'yicha oddiy ko'rsatmalar

robots.txt


Ushbu maqolada biz robots.txt faylining veb-saytlardagi trafikni boshqarishdagi asosiy rolini ko'rib chiqamiz, uning mavjudligi zarurligini muhokama qilamiz va sahifalarni indekslashni samarali boshqarish uchun uni sozlash bo'yicha tavsiyalar beramiz. Bundan tashqari, biz robots.txt faylida ko'rsatmalardan to'g'ri foydalanish misollarini tahlil qilamiz va uning sozlamalari to'g'riligini tekshirish bo'yicha ko'rsatma beramiz.

Robots.txt nima uchun kerak

Robots.txt - bu sayt serverida uning ildiz katalogida joylashgan fayl. U qidiruv tizimi robotlariga resurs tarkibini qanday skanerlashi kerakligi haqida ma'lumot beradi. Ushbu fayldan to'g'ri foydalanish keraksiz sahifalarni indekslashni oldini olishga yordam beradi, maxfiy ma'lumotlarni himoya qiladi va SEO optimallashtirish samaradorligini va qidiruv natijalarida saytning ko'rinishini yaxshilashga yordam beradi. Robots.txt ning konfiguratsiyasi direktivlar orqali amalga oshiriladi, biz ularni keyinroq ko'rib chiqamiz.

Robots.txt da ko'rsatmalarni o'rnatish

Foydalanuvchi agenti

Asosiy direktiva User-Agent deb nomlanadi, biz robotlar uchun maxsus kalit so'zni o'rnatamiz. Ushbu so'zni aniqlagandan so'ng, robot qoida aynan shu uchun mo'ljallanganligini tushunadi.

Robots.txt faylida User-Agentdan foydalanish misolini ko'rib chiqing:

User-Agent: *
Disallow: /private/

Bu misol shuni ko'rsatadiki, barcha qidiruv robotlari (belgi bilan ifodalanadi "*") da joylashgan sahifalarga e'tibor bermaslik kerak /xususiy/ katalog.

Muayyan qidiruv robotlari uchun ko'rsatma quyidagicha ko'rinadi:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Bunday holda, Googlebot qidiruv roboti sahifalarni e'tiborsiz qoldirishi kerak /admin/ katalog, while Bingbot dagi sahifalarga e'tibor bermaslik kerak /xususiy/ katalog.

man etmoq

man etmoq qidiruv robotlariga veb-saytda qaysi URL-larni o'tkazib yuborish yoki indekslamaslik kerakligini aytadi. Ushbu ko'rsatma maxfiy ma'lumotlar yoki past sifatli kontent sahifalarini qidiruv tizimlari tomonidan indekslanishidan yashirishni xohlaganingizda foydalidir. Agar robots.txt faylida yozuv mavjud bo'lsa Ruxsat bermaslik: /kataloglar/, keyin robotlar ko'rsatilgan katalog tarkibiga kirish huquqiga ega bo'lmaydi. Masalan,

User-agent: *
Disallow: /admin/

Bu qiymat shuni ko'rsatadi barcha robotlar bilan boshlangan URL manzillarni e'tiborsiz qoldirishi kerak /admin/. Butun saytni har qanday robotlar tomonidan indekslanishini bloklash uchun qoida sifatida ildiz katalogini o'rnating:

User-agent: *
Disallow: /

ruxsat berish

"Ruxsat berish" qiymati "Ruxsat bermaslik" ga qarama-qarshi ishlaydi: robots.txt faylidagi boshqa ko'rsatmalar unga kirishni taqiqlagan bo'lsa ham, qidiruv robotlariga ma'lum bir sahifa yoki katalogga kirishga ruxsat beradi.

Bir misolni ko'rib chiqing:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Ushbu misolda robotlarga kirishga ruxsat berilmasligi ko'rsatilgan /admin/ katalogdan tashqari /admin/login.html sahifa, indekslash va skanerlash uchun mavjud.

Robots.txt va sayt xaritasi

Sayt xaritasi - qidiruv tizimlari tomonidan indekslanishi mumkin bo'lgan saytdagi barcha sahifalar va fayllarning URL manzillari ro'yxatini o'z ichiga olgan XML fayl. Qidiruv roboti robots.txt fayliga kirsa va sayt xaritasi XML fayliga havolani ko'rsa, u ushbu fayldan saytdagi barcha mavjud URL manzillar va resurslarni topish uchun foydalanishi mumkin. Direktiv quyidagi formatda ko'rsatilgan:

Sitemap: https://yoursite.com/filesitemap.xml

Ushbu qoida odatda hujjatning oxirida ma'lum bir foydalanuvchi-agentga bog'lanmasdan joylashtiriladi va istisnosiz barcha robotlar tomonidan qayta ishlanadi. Agar sayt egasi sitemap.xml dan foydalanmasa, qoidani qo'shish shart emas.

Konfiguratsiya qilingan Robots.txt ga misollar

WordPress uchun Robots.txt faylini sozlash

Ushbu bo'limda biz WordPress uchun tayyor konfiguratsiyani ko'rib chiqamiz. Biz maxfiy ma'lumotlarga kirishni blokirovka qilishni va asosiy sahifalarga kirishga ruxsat berishni o'rganamiz.

Tayyor yechim sifatida siz quyidagi koddan foydalanishingiz mumkin:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Garchi barcha ko'rsatmalar sharhlar bilan birga bo'lsa-da, keling, xulosalar bilan chuqurroq tanishaylik.

  1. Robotlar sezgir fayllar va kataloglarni indekslamaydi.
  2. Shu bilan birga, robotlarga saytning asosiy sahifalari va resurslariga kirishga ruxsat beriladi.
  3. Kontent takrorlanishining oldini olish uchun postlarning eski versiyalari va parametrlangan so'rovlarni indekslash taqiqlangan.
  4. Sayt xaritasining joylashuvi indekslashni yaxshilash uchun ko'rsatilgan.

Shunday qilib, biz tayyor konfiguratsiyaning umumiy misolini ko'rib chiqdik, unda ba'zi nozik fayllar va yo'llar indekslashdan yashiringan, ammo asosiy kataloglarga kirish mumkin.

Ko'pgina mashhur CMS yoki maxsus yozilgan saytlardan farqli o'laroq, WordPress robots.txt faylini yaratish va boshqarishni osonlashtiradigan bir nechta plaginlarga ega. Ushbu maqsadlar uchun mashhur echimlardan biri Yoast SEO.

Uni o'rnatish uchun sizga kerak:

  1. WordPress boshqaruv paneliga o'ting.
  2. "Plaginlar" bo'limida "Yangi qo'shish" -ni tanlang.
  3. "Yoast SEO" plaginini toping va uni o'rnating.
  4. Plaginni yoqing.

robots.txt faylini tahrirlash uchun sizga kerak:

  1. Administrator panelining yon menyusidagi "SEO" bo'limiga o'ting va "Umumiy" ni tanlang.
  2. "Asboblar" yorlig'iga o'ting.
  3. "Fayllar" ni bosing. Bu yerda siz turli xil fayllarni, jumladan robots.txt faylini ko'rasiz.
  4. Sizning talablaringiz bo'yicha kerakli indekslash qoidalarini kiriting.
  5. Faylga o'zgartirishlar kiritilgandan so'ng, "O'zgarishlarni robots.txt-ga saqlash" tugmasini bosing.

WordPress uchun har bir robots.txt fayl sozlamalari noyob va saytning o'ziga xos ehtiyojlari va xususiyatlariga bog'liqligini unutmang. Istisnosiz barcha manbalarga mos keladigan universal shablon yo'q. Biroq, bu misol va plaginlardan foydalanish vazifani sezilarli darajada soddalashtirishi mumkin.

Robots.txt faylini qo'lda sozlash

Xuddi shunday, siz sayt uchun tayyor CMS bo'lmagan taqdirda ham fayl konfiguratsiyasini o'rnatishingiz mumkin. Shuningdek, foydalanuvchi robots.txt faylini saytning ildiz katalogiga yuklashi va kerakli qoidalarni belgilashi kerak. Mana, barcha mavjud ko'rsatmalar ko'rsatilgan misollardan biri:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Robots.txt faylini qanday tekshirish mumkin

Robots.txt faylida xatolar mavjudligini tekshirishda yordamchi vosita sifatida onlayn xizmatlardan foydalanish tavsiya etiladi.

ning misolini ko'rib chiqing Yandex Webmaster xizmat. Tekshirish uchun, agar fayl allaqachon serverga yuklangan bo'lsa, tegishli maydonga saytingizga havolani kiritishingiz kerak. Shundan so'ng, asbobning o'zi fayl konfiguratsiyasini yuklaydi. Konfiguratsiyani qo'lda kiritish imkoniyati ham mavjud:

Robots.txt konfiguratsiyasi

Keyin tekshirishni talab qilishingiz va natijalarni kutishingiz kerak:

Robots.txt sozlamalari natijasi

Berilgan misolda hech qanday xatolik yo'q. Agar mavjud bo'lsa, xizmat muammoli joylarni va ularni tuzatish usullarini ko'rsatadi.

Xulosa

Xulosa qilib aytganda, biz robots.txt fayli saytdagi trafikni boshqarish uchun qanchalik muhimligini ta'kidladik. Qidiruv mexanizmlari sahifalarni indekslashni boshqarish uchun uni qanday qilib to'g'ri sozlash bo'yicha maslahat berdik. Bunga qo'shimcha ravishda, biz ushbu fayldan qanday qilib to'g'ri foydalanishga oid misollarni ham ko'rib chiqdik va barcha sozlamalar to'g'ri ishlayotganligini tekshirish bo'yicha ko'rsatmalar berdik.

❮ Oldingi maqola SSH orqali Linux serveriga qanday ulanish mumkin
Keyingi maqola ❯ Linuxda veb-serverni (Apache-PHP-MySQL/MariaDB) qanday sozlash mumkin

Bizdan VPS haqida so'rang

Biz har doim kunduzi yoki tunning istalgan vaqtida savollaringizga javob berishga tayyormiz.