შემეცნებითი მარტივი ინსტრუქციები Profitserver სერვისთან მუშაობისთვის

robots.txt


ამ სტატიაში ჩვენ განვიხილავთ robots.txt ფაილის მთავარ როლს ვებსაიტებზე ტრაფიკის მართვაში, განვიხილავთ მისი არსებობის აუცილებლობას და მივცემთ რეკომენდაციებს მისი დაყენებისთვის გვერდის ინდექსირების ეფექტური მართვისთვის. გარდა ამისა, ჩვენ გავაანალიზებთ robots.txt ფაილში სწორი დირექტივების გამოყენების მაგალითებს და მოგცემთ სახელმძღვანელოს, თუ როგორ უნდა შეამოწმოთ მისი პარამეტრების სისწორე.

რატომ არის საჭირო Robots.txt

Robots.txt არის ფაილი, რომელიც მდებარეობს საიტის სერვერზე მის root დირექტორიაში. ის აცნობებს საძიებო სისტემის რობოტებს, თუ როგორ უნდა დაასკანირონ რესურსის შინაარსი. ამ ფაილის სწორად გამოყენება ხელს უშლის არასასურველი გვერდების ინდექსირებას, იცავს კონფიდენციალურ მონაცემებს და შეუძლია გააუმჯობესოს SEO ოპტიმიზაციის ეფექტურობა და საიტის ხილვადობა ძიების შედეგებში. robots.txt-ის კონფიგურაცია ხდება დირექტივების საშუალებით, რომლებსაც შემდგომში განვიხილავთ.

დირექტივების დაყენება Robots.txt-ში

მომხმარებლის აგენტი

პირველადი დირექტივა ცნობილია როგორც User-Agent, სადაც ჩვენ ვაყენებთ სპეციალურ საკვანძო სიტყვას რობოტებისთვის. ამ სიტყვის აღმოჩენისთანავე რობოტს ესმის, რომ წესი სპეციალურად მისთვის არის განკუთვნილი.

განვიხილოთ User-Agent-ის გამოყენების მაგალითი robots.txt ფაილში:

User-Agent: *
Disallow: /private/

ეს მაგალითი მიუთითებს, რომ ყველა საძიებო რობოტი (გამოსახულია სიმბოლოთი "*") უნდა უგულებელყოს გვერდები, რომლებიც მდებარეობს /პირადი/ დირექტორია.

აი, როგორ გამოიყურება ინსტრუქცია კონკრეტული საძიებო რობოტებისთვის:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

ამ შემთხვევაში, googlebot საძიებო რობოტმა უნდა უგულებელყოს გვერდები /ადმინ/ დირექტორია, ხოლო ბინგბოტი უნდა უგულებელყოს გვერდები /პირადი/ დირექტორია.

აკრძალვა

აკრძალვა ეუბნება საძიებო რობოტებს, რომელი URL-ები გამოტოვონ ან არ განათავსონ ვებსაიტზე. ეს დირექტივა სასარგებლოა, როდესაც გსურთ დამალოთ მგრძნობიარე მონაცემები ან დაბალი ხარისხის შინაარსის გვერდები საძიებო სისტემების მიერ ინდექსაციისგან. თუ robots.txt ფაილი შეიცავს ჩანაწერს აკრძალვა: /directories/, მაშინ რობოტებს ეკრძალებათ წვდომა მითითებული დირექტორიაში. მაგალითად,

User-agent: *
Disallow: /admin/

ეს მნიშვნელობა იმაზე მიუთითებს ყველა რობოტი უნდა უგულებელყოს URL-ები დაწყებული /ადმინ/. იმისათვის, რომ დაბლოკოთ მთელი საიტი ნებისმიერი რობოტის მიერ ინდექსირებული, დააყენეთ root დირექტორია, როგორც წესი:

User-agent: *
Disallow: /

ნება

"Allow" მნიშვნელობა მოქმედებს "Disallow"-ის საპირისპიროდ: ის საშუალებას აძლევს საძიებო რობოტებს წვდომას კონკრეტულ გვერდზე ან დირექტორიაში, მაშინაც კი, თუ robots.txt ფაილში სხვა დირექტივები კრძალავს მასზე წვდომას.

განვიხილოთ მაგალითი:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

ამ მაგალითში მითითებულია, რომ რობოტებს არ აქვთ წვდომა /ადმინ/ დირექტორია, გარდა /admin/login.html გვერდი, რომელიც ხელმისაწვდომია ინდექსაციისა და სკანირებისთვის.

Robots.txt და საიტის რუკა

საიტის რუკა არის XML ფაილი, რომელიც შეიცავს საიტის ყველა გვერდისა და ფაილის URL-ების ჩამონათვალს, რომელთა ინდექსირება შესაძლებელია საძიებო სისტემების მიერ. როდესაც საძიებო რობოტი წვდება robots.txt ფაილს და ხედავს საიტის რუქის XML ფაილის ბმულს, მას შეუძლია გამოიყენოს ეს ფაილი საიტზე ყველა ხელმისაწვდომი URL-ისა და რესურსის მოსაძებნად. დირექტივა მითითებულია ფორმატში:

Sitemap: https://yoursite.com/filesitemap.xml

ეს წესი, როგორც წესი, მოთავსებულია დოკუმენტის ბოლოს კონკრეტულ მომხმარებლის აგენტთან მიბმულობის გარეშე და მუშავდება ყველა რობოტის მიერ გამონაკლისის გარეშე. თუ საიტის მფლობელი არ იყენებს sitemap.xml-ს, წესის დამატება საჭირო არ არის.

კონფიგურირებული Robots.txt-ის მაგალითები

WordPress-ისთვის Robots.txt-ის დაყენება

ამ განყოფილებაში განვიხილავთ WordPress-ის მზა კონფიგურაციას. ჩვენ შევისწავლით კონფიდენციალურ მონაცემებზე წვდომის დაბლოკვას და მთავარ გვერდებზე წვდომის დაშვებას.

როგორც მზა გამოსავალი, შეგიძლიათ გამოიყენოთ შემდეგი კოდი:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

მიუხედავად იმისა, რომ ყველა დირექტივას ახლავს კომენტარები, მოდით ჩავუღრმავდეთ დასკვნებს.

  1. რობოტები არ ინდექსირებენ მგრძნობიარე ფაილებს და დირექტორიას.
  2. ამავდროულად, რობოტებს ეძლევათ წვდომა საიტის მთავარ გვერდებსა და რესურსებზე.
  3. აკრძალულია პოსტების ძველი ვერსიების ინდექსირება და პარამეტრიზებული მოთხოვნები, რათა თავიდან იქნას აცილებული შინაარსის დუბლირება.
  4. საიტის რუქის მდებარეობა მითითებულია გაუმჯობესებული ინდექსაციისთვის.

ამრიგად, ჩვენ განვიხილეთ მზა კონფიგურაციის ზოგადი მაგალითი, რომელშიც ზოგიერთი მგრძნობიარე ფაილი და ბილიკი იმალება ინდექსაციისგან, მაგრამ მთავარი დირექტორიები ხელმისაწვდომია.

ბევრი პოპულარული CMS ან პერსონალურად დაწერილი საიტისგან განსხვავებით, WordPress-ს აქვს რამდენიმე დანამატი, რომელიც ხელს უწყობს robots.txt ფაილის შექმნას და მართვას. ამ მიზნით ერთ-ერთი პოპულარული გამოსავალია Yoast SEO.

მისი ინსტალაციისთვის საჭიროა:

  1. გადადით WordPress-ის ადმინისტრაციულ პანელზე.
  2. "Plugins" განყოფილებაში აირჩიეთ "ახლის დამატება".
  3. იპოვეთ "Yoast SEO" მოდული და დააინსტალირეთ.
  4. ჩართე მოდული.

robots.txt ფაილის რედაქტირებისთვის საჭიროა:

  1. გადადით "SEO" განყოფილებაში ადმინისტრაციული პანელის გვერდით მენიუში და აირჩიეთ "ზოგადი".
  2. გადადით "ინსტრუმენტების" ჩანართზე.
  3. დააჭირეთ "ფაილებს". აქ ნახავთ სხვადასხვა ფაილებს, მათ შორის robots.txt.
  4. შეიყვანეთ საჭირო ინდექსირების წესები თქვენი მოთხოვნების შესაბამისად.
  5. ფაილში ცვლილებების შეტანის შემდეგ დააჭირეთ ღილაკს "Robots.txt ცვლილებების შენახვა".

გაითვალისწინეთ, რომ WordPress-ისთვის robots.txt ფაილის თითოეული პარამეტრი უნიკალურია და დამოკიდებულია საიტის კონკრეტულ საჭიროებებზე და მახასიათებლებზე. არ არსებობს უნივერსალური შაბლონი, რომელიც მოერგება ყველა რესურსს გამონაკლისის გარეშე. თუმცა, ამ მაგალითმა და დანამატების გამოყენებამ შეიძლება მნიშვნელოვნად გაამარტივოს დავალება.

Robots.txt-ის ხელით დაყენება

ანალოგიურად, თქვენ შეგიძლიათ დააყენოთ თქვენი ფაილის კონფიგურაცია საიტისთვის მზა CMS-ის არარსებობის შემთხვევაშიც კი. მომხმარებელმა ასევე უნდა ატვირთოს robots.txt ფაილი საიტის root დირექტორიაში და მიუთითოს საჭირო წესები. აქ არის ერთ-ერთი მაგალითი, რომელშიც მითითებულია ყველა არსებული დირექტივა:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

როგორ შევამოწმოთ Robots.txt ფაილი

როგორც დამხმარე ინსტრუმენტი robots.txt ფაილის შეცდომებზე შემოწმებისას, რეკომენდებულია ონლაინ სერვისების გამოყენება.

განვიხილოთ მაგალითი Yandex Webmaster სერვისი. შესამოწმებლად, თქვენ უნდა ჩადოთ ბმული თქვენს საიტზე შესაბამის ველში, თუ ფაილი უკვე ატვირთულია სერვერზე. ამის შემდეგ, ინსტრუმენტი თავად ჩატვირთავს ფაილის კონფიგურაციას. ასევე არის კონფიგურაციის ხელით შეყვანის ვარიანტი:

Robots.txt კონფიგურაცია

შემდეგი, თქვენ უნდა მოითხოვოთ შემოწმება და დაელოდოთ შედეგებს:

Robots.txt დაყენების შედეგი

მოცემულ მაგალითში შეცდომები არ არის. ასეთის არსებობის შემთხვევაში, სერვისი აჩვენებს პრობლემურ სფეროებს და მათი გამოსწორების გზებს.

დასკვნა

მოკლედ, ჩვენ ხაზი გავუსვით, თუ რამდენად მნიშვნელოვანია robots.txt ფაილი საიტზე ტრაფიკის გასაკონტროლებლად. ჩვენ მივეცით რჩევები იმის შესახებ, თუ როგორ სწორად დააყენოთ ის, რომ მართოთ საძიებო სისტემების გვერდების ინდექსირება. გარდა ამისა, ჩვენ ასევე გადავხედეთ ამ ფაილის სწორად გამოყენების მაგალითებს და მივეცით ინსტრუქციები, თუ როგორ უნდა შეამოწმოთ, რომ ყველა პარამეტრი მუშაობს სწორად.

❮ წინა სტატია როგორ დავაკონფიგურიროთ ვებ სერვერი (Apache-PHP-MySQL/MariaDB) Linux-ზე
შემდეგი სტატია ❯ როგორ დავუკავშირდეთ Linux სერვერს SSH-ის საშუალებით

გვკითხეთ VPS-ის შესახებ

ჩვენ ყოველთვის მზად ვართ ვუპასუხოთ თქვენს შეკითხვებს დღისა და ღამის ნებისმიერ დროს.