База Едноставни упатства за работа со услугата Profitserver

robots.txt


Во оваа статија, ќе ја испитаме клучната улога на датотеката robots.txt во управувањето со сообраќајот на веб-локациите, ќе разговараме за неопходноста од нејзиното присуство и ќе дадеме препораки за нејзино поставување за ефективно управување со индексирање на страници. Дополнително, ќе анализираме примери за правилно користење на директивите во датотеката robots.txt и ќе обезбедиме водич за тоа како да ја проверите исправноста на нејзините поставки.

Зошто е потребен Robots.txt

Robots.txt е датотека лоцирана на серверот на страницата во нејзиниот root директориум. Ги информира роботите на пребарувачите како треба да ја скенираат содржината на ресурсот. Правилната употреба на оваа датотека помага да се спречи индексирање на несакани страници, ги штити доверливите податоци и може да ја подобри ефикасноста на оптимизацијата на SEO и видливоста на страницата во резултатите од пребарувањето. Конфигурацијата на robots.txt се врши преку директиви, кои ќе ги разгледаме понатаму.

Поставување директиви во Robots.txt

Корисник агент

Примарната директива е позната како кориснички агент, каде што поставуваме посебен клучен збор за роботите. По откривањето на овој збор, роботот разбира дека правилото е наменето специјално за него.

Размислете за пример за користење на кориснички агент во датотеката robots.txt:

User-Agent: *
Disallow: /private/

Овој пример покажува дека сите роботи за пребарување (претставени со симболот "*") треба да ги игнорира страниците лоцирани во /приватно/ директориум.

Еве како изгледа инструкцијата за специфични роботи за пребарување:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Во овој случај, на googlebot роботот за пребарување треба да ги игнорира страниците во /admin/ директориум, додека Бингбот треба да ги игнорира страниците во /приватно/ директориум.

Не дозволувај

Не дозволувај им кажува на роботите за пребарување кои URL-адреси да ги прескокнат или да не индексираат на веб-локацијата. Оваа директива е корисна кога сакате да ги скриете чувствителните податоци или страниците со неквалитетна содржина од тоа да не бидат индексирани од пребарувачите. Ако датотеката robots.txt го содржи записот Не дозволи: /директориум/, тогаш на роботите ќе им биде забранет пристапот до содржината на наведениот директориум. На пример,

User-agent: *
Disallow: /admin/

Оваа вредност укажува на тоа сите роботи треба да ги игнорира URL-адресите почнувајќи од /admin/. За да спречите индексирање на целата страница од кој било робот, поставете го root директориумот како правило:

User-agent: *
Disallow: /

Дозволете

Вредноста „Дозволи“ делува спротивно на „Не дозволувај“: им дозволува на роботите за пребарување пристап до одредена страница или директориум, дури и ако другите директиви во датотеката robots.txt забрануваат пристап до неа.

Размислете за пример:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Во овој пример, наведено е дека на роботите не им е дозволен пристап до /admin/ директориум, освен за /admin/login.html страница, која е достапна за индексирање и скенирање.

Robots.txt и Мапа на сајтот

Мапа на сајтот е XML-датотека која содржи список на URL-адреси на сите страници и датотеки на страницата што може да се индексираат од пребарувачите. Кога роботот за пребарување пристапува до датотеката robots.txt и гледа врска до XML-датотека од картата на страницата, може да ја користи оваа датотека за да ги најде сите достапни URL-адреси и ресурси на страницата. Директивата е наведена во формат:

Sitemap: https://yoursite.com/filesitemap.xml

Ова правило обично се става на крајот од документот без да биде поврзано со одреден кориснички агент и го обработуваат сите роботи без исклучок. Ако сопственикот на страницата не користи sitemap.xml, не е неопходно да се додаде правилото.

Примери на конфигурирани Robots.txt

Поставување Robots.txt за WordPress

Во овој дел, ќе разгледаме готова конфигурација за WordPress. Ќе го истражиме блокирањето на пристапот до доверливите податоци и дозволувањето пристап до главните страници.

Како подготвено решение, можете да го користите следниов код:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Иако сите директиви се придружени со коментари, да навлеземе подлабоко во заклучоците.

  1. Роботите нема да индексираат чувствителни датотеки и директориуми.
  2. Во исто време, на роботите им е дозволен пристап до главните страници и ресурси на страницата.
  3. забраната е поставена за индексирање на стари верзии на објави и параметризирани барања за да се спречи дуплирање на содржината.
  4. Локацијата на картата на сајтот е означена за подобрено индексирање.

Така, разгледавме општ пример за подготвена конфигурација, во која некои чувствителни датотеки и патеки се скриени од индексирање, но главните директориуми се достапни.

За разлика од многу популарни CMS или сопствени напишани сајтови, WordPress има неколку додатоци кои го олеснуваат создавањето и управувањето со датотеката robots.txt. Едно од популарните решенија за оваа намена е Yoast оптимизација.

За да го инсталирате, треба:

  1. Одете во административниот панел на WordPress.
  2. Во делот „Приклучоци“, изберете „Додај ново“.
  3. Најдете го приклучокот „Yoast SEO“ и инсталирајте го.
  4. Активирај го приклучокот.

За да ја уредите датотеката robots.txt, треба:

  1. Одете во делот „SEO“ во страничното мени на административниот панел и изберете „Општо“.
  2. Одете во табулаторот "Алатки".
  3. Кликнете на "Датотеки". Овде ќе видите различни датотеки, вклучувајќи го и robots.txt.
  4. Внесете ги потребните правила за индексирање според вашите барања.
  5. Откако ќе направите промени во датотеката, кликнете на копчето „Зачувај промени во robots.txt“.

Имајте предвид дека секоја поставка за датотека robots.txt за WordPress е единствена и зависи од специфичните потреби и карактеристики на страницата. Не постои универзален шаблон што би одговарал на сите ресурси без исклучок. Сепак, овој пример и употребата на приклучоци може значително да ја поедностават задачата.

Рачно поставување на Robots.txt

Слично на тоа, можете да ја поставите вашата конфигурација на датотеката дури и во отсуство на подготвен CMS за страницата. Корисникот исто така треба да ја постави датотеката robots.txt во root директориумот на страницата и да ги наведе потребните правила. Еве еден од примерите, во кој се наведени сите достапни директиви:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Како да ја проверите датотеката Robots.txt

Како помошна алатка при проверка на датотеката robots.txt за грешки, се препорачува да се користат онлајн услуги.

Размислете за примерот на Веб-администратор на Yandex услуга. За да проверите, треба да вметнете врска до вашата страница во соодветното поле ако датотеката е веќе поставена на серверот. После тоа, самата алатка ќе ја вчита конфигурацијата на датотеката. Исто така, постои опција за рачно внесување на конфигурацијата:

Конфигурација на Robots.txt

Следно, треба да побарате проверка и да ги чекате резултатите:

Резултат на поставување на Robots.txt

Во дадениот пример, нема грешки. Доколку ги има, услугата ќе ги прикаже проблематичните области и начините за нивно поправање.

Заклучок

Накратко, нагласивме колку е важна датотеката robots.txt за контрола на сообраќајот на страницата. Дадовме совети за тоа како правилно да го поставите за да управувате со тоа како пребарувачите индексираат страници. Покрај ова, разгледавме и примери за правилно користење на оваа датотека и дадовме упатства како да провериме дали сите поставки работат правилно.

❮ Претходна статија Како да конфигурирате веб-сервер (Apache-PHP-MySQL/MariaDB) на Linux
Следна статија ❯ Како да се поврзете со сервер Линукс преку SSH

Прашајте не за VPS

Секогаш сме подготвени да одговориме на вашите прашања во секое време од денот или ноќта.