Во оваа статија, ќе ја испитаме клучната улога на датотеката robots.txt во управувањето со сообраќајот на веб-локациите, ќе разговараме за неопходноста од нејзиното присуство и ќе дадеме препораки за нејзино поставување за ефективно управување со индексирање на страници. Дополнително, ќе анализираме примери за правилно користење на директивите во датотеката robots.txt и ќе обезбедиме водич за тоа како да ја проверите исправноста на нејзините поставки.
Зошто е потребен Robots.txt
Robots.txt е датотека лоцирана на серверот на страницата во нејзиниот root директориум. Ги информира роботите на пребарувачите како треба да ја скенираат содржината на ресурсот. Правилната употреба на оваа датотека помага да се спречи индексирање на несакани страници, ги штити доверливите податоци и може да ја подобри ефикасноста на оптимизацијата на SEO и видливоста на страницата во резултатите од пребарувањето. Конфигурацијата на robots.txt се врши преку директиви, кои ќе ги разгледаме понатаму.
Поставување директиви во Robots.txt
Корисник агент
Примарната директива е позната како кориснички агент, каде што поставуваме посебен клучен збор за роботите. По откривањето на овој збор, роботот разбира дека правилото е наменето специјално за него.
Размислете за пример за користење на кориснички агент во датотеката robots.txt:
User-Agent: *
Disallow: /private/
Овој пример покажува дека сите роботи за пребарување (претставени со симболот "*") треба да ги игнорира страниците лоцирани во /приватно/ директориум.
Еве како изгледа инструкцијата за специфични роботи за пребарување:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Во овој случај, на googlebot роботот за пребарување треба да ги игнорира страниците во /admin/ директориум, додека Бингбот треба да ги игнорира страниците во /приватно/ директориум.
Не дозволувај
Не дозволувај им кажува на роботите за пребарување кои URL-адреси да ги прескокнат или да не индексираат на веб-локацијата. Оваа директива е корисна кога сакате да ги скриете чувствителните податоци или страниците со неквалитетна содржина од тоа да не бидат индексирани од пребарувачите. Ако датотеката robots.txt го содржи записот Не дозволи: /директориум/, тогаш на роботите ќе им биде забранет пристапот до содржината на наведениот директориум. На пример,
User-agent: *
Disallow: /admin/
Оваа вредност укажува на тоа сите роботи треба да ги игнорира URL-адресите почнувајќи од /admin/. За да спречите индексирање на целата страница од кој било робот, поставете го root директориумот како правило:
User-agent: *
Disallow: /
Дозволете
Вредноста „Дозволи“ делува спротивно на „Не дозволувај“: им дозволува на роботите за пребарување пристап до одредена страница или директориум, дури и ако другите директиви во датотеката robots.txt забрануваат пристап до неа.
Размислете за пример:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Во овој пример, наведено е дека на роботите не им е дозволен пристап до /admin/ директориум, освен за /admin/login.html страница, која е достапна за индексирање и скенирање.
Robots.txt и Мапа на сајтот
Мапа на сајтот е XML-датотека која содржи список на URL-адреси на сите страници и датотеки на страницата што може да се индексираат од пребарувачите. Кога роботот за пребарување пристапува до датотеката robots.txt и гледа врска до XML-датотека од картата на страницата, може да ја користи оваа датотека за да ги најде сите достапни URL-адреси и ресурси на страницата. Директивата е наведена во формат:
Sitemap: https://yoursite.com/filesitemap.xml
Ова правило обично се става на крајот од документот без да биде поврзано со одреден кориснички агент и го обработуваат сите роботи без исклучок. Ако сопственикот на страницата не користи sitemap.xml, не е неопходно да се додаде правилото.
Примери на конфигурирани Robots.txt
Поставување Robots.txt за WordPress
Во овој дел, ќе разгледаме готова конфигурација за WordPress. Ќе го истражиме блокирањето на пристапот до доверливите податоци и дозволувањето пристап до главните страници.
Како подготвено решение, можете да го користите следниов код:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Иако сите директиви се придружени со коментари, да навлеземе подлабоко во заклучоците.
- Роботите нема да индексираат чувствителни датотеки и директориуми.
- Во исто време, на роботите им е дозволен пристап до главните страници и ресурси на страницата.
- забраната е поставена за индексирање на стари верзии на објави и параметризирани барања за да се спречи дуплирање на содржината.
- Локацијата на картата на сајтот е означена за подобрено индексирање.
Така, разгледавме општ пример за подготвена конфигурација, во која некои чувствителни датотеки и патеки се скриени од индексирање, но главните директориуми се достапни.
За разлика од многу популарни CMS или сопствени напишани сајтови, WordPress има неколку додатоци кои го олеснуваат создавањето и управувањето со датотеката robots.txt. Едно од популарните решенија за оваа намена е Yoast оптимизација.
За да го инсталирате, треба:
- Одете во административниот панел на WordPress.
- Во делот „Приклучоци“, изберете „Додај ново“.
- Најдете го приклучокот „Yoast SEO“ и инсталирајте го.
- Активирај го приклучокот.
За да ја уредите датотеката robots.txt, треба:
- Одете во делот „SEO“ во страничното мени на административниот панел и изберете „Општо“.
- Одете во табулаторот "Алатки".
- Кликнете на "Датотеки". Овде ќе видите различни датотеки, вклучувајќи го и robots.txt.
- Внесете ги потребните правила за индексирање според вашите барања.
- Откако ќе направите промени во датотеката, кликнете на копчето „Зачувај промени во robots.txt“.
Имајте предвид дека секоја поставка за датотека robots.txt за WordPress е единствена и зависи од специфичните потреби и карактеристики на страницата. Не постои универзален шаблон што би одговарал на сите ресурси без исклучок. Сепак, овој пример и употребата на приклучоци може значително да ја поедностават задачата.
Рачно поставување на Robots.txt
Слично на тоа, можете да ја поставите вашата конфигурација на датотеката дури и во отсуство на подготвен CMS за страницата. Корисникот исто така треба да ја постави датотеката robots.txt во root директориумот на страницата и да ги наведе потребните правила. Еве еден од примерите, во кој се наведени сите достапни директиви:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Како да ја проверите датотеката Robots.txt
Како помошна алатка при проверка на датотеката robots.txt за грешки, се препорачува да се користат онлајн услуги.
Размислете за примерот на Веб-администратор на Yandex услуга. За да проверите, треба да вметнете врска до вашата страница во соодветното поле ако датотеката е веќе поставена на серверот. После тоа, самата алатка ќе ја вчита конфигурацијата на датотеката. Исто така, постои опција за рачно внесување на конфигурацијата:
Следно, треба да побарате проверка и да ги чекате резултатите:
Во дадениот пример, нема грешки. Доколку ги има, услугата ќе ги прикаже проблематичните области и начините за нивно поправање.
Заклучок
Накратко, нагласивме колку е важна датотеката robots.txt за контрола на сообраќајот на страницата. Дадовме совети за тоа како правилно да го поставите за да управувате со тоа како пребарувачите индексираат страници. Покрај ова, разгледавме и примери за правилно користење на оваа датотека и дадовме упатства како да провериме дали сите поставки работат правилно.