Bibliotēka Vienkāršas instrukcijas darbam ar Profitserver pakalpojumu

robots.txt


Šajā rakstā mēs apskatīsim faila robots.txt galveno lomu vietņu datplūsmas pārvaldībā, apspriedīsim tā klātbūtnes nepieciešamību un sniegsim ieteikumus, kā to iestatīt efektīvai lapu indeksēšanas pārvaldībai. Turklāt mēs analizēsim pareizu direktīvu lietojuma piemērus failā robots.txt un sniegsim ceļvedi, kā pārbaudīt tā iestatījumu pareizību.

Kāpēc ir nepieciešams fails Robots.txt

Robots.txt ir fails, kas atrodas vietnes servera saknes direktorijā. Tas informē meklētājprogrammu robotus, kā viņiem vajadzētu skenēt resursa saturu. Pareiza šī faila izmantošana palīdz novērst nevēlamu lapu indeksēšanu, aizsargā konfidenciālus datus un var uzlabot SEO optimizācijas efektivitāti un vietnes redzamību meklēšanas rezultātos. Faila robots.txt konfigurēšana tiek veikta, izmantojot direktīvas, kuras mēs aplūkosim tālāk.

Direktīvu iestatīšana failā Robots.txt

User-Agent

Primārā direktīva ir pazīstama kā User-Agent, kurā mēs iestatām īpašu atslēgvārdu robotiem. Atklājot šo vārdu, robots saprot, ka noteikums ir paredzēts tieši tam.

Apsveriet lietotāja aģenta izmantošanas piemēru failā robots.txt:

User-Agent: *
Disallow: /private/

Šis piemērs norāda, ka visi meklēšanas roboti (apzīmēti ar simbolu "*") vajadzētu ignorēt lapas, kas atrodas /privāts/ katalogs.

Lūk, kā instrukcija izskatās konkrētiem meklēšanas robotiem:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Šajā gadījumā, Googlebot meklēšanas robotam vajadzētu ignorēt lapas sadaļā /admin/ direktorijs, kamēr Bingbot vajadzētu ignorēt lapas sadaļā /privāts/ katalogs.

neatļaut

neatļaut norāda meklēšanas robotiem, kurus vietrāžus URL izlaist vai neindeksēt vietnē. Šī direktīva ir noderīga, ja vēlaties paslēpt sensitīvus datus vai zemas kvalitātes satura lapas, lai meklētājprogrammas netiktu indeksētas. Ja fails robots.txt satur ierakstu Neatļaut: /direktorijas/, tad robotiem tiks liegta piekļuve norādītā direktorija saturam. Piemēram,

User-agent: *
Disallow: /admin/

Šī vērtība norāda uz to visi roboti vajadzētu ignorēt URL, kas sākas ar /admin/. Lai neļautu robotiem indeksēt visu vietni, iestatiet saknes direktoriju kā noteikumu:

User-agent: *
Disallow: /

Atļaut

Vērtība “Allow” darbojas pretēji “Disallow”: tā ļauj meklēšanas robotiem piekļūt noteiktai lapai vai direktorijam, pat ja citas direktīvas failā robots.txt aizliedz piekļuvi tai.

Apsveriet piemēru:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Šajā piemērā ir norādīts, ka robotiem nav atļauts piekļūt /admin/ direktoriju, izņemot /admin/login.html lapa, kas ir pieejama indeksēšanai un skenēšanai.

Robots.txt un vietnes karte

Vietnes karte ir XML fails, kurā ir visu vietnes lapu un failu URL saraksts, kurus meklētājprogrammas var indeksēt. Kad meklēšanas robots piekļūst failam robots.txt un redz saiti uz vietnes kartes XML failu, tas var izmantot šo failu, lai atrastu visus vietnē pieejamos URL un resursus. Direktīva ir norādīta šādā formātā:

Sitemap: https://yoursite.com/filesitemap.xml

Šis noteikums parasti tiek ievietots dokumenta beigās, un tas nav saistīts ar noteiktu lietotāja aģentu, un to apstrādā visi roboti bez izņēmuma. Ja vietnes īpašnieks neizmanto sitemap.xml, kārtula nav jāpievieno.

Konfigurētā Robots.txt piemēri

Robots.txt iestatīšana darbam ar WordPress

Šajā sadaļā mēs apsvērsim gatavu WordPress konfigurāciju. Mēs izpētīsim, kā bloķēt piekļuvi konfidenciāliem datiem un atļaut piekļuvi galvenajām lapām.

Kā gatavu risinājumu varat izmantot šādu kodu:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Lai gan visām direktīvām ir pievienoti komentāri, tomēr iedziļināsimies secinājumos.

  1. Roboti neindeksēs sensitīvus failus un direktorijus.
  2. Tajā pašā laikā robotiem ir atļauta piekļuve vietnes galvenajām lapām un resursiem.
  3. Ir noteikts aizliegums indeksēt vecās ziņu versijas un parametrizētus vaicājumus, lai novērstu satura dublēšanos.
  4. Vietnes kartes atrašanās vieta ir norādīta, lai uzlabotu indeksēšanu.

Tādējādi mēs esam apsvēruši vispārīgu gatavas konfigurācijas piemēru, kurā daži sensitīvi faili un ceļi ir paslēpti no indeksēšanas, bet galvenie direktoriji ir pieejami.

Atšķirībā no daudzām populārām CMS vai īpaši rakstītām vietnēm, WordPress ir vairāki spraudņi, kas atvieglo faila robots.txt izveidi un pārvaldību. Viens no populārākajiem risinājumiem šim nolūkam ir Yoast SEO.

Lai to instalētu, jums ir nepieciešams:

  1. Dodieties uz WordPress administratora paneli.
  2. Sadaļā "Spraudņi" atlasiet "Pievienot jaunu".
  3. Atrodiet spraudni "Yoast SEO" un instalējiet to.
  4. Aktivizējiet spraudni.

Lai rediģētu failu robots.txt, jums ir nepieciešams:

  1. Administratora paneļa sānu izvēlnē atveriet sadaļu "SEO" un atlasiet "Vispārīgi".
  2. Dodieties uz cilni "Rīki".
  3. Noklikšķiniet uz "Faili". Šeit jūs redzēsiet dažādus failus, tostarp robots.txt.
  4. Ievadiet nepieciešamos indeksēšanas noteikumus atbilstoši savām prasībām.
  5. Pēc izmaiņu veikšanas failā noklikšķiniet uz pogas Saglabāt izmaiņas failā robots.txt.

Ņemiet vērā, ka katrs robots.txt faila iestatījums WordPress ir unikāls un ir atkarīgs no konkrētām vietnes vajadzībām un funkcijām. Nav universālas veidnes, kas būtu piemērota visiem resursiem bez izņēmuma. Tomēr šis piemērs un spraudņu izmantošana var ievērojami vienkāršot uzdevumu.

Faila Robots.txt manuāla iestatīšana

Tāpat varat iestatīt faila konfigurāciju pat tad, ja vietnei nav gatavas CMS. Lietotājam ir arī jāaugšupielādē robots.txt fails vietnes saknes direktorijā un jānorāda nepieciešamie noteikumi. Šeit ir viens no piemēriem, kurā ir norādītas visas pieejamās direktīvas:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Kā pārbaudīt failu Robots.txt

Kā palīgrīku, pārbaudot, vai failā robots.txt nav kļūdu, ieteicams izmantot tiešsaistes pakalpojumus.

Apsveriet piemēru Yandex tīmekļa pārzinis pakalpojumu. Lai pārbaudītu, attiecīgajā laukā ir jāievieto saite uz savu vietni, ja fails jau ir augšupielādēts serverī. Pēc tam rīks pats ielādēs faila konfigurāciju. Ir arī iespēja manuāli ievadīt konfigurāciju:

Robots.txt konfigurācija

Pēc tam jums jāpieprasa pārbaude un jāgaida rezultāti:

Robots.txt iestatīšanas rezultāts

Dotajā piemērā kļūdu nav. Ja tādas ir, pakalpojums parādīs problemātiskās vietas un veidus, kā tās novērst.

Secinājumi

Kopumā mēs uzsvērām, cik svarīgs ir fails robots.txt, lai kontrolētu vietnes trafiku. Mēs sniedzām padomus par to, kā to pareizi iestatīt, lai pārvaldītu to, kā meklētājprogrammas indeksē lapas. Papildus tam mēs apskatījām arī piemērus, kā pareizi lietot šo failu, un sniedzām norādījumus, kā pārbaudīt, vai visi iestatījumi darbojas pareizi.

❮ Iepriekšējais raksts Kā konfigurēt tīmekļa serveri (Apache-PHP-MySQL/MariaDB) operētājsistēmā Linux
Nākamais raksts ❯ Kā izveidot savienojumu ar Linux serveri, izmantojot SSH

Jautājiet mums par VPS

Mēs vienmēr esam gatavi atbildēt uz jūsu jautājumiem jebkurā diennakts laikā.