Knowledgebase Einfaldar leiðbeiningar til að vinna með Profitserver þjónustunni
Main Knowledgebase robots.txt

robots.txt


Í þessari grein munum við skoða lykilhlutverk robots.txt skráarinnar við að stjórna umferð á vefsíðum, ræða nauðsyn þess að vera til staðar og koma með ráðleggingar um uppsetningu hennar fyrir skilvirka stjórnun síðuflokkunar. Að auki munum við greina dæmi um rétta notkun á tilskipunum í robots.txt skránni og veita leiðbeiningar um hvernig á að athuga réttar stillingar hennar.

Af hverju Robots.txt er þörf

Robots.txt er skrá sem er staðsett á netþjóni síðunnar í rótarskrá þess. Það upplýsir leitarvélar vélmenni hvernig þau ættu að skanna innihald auðlindarinnar. Rétt notkun þessarar skráar hjálpar til við að koma í veg fyrir flokkun óæskilegra síðna, verndar trúnaðargögn og getur bætt skilvirkni SEO hagræðingar og sýnileika síðunnar í leitarniðurstöðum. Stilling robots.txt fer fram með tilskipunum sem við munum skoða nánar.

Stilla tilskipanir í Robots.txt

Umboðsmaður notanda

Aðaltilskipunin er þekkt sem User-Agent, þar sem við setjum sérstakt leitarorð fyrir vélmenni. Þegar vélmennið finnur þetta orð skilur það að reglan er ætluð sérstaklega fyrir það.

Íhugaðu dæmi um notkun User-Agent í robots.txt skránni:

User-Agent: *
Disallow: /private/

Þetta dæmi gefur til kynna að öll leitarvélmenni (táknað með tákninu "*") ætti að hunsa síður sem staðsettar eru í /einka/ skrá.

Svona lítur kennslan út fyrir ákveðin leitarvélmenni:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Í þessu tilfelli er Googlebot leitarvélmenni ætti að hunsa síður í /admin/ skrá, á meðan Bingbot ætti að hunsa síður í /einka/ skrá.

banna

banna segir leitarvélmenni hvaða vefslóðum á að sleppa eða skrá ekki á vefsíðunni. Þessi tilskipun er gagnleg þegar þú vilt fela viðkvæm gögn eða lággæða efnissíður frá því að vera skráðar af leitarvélum. Ef robots.txt skráin inniheldur færsluna Ekki leyfa: /möppur/, þá verður vélmenni meinaður aðgangur að innihaldi tilgreindrar skráar. Til dæmis,

User-agent: *
Disallow: /admin/

Þetta gildi gefur til kynna það öll vélmenni ætti að hunsa vefslóðir sem byrja á /admin/. Til að koma í veg fyrir að öll vefsvæðið verði verðtryggð af vélmennum skaltu stilla rótarskrána að jafnaði:

User-agent: *
Disallow: /

Leyfa

Gildið „Allow“ virkar öfugt við „Disallow“: það leyfir leitarvélmenni aðgang að tiltekinni síðu eða möppu, jafnvel þótt aðrar tilskipanir í robots.txt skránni banna aðgang að henni.

Lítum á dæmi:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Í þessu dæmi er tilgreint að vélmenni hafi ekki aðgang að /admin/ skrá, nema fyrir /admin/login.html síðu, sem er tiltæk fyrir flokkun og skönnun.

Robots.txt og vefkort

Sitemap er XML skrá sem inniheldur lista yfir vefslóðir allra síðna og skráa á síðunni sem leitarvélar geta skráð. Þegar leitarvélmenni opnar robots.txt skrána og sér tengil á XML-skrá fyrir vefkort getur það notað þessa skrá til að finna allar tiltækar vefslóðir og tilföng á síðunni. Tilskipunin er tilgreind í formi:

Sitemap: https://yoursite.com/filesitemap.xml

Þessi regla er venjulega sett í lok skjalsins án þess að vera bundin við tiltekinn User-Agent og er unnin af öllum vélmennum án undantekninga. Ef eigandi vefsvæðisins notar ekki sitemap.xml er ekki nauðsynlegt að bæta við reglunni.

Dæmi um stillt Robots.txt

Setja upp Robots.txt fyrir WordPress

Í þessum hluta munum við íhuga tilbúna uppsetningu fyrir WordPress. Við munum kanna að loka fyrir aðgang að trúnaðargögnum og leyfa aðgang að aðalsíðum.

Sem tilbúin lausn geturðu notað eftirfarandi kóða:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Þótt öllum tilskipunum fylgi athugasemdir skulum við kafa dýpra í niðurstöðurnar.

  1. Vélmenni munu ekki skrá viðkvæmar skrár og möppur.
  2. Á sama tíma fá vélmenni aðgang að aðalsíðum og auðlindum síðunnar.
  3. bann er stillt á að flokka gamlar útgáfur af færslum og færibreytum fyrirspurnum til að koma í veg fyrir tvíverknað efnis.
  4. Staðsetning vefkortsins er tilgreind til að bæta flokkun.

Þannig höfum við íhugað almennt dæmi um tilbúna uppsetningu, þar sem sumar viðkvæmar skrár og slóðir eru faldar fyrir skráningu, en helstu möppur eru aðgengilegar.

Ólíkt mörgum vinsælum CMS eða sérsniðnum síðum, hefur WordPress nokkur viðbætur sem auðvelda stofnun og stjórnun robots.txt skráarinnar. Ein af vinsælustu lausnunum í þessum tilgangi er Yoast SEO.

Til að setja það upp þarftu að:

  1. Farðu á WordPress stjórnborðið.
  2. Í hlutanum „Viðbætur“ skaltu velja „Bæta við nýjum“.
  3. Finndu „Yoast SEO“ viðbótina og settu hana upp.
  4. Virkjaðu tappann.

Til að breyta robots.txt skránni þarftu að:

  1. Farðu í hlutann „SEO“ í hliðarvalmynd stjórnborðsins og veldu „Almennt“.
  2. Farðu í "Tools" flipann.
  3. Smelltu á "Skráar". Hér muntu sjá ýmsar skrár, þar á meðal robots.txt.
  4. Sláðu inn nauðsynlegar flokkunarreglur í samræmi við kröfur þínar.
  5. Eftir að hafa gert breytingar á skránni, smelltu á "Vista breytingar á robots.txt" hnappinn.

Athugaðu að hver robots.txt skráarstilling fyrir WordPress er einstök og fer eftir sérstökum þörfum og eiginleikum síðunnar. Það er ekkert alhliða sniðmát sem myndi henta öllum auðlindum án undantekninga. Hins vegar getur þetta dæmi og notkun viðbóta einfaldað verkefnið verulega.

Handvirk stilling á Robots.txt

Á sama hátt geturðu sett upp stillingar þínar á skránni, jafnvel ef ekki er tilbúið CMS fyrir síðuna. Notandinn þarf einnig að hlaða upp robots.txt skránni í rótarskrá síðunnar og tilgreina nauðsynlegar reglur. Hér er eitt af dæmunum, þar sem allar tiltækar tilskipanir eru sýndar:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Hvernig á að athuga Robots.txt skrána

Sem hjálpartæki þegar athugað er hvort villur séu í robots.txt skránni er mælt með því að nota netþjónustur.

Skoðum dæmið um Yandex vefstjóri þjónustu. Til að athuga þarftu að setja inn tengil á síðuna þína í samsvarandi reit ef skránni er þegar hlaðið upp á netþjóninn. Eftir það mun tólið sjálft hlaða skráarstillingunum. Það er líka möguleiki á að slá inn stillingarnar handvirkt:

Robots.txt stillingar

Næst þarftu að biðja um ávísun og bíða eftir niðurstöðum:

Robots.txt stillingarniðurstaða

Í uppgefnu dæmi eru engar villur. Ef einhver er mun þjónustan sýna vandamálin og leiðir til að laga þau.

Niðurstaða

Í stuttu máli lögðum við áherslu á hversu mikilvæg robots.txt skráin er til að stjórna umferð um síðuna. Við veittum ráð um hvernig eigi að setja það upp á réttan hátt til að stjórna því hvernig leitarvélar skrá síður. Til viðbótar við þetta skoðuðum við líka dæmi um hvernig á að nota þessa skrá rétt og gáfum leiðbeiningar um hvernig á að athuga hvort allar stillingar virka rétt.

❮ Fyrri grein Hvernig á að stilla vefþjón (Apache-PHP-MySQL/MariaDB) á Linux
Næsta grein ❯ Hvernig á að tengjast Linux netþjóni í gegnum SSH

Spyrðu okkur um VPS

Við erum alltaf tilbúin að svara spurningum þínum hvenær sem er sólarhrings.