San Airteagal seo, scrúdóimid an príomhról atá ag an gcomhad robots.txt maidir le trácht ar láithreáin ghréasáin a bhainistiú, pléifimid an riachtanas é a bheith i láthair, agus cuirfimid moltaí ar fáil chun é a shocrú le haghaidh bainistiú éifeachtach ar innéacsú leathanach. Ina theannta sin, déanfaimid anailís ar shamplaí d'úsáid chearta na dtreoracha sa chomhad robots.txt agus soláthróimid treoir ar conas cruinneas a shocruithe a sheiceáil.
Cén fáth a bhfuil Robots.txt ag Teastáil
Is comhad é Robots.txt atá suite ar fhreastalaí an tsuímh ina fhréamh-eolaire. Cuireann sé in iúl do robots inneall cuardaigh conas ba cheart dóibh ábhar na hacmhainne a scanadh. Cabhraíonn úsáid cheart an chomhaid seo le hinnéacsú leathanaigh nach dteastaíonn a chosc, cosnaíonn sé sonraí rúnda, agus féadann sé éifeachtúlacht optamaithe Sinsearach agus infheictheacht an láithreáin a fheabhsú i dtorthaí cuardaigh. Déantar cumraíocht robots.txt trí threoracha, agus féachfaimid orthu tuilleadh.
Treoracha a Shocrú i Robots.txt
Gníomhaire Úsáideora
Tugtar Gníomhaire Úsáideora ar an mbuntreoir, áit a leagaimid eochairfhocal speisialta le haghaidh róbait. Tar éis dó an focal seo a bhrath, tuigeann an róbat go bhfuil an riail dírithe go sonrach air.
Smaoinigh ar shampla de Ghníomhaire Úsáideora a úsáid sa chomhad robots.txt:
User-Agent: *
Disallow: /private/
Léiríonn an sampla seo go bhfuil gach róbat cuardaigh (arna léiriú ag an tsiombail "*”) ba chóir neamhaird a dhéanamh ar leathanaigh atá lonnaithe sa /príobháideach/ eolaire.
Seo mar a fhéachann an treoir le haghaidh róbait chuardaigh ar leith:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Sa chás seo, an Googlebot ba chóir cuardach robot neamhaird a dhéanamh ar leathanaigh sa /admin/ eolaire, while bingbot neamhaird a dhéanamh ar leathanaigh sa /príobháideach/ eolaire.
Dícheadaíodh
Dícheadaíodh insíonn sé do róbait chuardaigh cad iad na URLanna is ceart a scipeáil nó nach bhfuil le hinnéacsú ar an suíomh Gréasáin. Tá an treoir seo úsáideach nuair is mian leat sonraí íogaire nó leathanaigh ábhair ar chaighdeán íseal a cheilt ó bheith innéacsaithe ag innill chuardaigh. Má tá an iontráil sa chomhad robots.txt Dícheadaigh: /eolaire/, ansin diúltófar do robots rochtain a fháil ar ábhar an eolaire sonraithe. Mar shampla,
User-agent: *
Disallow: /admin/
Léiríonn an luach seo go bhfuil gach robots neamhaird a dhéanamh ar URLanna ag tosú le /admin/. Chun an suíomh iomlán a chosc ó bheith innéacsaithe ag róbait ar bith, socraigh an eolaire fréamhacha mar riail:
User-agent: *
Disallow: /
Ceadaigh
Feidhmíonn an luach "Ceadaigh" os coinne "Dícheadaigh": ceadaíonn sé do róbait cuardaigh rochtain a fháil ar leathanach nó ar eolaire ar leith, fiú má chuireann treoracha eile sa chomhad robots.txt cosc ar rochtain air.
Smaoinigh ar shampla:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Sa sampla seo, sonraítear nach bhfuil cead ag robots rochtain a fháil ar an /admin/ eolaire, ach amháin i gcás an /admin/login.html leathanach, atá ar fáil le haghaidh innéacsú agus scanadh.
Robots.txt agus Mapa Suímh
Is comhad XML é Mapa an tSuímh ina bhfuil liosta URLanna de gach leathanach agus comhad ar an láithreán ar féidir le hinnill chuardaigh iad a innéacsú. Nuair a fhaigheann róbat cuardaigh rochtain ar an gcomhad robots.txt agus nuair a fheiceann sé nasc chuig comhad XML léarscáil an láithreáin, is féidir leis an comhad seo a úsáid chun gach URL agus acmhainn atá ar fáil ar an suíomh a aimsiú. Tá an treoir sonraithe san fhormáid:
Sitemap: https://yoursite.com/filesitemap.xml
De ghnáth cuirtear an riail seo ag deireadh an doiciméid gan a bheith ceangailte le Gníomhaire Úsáideora ar leith agus déanann gach róbait é a phróiseáil gan eisceacht. Mura n-úsáideann úinéir an tsuímh sitemap.xml, ní gá an riail a chur leis.
Samplaí de Robots Cumraithe.txt
Socrú Robots.txt do WordPress
San alt seo, déanfaimid breithniú ar chumraíocht réamhdhéanta do WordPress. Déanfaimid iniúchadh ar rochtain ar shonraí rúnda a bhlocáil agus rochtain a cheadú ar na príomhleathanaigh.
Mar réiteach réidh, is féidir leat an cód seo a leanas a úsáid:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Cé go bhfuil tráchtanna ag gabháil le gach treoir, déanaimis iniúchadh níos doimhne ar na conclúidí.
- Ní dhéanfaidh róbait comhaid agus eolairí íogaire a innéacsú.
- Ag an am céanna, tá cead ag robots rochtain a fháil ar phríomhleathanaigh agus acmhainní an tsuímh.
- tá cosc socraithe ar sheanleaganacha de phoist agus ceisteanna paraiméadaraithe a innéacsú chun dúbailt ábhair a chosc.
- Léirítear suíomh an léarscáil láithreáin le haghaidh innéacsú feabhsaithe.
Mar sin, rinneamar sampla ginearálta de chumraíocht réidh a mheas, ina bhfuil roinnt comhaid íogair agus cosáin i bhfolach ó innéacsú, ach tá na príomh-eolairí inrochtana.
Murab ionann agus go leor suíomhanna CMS nó suíomhanna saincheaptha-scríofa, tá roinnt breiseán ag WordPress a éascaíonn cruthú agus bainistiú an chomhaid robots.txt. Is é ceann de na réitigh tóir chun na críche seo Yoast Sinsearach.
Chun é a shuiteáil, ní mór duit:
- Téigh go dtí an painéal admin WordPress.
- Sa rannán "Breiseáin", roghnaigh "Cuir Nua leis".
- Faigh an breiseán "Yoast SEO" agus é a shuiteáil.
- Gníomhachtaigh an breiseán.
Chun an comhad robots.txt a chur in eagar, ní mór duit:
- Téigh go dtí an roinn "Sinsearach" i roghchlár taobh an phainéil admin agus roghnaigh "Ginearálta".
- Téigh go dtí an "Tools" cluaisín.
- Cliceáil ar "Comhaid". Anseo feicfidh tú comhaid éagsúla, lena n-áirítear robots.txt.
- Cuir isteach na rialacha innéacsaithe riachtanacha de réir do riachtanas.
- Tar éis duit athruithe a dhéanamh ar an gcomhad, cliceáil ar an gcnaipe "Sábháil athruithe ar robots.txt".
Tabhair faoi deara go bhfuil gach socrú comhaid robots.txt do WordPress uathúil agus go mbraitheann sé ar riachtanais agus gnéithe sonracha an tsuímh. Níl aon teimpléad uilíoch ann a d’oirfeadh do na hacmhainní go léir gan eisceacht. Mar sin féin, is féidir leis an sampla seo agus úsáid breiseán an tasc a shimpliú go suntasach.
Socrú Lámhleabhar Robots.txt
Ar an gcaoi chéanna, is féidir leat do chumraíocht den chomhad a shocrú fiú mura bhfuil CMS réidh don láithreán. Ní mór don úsáideoir freisin an comhad robots.txt a uaslódáil chuig eolaire fréamhacha an tsuímh agus na rialacha riachtanacha a shonrú. Seo ceann de na samplaí, ina gcuirtear gach treoir atá ar fáil in iúl:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Conas an Comhad Robots.txt a Sheiceáil
Mar uirlis chúnta agus an comhad robots.txt á sheiceáil le haghaidh earráidí, moltar seirbhísí ar líne a úsáid.
Smaoinigh ar shampla an Yandex máistir gréasáin seirbhíse. Chun seiceáil, ní mór duit nasc chuig do shuíomh a chur isteach sa réimse comhfhreagrach má tá an comhad uaslódáilte chuig an bhfreastalaí cheana féin. Tar éis sin, déanfaidh an uirlis féin cumraíocht an chomhaid a luchtú. Tá rogha ann freisin an chumraíocht a chur isteach de láimh:
Ansin, ní mór duit seiceáil a iarraidh agus fanacht ar na torthaí:
Sa sampla a thugtar, níl aon earráidí. Má tá aon ann, taispeánfaidh an tseirbhís na réimsí fadhbacha agus na bealaí chun iad a dheisiú.
Conclúid
Go hachomair, leagamar béim ar a thábhachtaí atá an comhad robots.txt chun trácht ar an suíomh a rialú. Chuireamar comhairle ar fáil maidir le conas é a shocrú i gceart chun bainistiú a dhéanamh ar conas a dhéanann innill chuardaigh leathanaigh a innéacsú. Chomh maith leis seo, d’fhéachamar freisin ar shamplaí de conas an comhad seo a úsáid i gceart agus thugamar treoracha ar conas a sheiceáil go bhfuil gach socrú ag obair i gceart.