San artaigil seo, nì sinn sgrùdadh air prìomh àite an fhaidhle robots.txt ann a bhith a’ riaghladh trafaic air làraich-lìn, bruidhnidh sinn air cho riatanach sa tha e, agus bheir sinn seachad molaidhean airson a stèidheachadh airson riaghladh clàr-amais dhuilleagan èifeachdach. A bharrachd air an sin, nì sinn mion-sgrùdadh air eisimpleirean de chleachdadh stiùiridhean ceart anns an fhaidhle robots.txt agus bheir sinn seachad stiùireadh air mar a nì thu sgrùdadh air ceartachd nan roghainnean aige.
Carson a tha feum air Robots.txt
'S e faidhle a tha ann an Robots.txt a tha suidhichte air frithealaiche na làraich san eòlaire freumha aige. Bidh e ag innse do innealan-fuadain einnsean sgrùdaidh mar a bu chòir dhaibh susbaint a’ ghoireas a sganadh. Bidh cleachdadh ceart den fhaidhle seo a’ cuideachadh le bhith a’ cuir casg air clàr-amais dhuilleagan nach eileas ag iarraidh, a’ dìon dàta dìomhair, agus a’ leasachadh èifeachdas optimization SEO agus faicsinneachd na làraich ann an toraidhean rannsachaidh. Tha rèiteachadh robots.txt air a dhèanamh tro stiùiridhean, air am bi sinn a’ coimhead nas fhaide.
A’ suidheachadh stiùiridhean ann an Robots.txt
Àidseant cleachdaiche
Canar User-Agent ris a’ phrìomh stiùireadh, far an do shuidhich sinn prìomh fhacal sònraichte airson innealan-fuadain. Às deidh dha am facal seo a lorg, tha an robot a’ tuigsinn gu bheil an riaghailt ag amas gu sònraichte air a shon.
Beachdaich air eisimpleir de bhith a’ cleachdadh User-Agent anns an fhaidhle robots.txt:
User-Agent: *
Disallow: /private/
Tha an eisimpleir seo a' sealltainn gu bheil a h-uile inneal-fuadain (air a riochdachadh leis an t-samhla "*") bu chòir dha na duilleagan a tha suidhichte san /prìobhaideach/ eòlaire.
Seo mar a tha an stiùireadh a’ coimhead airson innealan-fuadain sgrùdaidh sònraichte:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Anns a 'chùis seo, an Googlebot bu chòir don inneal-rannsachaidh dearmad a dhèanamh air duilleagan anns an /rianachd/ eòlaire, tra Bingbot bu chòir dearmad a dhèanamh air duilleagan anns an /prìobhaideach/ eòlaire.
Disallow
Disallow ag innse dha innealan-fuadain rannsachaidh dè na URLan a bu chòir a sheachnadh no nach eil air an clàradh air an làrach-lìn. Tha an stiùireadh seo feumail nuair a tha thu airson dàta mothachail no duilleagan susbaint ìosal fhalach bho bhith air an clàradh le einnseanan luirg. Ma tha an inntrig anns an fhaidhle robots.txt Dì-cheadachadh: /directory/, an uairsin thèid inntrigeadh a dhiùltadh dha innealan-fuadain air susbaint an eòlaire ainmichte. Mar eisimpleir,
User-agent: *
Disallow: /admin/
Tha an luach seo a’ nochdadh sin a h-uile robot bu chòir dhut dearmad a dhèanamh air URLan a’ tòiseachadh le /rianachd/. Gus casg a chuir air an làrach gu lèir bho bhith air a chlàradh le innealan-fuadain sam bith, suidhich am pasgan bunaiteach mar riaghailt:
User-agent: *
Disallow: /
Ceadaich
Tha an luach “Ceadaich” ag obair mu choinneamh “Dì-cheadachadh”: leigidh e le innealan-fuadain lorg faighinn gu duilleag no eòlaire sònraichte, eadhon ged a tha stiùiridhean eile san fhaidhle robots.txt a’ toirmeasg ruigsinneachd air.
Beachdaich air eisimpleir:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
San eisimpleir seo, tha e air a shònrachadh nach eil cead aig innealan-fuadain faighinn a-steach don /rianachd/ eòlaire, ach a-mhàin an /admin/login.html duilleag, a tha ri fhaotainn airson clàr-amais agus sganadh.
Robots.txt agus mapa-làraich
Is e faidhle XML a th’ ann am mapa-làraich anns a bheil liosta de URLan de gach duilleag is faidhle air an làrach a dh’ fhaodar a chlàradh le einnseanan luirg. Nuair a gheibh inneal-rannsachaidh cothrom air faidhle robots.txt agus a chì e ceangal gu faidhle XML mapa-làraich, faodaidh e am faidhle seo a chleachdadh gus na URLan agus na goireasan uile a tha rim faighinn air an làrach a lorg. Tha an stiùireadh air a shònrachadh ann an cruth:
Sitemap: https://yoursite.com/filesitemap.xml
Mar as trice bidh an riaghailt seo air a chuir aig deireadh na sgrìobhainn gun a bhith ceangailte ri neach-cleachdaidh sònraichte agus air a phròiseasadh leis a h-uile inneal-fuadain gun eisgeachd. Mura h-eil sealbhadair na làraich a 'cleachdadh sitemap.xml, chan eil feum air an riaghailt a chur ris.
Eisimpleirean de Robots Configured.txt
A’ stèidheachadh Robots.txt airson WordPress
Anns an earrainn seo, beachdaichidh sinn air rèiteachadh deiseil airson WordPress. Nì sinn sgrùdadh air bacadh ruigsinneachd air dàta dìomhair agus a’ toirt cothrom air na prìomh dhuilleagan.
Mar fhuasgladh deiseil, faodaidh tu an còd a leanas a chleachdadh:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Ged a tha beachdan an cois a h-uile stiùireadh, leig dhuinn sgrùdadh nas doimhne a dhèanamh air na co-dhùnaidhean.
- Cha dèan robots clàr-amais air faidhlichean agus clàran mothachail.
- Aig an aon àm, tha cead aig innealan-fuadain faighinn gu prìomh dhuilleagan agus goireasan na làraich.
- tha casg air a chuir air clàr-amais seann dhreachan de phuist agus cheistean paramadair gus casg a chuir air dùblachadh susbaint.
- Tha suidheachadh a’ mhapa-làraich air a chomharrachadh airson clàr-amais nas fheàrr.
Mar sin, tha sinn air beachdachadh air eisimpleir coitcheann de rèiteachadh deiseil, anns a bheil cuid de fhaidhlichean agus slighean mothachail falaichte bho chlàr-amais, ach tha na prìomh chlàran ruigsinneach.
Eu-coltach ri mòran làraich CMS no làraich a chaidh a sgrìobhadh gu sònraichte, tha grunn plugins aig WordPress a chuidicheas le bhith a’ cruthachadh agus a’ riaghladh faidhle robots.txt. Is e aon de na fuasglaidhean as mòr-chòrdte airson an adhbhair seo Yoast SEO.
Gus a stàladh, feumaidh tu:
- Rach gu pannal rianachd WordPress.
- Anns an earrainn "Plugins", tagh "Cuir Ùr ris".
- Lorg am plugan "Yoast SEO" agus stàlaich e.
- Gnìomhach am plugan.
Gus am faidhle robots.txt a dheasachadh, feumaidh tu:
- Rach don roinn "SEO" ann an clàr-taice taobh a 'phannal rianachd agus tagh "Coitcheann".
- Rach gu "Innealan" tab.
- Briog air "Faidhlichean". An seo chì thu diofar fhaidhlichean, robots.txt nam measg.
- Cuir a-steach na riaghailtean clàr-amais riatanach a rèir do riatanasan.
- Às deidh dhut atharrachaidhean a dhèanamh air an fhaidhle, cliog air a’ phutan “Sàbhail atharrachaidhean gu robots.txt”.
Thoir an aire gu bheil gach suidheachadh faidhle robots.txt airson WordPress gun samhail agus an urra ri feumalachdan agus feartan sònraichte na làraich. Chan eil teamplaid uile-choitcheann ann a bhiodh iomchaidh airson a h-uile goireas gun eisgeachd. Ach, faodaidh an eisimpleir seo agus cleachdadh plugins an obair a dhèanamh nas sìmplidhe.
Suidheachadh Robots.txt le làimh
San aon dòigh, faodaidh tu do rèiteachadh den fhaidhle a chuir air dòigh eadhon às aonais CMS deiseil airson na làraich. Feumaidh an neach-cleachdaidh cuideachd am faidhle robots.txt a luchdachadh suas gu eòlaire freumh na làraich agus na riaghailtean riatanach a shònrachadh. Seo aon de na h-eisimpleirean, anns a bheil a h-uile stiùireadh a tha ri fhaighinn air a chomharrachadh:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Mar a nì thu sgrùdadh air an fhaidhle Robots.txt
Mar inneal cuideachaidh nuair a thathar a’ sgrùdadh an fhaidhle robots.txt airson mearachdan, thathas a’ moladh seirbheisean air-loidhne a chleachdadh.
Beachdaich air eisimpleir an Maighstir-lìn Yandex seirbhis. Gus sgrùdadh a dhèanamh, feumaidh tu ceangal a chuir a-steach don làrach agad san raon fhreagarrach ma tha am faidhle air a luchdachadh suas chun t-seirbheisiche mu thràth. Às deidh sin, luchdaichidh an inneal fhèin rèiteachadh an fhaidhle. Tha roghainn ann cuideachd an rèiteachadh a chuir a-steach le làimh:
An ath rud, feumaidh tu seic iarraidh agus feitheamh airson na toraidhean:
Anns an eisimpleir a chaidh a thoirt seachad, chan eil mearachdan ann. Ma tha gin ann, seallaidh an t-seirbheis na raointean trioblaideach agus dòighean air an càradh.
Co-dhùnadh
Ann an geàrr-chunntas, chuir sinn cuideam air cho cudromach sa tha am faidhle robots.txt airson smachd a chumail air trafaic air an làrach. Thug sinn seachad comhairle air mar a chuireas tu air dòigh e gu ceart gus rian a chumail air mar a bhios einnseanan luirg a’ clàradh dhuilleagan. A bharrachd air an seo, choimhead sinn cuideachd air eisimpleirean air mar a chleachdas tu am faidhle seo gu ceart agus thug sinn stiùireadh air mar a nì thu cinnteach gu bheil a h-uile suidheachadh ag obair ceart.