Knowledgebase Parentah basajan pikeun digawe sareng jasa Profitserver
utama Knowledgebase Robots.txt

Robots.txt


Dina artikel ieu, urang bakal nalungtik peran konci file robots.txt dina ngatur lalulintas dina situs web, ngabahas kabutuhan ayana, sarta nyadiakeun saran pikeun nyetel eta up pikeun manajemén indexing kaca éféktif. Salaku tambahan, urang bakal nganalisis conto pamakean arahan anu leres dina file robots.txt sareng masihan pituduh ngeunaan cara mariksa kabeneran setélanna.

Naha Robots.txt Diperlukeun

Robots.txt mangrupikeun file anu aya dina server situs dina diréktori akar na. Ieu informs robot search engine kumaha maranéhanana kudu nyeken eusi sumberdaya nu. Pamakéan ditangtoskeun tina file ieu mantuan nyegah indexing kaca nu teu dihoyongkeun, ngajaga data rahasia, sarta bisa ngaronjatkeun efisiensi optimasi SEO jeung pisibilitas situs dina hasil teangan. Konfigurasi tina robots.txt dipigawé ngaliwatan directives, nu urang bakal kasampak di salajengna.

Nyetél Directives dina Robots.txt

Agén Pamaké

Diréktif primér katelah pamaké-Agen, dimana urang nyetel keyword husus pikeun robot. Kana detecting kecap ieu, robot understands yén aturan dimaksudkeun husus pikeun eta.

Pertimbangkeun conto ngagunakeun Pamaké-Agén dina file robots.txt:

User-Agent: *
Disallow: /private/

Conto ieu nunjukkeun yén sadaya robot milarian (digambarkeun ku simbol "*") kedah malire kaca anu aya di /swasta/ diréktori.

Kieu kumaha petunjukna milarian robot milarian khusus:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

Dina hal ieu, anu googlebot robot pilarian kedah malire kaca dina /admin/ diréktori, sedengkeun bingbot kudu malire kaca dina /swasta/ diréktori.

Ngalarang

Ngalarang ngabejaan robot pilarian nu URL skip atanapi henteu indéks dina ramatloka. Diréktif ieu mangpaat lamun rék nyumputkeun data sénsitip atawa kaca eusi kualitas-low tina keur saestuna ku mesin pencari. Lamun file robots.txt ngandung éntri Disallow: /direktori/, lajeng robot bakal nampik aksés ka eusi diréktori dieusian. Salaku conto,

User-agent: *
Disallow: /admin/

Nilai ieu nunjukkeun yén kabéh robot kedah malire URL dimimitian ku /admin/. Pikeun meungpeuk sakabéh situs ti keur saestuna ku sagala robot, setel diréktori root sakumaha aturan:

User-agent: *
Disallow: /

ngidinkeun

Nilai "Ngidinan" tindakan sabalikna tina "Larang": éta ngamungkinkeun robot milarian aksés ka halaman atanapi diréktori khusus, sanaos arahan sanés dina file robots.txt ngalarang aksés ka éta.

Pertimbangkeun conto:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

Dina conto ieu, éta dieusian yén robot teu diwenangkeun aksés ka /admin/ diréktori, iwal ti /admin/login.html kaca, nu sadia pikeun indexing na scanning.

Robots.txt jeung Sitemap

Sitemap mangrupikeun file XML anu ngandung daptar URL sadaya halaman sareng file dina situs anu tiasa diindeks ku mesin pencari. Lamun robot pilarian ngakses file robots.txt tur ningali tumbu ka file XML sitemap, éta bisa migunakeun file ieu pikeun manggihan sagala URL sadia jeung sumber dina loka. Diréktif ieu dieusian dina format:

Sitemap: https://yoursite.com/filesitemap.xml

Aturan ieu biasana disimpen dina tungtung dokumen tanpa dihijikeun ka Agén-Pamaké khusus sareng diolah ku sadaya robot tanpa iwal. Lamun nu boga situs teu make sitemap.xml, teu perlu pikeun nambahkeun aturan.

Conto Configured Robots.txt

Nyetél Robots.txt pikeun WordPress

Dina bagian ieu, urang bakal mertimbangkeun konfigurasi siap-dijieun pikeun WordPress. Urang bakal ngajalajah meungpeuk aksés ka data rahasia sareng ngamungkinkeun aksés ka halaman utama.

Salaku solusi anu siap, anjeun tiasa nganggo kodeu ieu:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Sanaos sadaya arahan dibarengan ku koméntar, hayu urang langkung jero kana kacindekan.

  1. Robot moal indéks file sénsitip sarta directories.
  2. Dina waktos anu sami, robot diidinan aksés kana halaman utama sareng sumber situs.
  3. larangan disetel dina indexing versi heubeul tina tulisan na queries parameterized pikeun nyegah duplikasi eusi.
  4. Lokasi sitemap dituduhkeun pikeun ningkat indexing.

Ku kituna, kami geus dianggap conto umum tina konfigurasi siap, nu sababaraha file sénsitip sarta jalur disumputkeun tina indexing, tapi diréktori utama bisa diasupan.

Beda sareng seueur situs CMS atanapi situs anu ditulis khusus, WordPress ngagaduhan sababaraha plugins anu ngagampangkeun nyiptakeun sareng ngokolakeun file robots.txt. Salah sahiji solusi anu populér pikeun tujuan ieu nyaéta Yoast SEO.

Pikeun masang éta, anjeun kedah:

  1. Pindah ka panel admin WordPress.
  2. Dina bagian "Plugins", pilih "Tambahkeun Anyar".
  3. Milarian plugin "Yoast SEO" sareng pasang.
  4. Aktipkeun plugin nu.

Pikeun ngédit file robots.txt, anjeun kedah:

  1. Pindah ka bagian "SEO" dina menu sisi panel admin tur pilih "Umum".
  2. Pindah ka tab "Alat".
  3. Klik dina "Files". Di dieu Anjeun baris nempo rupa file, kaasup robots.txt.
  4. Lebetkeun aturan indexing nu diperlukeun nurutkeun sarat Anjeun.
  5. Sanggeus nyieun parobahan dina file, klik tombol "Simpen parobahan robots.txt".

Catet yén unggal setélan file robots.txt pikeun WordPress unik sareng gumantung kana kabutuhan sareng fitur khusus dina situs éta. Teu aya template universal anu cocog sareng sadaya sumber tanpa kecuali. Nanging, conto ieu sareng panggunaan plugins tiasa nyederhanakeun tugas.

Setélan Manual Robots.txt

Nya kitu, anjeun tiasa nyetél konfigurasi file anjeun sanajan henteuna CMS siap pikeun situs éta. Pamaké ogé kedah unggah file robots.txt kana diréktori akar situs sareng netepkeun aturan anu diperyogikeun. Ieu mangrupikeun salah sahiji conto, dimana sadaya arahan anu sayogi dituduhkeun:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Kumaha Mariksa File Robots.txt

Salaku alat bantu nalika mariksa file robots.txt pikeun kasalahan, disarankeun ngagunakeun jasa online.

Pertimbangkeun conto tina Yandex Webmaster palayanan. Pikeun pariksa, anjeun kedah nyelapkeun tautan ka situs anjeun dina widang anu saluyu upami filena parantos diunggah ka server. Sanggeus éta, alat sorangan bakal muka konfigurasi file. Aya ogé pilihan pikeun nuliskeun konfigurasi sacara manual:

Robots.txt Konfigurasi

Salajengna, anjeun kedah nyuhunkeun cek sareng ngantosan hasilna:

Robots.txt Hasil Setélan

Dina conto anu dipasihkeun, teu aya kasalahan. Upami aya, jasa éta bakal nunjukkeun daérah masalah sareng cara pikeun ngalereskeunana.

kacindekan

Dina kasimpulan, urang emphasized kumaha pentingna file robots.txt pikeun ngadalikeun lalulintas dina loka. Kami nyayogikeun naséhat ngeunaan cara nyetél éta pikeun ngatur kumaha halaman indéks mesin pencari. Salaku tambahan, kami ogé ningali conto kumaha cara ngagunakeun file ieu kalayan leres sareng masihan pitunjuk ngeunaan cara mariksa yén sadaya setélan berpungsi leres.

❮ Artikel saméméhna Kumaha ngonpigurasikeun pangladén wéb (Apache-PHP-MySQL/MariaDB) dina Linux
Artikel salajengna ❯ Kumaha nyambungkeun ka server Linux liwat SSH

Tanya kami ngeunaan VPS

Kami salawasna siap ngajawab patarosan anjeun iraha wae beurang atawa peuting.