Ing artikel iki, kita bakal nliti peran kunci file robots.txt kanggo ngatur lalu lintas ing situs web, ngrembug kabutuhan anane, lan menehi rekomendasi kanggo nyetel manajemen indeksasi kaca sing efektif. Kajaba iku, kita bakal nganalisa conto panggunaan arahan sing bener ing file robots.txt lan menehi pandhuan babagan carane mriksa setelan sing bener.
Apa Robots.txt Perlu
Robots.txt minangka file sing ana ing server situs ing direktori root. Iku ngandhani robot mesin telusur carane kudu mindai isi sumber daya. Panggunaan file iki kanthi bener mbantu nyegah indeksasi kaca sing ora dikarepake, nglindhungi data rahasia, lan bisa ningkatake efisiensi optimasi SEO lan visibilitas situs ing asil panelusuran. Konfigurasi robots.txt wis rampung liwat arahan, sing bakal kita deleng maneh.
Setelan Directives ing Robots.txt
Agen Panganggo
Arahan utami dikenal minangka User-Agent, ing ngendi kita nyetel tembung kunci khusus kanggo robot. Sawise ndeteksi tembung iki, robot ngerti yen aturan kasebut khusus kanggo kasebut.
Coba conto nggunakake User-Agent ing file robots.txt:
User-Agent: *
Disallow: /private/
Conto iki nuduhake yen kabeh robot telusuran (diwakili dening simbol "*") kudu nglirwakake kaca sing ana ing /pribadi/ direktori.
Mangkene carane instruksi nggoleki robot telusuran tartamtu:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Ing kasus iki, sing Google robot telusuran kudu nglirwakake kaca ing /admin/ direktori, while Bingbot kudu nglirwakake kaca ing /pribadi/ direktori.
disallow
disallow ngandhani robot telusuran URL sing kudu dilewati utawa ora diindeks ing situs web. Arahan iki migunani yen sampeyan pengin ndhelikake data sensitif utawa kaca isi sing kurang kualitas supaya ora diindeks dening mesin telusur. Yen file robots.txt ngemot entri Disallow: /direktori/, banjur robot bakal ditolak akses menyang isi direktori kasebut. Contone,
User-agent: *
Disallow: /admin/
Nilai iki nuduhake yen kabeh robot kudu nglirwakake URL sing diwiwiti karo /admin/. Kanggo mblokir kabeh situs supaya ora diindeks dening robot apa wae, atur direktori root minangka aturan:
User-agent: *
Disallow: /
ngidini
Nilai "Allow" tumindak ngelawan karo "Disallow": ngidini robot telusuran ngakses menyang kaca utawa direktori tartamtu, sanajan arahan liyane ing file robots.txt nglarang akses menyang.
Coba conto:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Ing conto iki, ditemtokake manawa robot ora diijini akses menyang /admin/ direktori, kajaba kanggo /admin/login.html kaca, sing kasedhiya kanggo ngindeks lan mindhai.
Robots.txt lan Peta Situs
Sitemap minangka file XML sing ngemot dhaptar URL kabeh kaca lan file ing situs sing bisa diindeks dening mesin telusur. Nalika robot telusuran ngakses file robots.txt lan ndeleng link menyang file XML sitemap, bisa nggunakake file iki kanggo nemokake kabeh URL lan sumber daya sing kasedhiya ing situs kasebut. Arahan kasebut ditemtokake ing format:
Sitemap: https://yoursite.com/filesitemap.xml
Aturan iki biasane diselehake ing mburi dokumen tanpa disambungake menyang Agen Panganggo tartamtu lan diproses dening kabeh robot tanpa istiméwa. Yen pemilik situs ora nggunakake sitemap.xml, iku ora perlu kanggo nambah aturan.
Conto Configured Robots.txt
Nggawe Robots.txt kanggo WordPress
Ing bagean iki, kita bakal nimbang konfigurasi sing wis siap kanggo WordPress. Kita bakal njelajah pamblokiran akses menyang data rahasia lan ngidini akses menyang kaca utama.
Minangka solusi siap, sampeyan bisa nggunakake kode ing ngisor iki:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Sanajan kabeh arahan diiringi komentar, ayo goleki kesimpulan sing luwih jero.
- Robot ora bakal ngindeks file lan direktori sing sensitif.
- Ing wektu sing padha, robot diijini akses menyang kaca utama lan sumber daya situs kasebut.
- larangan disetel kanggo ngindeks versi lawas saka kiriman lan pitakon parameter kanggo nyegah duplikasi konten.
- Lokasi peta situs dituduhake kanggo indeksasi sing luwih apik.
Mangkono, kita wis nimbang conto umum saka konfigurasi siap, kang sawetara file sensitif lan path didhelikake saka indeksasi, nanging direktori utama bisa diakses.
Ora kaya CMS populer utawa situs sing ditulis khusus, WordPress duwe sawetara plugin sing nggampangake nggawe lan ngatur file robots.txt. Salah sawijining solusi sing populer kanggo tujuan iki yaiku Yoast SEO.
Kanggo nginstal, sampeyan kudu:
- Pindhah menyang panel admin WordPress.
- Ing bagean "Plugins", pilih "Tambah Anyar".
- Golek plugin "Yoast SEO" lan nginstal.
- Aktifake plugin kasebut.
Kanggo ngowahi file robots.txt, sampeyan kudu:
- Pindhah menyang bagean "SEO" ing menu sisih panel admin banjur pilih "Umum".
- Pindhah menyang tab "Alat".
- Klik ing "Files". Ing kene sampeyan bakal weruh macem-macem file, kalebu robots.txt.
- Ketik aturan indeksasi sing dibutuhake miturut syarat sampeyan.
- Sawise nggawe owahan kanggo file, klik tombol "Simpen owahan kanggo robots.txt".
Elinga yen saben setelan file robots.txt kanggo WordPress iku unik lan gumantung saka kabutuhan lan fitur spesifik situs kasebut. Ora ana cithakan universal sing cocog karo kabeh sumber daya tanpa pangecualian. Nanging, conto iki lan panggunaan plugin bisa nyederhanakake tugas kasebut.
Setelan Manual Robots.txt
Kajaba iku, sampeyan bisa nyetel konfigurasi file sanajan ora ana CMS siap kanggo situs kasebut. Pangguna uga kudu ngunggah file robots.txt menyang direktori root situs kasebut lan nemtokake aturan sing dibutuhake. Iki minangka salah sawijining conto, ing ngendi kabeh arahan sing kasedhiya dituduhake:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Carane Priksa File Robots.txt
Minangka alat bantu nalika mriksa file robots.txt kanggo kesalahan, disaranake nggunakake layanan online.
Coba conto ing Yandex Webmaster layanan. Kanggo mriksa, sampeyan kudu nglebokake link menyang situs sampeyan ing kolom sing cocog yen file kasebut wis diunggah menyang server. Sawise iku, alat kasebut bakal mbukak konfigurasi file. Ana uga pilihan kanggo ngetik konfigurasi kanthi manual:
Sabanjure, sampeyan kudu njaluk mriksa lan ngenteni asil:
Ing conto sing diwenehake, ora ana kesalahan. Yen ana, layanan kasebut bakal nuduhake wilayah masalah lan cara kanggo ndandani.
kesimpulan
Ing ringkesan, kita nandheske carane penting file robots.txt kanggo ngontrol lalu lintas ing situs. Kita menehi saran babagan carane nyetel kanthi bener kanggo ngatur carane kaca indeks mesin telusur. Saliyane iki, kita uga ndeleng conto carane nggunakake file iki kanthi bener lan menehi instruksi babagan carane mriksa manawa kabeh setelan bisa digunakake kanthi bener.