In questu articulu, esamineremu u rolu chjave di u schedariu robots.txt in a gestione di u trafficu nantu à i siti web, discutemu a necessità di a so prisenza, è furnisce cunsiglii per a stallazione per una gestione efficace di l'indexazione di e pagine. Inoltre, analizzeremu esempi di l'usu di direttive currette in u schedariu robots.txt è furnisce una guida nantu à cumu verificà a correttezza di i so paràmetri.
Perchè Robots.txt hè necessariu
Robots.txt hè un schedariu situatu nantu à u servitore di u situ in u so repertoriu radicali. Informa à i robots di u mutore di ricerca cumu si deve scansà u cuntenutu di a risorsa. L'usu propiu di stu schedariu aiuta à prevene l'indexazione di e pagine indesiderate, prutegge e dati cunfidenziale, è ponu migliurà l'efficienza di l'optimizazione di SEO è a visibilità di u situ in i risultati di ricerca. A cunfigurazione di robots.txt hè fatta à traversu direttive, chì guardemu più.
Stabbilimentu di Direttive in Robots.txt
Agente d'Usuariu
A direttiva primaria hè cunnisciuta cum'è User-Agent, induve avemu stabilitu una chjave speciale per i robots. Dopu avè rilevatu sta parolla, u robot capisce chì a regula hè apposta per ellu.
Cunsiderate un esempiu di usu User-Agent in u schedariu robots.txt:
User-Agent: *
Disallow: /private/
Questu esempiu indica chì tutti i robots di ricerca (rappresentatu da u simbulu "*") deve ignurà e pagine situate in u /privatu/ catalogo.
Eccu cumu si vede l'istruzzioni per robots di ricerca specifichi:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
In stu casu, a googlebot U robot di ricerca deve ignurà e pagine in u /admin/ annuariu, mentri bingbot duverebbe ignurà e pagine in u /privatu/ catalogo.
Disallow
Disallow dice à i robots di ricerca chì URL per saltà o micca indici in u situ web. Questa direttiva hè utile quandu vulete ammuccià e dati sensittivi o pagine di cuntenutu di bassa qualità da esse indexate da i mutori di ricerca. Se u schedariu robots.txt cuntene l'entrata Disallow: /directory/, allura i robots seranu denegati l'accessu à u cuntenutu di u repertoriu specificatu. Per esempiu,
User-agent: *
Disallow: /admin/
Stu valore indica chì tutti i robots deve ignurà l'URL chì cumincianu cù /admin/. Per bluccà tuttu u situ da esse indexatu da qualsiasi robots, stabilisce u cartulare radicale cum'è regula:
User-agent: *
Disallow: /
lascialu
U valore "Allow" agisce oppostu à "Disallow": permette à i robots di ricerca l'accessu à una pagina o un repertoriu specificu, ancu se altre direttive in u schedariu robots.txt impediscenu l'accessu à questu.
Cunsiderate un esempiu:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
In questu esempiu, hè specificatu chì i robots ùn sò micca permessi di accede à u /admin/ annuariu, eccettu per u /admin/login.html pagina, chì hè dispunibule per indexazione è scanning.
Robots.txt è Sitemap
Sitemap hè un schedariu XML chì cuntene una lista di l'URL di tutte e pagine è i schedari nantu à u situ chì ponu esse indiziati da i mutori di ricerca. Quandu un robot di ricerca accede à u schedariu robots.txt è vede un ligame à un schedariu XML di sitemap, pò utilizà stu schedariu per truvà tutti l'URL è risorse dispunibili nantu à u situ. A direttiva hè specificatu in u formatu:
Sitemap: https://yoursite.com/filesitemap.xml
Questa regula hè generalmente posta à a fine di u documentu senza esse ligata à un User-Agent specificu è hè trattatu da tutti i robots senza eccezzioni. Se u pruprietariu di u situ ùn usa micca sitemap.xml, ùn hè micca necessariu aghjunghje a regula.
Esempii di Robots.txt cunfigurati
Configurazione di Robots.txt per WordPress
In questa sezione, cunsideremu una cunfigurazione pronta per WordPress. Scopreremu bluccà l'accessu à e dati cunfidenziale è permette l'accessu à e pagine principali.
Cum'è una suluzione pronta, pudete aduprà u codice seguente:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Ancu s'è tutte e direttive sò accumpagnate da cumenti, andemu in più in e cunclusioni.
- I robots ùn indizianu micca i fugliali è i cartulari sensittivi.
- À u listessu tempu, i robots sò permessi di accede à e pagine principali è risorse di u situ.
- U ban hè stabilitu nantu à l'indexazione di e versioni antichi di i posti è e dumande parametrizzate per impedisce a duplicazione di cuntenutu.
- U locu di u sitemap hè indicatu per l'indexazione mejorata.
Cusì, avemu cunsideratu un esempiu generale di una cunfigurazione pronta, in quale certi schedarii sensibili è camini sò oculati da l'indexazione, ma i cartulari principali sò accessibili.
A cuntrariu di parechji CMS populari o siti scritti apposta, WordPress hà parechji plugins chì facilitanu a creazione è a gestione di u schedariu robots.txt. Una di e soluzioni populari per questu scopu hè Yoast SEO.
Per installallu, avete bisognu di:
- Andate à u pannellu di amministrazione di WordPress.
- In a sezione "Plugins", selezziunate "Add New".
- Truvate u plugin "Yoast SEO" è installate.
- Activate u plugin.
Per edità u schedariu robots.txt, avete bisognu di:
- Andà à a sezione "SEO" in u menù laterale di u pannellu di amministratore è selezziunate "Generale".
- Andà à a tabulazione "Tools".
- Cliccate nant'à "Files". Quì vi vede diversi schedari, cumpresi robots.txt.
- Inserite e regule di indexazione necessarie secondu i vostri bisogni.
- Dopu avè fattu cambiamenti à u schedariu, cliccate nantu à u buttone "Salvà i cambiamenti in robots.txt".
Innota chì ogni paràmetru di u schedariu robots.txt per WordPress hè unicu è dipende da i bisogni specifichi è e caratteristiche di u situ. Ùn ci hè micca un mudellu universale chì si adatta à tutte e risorse senza eccezzioni. In ogni casu, questu esempiu è l'usu di plugins ponu simplificà significativamente u compitu.
Impostazione manuale di Robots.txt
In listessu modu, pudete stabilisce a vostra cunfigurazione di u schedariu ancu in l'absenza di un CMS prontu per u situ. L'utilizatore hà ancu bisognu di cullà u schedariu robots.txt à u repertoriu radicali di u situ è specificà e regule necessarie. Eccu unu di l'esempii, in quale tutti i direttivi dispunibuli sò indicati:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Cumu verificà u File Robots.txt
Cum'è un strumentu ausiliariu quandu verificate u schedariu robots.txt per errori, hè cunsigliatu di utilizà servizii in linea.
Cunsiderate l'esempiu di u Webmaster Yandex serviziu. Per verificà, avete bisognu di inserisce un ligame à u vostru situ in u campu currispundente se u schedariu hè digià caricatu à u servitore. Dopu quì, l'uttellu stessu caricarà a cunfigurazione di u schedariu. Ci hè ancu una opzione per entre in a cunfigurazione manualmente:
Dopu, avete bisognu di dumandà un cuntrollu è aspittà i risultati:
In l'esempiu datu, ùn ci sò micca errori. S'ellu ci hè, u serviziu mostrarà e zone problematiche è modi per riparà.
cunchiusioni
In riassuntu, avemu enfatizatu quantu hè impurtante u schedariu robots.txt per u cuntrollu di u trafficu in u situ. Avemu furnitu cunsiglii nantu à cumu cunfigurà bè per gestisce cumu e pagine d'indici di i mutori di ricerca. In più di questu, avemu vistu ancu esempi di cumu utilizà stu schedariu currettamente è detti struzzioni nantu à cumu verificà chì tutti i paràmetri funzionanu bè.