Robots.txt

In questu articulu, esamineremu u rolu chjave di u schedariu robots.txt in a gestione di u trafficu nantu à i siti web, discutemu a necessità di a so prisenza, è furnisce cunsiglii per a stallazione per una gestione efficace di l'indexazione di e pagine. Inoltre, analizzeremu esempi di l'usu di direttive currette in u schedariu robots.txt è furnisce una guida nantu à cumu verificà a correttezza di i so paràmetri.

Perchè Robots.txt hè necessariu

Robots.txt hè un schedariu situatu nantu à u servitore di u situ in u so repertoriu radicali. Informa à i robots di u mutore di ricerca cumu si deve scansà u cuntenutu di a risorsa. L'usu propiu di stu schedariu aiuta à prevene l'indexazione di e pagine indesiderate, prutegge e dati cunfidenziale, è ponu migliurà l'efficienza di l'optimizazione di SEO è a visibilità di u situ in i risultati di ricerca. A cunfigurazione di robots.txt hè fatta à traversu direttive, chì guardemu più.

Stabbilimentu di Direttive in Robots.txt

Agente d'Usuariu

A direttiva primaria hè cunnisciuta cum'è User-Agent, induve avemu stabilitu una chjave speciale per i robots. Dopu avè rilevatu sta parolla, u robot capisce chì a regula hè apposta per ellu.

Cunsiderate un esempiu di usu User-Agent in u schedariu robots.txt:

User-Agent: *
Disallow: /private/

Questu esempiu indica chì tutti i robots di ricerca (rappresentatu da u simbulu "*") deve ignurà e pagine situate in u /privatu/ catalogo.

Eccu cumu si vede l'istruzzioni per robots di ricerca specifichi:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

In stu casu, a googlebot U robot di ricerca deve ignurà e pagine in u /admin/ annuariu, mentri bingbot duverebbe ignurà e pagine in u /privatu/ catalogo.

Disallow

Disallow dice à i robots di ricerca chì URL per saltà o micca indici in u situ web. Questa direttiva hè utile quandu vulete ammuccià e dati sensittivi o pagine di cuntenutu di bassa qualità da esse indexate da i mutori di ricerca. Se u schedariu robots.txt cuntene l'entrata Disallow: /directory/, allura i robots seranu denegati l'accessu à u cuntenutu di u repertoriu specificatu. Per esempiu,

User-agent: *
Disallow: /admin/

Stu valore indica chì tutti i robots deve ignurà l'URL chì cumincianu cù /admin/. Per bluccà tuttu u situ da esse indexatu da qualsiasi robots, stabilisce u cartulare radicale cum'è regula:

User-agent: *
Disallow: /

lascialu

U valore "Allow" agisce oppostu à "Disallow": permette à i robots di ricerca l'accessu à una pagina o un repertoriu specificu, ancu se altre direttive in u schedariu robots.txt impediscenu l'accessu à questu.

Cunsiderate un esempiu:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

In questu esempiu, hè specificatu chì i robots ùn sò micca permessi di accede à u /admin/ annuariu, eccettu per u /admin/login.html pagina, chì hè dispunibule per indexazione è scanning.

Robots.txt è Sitemap

Sitemap hè un schedariu XML chì cuntene una lista di l'URL di tutte e pagine è i schedari nantu à u situ chì ponu esse indiziati da i mutori di ricerca. Quandu un robot di ricerca accede à u schedariu robots.txt è vede un ligame à un schedariu XML di sitemap, pò utilizà stu schedariu per truvà tutti l'URL è risorse dispunibili nantu à u situ. A direttiva hè specificatu in u formatu:

Sitemap: https://yoursite.com/filesitemap.xml

Questa regula hè generalmente posta à a fine di u documentu senza esse ligata à un User-Agent specificu è hè trattatu da tutti i robots senza eccezzioni. Se u pruprietariu di u situ ùn usa micca sitemap.xml, ùn hè micca necessariu aghjunghje a regula.

Esempii di Robots.txt cunfigurati

Configurazione di Robots.txt per WordPress

In questa sezione, cunsideremu una cunfigurazione pronta per WordPress. Scopreremu bluccà l'accessu à e dati cunfidenziale è permette l'accessu à e pagine principali.

Cum'è una suluzione pronta, pudete aduprà u codice seguente:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Ancu s'è tutte e direttive sò accumpagnate da cumenti, andemu in più in e cunclusioni.

I robots ùn indizianu micca i fugliali è i cartulari sensittivi.
À u listessu tempu, i robots sò permessi di accede à e pagine principali è risorse di u situ.
U ban hè stabilitu nantu à l'indexazione di e versioni antichi di i posti è e dumande parametrizzate per impedisce a duplicazione di cuntenutu.
U locu di u sitemap hè indicatu per l'indexazione mejorata.

Cusì, avemu cunsideratu un esempiu generale di una cunfigurazione pronta, in quale certi schedarii sensibili è camini sò oculati da l'indexazione, ma i cartulari principali sò accessibili.

A cuntrariu di parechji CMS populari o siti scritti apposta, WordPress hà parechji plugins chì facilitanu a creazione è a gestione di u schedariu robots.txt. Una di e soluzioni populari per questu scopu hè Yoast SEO.

Per installallu, avete bisognu di:

Andate à u pannellu di amministrazione di WordPress.
In a sezione "Plugins", selezziunate "Add New".
Truvate u plugin "Yoast SEO" è installate.
Activate u plugin.

Per edità u schedariu robots.txt, avete bisognu di:

Andà à a sezione "SEO" in u menù laterale di u pannellu di amministratore è selezziunate "Generale".
Andà à a tabulazione "Tools".
Cliccate nant'à "Files". Quì vi vede diversi schedari, cumpresi robots.txt.
Inserite e regule di indexazione necessarie secondu i vostri bisogni.
Dopu avè fattu cambiamenti à u schedariu, cliccate nantu à u buttone "Salvà i cambiamenti in robots.txt".

Innota chì ogni paràmetru di u schedariu robots.txt per WordPress hè unicu è dipende da i bisogni specifichi è e caratteristiche di u situ. Ùn ci hè micca un mudellu universale chì si adatta à tutte e risorse senza eccezzioni. In ogni casu, questu esempiu è l'usu di plugins ponu simplificà significativamente u compitu.

Impostazione manuale di Robots.txt

In listessu modu, pudete stabilisce a vostra cunfigurazione di u schedariu ancu in l'absenza di un CMS prontu per u situ. L'utilizatore hà ancu bisognu di cullà u schedariu robots.txt à u repertoriu radicali di u situ è specificà e regule necessarie. Eccu unu di l'esempii, in quale tutti i direttivi dispunibuli sò indicati:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Cumu verificà u File Robots.txt

Cum'è un strumentu ausiliariu quandu verificate u schedariu robots.txt per errori, hè cunsigliatu di utilizà servizii in linea.

Cunsiderate l'esempiu di u Webmaster Yandex serviziu. Per verificà, avete bisognu di inserisce un ligame à u vostru situ in u campu currispundente se u schedariu hè digià caricatu à u servitore. Dopu quì, l'uttellu stessu caricarà a cunfigurazione di u schedariu. Ci hè ancu una opzione per entre in a cunfigurazione manualmente:

Dopu, avete bisognu di dumandà un cuntrollu è aspittà i risultati:

Risultato di l'impostazione di Robots.txt

In l'esempiu datu, ùn ci sò micca errori. S'ellu ci hè, u serviziu mostrarà e zone problematiche è modi per riparà.

cunchiusioni

In riassuntu, avemu enfatizatu quantu hè impurtante u schedariu robots.txt per u cuntrollu di u trafficu in u situ. Avemu furnitu cunsiglii nantu à cumu cunfigurà bè per gestisce cumu e pagine d'indici di i mutori di ricerca. In più di questu, avemu vistu ancu esempi di cumu utilizà stu schedariu currettamente è detti struzzioni nantu à cumu verificà chì tutti i paràmetri funzionanu bè.

❮ Articulu precedente Cumu cunfigurà un servitore web (Apache-PHP-MySQL/MariaDB) in Linux

Articulu prossimu ❯ Cumu cunnette à un servitore Linux attraversu SSH