Σε αυτό το άρθρο, θα εξετάσουμε τον βασικό ρόλο του αρχείου robots.txt στη διαχείριση της επισκεψιμότητας σε ιστότοπους, θα συζητήσουμε την αναγκαιότητα της παρουσίας του και θα παρέχουμε συστάσεις για τη ρύθμισή του για αποτελεσματική διαχείριση ευρετηρίασης σελίδων. Επιπλέον, θα αναλύσουμε παραδείγματα σωστής χρήσης οδηγιών στο αρχείο robots.txt και θα παρέχουμε έναν οδηγό για τον έλεγχο της ορθότητας των ρυθμίσεών του.
Γιατί χρειάζεται το Robots.txt
Το Robots.txt είναι ένα αρχείο που βρίσκεται στον διακομιστή του ιστότοπου στον ριζικό κατάλογο του. Ενημερώνει τα ρομπότ των μηχανών αναζήτησης πώς πρέπει να σαρώσουν το περιεχόμενο του πόρου. Η σωστή χρήση αυτού του αρχείου βοηθά στην αποτροπή της δημιουργίας ευρετηρίου ανεπιθύμητων σελίδων, προστατεύει τα εμπιστευτικά δεδομένα και μπορεί να βελτιώσει την αποτελεσματικότητα της βελτιστοποίησης SEO και την προβολή του ιστότοπου στα αποτελέσματα αναζήτησης. Η διαμόρφωση του robots.txt γίνεται μέσω οδηγιών, τις οποίες θα δούμε παρακάτω.
Ρύθμιση οδηγιών στο Robots.txt
User-Agent
Η κύρια οδηγία είναι γνωστή ως User-Agent, όπου ορίζουμε μια ειδική λέξη-κλειδί για τα ρομπότ. Με τον εντοπισμό αυτής της λέξης, το ρομπότ καταλαβαίνει ότι ο κανόνας προορίζεται ειδικά για αυτήν.
Εξετάστε ένα παράδειγμα χρήσης του User-Agent στο αρχείο robots.txt:
User-Agent: *
Disallow: /private/
Αυτό το παράδειγμα υποδεικνύει ότι όλα τα ρομπότ αναζήτησης (που αντιπροσωπεύονται από το σύμβολο "*") θα πρέπει να αγνοήσει τις σελίδες που βρίσκονται στο /ιδιωτικός/ Κατάλογο.
Δείτε πώς φαίνεται η οδηγία για συγκεκριμένα ρομπότ αναζήτησης:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Στην περίπτωση αυτή, το Googlebot Το ρομπότ αναζήτησης θα πρέπει να αγνοεί τις σελίδες στο /admin/ καταλόγου, ενώ Μπίνγκμποτ θα πρέπει να αγνοήσει τις σελίδες στο /ιδιωτικός/ Κατάλογο.
Απαγόρευση
Απαγόρευση λέει στα ρομπότ αναζήτησης ποιες διευθύνσεις URL να παραλείψουν ή να μην ευρετηριάσουν στον ιστότοπο. Αυτή η οδηγία είναι χρήσιμη όταν θέλετε να αποκρύψετε ευαίσθητα δεδομένα ή σελίδες περιεχομένου χαμηλής ποιότητας ώστε να μην ευρετηριαστούν από τις μηχανές αναζήτησης. Εάν το αρχείο robots.txt περιέχει την καταχώρηση Απαγόρευση: /directories/, τότε στα ρομπότ θα απαγορεύεται η πρόσβαση στα περιεχόμενα του καθορισμένου καταλόγου. Για παράδειγμα,
User-agent: *
Disallow: /admin/
Αυτή η τιμή δείχνει ότι όλα τα ρομπότ θα πρέπει να αγνοήσει τις διευθύνσεις URL ξεκινώντας από /admin/. Για να αποκλείσετε την ευρετηρίαση ολόκληρου του ιστότοπου από οποιοδήποτε ρομπότ, ορίστε τον ριζικό κατάλογο ως κανόνα:
User-agent: *
Disallow: /
Επιτρέψτε
Η τιμή "Allow" λειτουργεί αντίθετα από την "Disallow": επιτρέπει στα ρομπότ αναζήτησης να έχουν πρόσβαση σε μια συγκεκριμένη σελίδα ή κατάλογο, ακόμα κι αν άλλες οδηγίες στο αρχείο robots.txt απαγορεύουν την πρόσβαση σε αυτήν.
Εξετάστε ένα παράδειγμα:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Σε αυτό το παράδειγμα, διευκρινίζεται ότι τα ρομπότ δεν έχουν πρόσβαση στο /admin/ κατάλογο, εκτός από το /admin/login.html σελίδα, η οποία είναι διαθέσιμη για ευρετηρίαση και σάρωση.
Robots.txt και Sitemap
Ο χάρτης ιστότοπου είναι ένα αρχείο XML που περιέχει μια λίστα με διευθύνσεις URL όλων των σελίδων και αρχείων στον ιστότοπο που μπορούν να ευρετηριαστούν από τις μηχανές αναζήτησης. Όταν ένα ρομπότ αναζήτησης αποκτά πρόσβαση στο αρχείο robots.txt και βλέπει έναν σύνδεσμο προς ένα αρχείο XML χάρτη ιστότοπου, μπορεί να χρησιμοποιήσει αυτό το αρχείο για να βρει όλες τις διαθέσιμες διευθύνσεις URL και τους πόρους στον ιστότοπο. Η οδηγία προσδιορίζεται στη μορφή:
Sitemap: https://yoursite.com/filesitemap.xml
Αυτός ο κανόνας τοποθετείται συνήθως στο τέλος του εγγράφου χωρίς να συνδέεται με έναν συγκεκριμένο παράγοντα χρήστη και υποβάλλεται σε επεξεργασία από όλα τα ρομπότ χωρίς εξαίρεση. Εάν ο κάτοχος του ιστότοπου δεν χρησιμοποιεί το sitemap.xml, δεν είναι απαραίτητο να προσθέσετε τον κανόνα.
Παραδείγματα διαμορφωμένων Robots.txt
Ρύθμιση του Robots.txt για WordPress
Σε αυτήν την ενότητα, θα εξετάσουμε μια έτοιμη διαμόρφωση για το WordPress. Θα διερευνήσουμε τον αποκλεισμό της πρόσβασης σε εμπιστευτικά δεδομένα και την πρόσβαση στις κύριες σελίδες.
Ως έτοιμη λύση, μπορείτε να χρησιμοποιήσετε τον ακόλουθο κώδικα:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Αν και όλες οι οδηγίες συνοδεύονται από σχόλια, ας εμβαθύνουμε στα συμπεράσματα.
- Τα ρομπότ δεν ευρετηριάζουν ευαίσθητα αρχεία και καταλόγους.
- Ταυτόχρονα, επιτρέπεται στα ρομπότ η πρόσβαση στις κύριες σελίδες και τους πόρους του ιστότοπου.
- Η απαγόρευση έχει οριστεί για την ευρετηρίαση παλαιών εκδόσεων αναρτήσεων και παραμετροποιημένων ερωτημάτων για την αποφυγή αντιγραφής περιεχομένου.
- Η τοποθεσία του χάρτη ιστότοπου υποδεικνύεται για βελτιωμένη ευρετηρίαση.
Έτσι, εξετάσαμε ένα γενικό παράδειγμα μιας έτοιμης διαμόρφωσης, στην οποία ορισμένα ευαίσθητα αρχεία και διαδρομές είναι κρυμμένα από την ευρετηρίαση, αλλά οι κύριοι κατάλογοι είναι προσβάσιμοι.
Σε αντίθεση με πολλούς δημοφιλείς CMS ή προσαρμοσμένους ιστότοπους, το WordPress έχει αρκετές προσθήκες που διευκολύνουν τη δημιουργία και τη διαχείριση του αρχείου robots.txt. Μία από τις δημοφιλείς λύσεις για αυτό το σκοπό είναι Yoast SEO.
Για να το εγκαταστήσετε χρειάζεται:
- Μεταβείτε στον πίνακα διαχείρισης του WordPress.
- Στην ενότητα "Προσθήκες", επιλέξτε "Προσθήκη νέου".
- Βρείτε το πρόσθετο "Yoast SEO" και εγκαταστήστε το.
- Ενεργοποιήστε την προσθήκη.
Για να επεξεργαστείτε το αρχείο robots.txt, πρέπει:
- Μεταβείτε στην ενότητα "SEO" στο πλαϊνό μενού του πίνακα διαχείρισης και επιλέξτε "Γενικά".
- Μεταβείτε στην καρτέλα "Εργαλεία".
- Κάντε κλικ στο "Αρχεία". Εδώ θα δείτε διάφορα αρχεία, συμπεριλαμβανομένου του robots.txt.
- Εισαγάγετε τους απαραίτητους κανόνες ευρετηρίασης σύμφωνα με τις απαιτήσεις σας.
- Αφού κάνετε αλλαγές στο αρχείο, κάντε κλικ στο κουμπί "Αποθήκευση αλλαγών στο robots.txt".
Σημειώστε ότι κάθε ρύθμιση αρχείου robots.txt για το WordPress είναι μοναδική και εξαρτάται από τις συγκεκριμένες ανάγκες και δυνατότητες του ιστότοπου. Δεν υπάρχει καθολικό πρότυπο που να ταιριάζει σε όλους τους πόρους χωρίς εξαίρεση. Ωστόσο, αυτό το παράδειγμα και η χρήση πρόσθετων μπορούν να απλοποιήσουν σημαντικά την εργασία.
Μη αυτόματη ρύθμιση του Robots.txt
Ομοίως, μπορείτε να ρυθμίσετε τη διαμόρφωση του αρχείου ακόμη και αν δεν υπάρχει έτοιμο CMS για τον ιστότοπο. Ο χρήστης πρέπει επίσης να ανεβάσει το αρχείο robots.txt στον ριζικό κατάλογο του ιστότοπου και να καθορίσει τους απαραίτητους κανόνες. Ακολουθεί ένα από τα παραδείγματα, στο οποίο αναφέρονται όλες οι διαθέσιμες οδηγίες:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Πώς να ελέγξετε το αρχείο Robots.txt
Ως βοηθητικό εργαλείο κατά τον έλεγχο του αρχείου robots.txt για σφάλματα, συνιστάται η χρήση διαδικτυακών υπηρεσιών.
Εξετάστε το παράδειγμα του Yandex Webmaster υπηρεσία. Για να ελέγξετε, πρέπει να εισαγάγετε έναν σύνδεσμο προς τον ιστότοπό σας στο αντίστοιχο πεδίο, εάν το αρχείο έχει ήδη μεταφορτωθεί στον διακομιστή. Μετά από αυτό, το ίδιο το εργαλείο θα φορτώσει τη διαμόρφωση του αρχείου. Υπάρχει επίσης μια επιλογή χειροκίνητης εισαγωγής της διαμόρφωσης:
Στη συνέχεια, πρέπει να ζητήσετε έλεγχο και να περιμένετε τα αποτελέσματα:
Στο συγκεκριμένο παράδειγμα, δεν υπάρχουν σφάλματα. Εάν υπάρχουν, η υπηρεσία θα δείξει τις προβληματικές περιοχές και τρόπους επίλυσής τους.
Συμπέρασμα
Συνοπτικά, τονίσαμε πόσο σημαντικό είναι το αρχείο robots.txt για τον έλεγχο της επισκεψιμότητας στον ιστότοπο. Παρέχαμε συμβουλές για το πώς να το ρυθμίσετε σωστά για να διαχειριστείτε τον τρόπο με τον οποίο οι μηχανές αναζήτησης ευρετηριάζουν σελίδες. Εκτός από αυτό, εξετάσαμε επίσης παραδείγματα για το πώς να χρησιμοποιήσετε σωστά αυτό το αρχείο και δώσαμε οδηγίες για το πώς να ελέγξετε ότι όλες οι ρυθμίσεις λειτουργούν σωστά.