Robots.txt

In dit artikel onderzoeken we de sleutelrol van het robots.txt-bestand bij het beheren van verkeer op websites, bespreken we de noodzaak van de aanwezigheid ervan en geven we aanbevelingen voor het instellen ervan voor effectief beheer van pagina-indexering. Daarnaast analyseren we voorbeelden van correct gebruik van richtlijnen in het robots.txt-bestand en geven we een handleiding over hoe u de juistheid van de instellingen kunt controleren.

Waarom Robots.txt nodig is

Robots.txt is een bestand dat zich op de server van de site in de root directory bevindt. Het informeert zoekmachine robots hoe ze de inhoud van de bron moeten scannen. Correct gebruik van dit bestand helpt voorkomen dat ongewenste pagina's worden geïndexeerd, beschermt vertrouwelijke gegevens en kan de efficiëntie van SEO-optimalisatie en zichtbaarheid van de site in zoekresultaten verbeteren. De configuratie van robots.txt wordt gedaan via richtlijnen, die we later zullen bekijken.

Richtlijnen instellen in Robots.txt

User-Agent

De primaire richtlijn staat bekend als User-Agent, waarbij we een speciaal trefwoord voor robots instellen. Bij het detecteren van dit woord begrijpt de robot dat de regel specifiek voor hem bedoeld is.

Overweeg een voorbeeld van het gebruik van User-Agent in het robots.txt-bestand:

User-Agent: *
Disallow: /private/

Dit voorbeeld geeft aan dat alle zoekrobots (weergegeven door het symbool "*") moet pagina's negeren die zich in de /privaat/ directory.

Dit is hoe de instructie eruitziet voor specifieke zoekrobots:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

In dit geval, de Googlebot zoekrobot moet pagina's in de negeren /beheerder/ map, terwijl Bingbot moet pagina's in de negeren /privaat/ directory.

weigeren

weigeren vertelt zoekrobots welke URL's ze moeten overslaan of niet moeten indexeren op de website. Deze richtlijn is handig als u gevoelige gegevens of pagina's met inhoud van lage kwaliteit wilt verbergen voor indexering door zoekmachines. Als het robots.txt-bestand de invoer bevat Disallow: /directories/, dan wordt robots de toegang tot de inhoud van de opgegeven directory ontzegd. Bijvoorbeeld,

User-agent: *
Disallow: /admin/

Deze waarde geeft aan dat alle robots moet URL's negeren die beginnen met /beheerder/Om te voorkomen dat de hele site door robots wordt geïndexeerd, stelt u de hoofdmap als regel in:

User-agent: *
Disallow: /

Allow

De waarde 'Toestaan' werkt tegengesteld aan 'Niet toestaan': hiermee krijgen zoekrobots toegang tot een specifieke pagina of map, zelfs als andere richtlijnen in het robots.txt-bestand de toegang daartoe verbieden.

Overweeg een voorbeeld:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

In dit voorbeeld wordt aangegeven dat robots geen toegang hebben tot de /beheerder/ directory, behalve de /admin/inloggen.html pagina, die beschikbaar is voor indexering en scannen.

Robots.txt en Sitemap

Sitemap is een XML-bestand dat een lijst bevat met URL's van alle pagina's en bestanden op de site die door zoekmachines kunnen worden geïndexeerd. Wanneer een zoekrobot het robots.txt-bestand opent en een link naar een sitemap-XML-bestand ziet, kan hij dit bestand gebruiken om alle beschikbare URL's en bronnen op de site te vinden. De richtlijn wordt gespecificeerd in de indeling:

Sitemap: https://yoursite.com/filesitemap.xml

Deze regel wordt meestal aan het einde van het document geplaatst zonder dat deze aan een specifieke User-Agent is gekoppeld en wordt door alle robots zonder uitzondering verwerkt. Als de site-eigenaar geen sitemap.xml gebruikt, is het niet nodig om de regel toe te voegen.

Voorbeelden van geconfigureerde Robots.txt

Robots.txt instellen voor WordPress

In deze sectie zullen we een kant-en-klare configuratie voor WordPress bekijken. We zullen het blokkeren van toegang tot vertrouwelijke gegevens en het toestaan van toegang tot de hoofdpagina's onderzoeken.

Als kant-en-klare oplossing kunt u de volgende code gebruiken:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Hoewel alle richtlijnen van commentaar zijn voorzien, gaan we dieper in op de conclusies.

Robots indexeren geen gevoelige bestanden en mappen.
Tegelijkertijd krijgen robots toegang tot de hoofdpagina's en bronnen van de site.
verbod is ingesteld op het indexeren van oude versies van berichten en geparameteriseerde query's om duplicatie van inhoud te voorkomen.
De locatie van de sitemap wordt aangegeven voor een betere indexering.

Daarom hebben we een algemeen voorbeeld van een kant-en-klare configuratie overwogen, waarin sommige gevoelige bestanden en paden verborgen zijn voor indexering, maar de hoofdmappen toegankelijk zijn.

In tegenstelling tot veel populaire CMS of op maat geschreven sites, heeft WordPress verschillende plugins die het maken en beheren van het robots.txt-bestand vergemakkelijken. Een van de populaire oplossingen voor dit doel is Yoast SEO.

Om het te installeren, moet u het volgende doen:

Ga naar het WordPress-beheerderspaneel.
Selecteer 'Nieuwe toevoegen' in het gedeelte 'Plugins'.
Zoek de plugin "Yoast SEO" en installeer deze.
Activeer de plugin.

Om het robots.txt-bestand te bewerken, moet u het volgende doen:

Ga naar het gedeelte 'SEO' in het zijmenu van het beheerderspaneel en selecteer 'Algemeen'.
Ga naar het tabblad 'Extra'.
Klik op "Bestanden". Hier ziet u verschillende bestanden, waaronder robots.txt.
Voer de benodigde indexeringsregels in volgens uw vereisten.
Nadat u wijzigingen in het bestand hebt aangebracht, klikt u op de knop 'Wijzigingen opslaan in robots.txt'.

Houd er rekening mee dat elke robots.txt-bestandsinstelling voor WordPress uniek is en afhankelijk is van de specifieke behoeften en functies van de site. Er is geen universele sjabloon die zonder uitzondering geschikt is voor alle bronnen. Dit voorbeeld en het gebruik van plug-ins kunnen de taak echter aanzienlijk vereenvoudigen.

Handmatige instelling van Robots.txt

Op dezelfde manier kunt u uw configuratie van het bestand instellen, zelfs als er geen kant-en-klare CMS voor de site is. De gebruiker moet ook het robots.txt-bestand uploaden naar de hoofdmap van de site en de benodigde regels opgeven. Hier is een van de voorbeelden, waarin alle beschikbare richtlijnen worden aangegeven:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Hoe het Robots.txt-bestand te controleren

Als hulpmiddel bij het controleren van het robots.txt-bestand op fouten, wordt het gebruik van onlinediensten aanbevolen.

Beschouw het voorbeeld van de Yandex-webmaster service. Om dit te controleren, moet u een link naar uw site in het overeenkomstige veld invoegen als het bestand al naar de server is geüpload. Daarna laadt de tool zelf de bestandsconfiguratie. Er is ook een optie om de configuratie handmatig in te voeren:

Vervolgens moet u een controle aanvragen en wachten op de resultaten:

In het gegeven voorbeeld zijn er geen fouten. Als er fouten zijn, zal de service de problematische gebieden en manieren om ze te verhelpen tonen.

Conclusie

Samenvattend hebben we benadrukt hoe belangrijk het robots.txt-bestand is voor het regelen van verkeer op de site. We hebben advies gegeven over hoe je het goed kunt instellen om te beheren hoe zoekmachines pagina's indexeren. Daarnaast hebben we ook gekeken naar voorbeelden van hoe je dit bestand correct kunt gebruiken en instructies gegeven over hoe je kunt controleren of alle instellingen correct werken.

❮ Vorig artikel Hoe configureer je een webserver (Apache-PHP-MySQL/MariaDB) op Linux

Volgend artikel ❯ Hoe maak je verbinding met een Linux-server via SSH