Knowledgebase Einfach Instruktioune fir mam Profitserver Service ze schaffen
Main Knowledgebase robots.txt

robots.txt


An dësem Artikel wäerte mir d'Schlësselroll vun der robots.txt-Datei bei der Gestioun vum Traffic op Websäiten ënnersichen, iwwer d'Noutwennegkeet vu senger Präsenz diskutéieren an Empfehlungen fir se opzestellen fir effektiv Säitindexéierungsmanagement. Zousätzlech wäerte mir Beispiller vun der korrekter Direktivverbrauch an der robots.txt Datei analyséieren an e Guide ubidden wéi d'Korrektheet vun hiren Astellungen iwwerpréift gëtt.

Firwat Robots.txt ass néideg

Robots.txt ass eng Datei déi um Server vum Site a sengem Root-Verzeichnis läit. Et informéiert Sichmotorroboter wéi se den Inhalt vun der Ressource scannen sollen. Richteg Notzung vun dëser Datei hëlleft d'Indexéiere vun ongewollten Säiten ze verhënneren, vertraulech Daten schützt a kann d'Effizienz vun der SEO Optimisatioun an der Visibilitéit vum Site an de Sichresultater verbesseren. D'Konfiguratioun vu robots.txt gëtt duerch Direktiven gemaach, déi mir weider kucken.

Astellen Direktiven an Robots.txt

Benotzer Agent

Déi primär Direktiv ass bekannt als User-Agent, wou mir e speziellt Schlësselwuert fir Roboter setzen. Beim Entdeckung vun dësem Wuert versteet de Roboter datt d'Regel speziell dofir geduecht ass.

Betruecht e Beispill fir User-Agent an der robots.txt Datei ze benotzen:

User-Agent: *
Disallow: /private/

Dëst Beispill weist datt all Sichroboter (representéiert duerch d'Symbol "*") solle Säiten ignoréieren, déi an der /privat/ Dossier.

Hei ass wéi d'Instruktioun fir spezifesch Sichroboter ausgesäit:

User-Agent: Googlebot
Disallow: /admin/

User-Agent: Bingbot
Disallow: /private/

An dësem Fall ass de googlebot Sich Roboter soll Säiten an der ignoréieren /admin/ directory, iwwerdeems bingbot soll Säiten an der ignoréieren /privat/ Dossier.

Verloossen

Verloossen erzielt Sichroboter wéi eng URLen op der Websäit iwwersprangen oder net indexéieren. Dës Direktiv ass nëtzlech wann Dir sensibel Donnéeën oder nidderegqualitativ Inhaltssäite verstoppe wëllt vu Sichmotoren indexéiert ginn. Wann d'robots.txt Datei den Entrée enthält Disallow: /directory/, da gëtt Roboteren Zougang zum Inhalt vum spezifizéierte Verzeechnes verweigert. Zum Beispill,

User-agent: *
Disallow: /admin/

Dëse Wäert weist dat all Roboteren soll URLen ignoréieren ugefaange mat /admin/. Fir de ganze Site ze blockéieren vun all Roboter indexéiert ze ginn, set de Root Verzeechnes als Regel:

User-agent: *
Disallow: /

erlaabt

De Wäert "Allow" handelt entgéint der "Disallow": et erlaabt Sichroboter Zougang zu enger spezifescher Säit oder Verzeechnes, och wann aner Direktiven an der robots.txt Datei den Zougang dozou verbidden.

Betruecht e Beispill:

User-agent: *
Disallow: /admin/
Allow: /admin/login.html

An dësem Beispill gëtt et präziséiert datt Roboteren net Zougang zu der erlaabt sinn /admin/ Verzeechnes, ausser de /admin/login.html Säit, déi verfügbar ass fir Indexéierung a Scannen.

Robots.txt a Sitemap

Sitemap ass eng XML Datei déi eng Lëscht vun URLen vun alle Säiten a Dateien op der Säit enthält déi vu Sichmotoren indexéiert kënne ginn. Wann e Sichroboter op d'robots.txt-Datei zougräift an e Link op eng XML-Sitemap-Datei gesäit, kann en dës Datei benotze fir all verfügbar URLen a Ressourcen um Site ze fannen. D'Direktiv gëtt am Format spezifizéiert:

Sitemap: https://yoursite.com/filesitemap.xml

Dës Regel gëtt normalerweis um Enn vum Dokument gesat ouni un e spezifesche User-Agent gebonne ze sinn a gëtt vun all Roboter ouni Ausnam veraarbecht. Wann de Site Besëtzer net Sitemap.xml benotzt, ass et net néideg fir d'Regel ze addéieren.

Beispiller vun konfiguréiert Robots.txt

Robots.txt fir WordPress opsetzen

An dëser Sektioun wäerte mir eng fäerdeg Konfiguratioun fir WordPress berücksichtegen. Mir wäerten den Zougang zu vertraulechen Donnéeën blockéieren an Zougang zu den Haaptsäiten erlaben.

Als fäerdeg Léisung kënnt Dir de folgende Code benotzen:

User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php

# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*

# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*

# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml

Och wann all Direktiven mat Kommentaren begleet sinn, loosst eis méi déif an d'Conclusiounen verdauen.

  1. Roboter indexéieren net sensibel Dateien an Verzeichnisser.
  2. Zur selwechter Zäit sinn Roboter Zougang zu den Haaptsäiten a Ressourcen vum Site erlaabt.
  3. Verbuet ass gesat fir al Versioune vu Posts ze indexéieren an parametriséiert Ufroen fir Inhaltsduplikatioun ze vermeiden.
  4. De Standort vun der Sitemap gëtt fir eng verbessert Indexéierung uginn.

Also hu mir en allgemengt Beispill vun enger fäerdeger Konfiguratioun ugesinn, an där e puer sensibel Dateien a Weeër aus der Indexéierung verstoppt sinn, awer d'Haaptverzeichnisser sinn zougänglech.

Am Géigesaz zu ville populäre CMS oder personaliséiert schrëftleche Siten huet WordPress verschidde Plugins déi d'Schafung an d'Gestioun vun der robots.txt Datei erliichteren. Ee vun de populäre Léisunge fir dësen Zweck ass Yoast Prinzip.

Fir et z'installéieren, musst Dir:

  1. Gitt op de WordPress Admin Panel.
  2. An der Rubrik "Plugins" wielt "Neien derbäi".
  3. Fannt de "Yoast SEO" Plugin an installéiert et.
  4. Aktivéiert den Plugin.

Fir d'robots.txt Datei z'änneren, musst Dir:

  1. Gitt an d'Sektioun "SEO" am Säitmenü vum Admin Panel a wielt "Allgemeng".
  2. Gitt op den Tab "Tools".
  3. Klickt op "Dateien". Hei gesitt Dir verschidde Dateien, dorënner robots.txt.
  4. Gitt déi néideg Indexéierungsregelen no Ären Ufuerderungen un.
  5. Nodeems Dir Ännerunge vun der Datei gemaach hutt, klickt op de Knäppchen "Späicheren Ännerungen op robots.txt".

Bedenkt datt all robots.txt Dateiestellung fir WordPress eenzegaarteg ass an hänkt vun de spezifesche Bedierfnesser a Feature vum Site of. Et gëtt keng universell Schabloun déi all Ressourcen ouni Ausnam passt. Wéi och ëmmer, dëst Beispill an d'Benotzung vu Plugins kënnen d'Aufgab wesentlech vereinfachen.

Manuell Astellung vun Robots.txt

Ähnlech kënnt Dir Är Konfiguratioun vun der Datei och an der Verontreiung vun engem prett CMS fir de Site astellen. De Benotzer muss och d'Robots.txt-Datei an de Root-Verzeichnis vum Site eroplueden an déi néideg Regelen uginn. Hei ass ee vun de Beispiller, an deenen all verfügbar Direktiven uginn:

User-agent: *
Disallow: /admin/             # Prohibit access to the administrative panel
Disallow: /secret.html	      # Prohibit access to a specific file
Disallow: /*.pdf$	      # Prohibit indexing of certain file types
Disallow: /*?sort=	      # Prohibit indexing of certain URL parameters
Allow: /public/		      # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap

Wéi kontrolléiert d'Robots.txt Datei

Als Hëllefsinstrument beim Iwwerpréiwen vun der robots.txt-Datei fir Feeler, ass et recommandéiert online Servicer ze benotzen.

Betruecht d'Beispill vun der Yandex Webmaster Service. Fir ze kontrolléieren, musst Dir e Link op Är Site am entspriechende Feld aginn, wann d'Datei schonn op de Server eropgelueden ass. Duerno wäert de Tool selwer d'Dateikonfiguratioun lueden. Et gëtt och eng Optioun fir d'Konfiguratioun manuell anzeginn:

Robots.txt Configuratioun

Als nächst musst Dir e Scheck ufroen an op d'Resultater waarden:

Robots.txt Astellung Resultat

Am gegebene Beispill gi keng Feeler. Wann et do sinn, weist de Service déi problematesch Gebidder a Weeër fir se ze fixéieren.

Conclusioun

Zesummegefaasst hu mir ënnerstrach wéi wichteg d'robots.txt-Datei ass fir de Verkéier um Site ze kontrolléieren. Mir hunn Rotschléi zur Verfügung gestallt wéi et richteg ageriicht gëtt fir ze verwalten wéi Sichmotoren Säiten indexéieren. Zousätzlech zu dësem hu mir och Beispiller gekuckt wéi Dir dës Datei richteg benotzt an Instruktioune ginn fir ze kontrolléieren ob all Astellunge richteg funktionnéieren.

❮ Virdrun Artikel Wéi verbënnt Dir mat engem Linux Server iwwer SSH
Nächsten Artikel ❯ Wéi konfiguréiert e Webserver (Apache-PHP-MySQL/MariaDB) op Linux

Frot eis iwwer VPS

Mir sinn ëmmer prett Är Froen zu all Moment vum Dag oder Nuecht ze beäntweren.