Në këtë artikull, ne do të shqyrtojmë rolin kryesor të skedarit robots.txt në menaxhimin e trafikut në faqet e internetit, do të diskutojmë nevojën e pranisë së tij dhe do të japim rekomandime për vendosjen e tij për menaxhimin efektiv të indeksimit të faqeve. Për më tepër, ne do të analizojmë shembuj të përdorimit të saktë të direktivave në skedarin robots.txt dhe do të ofrojmë një udhëzues se si të kontrolloni korrektësinë e cilësimeve të tij.
Pse nevojitet Robots.txt
Robots.txt është një skedar i vendosur në serverin e faqes në direktorinë e tij rrënjësore. Ai informon robotët e motorëve të kërkimit se si duhet të skanojnë përmbajtjen e burimit. Përdorimi i duhur i këtij skedari ndihmon në parandalimin e indeksimit të faqeve të padëshiruara, mbron të dhënat konfidenciale dhe mund të përmirësojë efikasitetin e optimizimit të SEO dhe dukshmërinë e faqes në rezultatet e kërkimit. Konfigurimi i robots.txt bëhet përmes direktivave, të cilat do t'i shikojmë më tej.
Vendosja e direktivave në Robots.txt
Agjenti i përdoruesit
Direktiva parësore njihet si User-Agent, ku vendosim një fjalë kyçe të veçantë për robotët. Me zbulimin e kësaj fjale, roboti kupton se rregulli është menduar posaçërisht për të.
Konsideroni një shembull të përdorimit të Agjentit të Përdoruesit në skedarin robots.txt:
User-Agent: *
Disallow: /private/
Ky shembull tregon se të gjithë robotët e kërkimit (të përfaqësuar nga simboli "*") duhet të injorojë faqet e vendosura në /private/ directory.
Ja se si duket udhëzimi për robotët specifikë të kërkimit:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
Në këtë rast, Googlebot roboti i kërkimit duhet të injorojë faqet në /admin/ drejtoria, ndërsa Bingbot duhet të injorojë faqet në /private/ directory.
nuk lejoj
nuk lejoj u tregon robotëve të kërkimit se cilat URL duhet të kalojnë ose të mos indeksojnë në faqen e internetit. Kjo direktivë është e dobishme kur dëshironi të fshehni të dhëna të ndjeshme ose faqe me përmbajtje me cilësi të ulët që të mos indeksohen nga motorët e kërkimit. Nëse skedari robots.txt përmban hyrjen Mos lejo: /directories/, atëherë robotëve do t'u mohohet qasja në përmbajtjen e drejtorisë së specifikuar. Për shembull,
User-agent: *
Disallow: /admin/
Kjo vlerë tregon se të gjithë robotët duhet të injorojë URL-të duke filluar me /admin/. Për të bllokuar të gjithë faqen që të mos indeksohet nga ndonjë robot, vendosni direktorinë rrënjë si rregull:
User-agent: *
Disallow: /
Lejoj
Vlera "Lejo" vepron e kundërta me "Disallow": ajo lejon robotët e kërkimit të kenë akses në një faqe ose direktori të caktuar, edhe nëse direktivat e tjera në skedarin robots.txt ndalojnë qasjen në të.
Konsideroni një shembull:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
Në këtë shembull, specifikohet se robotëve nuk u lejohet qasja në /admin/ drejtorisë, me përjashtim të /admin/login.html faqe, e cila është e disponueshme për indeksim dhe skanim.
Robots.txt dhe Sitemap
Harta e faqes është një skedar XML që përmban një listë të URL-ve të të gjitha faqeve dhe skedarëve në sajt që mund të indeksohen nga motorët e kërkimit. Kur një robot kërkimi hyn në skedarin robots.txt dhe sheh një lidhje me një skedar XML të hartës së faqes, ai mund ta përdorë këtë skedar për të gjetur të gjitha URL-të dhe burimet e disponueshme në sajt. Direktiva specifikohet në formatin:
Sitemap: https://yoursite.com/filesitemap.xml
Ky rregull zakonisht vendoset në fund të dokumentit pa u lidhur me një agjent përdoruesi specifik dhe përpunohet nga të gjithë robotët pa përjashtim. Nëse pronari i faqes nuk përdor sitemap.xml, nuk është e nevojshme të shtohet rregulli.
Shembuj të Robots.txt të konfiguruar
Konfigurimi i Robots.txt për WordPress
Në këtë seksion, ne do të shqyrtojmë një konfigurim të gatshëm për WordPress. Ne do të shqyrtojmë bllokimin e aksesit në të dhënat konfidenciale dhe lejimin e aksesit në faqet kryesore.
Si një zgjidhje e gatshme, mund të përdorni kodin e mëposhtëm:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
Edhe pse të gjitha direktivat shoqërohen me komente, le të thellohemi më thellë në përfundimet.
- Robotët nuk do të indeksojnë skedarët dhe drejtoritë e ndjeshme.
- Në të njëjtën kohë, robotëve u lejohet aksesi në faqet dhe burimet kryesore të faqes.
- ndalimi është vendosur për indeksimin e versioneve të vjetra të postimeve dhe pyetjeve të parametrizuara për të parandaluar dyfishimin e përmbajtjes.
- Vendndodhja e hartës së sitit tregohet për indeksim të përmirësuar.
Kështu, ne kemi shqyrtuar një shembull të përgjithshëm të një konfigurimi të gatshëm, në të cilin disa skedarë dhe shtigje të ndjeshme janë të fshehura nga indeksimi, por drejtoritë kryesore janë të aksesueshme.
Ndryshe nga shumë site të njohura CMS ose të shkruara me porosi, WordPress ka disa shtojca që lehtësojnë krijimin dhe menaxhimin e skedarit robots.txt. Një nga zgjidhjet popullore për këtë qëllim është Yoast SEO.
Për ta instaluar atë, ju duhet:
- Shkoni te paneli i administratorit të WordPress.
- Në seksionin "Plugins", zgjidhni "Shto të re".
- Gjeni shtojcën "Yoast SEO" dhe instaloni atë.
- Aktivizo shtojcën.
Për të modifikuar skedarin robots.txt, duhet të:
- Shkoni te seksioni "SEO" në menunë anësore të panelit të administratorit dhe zgjidhni "Të përgjithshme".
- Shkoni te skeda "Vegla".
- Klikoni në "Files". Këtu do të shihni skedarë të ndryshëm, duke përfshirë robots.txt.
- Vendosni rregullat e nevojshme të indeksimit sipas kërkesave tuaja.
- Pasi të keni bërë ndryshime në skedar, klikoni butonin "Ruaj ndryshimet në robots.txt".
Vini re se çdo cilësim i skedarit robots.txt për WordPress është unik dhe varet nga nevojat dhe veçoritë specifike të faqes. Nuk ka asnjë model universal që do t'i përshtatej të gjitha burimeve pa përjashtim. Sidoqoftë, ky shembull dhe përdorimi i shtojcave mund ta thjeshtojnë ndjeshëm detyrën.
Cilësimi manual i Robots.txt
Në mënyrë të ngjashme, ju mund të vendosni konfigurimin tuaj të skedarit edhe në mungesë të një CMS të gatshme për sitin. Përdoruesi gjithashtu duhet të ngarkojë skedarin robots.txt në direktorinë rrënjë të faqes dhe të specifikojë rregullat e nevojshme. Këtu është një nga shembujt, në të cilin tregohen të gjitha direktivat e disponueshme:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Si të kontrolloni skedarin Robots.txt
Si një mjet ndihmës kur kontrolloni skedarin robots.txt për gabime, rekomandohet përdorimi i shërbimeve në internet.
Konsideroni shembullin e Webmaster Yandex shërbimi. Për të kontrolluar, duhet të futni një lidhje në faqen tuaj në fushën përkatëse nëse skedari është ngarkuar tashmë në server. Pas kësaj, vetë mjeti do të ngarkojë konfigurimin e skedarit. Ekziston gjithashtu një opsion për të futur konfigurimin manualisht:
Tjetra, duhet të kërkoni një kontroll dhe të prisni për rezultatet:
Në shembullin e dhënë, nuk ka gabime. Nëse ka të tilla, shërbimi do të tregojë zonat problematike dhe mënyrat për t'i rregulluar ato.
Përfundim
Në përmbledhje, ne theksuam se sa i rëndësishëm është skedari robots.txt për kontrollin e trafikut në sajt. Ne dhamë këshilla se si ta konfiguroni siç duhet për të menaxhuar se si motorët e kërkimit indeksojnë faqet. Përveç kësaj, ne shikuam gjithashtu shembuj se si të përdorni saktë këtë skedar dhe dhamë udhëzime se si të kontrolloni nëse të gjitha cilësimet funksionojnë siç duhet.