במאמר זה נבחן את תפקידו המרכזי של קובץ ה-robots.txt בניהול התעבורה באתרי אינטרנט, נדון בנחיצות נוכחותו ונספק המלצות להגדרתו לניהול יעיל של אינדקס דפים. בנוסף, ננתח דוגמאות לשימוש נכון בהנחיות בקובץ robots.txt ונספק מדריך כיצד לבדוק את נכונות ההגדרות שלו.
מדוע יש צורך ב-Robots.txt
Robots.txt הוא קובץ שנמצא בשרת האתר בספריית השורש שלו. זה מודיע לרובוטים של מנועי החיפוש כיצד עליהם לסרוק את תוכן המשאב. שימוש נכון בקובץ זה מסייע במניעת הוספה לאינדקס של דפים לא רצויים, מגן על נתונים סודיים ויכול לשפר את היעילות של אופטימיזציית SEO והנראות של האתר בתוצאות החיפוש. הגדרת ה-robots.txt נעשית באמצעות הנחיות, עליהן נסתכל עוד יותר.
הגדרת הנחיות ב-Robots.txt
User-Agent
ההנחיה הראשית ידועה בשם User-Agent, שבה אנו מגדירים מילת מפתח מיוחדת לרובוטים. עם זיהוי המילה הזו, הרובוט מבין שהכלל מיועד במיוחד עבורו.
שקול דוגמה לשימוש ב-User-Agent בקובץ robots.txt:
User-Agent: *
Disallow: /private/
דוגמה זו מציינת שכל רובוטי החיפוש (מיוצגים בסמל "*") צריך להתעלם מדפים הממוקמים ב- /פְּרָטִי/ במדריך.
כך נראית ההוראה עבור רובוטי חיפוש ספציפיים:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
במקרה זה, Googlebot רובוט החיפוש צריך להתעלם מדפים ב- /admin/ ספרייה, בעוד Bingbot צריך להתעלם מדפים ב- /פְּרָטִי/ במדריך.
אל תאפשר
אל תאפשר מורה לרובוטים לחיפוש אילו כתובות URL לדלג או לא לאינדקס באתר. הנחיה זו שימושית כאשר ברצונך להסתיר נתונים רגישים או דפי תוכן באיכות נמוכה מפני הוספה לאינדקס על ידי מנועי החיפוש. אם קובץ robots.txt מכיל את הערך Disallow: /directory/, אז רובוטים תימנע גישה לתוכן של הספרייה שצוינה. לְדוּגמָה,
User-agent: *
Disallow: /admin/
ערך זה מעיד על כך כולם רובוטים צריך להתעלם מכתובות URL שמתחילות ב /admin/. כדי לחסום את כל האתר לאינדקס על ידי רובוטים, הגדר את ספריית השורש ככלל:
User-agent: *
Disallow: /
להתיר
הערך "Allow" פועל מנוגד ל-"Disallow": הוא מאפשר לרובוטי חיפוש גישה לעמוד או ספרייה ספציפיים, גם אם הנחיות אחרות בקובץ robots.txt אוסרות גישה אליו.
שקול דוגמה:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
בדוגמה זו, צוין כי לרובוטים אין גישה ל- /admin/ ספרייה, פרט ל- /admin/login.html עמוד, הזמין לאינדקס וסריקה.
Robots.txt ו-Sitemap
מפת אתר הוא קובץ XML המכיל רשימה של כתובות אתרים של כל הדפים והקבצים באתר הניתנים לאינדקס על ידי מנועי החיפוש. כאשר רובוט חיפוש ניגש לקובץ robots.txt ורואה קישור לקובץ XML של מפת אתר, הוא יכול להשתמש בקובץ זה כדי למצוא את כל כתובות האתר והמשאבים הזמינים באתר. ההוראה מפורטת בפורמט:
Sitemap: https://yoursite.com/filesitemap.xml
כלל זה ממוקם בדרך כלל בסוף המסמך מבלי להיות קשור ל-User-Agent ספציפי ומעובד על ידי כל הרובוטים ללא יוצא מן הכלל. אם בעל האתר אינו משתמש ב-sitemap.xml, אין צורך להוסיף את הכלל.
דוגמאות ל-Configured Robots.txt
הגדרת Robots.txt עבור WordPress
בחלק זה נשקול תצורה מוכנה לוורדפרס. אנו נחקור את חסימת הגישה לנתונים סודיים ומתן גישה לדפים הראשיים.
כפתרון מוכן, אתה יכול להשתמש בקוד הבא:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
למרות שכל ההנחיות מלוות בהערות, הבה נעמיק במסקנות.
- רובוטים לא יכנסו לאינדקס קבצים וספריות רגישות.
- במקביל, לרובוטים מתאפשרת גישה לעמודים ולמשאבים הראשיים של האתר.
- ban מוגדר לאינדקס גרסאות ישנות של פוסטים ושאילתות עם פרמטרים כדי למנוע כפילות תוכן.
- המיקום של מפת האתר מצוין לצורך שיפור האינדקס.
לפיכך, שקלנו דוגמה כללית לתצורה מוכנה, שבה כמה קבצים ונתיבים רגישים מוסתרים מאינדקס, אבל הספריות הראשיות נגישות.
שלא כמו CMS פופולריים רבים או אתרים שנכתבו בהתאמה אישית, ל-WordPress יש מספר תוספים המקלים על היצירה והניהול של קובץ robots.txt. אחד הפתרונות הפופולריים למטרה זו הוא Yoast SEO.
כדי להתקין אותו, אתה צריך:
- עבור לפאנל הניהול של וורדפרס.
- בקטע "תוספים", בחר "הוסף חדש".
- מצא את התוסף "Yoast SEO" והתקן אותו.
- הפעל את הפלאגין.
כדי לערוך את קובץ robots.txt, עליך:
- עבור לקטע "SEO" בתפריט הצד של לוח הניהול ובחר "כללי".
- עבור ללשונית "כלים".
- לחץ על "קבצים". כאן תראה קבצים שונים, כולל robots.txt.
- הזן את כללי ההוספה הנדרשים לפי הדרישות שלך.
- לאחר ביצוע שינויים בקובץ, לחץ על הלחצן "שמור שינויים ב-robots.txt".
שימו לב שכל הגדרת קובץ robots.txt לוורדפרס היא ייחודית ותלויה בצרכים ובתכונות הספציפיות של האתר. אין תבנית אוניברסלית שתתאים לכל המשאבים ללא יוצא מן הכלל. עם זאת, דוגמה זו והשימוש בתוספים יכולים לפשט משמעותית את המשימה.
הגדרה ידנית של Robots.txt
באופן דומה, אתה יכול להגדיר את התצורה שלך של הקובץ גם בהיעדר CMS מוכן לאתר. המשתמש צריך גם להעלות את קובץ robots.txt לספריית השורש של האתר ולציין את הכללים הדרושים. להלן אחת הדוגמאות, שבהן מצוינות כל ההנחיות הזמינות:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
כיצד לבדוק את קובץ Robots.txt
ככלי עזר בעת בדיקת קובץ robots.txt לאיתור שגיאות, מומלץ להשתמש בשירותים מקוונים.
שקול את הדוגמה של ה- מנהל האתר של Yandex שֵׁרוּת. כדי לבדוק, אתה צריך להכניס קישור לאתר שלך בשדה המתאים אם הקובץ כבר הועלה לשרת. לאחר מכן, הכלי עצמו יטען את תצורת הקובץ. ישנה גם אפשרות להזין את התצורה באופן ידני:
לאחר מכן, עליך לבקש בדיקה ולהמתין לתוצאות:
בדוגמה הנתונה, אין שגיאות. אם יש כאלה, השירות יציג את האזורים הבעייתיים ואת הדרכים לתקן אותם.
סיכום
לסיכום, הדגשנו עד כמה חשוב קובץ ה-robots.txt לשליטה בתנועה באתר. סיפקנו עצות כיצד להגדיר אותו כראוי כדי לנהל את אופן האינדקס של מנועי החיפוש. בנוסף לכך, הסתכלנו גם על דוגמאות לשימוש נכון בקובץ הזה ונתנו הוראות כיצד לבדוק שכל ההגדרות פועלות כהלכה.