આ લેખમાં, આપણે વેબસાઇટ્સ પર ટ્રાફિકનું સંચાલન કરવામાં robots.txt ફાઇલની મુખ્ય ભૂમિકાની તપાસ કરીશું, તેની હાજરીની આવશ્યકતાની ચર્ચા કરીશું અને અસરકારક પેજ ઇન્ડેક્સિંગ મેનેજમેન્ટ માટે તેને સેટ કરવા માટેની ભલામણો આપીશું. વધુમાં, આપણે robots.txt ફાઇલમાં યોગ્ય નિર્દેશોના ઉપયોગના ઉદાહરણોનું વિશ્લેષણ કરીશું અને તેની સેટિંગ્સની શુદ્ધતા કેવી રીતે તપાસવી તે અંગે માર્ગદર્શિકા પ્રદાન કરીશું.
Robots.txt શા માટે જરૂરી છે
Robots.txt એ સાઇટના સર્વર પર તેની રૂટ ડિરેક્ટરીમાં સ્થિત એક ફાઇલ છે. તે સર્ચ એન્જિન રોબોટ્સને માહિતી આપે છે કે તેઓએ સંસાધનની સામગ્રી કેવી રીતે સ્કેન કરવી જોઈએ. આ ફાઇલનો યોગ્ય ઉપયોગ અનિચ્છનીય પૃષ્ઠોના ઇન્ડેક્સિંગને રોકવામાં મદદ કરે છે, ગુપ્ત ડેટાને સુરક્ષિત કરે છે અને SEO ઑપ્ટિમાઇઝેશનની કાર્યક્ષમતા અને શોધ પરિણામોમાં સાઇટની દૃશ્યતામાં સુધારો કરી શકે છે. robots.txt નું રૂપરેખાંકન નિર્દેશો દ્વારા કરવામાં આવે છે, જેના પર આપણે આગળ જોઈશું.
Robots.txt માં નિર્દેશો સેટ કરવા
વપરાશકર્તા એજન્ટ
પ્રાથમિક નિર્દેશને યુઝર-એજન્ટ તરીકે ઓળખવામાં આવે છે, જ્યાં આપણે રોબોટ્સ માટે એક ખાસ કીવર્ડ સેટ કરીએ છીએ. આ શબ્દ શોધ્યા પછી, રોબોટ સમજે છે કે આ નિયમ ખાસ કરીને તેના માટે બનાવાયેલ છે.
robots.txt ફાઇલમાં User-Agent નો ઉપયોગ કરવાના ઉદાહરણનો વિચાર કરો:
User-Agent: *
Disallow: /private/
આ ઉદાહરણ સૂચવે છે કે બધા શોધ રોબોટ્સ ("પ્રતીક દ્વારા રજૂ થાય છે)*") માં સ્થિત પૃષ્ઠોને અવગણવા જોઈએ /ખાનગી/ ડિરેક્ટરી.
ચોક્કસ શોધ રોબોટ્સ માટે સૂચના કેવી દેખાય છે તે અહીં છે:
User-Agent: Googlebot
Disallow: /admin/
User-Agent: Bingbot
Disallow: /private/
આ કિસ્સામાં, આ Googlebot શોધ રોબોટે માં પૃષ્ઠોને અવગણવા જોઈએ /એડમિન/ ડિરેક્ટરી, જ્યારે બિંગબોટ માં પૃષ્ઠોને અવગણવા જોઈએ /ખાનગી/ ડિરેક્ટરી.
નામંજૂર કરો
નામંજૂર કરો શોધ રોબોટ્સને જણાવે છે કે વેબસાઇટ પર કયા URL ને ઇન્ડેક્સ કરવા અથવા છોડવા નહીં. આ નિર્દેશ ઉપયોગી છે જ્યારે તમે સંવેદનશીલ ડેટા અથવા ઓછી ગુણવત્તાવાળા સામગ્રી પૃષ્ઠોને સર્ચ એન્જિન દ્વારા ઇન્ડેક્સ થવાથી છુપાવવા માંગતા હો. જો robots.txt ફાઇલમાં એન્ટ્રી હોય તો નામંજૂર કરો: /directory/, તો રોબોટ્સને ઉલ્લેખિત ડિરેક્ટરીની સામગ્રીની ઍક્સેસ નકારવામાં આવશે. ઉદાહરણ તરીકે,
User-agent: *
Disallow: /admin/
આ મૂલ્ય સૂચવે છે કે બધા રોબોટ્સ થી શરૂ થતા URL ને અવગણવા જોઈએ /એડમિન/. કોઈપણ રોબોટ દ્વારા આખી સાઇટને ઇન્ડેક્સ થતી અટકાવવા માટે, રૂટ ડિરેક્ટરીને નિયમ તરીકે સેટ કરો:
User-agent: *
Disallow: /
પરવાનગી આપે છે
"Allow" મૂલ્ય "Disallow" ની વિરુદ્ધ કાર્ય કરે છે: તે શોધ રોબોટ્સને ચોક્કસ પૃષ્ઠ અથવા ડિરેક્ટરીની ઍક્સેસની મંજૂરી આપે છે, ભલે robots.txt ફાઇલમાંના અન્ય નિર્દેશો તેને ઍક્સેસ કરવાની પ્રતિબંધિત કરે.
એક ઉદાહરણ ધ્યાનમાં લો:
User-agent: *
Disallow: /admin/
Allow: /admin/login.html
આ ઉદાહરણમાં, તે સ્પષ્ટ થયેલ છે કે રોબોટ્સને ઍક્સેસ કરવાની મંજૂરી નથી /એડમિન/ ડિરેક્ટરી, સિવાય કે /એડમિન/લોગિન.html પૃષ્ઠ, જે અનુક્રમણિકા અને સ્કેનિંગ માટે ઉપલબ્ધ છે.
Robots.txt અને સાઇટમેપ
સાઇટમેપ એક XML ફાઇલ છે જેમાં સાઇટ પરના બધા પૃષ્ઠો અને ફાઇલોના URL ની સૂચિ હોય છે જેને સર્ચ એન્જિન દ્વારા અનુક્રમિત કરી શકાય છે. જ્યારે શોધ રોબોટ robots.txt ફાઇલને ઍક્સેસ કરે છે અને સાઇટમેપ XML ફાઇલની લિંક જુએ છે, ત્યારે તે સાઇટ પર ઉપલબ્ધ બધા URL અને સંસાધનો શોધવા માટે આ ફાઇલનો ઉપયોગ કરી શકે છે. આ નિર્દેશ આ ફોર્મેટમાં ઉલ્લેખિત છે:
Sitemap: https://yoursite.com/filesitemap.xml
આ નિયમ સામાન્ય રીતે દસ્તાવેજના અંતે કોઈ ચોક્કસ વપરાશકર્તા-એજન્ટ સાથે જોડાયેલા વિના મૂકવામાં આવે છે અને અપવાદ વિના બધા રોબોટ્સ દ્વારા તેની પ્રક્રિયા કરવામાં આવે છે. જો સાઇટ માલિક sitemap.xml નો ઉપયોગ કરતા નથી, તો નિયમ ઉમેરવાની જરૂર નથી.
રૂપરેખાંકિત Robots.txt ના ઉદાહરણો
WordPress માટે Robots.txt સેટ કરી રહ્યા છીએ
આ વિભાગમાં, આપણે WordPress માટે તૈયાર રૂપરેખાંકનનો વિચાર કરીશું. આપણે ગુપ્ત ડેટાની ઍક્સેસને અવરોધિત કરવા અને મુખ્ય પૃષ્ઠોની ઍક્સેસ આપવાનું અન્વેષણ કરીશું.
તૈયાર ઉકેલ તરીકે, તમે નીચેના કોડનો ઉપયોગ કરી શકો છો:
User-agent: *
# Block access to files containing confidential data
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
# Allow access to the main site pages
Allow: /wp-content/uploads/
Allow: /sitemap.xml
Allow: /feed/
Allow: /trackback/
Allow: /comments/feed/
Allow: /category/*/*
Allow: /tag/*
# Prohibit the indexing of old versions of posts and parameterized queries to avoid content duplication or suboptimal indexing.
Disallow: /*?*
Disallow: /?s=*
Disallow: /?p=*
Disallow: /?page_id=*
Disallow: /?cat=*
Disallow: /?tag=*
# Include the sitemap (location needs to be replaced with your own)
Sitemap: http://yourdomain.com/sitemap.xml
જોકે બધા નિર્દેશો ટિપ્પણીઓ સાથે છે, ચાલો નિષ્કર્ષોમાં વધુ ઊંડાણપૂર્વક જઈએ.
- રોબોટ્સ સંવેદનશીલ ફાઇલો અને ડિરેક્ટરીઓને ઇન્ડેક્સ કરશે નહીં.
- તે જ સમયે, રોબોટ્સને સાઇટના મુખ્ય પૃષ્ઠો અને સંસાધનોની ઍક્સેસની મંજૂરી છે.
- સામગ્રીની નકલ અટકાવવા માટે પોસ્ટ્સના જૂના સંસ્કરણો અને પેરામીટરાઇઝ્ડ ક્વેરીઝને ઇન્ડેક્સ કરવા પર પ્રતિબંધ મૂકવામાં આવ્યો છે.
- સાઇટમેપનું સ્થાન સુધારેલ ઇન્ડેક્સિંગ માટે સૂચવવામાં આવ્યું છે.
આમ, અમે તૈયાર રૂપરેખાંકનનું એક સામાન્ય ઉદાહરણ ધ્યાનમાં લીધું છે, જેમાં કેટલીક સંવેદનશીલ ફાઇલો અને પાથ ઇન્ડેક્સિંગથી છુપાયેલા છે, પરંતુ મુખ્ય ડિરેક્ટરીઓ સુલભ છે.
ઘણી લોકપ્રિય CMS અથવા કસ્ટમ-લેખિત સાઇટ્સથી વિપરીત, WordPress પાસે ઘણા પ્લગઇન્સ છે જે robots.txt ફાઇલના નિર્માણ અને સંચાલનને સરળ બનાવે છે. આ હેતુ માટે એક લોકપ્રિય ઉકેલ છે Yoast એસઇઓ.
તેને ઇન્સ્ટોલ કરવા માટે, તમારે આ કરવાની જરૂર છે:
- વર્ડપ્રેસ એડમિન પેનલ પર જાઓ.
- "પ્લગઇન્સ" વિભાગમાં, "નવું ઉમેરો" પસંદ કરો.
- "Yoast SEO" પ્લગઇન શોધો અને તેને ઇન્સ્ટોલ કરો.
- પ્લગઇન સક્રિય કરો.
robots.txt ફાઇલને સંપાદિત કરવા માટે, તમારે આ કરવાની જરૂર છે:
- એડમિન પેનલના સાઇડ મેનુમાં "SEO" વિભાગમાં જાઓ અને "જનરલ" પસંદ કરો.
- "ટૂલ્સ" ટેબ પર જાઓ.
- "ફાઇલ્સ" પર ક્લિક કરો. અહીં તમને robots.txt સહિત વિવિધ ફાઇલો દેખાશે.
- તમારી જરૂરિયાતો અનુસાર જરૂરી ઇન્ડેક્સિંગ નિયમો દાખલ કરો.
- ફાઇલમાં ફેરફાર કર્યા પછી, "robots.txt માં ફેરફારો સાચવો" બટન પર ક્લિક કરો.
નોંધ કરો કે WordPress માટે દરેક robots.txt ફાઇલ સેટિંગ અનન્ય છે અને તે સાઇટની ચોક્કસ જરૂરિયાતો અને સુવિધાઓ પર આધાર રાખે છે. અપવાદ વિના બધા સંસાધનોને અનુકૂળ આવે તેવું કોઈ સાર્વત્રિક ટેમ્પલેટ નથી. જો કે, આ ઉદાહરણ અને પ્લગઇન્સનો ઉપયોગ કાર્યને નોંધપાત્ર રીતે સરળ બનાવી શકે છે.
Robots.txt નું મેન્યુઅલ સેટિંગ
તેવી જ રીતે, સાઇટ માટે તૈયાર CMS ના અભાવમાં પણ તમે ફાઇલનું રૂપરેખાંકન સેટ કરી શકો છો. વપરાશકર્તાએ સાઇટની રૂટ ડિરેક્ટરીમાં robots.txt ફાઇલ અપલોડ કરવાની અને જરૂરી નિયમોનો ઉલ્લેખ કરવાની પણ જરૂર છે. અહીં એક ઉદાહરણ છે, જેમાં બધા ઉપલબ્ધ નિર્દેશો સૂચવવામાં આવ્યા છે:
User-agent: *
Disallow: /admin/ # Prohibit access to the administrative panel
Disallow: /secret.html # Prohibit access to a specific file
Disallow: /*.pdf$ # Prohibit indexing of certain file types
Disallow: /*?sort= # Prohibit indexing of certain URL parameters
Allow: /public/ # Allow access to public pages
Sitemap: http://yourdomain.com/sitemap.xml # Include the sitemap
Robots.txt ફાઇલ કેવી રીતે તપાસવી
ભૂલો માટે robots.txt ફાઇલ તપાસતી વખતે સહાયક સાધન તરીકે, ઑનલાઇન સેવાઓનો ઉપયોગ કરવાની ભલામણ કરવામાં આવે છે.
ના ઉદાહરણનો વિચાર કરો યાન્ડેક્ષ વેબમાસ્ટર સેવા. તપાસવા માટે, જો ફાઇલ પહેલાથી જ સર્વર પર અપલોડ થઈ ગઈ હોય તો તમારે સંબંધિત ફીલ્ડમાં તમારી સાઇટની લિંક દાખલ કરવાની જરૂર છે. તે પછી, ટૂલ પોતે ફાઇલ ગોઠવણી લોડ કરશે. ગોઠવણી મેન્યુઅલી દાખલ કરવાનો વિકલ્પ પણ છે:
આગળ, તમારે ચેકની વિનંતી કરવાની અને પરિણામોની રાહ જોવાની જરૂર છે:
આપેલા ઉદાહરણમાં, કોઈ ભૂલો નથી. જો કોઈ ભૂલો હશે, તો સેવા સમસ્યાવાળા વિસ્તારો અને તેમને સુધારવાના રસ્તાઓ બતાવશે.
ઉપસંહાર
સારાંશમાં, અમે સાઇટ પર ટ્રાફિકને નિયંત્રિત કરવા માટે robots.txt ફાઇલ કેટલી મહત્વપૂર્ણ છે તેના પર ભાર મૂક્યો. સર્ચ એન્જિન પૃષ્ઠોને કેવી રીતે ઇન્ડેક્સ કરે છે તેનું સંચાલન કરવા માટે અમે તેને યોગ્ય રીતે કેવી રીતે સેટ કરવું તે અંગે સલાહ આપી. આ ઉપરાંત, અમે આ ફાઇલનો યોગ્ય રીતે ઉપયોગ કેવી રીતે કરવો તેના ઉદાહરણો પણ જોયા અને બધી સેટિંગ્સ યોગ્ય રીતે કાર્ય કરી રહી છે તે કેવી રીતે તપાસવું તે અંગે સૂચનાઓ આપી.