दोस्तों, काफी लोग जब ब्लॉग या वेबसाइट बनाते है और उसको गूगल या किसी और सर्च इंजन पे क्रॉल करवाते है तो उनके सामने कुछ समस्याएं आ जाती है उनमे से एक समस्या robots.txt को लेके भी होती है , जो लोग robots.txt के बारे में जानते है वो आसानी से अपनी वेबसाइट को किसी भी सर्च इंजन में आसानी से क्रॉल और इंडेक्स करवालेते है।
लेकिन जो लोग robots.txt के बारे में जानते है वो वेसीते को किसी भी सर्च इंजन में क्रॉल तो करवा लेते है लेकिन उसके वेबपेजेस indexing में नहीं लग पाते और वो बार बार कोसिस में लगे रहते है , जैसे की अगर हम बात करे google सर्च इंजन की तो वह लोग पेज को इंडेक्सिंग करवाने के लिए बार बार पेज के यूआरएल को inspection tool में टेस्ट करते रहते है लेकिन वो ये समझ नहीं पते की आखिर उनके पेजेज गूगल जैसे सर्च इंजन में आखिर इंडेक्स क्यों नहीं हो पा रहे है।
पहले तो बता दो की पेज को इंडेक्स गूगल आटोमेटिक करता है और अगर किसी पेज में कुछ इशू आ जाता है तो गूगल ने एक ऑप्शन देते है आपको की आप मैन्युअली भी यूआरएल को Inspection tool से इंस्पेक्ट करके इशू को रिमूव करके दोबारा से पेज को टेस्ट करो और फिर से पेज को इंडेक्स करने की रिक्वेस्ट दाल सकते हो लेकिन कभी कभी कुछ इशू ऐसे होते है जिनकी वजह से हमे robots.txt में changes करने पड़ते है।
robots.txt क्यों उपयोग होता है :
1 . वेबसाइट को ये बताने के लिए की हमारा वेबपेज या वेबसाइट किसी पर्टिकुलर सर्च इंजन के लिए बानी है या सभी सर्च इंजन के लिए बानी है। ये हमे मेंशन करना पड़ता है robots.txt फाइल में।
robots.txt का उपयोग हम सर्च इंजन को ये बताने के लिए भी करते है की सर्च इंजन हमारी किन लिंक्स और पेजेज को ही इंडेक्स करे और किन यूआरएल को इंडेक्स न करे , हम इसमें अपने डैशबोर्ड जैसे चीज़ो को इंडेक्स न करे या कोई ऐसी पोस्ट जो आपकी प्राइवेट फाइल है सर्च इंजन उसको इंडेक्स न करे , इसके लिए भी हम robots.txt फाइल मेन्टेन करते है।
कभी कभी हमारी होस्टिंग सर्वर थोड़ा स्लो होता है और जब गूगल सर्च इंजन के बोट्स हमारी वेबसाइट पे आते है और चेंज्ड कंटेंट या यूआरएल को इंडेक्स करने की कोसिस करते है तो वो ओने बी ओने न करके सभी लिंक्स को इंटरनली ओपन करके टेस्ट करता है जिस से हमारा सर्वर की स्पीड थोड़ी स्लो हो जाती है , तो robots.txt सर्च इंजन को ये बताने में हेल्प करता है की वो कितने मिल्लीसेकण्ड्स के इंटरवल पे काम करे। जिस से आपका सर्वर स्लो नहीं होता और वह पे बोत भी अपना काम करते रहे और आपके लाइव विसिटोर्स भी अपना काम करते रहे।
अब आता है की वो आपकी वेब्सीटेस से कोई इमेज, फाइल या पीडीऍफ़ जैसी चीजों को इंडेक्स करता है तो हम ये भी पहले से robots.txt में निर्धारित कर सकते है की कोनसी मीडिया फाइल को सर्च इंजन इंडेक्स करे या न करे।
ये robots.txt हमारी इस वेबसाइट की है , अब हम आपको इस फाइल के लिखने के तरीके को स्टेप वाइज समझने की कोसिस करेंगे।
User-agent: *
इसका मतलब है की हमारी वेबसाइट सभी सर्च इंजिन्स के लिए बानी है। अगर हम अपनी वेबसाइट को सिर्फ गूगल सर्च इंजन के लिए भी बनाते है और कोई दूसरा सर्च इंजन हमे क्रॉल और इंडेक्स न करे तो हम इसे ऐसे लिखेंगे :
User-agent: Googlebot
इस तरह से लिखने के बाद सिर्फ गूगल सर्च इंजन ही हमे क्रॉल और इंडेक्स कर सकता है बाकि सर्च इंजन हाथ तक नहीं लगाएंगे हमारी फाइल्स को। अब अगले कोड पे चलते है :
Disallow: /wp-admin/
ये कोड किसी पर्टिकुलर डायरेक्टर को सर्च इंजन को क्रॉल करने के लिए पाबन्दित है। वो हमारी इस डायरेक्टर को रीड नहीं करेगा और पब्लिक्ली इसे इंडेक्सिंग में नहीं दिखायेगा। अब अगले कोड पे चलते है :
Allow: /wp-admin/admin-ajax.php
ये कोड सर्च इंजन को अल्लोव कर देता है की वो उस ऊपर दी गयी रेस्ट्रिक्ट डायरेक्टरी में से सिर्फ इस लिंक को रीड कर सकता है , या आप वो सभी लिंक यहाँ एक एक करके दाल सकते हो जो आपको स्पेशल अल्लोव करने है। अब अगले कोड पे चलते है :
Crawl-delay: 15
ये कोड वो समय दर्शाता है की जब सर्च इंजन के बोट्स हमारी वेबसाइट पे आते है और हमारा सर्वर स्लो हो जाता है और हम सर्च इंजन को एक टाइम देते है की वो 15 मिल्लीसेकण्ड्स के इंटरवल पे ही हमारी वेबसाइट को टेस्ट करे , Crawl-delay का सही टाइम 15 – 20 के बीच ही रखे इस से ज्यादा या काम न रखे। अब हम अगले कोड पे चलते है :
इस कोड में हम ने अपने सभी sitemap को मेंशन किया है , अगर आपकी वेबसाइट customise है तो सिर्फ आपका एक ही sitemap होगा और सरे यूआरएल और टैग्स उसी sitemap में दिए जाते है लेकिन WordPress पे आपके काफी sitemap हो सकते है क्योंकि WordPress ऑटोमेटिकली आपकी पोस्ट, आपके टैग्स , आपकी केटेगरी और आपके ब्लोग्स के यूआरएल (Permalinks ) के अलग से Sitemap बनता है। तो आप इस कोड में अपने सभी Sitemap को मेंशन कर सकते है।
और अधिक जानकारी के लिए आप नीचे दिए गए इस लिंक पे क्लिक करके डिटेल्स से भी पढ़ सकते है
अगर दोस्तों आप अपनी robots .txt फाइल को देखना चाहते हो तो सबसे पहले आप अपनी वेबसाइट का लिंक डालकर पीछे slash के साथ robots .txt लिख के देख सकते हो जैसे की हमारा ये robots .txt है :
https://viralscripts.co.in/robots.txt
दोस्तों हमारी ये पोस्ट हिंदी और इंग्लिश दोनों भासाओ में परकासित है आप किसी भी भाषा लिए पेज को गूगल लैंग्वेज ट्रांसलेटर से चेंज करके देख सकते हो।
दोस्तों अगर आपको हमारी पोस्ट valuable लगी तो आप आप इसे जरूर शेयर करे और अगर आपको robots .txt फाइल्स से सम्बंदित कुछ भी जानकारी चाइये तो हमे कमेंट करके बता सकते हो हम आपको उसका सोलूशन्स जरूर देंगे। धन्यवाद्