U3F1ZWV6ZTQ3MjY3NTkxODcwX0FjdGl2YXRpb241MzU0NzY1OTk2OTQ=
recent
آخر معلومة

كيفية إنشاء و استخدام ملف robots.txt لأرشفة المواقع



كيفية استخدام ملف robots.txt  وتحسينه للفهرسة والمراجع


1.  ما هو ملف Robots.txt؟

أداة Robots.txt هي ملف يوجه الروبوتات في محركات البحث بعدم تحليل بعض الصفحات، وأقسام معينة من موقعك الإلكتروني  .
 معظم محركات البحث الرئيسية عبر الإنترنت ، مثل Google أو Bing أو Yahoo تتبع البروتوكول الذي تمت صياغته في ملفات Robots.txt.
يتيح تحليل السجلات في SEO من فهم كيفية تفاعل الروبوتات لمحركات البحث مع الموقع.
يعد ملف robots.txt جزءًا من بروتوكول استبعاد الروبوتات  (REP = Robots Exclusion Protocol)، وهو مجموعة من معايير الويب التي تحكم كيفية اشتغال الروبوتات:
استكشاف الويب
الوصول إلى المحتوى وفهرسته.
خدمة المحتوى للمستخدمين.
يتضمن REP أيضًا توجيهات مثل meta-robots ، بالإضافة إلى تعليمات تتعلق بمعالجة الارتباطات بواسطة محركات البحث (مثل "Follow" أو "nofollow").
التنسيق الأساسي:
User-agent : [اسم وكيل المستخدم ]
Disallow: [ لا يجب الزحف إليه URL ]
يعتبر هذان السطران كملف robots.txt كامل.
يمكن أن يحتوي على .يمكن أن يحتوي على عدة مجموعات من التوجيهات.
تظهر كل مجموعة من التوجيهات كمجموعة مفصولة بفاصل أسطر. يمكن إنشاؤه عبر محرر نصوص بسيط.

2. كيف يعمل ملف robots.txt؟

تزحف محركات البحث مثل GoogleBot إلى الويب لاكتشاف المحتوى وفهرسته، بحيث يمكنها عرضه في نتائج البحث ، بناءً على درجات ملاءمته.
تقوم عناكب محرك البحث ، عندما تصل إلى موقع إلكتروني ، بالبحث عن ملف robots.txt قبل استكشاف الموقع. 
هذا الملف يرشد الزواحف إلى كيفية تحليل الموقع المعني. إذا لم يحتوي على تعليمات  ، فسيستكشف الروبوت الموقع بدون قيود.

3. لماذا يعتبر ملف Robots.txt مهمًا لتحسين محركات البحث؟

إن ملف robots.txt ليس حاسما بالنسبة للعديد من مواقع الويب ، وخاصة المواقع الصغيرة ، ولكن يمكن أن يكون لإنشاءه واستخدامه العديد من الاستعمالات ، وقد يكون بعضها مهمًا جدًا من حيث الأمان و تحسين السيو SEO.
قبل أن يزحف برنامج روبوت مثل Googlebot إلى صفحة ويب ، فإنه يتحقق أولاً من وجود ملف robots.txt ، وإذا كان هناك واحد ، فسيتبعه بشكل عام،  ويتبع الإرشادات الواردة في هذا الملف.
بعض الوظائف المفيدة لملف robot.txt:
منع فهرسة صفحة أو دليل حساس (المشرف ، صفحات تسجيل الدخول ، سلة التجارة الإلكترونية ، إلخ).
منع الحمل الزائد على الخادم.
حظر الوصول إلى أقسام كاملة من موقعك ، ولكن الحظر باستخدام كلمة المرور أكثر حيطة.
منع صفحات نتائج البحث الداخلية على موقعك من الزحف إليها أو فهرسها أو عرضها في نتائج البحث.
منع المحتوى المكرر من الظهور في SERPs.
تحديد موقع خرائط   المواقع sitemap للروبوتات وتسهيل الفهرسة.
زيادة نسبة التحليل إلى الحد الأقصى من خلال حظر الصفحات غير المهمة ، يمكن للزاحف Googlebot تخصيص المزيد من الاستكشاف لصفحات مهمة حقًا.
منع محركات البحث من فهرسة ملفات معينة على موقع الويب الخاص بك (الصور ، PDF ، إلخ).
لاحظ أنه على الرغم من أن Google لا يقوم عمومًا بفهرسة صفحات الويب المحظورة في ملف robots.txt ، إلا أنه لا توجد طريقة لضمان استبعاد نتائج البحث باستخدام هذا الملف  (تفضل noindex أو طرق أخرى أكثر موثوقية).
من غير الضروري أيضًا، حظر الصفحات القديمة التي تحتوي على  من عمليات إعادة التوجيه 301 أو أخطاء 404 من أجل السماح للروبوتات بالزحف إليها ومراعاة التغييرات.

4. من هم وكلاء مستخدم Google؟

يعرّف كل محرك بحث نفسه باستخدام وكيل مستخدم مختلف. يمكنك تحديد تعليمات مخصصة لكل ملف في ملف robots.txt الخاص بك.
اعلم أنه يمكن أن يتضمن توجيهات للعديد من وكلاء المستخدم كما تريد. يمكنك استخدام النجمة (*) لتعيين توجيهات لجميع وكلاء المستخدم.
هناك المئات من وكلاء المستخدم ، فيما يلي العوامل الرئيسية المستخدمة لتحديد عناكب Google.

5. كيف تستخدم ملف robots.txt وخريطة الموقع؟
 

يمكنك استخدام ملف robot.txt لتحديد موقع ملف Sitemap الخاص بك لمحركات البحث.
في ما يلي مثال من سطرين باستخدام توجيه ملف sitemap:
User-agent : *
Allow:/
Sitemap:https://www.nomdusite/sitemap_index.xml
لاحظ أنه ليس من الضروري تكرار توجيه خريطة الموقع عدة مرات لكل وكيل مستخدم. لذلك ، من الأفضل تضمين أوامر ملف sitemap في بداية ملف robots.txt أو في نهايته.
يمكنك تضمين أي عدد تريده من خرائط المواقع.

6. مثال لملف robots.txt

فيما يلي بعض الأمثلة عن ملف robots.txt الذي تم إنشاؤه لموقع www.namesite.com. يمكن إنشاؤه عبر محرر نصوص بسيط.
عنوان URL لملف Robots.txt: www.namesite.com/robots.txt

1.6 حظر جميع السير من كل المحتوى

User-agent : *
Dissalow : /
إن استخدام هذه الصيغة يخبر جميع العناكب بعدم استكشاف صفحات الموقع ، بما في ذلك الصفحة الرئيسية.

2.6 السماح لجميع العناكب بالوصول إلى كل المحتوى

User-agent : *
Dissalow:
باستخدام هذه الصيغة يخبر البوتات بتحليل جميع الصفحات على الموقع ، بما في ذلك الصفحة الرئيسية.

3.6 حظر روبوت فهرسة محدد من مجلد محدد

User-agent : Googlebot
Dissalow: / subfolder /
إنه يخبر فقط روبوت Google (اسم وكيل مستخدم Googlebot) بعدم تحليل الصفحات التي تحتوي على سلسلة عنوان URL www.namesite.com/subfolder

4.6 منع زاحف معين من صفحة ويب معينة

User-agent : Bingbot
Disallow:/subfolder/page.html
لا تخبر سوى زاحف Bing بتجنب تحليل الصفحة      المحددةعلى www.namesite.com/subfolder/page.html.

5.6 إنشاء ملف robot.txt نموذجي

في سيناريو نموذجي ، يجب أن يكون لديك المحتوى التالي.
User-agent :*
Allow:
Sitemap:https://www.namesite.com/sitemap.xml

7. كيفية التحقق من وجود ملف robot.txt على موقع ويب؟

إذا كان لديك واحد بالفعل على موقعك الإلكتروني ، فسيكون الوصول إليه متاحًا على العنوان التالي:
https://www.namesite.ext/robots.txt
8. كيفية التحقق من ملف robots.txt الخاص بك بحثًا عن الأخطاء؟

يمكنك استخدام Search Console  الخاص ب Google للتحقق من خريطة موقعك أو أدوات مثل XML Sitemap Validator.
https://www.xml-sitemaps.com/validate-xml-sitemap.html
https://support.google.com/webmasters/answer/7451001؟hl=ar

9. أين تضع ملفك على موقعك؟

من الضروري وضع ملفات robots.txt في الدلائل الجذرية للنطاقات أو المجالات الفرعية التي تنطبق عليها.
على سبيل المثال ، للتحكم في سلوك التحليل على namesite.com ، يجب أن يكون متاحًا على namesite.com/robots.txt.
إذا كنت تريد التحكم في تحليل برنامج التتبُّع في نطاق فرعي مثل blog.namesite.com ، فيجب أن يكون الوصول إليه متاحًا على blog.namesite.com/robots.txt.

10. ما أفضل الممارسات لملف Robots.txt فيما يتعلق بالمراجع الطبيعية؟

فيما يلي بعض النصائح وأفضل الممارسات التي يجب اتباعها لإدارة الحظر وتحسين محركات البحث على موقعك الإلكتروني .
لا تحظر ملفات CSS  أو JS . أثناء عملية الزحف والفهرسة ، يمكن لـ Google عرض موقع ويب مثل مستخدم حقيقي. إذا كانت صفحاتك بحاجة إلى JS و CSS لتعمل بشكل صحيح ، فلا يجب حظرها.
لن يتم تتبع الروابط الموجودة على الصفحات التي تم حظرها بواسطة robots.txt . استخدم آلية حظر مختلفة إذا كان سيتم اتباع الروابط كـ <meta name = "robots" content = "noindex، follow">
لا تستخدمه لمنع الإشارة إلى البيانات الحساسة أو الوصول إليها . إذا كنت تريد حظر صفحتك أو دليلك من نتائج البحث ، فاستخدم طريقة مختلفة ، مثل الحماية بكلمة مرور أو توجيه meta noindex.
اختبره وتأكد من أنك لا تحظر أي جزء من موقع الويب الذي تريده أن يظهر في محركات البحث.
على موقع WordPress ، ليست هناك حاجة لمنع الوصول إلى مجلدات wp-admin و wp-include. يقوم WordPress بعمل رائع باستخدام علامة meta-robots.
لا حاجة لتحديد قواعد مختلفة لكل محرك بحث ، فقد يكون من المربك وصعب التحديث. من الأفضل استخدام وكيل المستخدم: * وتوفير مجموعة من القواعد لجميع برامج الروبوت.
إذا قمت بتغييره وأردت تحديثه بشكل أسرع ، يمكنك إرسال عنوان URL لملفك المعدل إلى Google.

ليست هناك تعليقات
إرسال تعليق

إرسال تعليق

الاسمبريد إلكترونيرسالة