MyDataProvider » المدونة » كشط ويب خريطة الموقع. لنحاول كشط 100 ألف أو مليون خريطة موقع

كشط ويب خريطة الموقع. لنحاول كشط 100 ألف أو مليون خريطة موقع

ما هي خريطة الموقع ولماذا أرغب في كشطها؟
خريطة الموقع هي معلومات أساسية حول الصفحات في الموقع.
إذا كان الموقع صديقًا لكبار المسئولين الاقتصاديين ، فهذا يعني أن خريطة الموقع موجودة.
العثور على مزيد من المعلومات حول خريطة الموقع
على google: https://developers.google.com/search/docs/advanced/sitemaps/overview
أو ويكيبيديا: https://en.wikipedia.org/wiki/Site_map

للمطورين الذين يرغبون في استخراج البيانات من خريطة الموقع ، من الضروري معرفة التالي
أقصى حجم لخريطة الموقع هو 20 ميجا بايت
يمكن أن يحتوي ملف Sitemap واحد على ما يصل إلى 1 ألف عنوان URL بالداخل.
99٪ من جميع خرائط المواقع عبارة عن ملفات XML و 90٪ من المسار النسبي لخرائط المواقع هو /sitemap.xml
لكن الـ 10٪ الأخرى ليس لديهم خريطة موقع على الإطلاق أو أنهم وضعوا هذا الملف في المكان.

إذا كنت تريد معرفة عنوان URL لخريطة الموقع ، فأنت بحاجة إلى قراءة هذه البيانات من ملف /robots.txt.
يجب أن يحتوي على خط داخلي مثل
خريطة الموقع: عنوان URL المطلق لملف Sitemap.

يجب أن تأخذ في الحسبان أن ملف robots.txt تم إنشاؤه بواسطة بشر لذلك هناك الكثير من الحالات التي يمكن للأشخاص من خلالها إضافة مشكلات إلى هذا الملف.
على سبيل المثال ، لسبب غير معروف ، هناك 2 أو 3 خرائط مواقع يمكن أن تكون موجودة بالداخل
وإذا كنت تريد حذف ملفات Sitemap بشكل صحيح ، فعليك أن تكون مستعدًا لذلك.