MyDataProvider » المدونة » كشط الويب من Walmart - كيفية كشط مليون منتج؟

كشط الويب من Walmart - كيفية كشط مليون منتج؟

لدينا مكشطة وول مارت. ولدينا مهمة لتنزيل 20 ألفًا من المنتجات عالية الجودة من وول مارت.

اكتشف المزيد هنا https://mydataprovider.com/sites/walmart/

تبدو هذه المهمة بسيطة ولكن إذا كنت تعرف تعريف المنتجات عالية الجودة ، فسوف تفهم أنها ليست بهذه البساطة.
لماذا؟
لأنه إذا كنت بحاجة إلى الحصول على 20 ألفًا من المنتجات عالية الجودة من وول مارت عبر الكشط ، فأنت بحاجة إلى كشط حوالي 500 ألف أو حتى 1000 ألف (مليون).
بعد تجريف الويب ، من الضروري تصفية المنتجات حسب تقييمات المنتجات من صفحات منتجات Walmart + تقييمات البائعين.

كيف نحصل على عناوين URL للمنتج؟

في الخطوة الأولى ، بدأنا في جمع عناوين URL للمنتجات من الفئات.
أنشأنا مكشطة قامت بعمل بسيط
الإدخال - عناوين URL للفئة
الإخراج - عناوين URL للمنتجات.

+ 1 ميزة بسيطة - من الممكن إدراج عنوان URL للفئة مع جميع عوامل التصفية المطبقة من واجهة مستخدم المتصفح.
لقد سمح لنا بتقليل عدد الطلبات على المنتجات غير المرغوب فيها. (قمنا بترشيحها حسب التصنيف أو الأسعار ، البائعين ، إلخ)

ولكن ! تحتاج إلى إدراج عناوين URL للفئة وتصفيتها عبر عوامل تصفية واجهة المستخدم.
يستغرق الأمر وقتًا ويجب على الإنسان العمل في ظل ذلك!
لذلك بدأنا في البحث عن الطريق الآخر

عناوين URL لمنتجات Walmart التي يتم كشطها عبر satemap.xml / robots.txt

آمل أن تعلم أن ملف robots.txt يحتوي على رابط لملف Sitemap أو ملفات sitemap.
لنلقي نظرة على ملف robots.txt من Walmart

https://www.walmart.com/robots.txt
انظر إلى هذا:

ترى أنها عدة خرائط مواقع ،
يتم تقسيمها منطقيًا حسب الموضوعات: المقالات والعلامات التجارية والمنتجات والفئات وما إلى ذلك.
لذا ، تكمن الفكرة في استخدامه لإلغاء جميع عناوين URL الخاصة بالمنتج من خريطة الموقع!

الآن يتعين علينا تطوير مكشطة لإلغاء عناوين URL الخاصة بالمنتج من خرائط مواقع Walmart.
من المهم معرفة أن خريطة موقع Walmart لها تسلسل هرمي عميق + قد أرشفت بيانات XML باستخدام خوارزمية gz.

وقمنا بتنفيذ ذلك!

آمل أن تساعدك هذه المقالة في بناء شيء مشابه لمشروعك!