MeinDatenanbieter » Blog » Walmart Web Scraping – wie kann man 1 Million Produkte schaben?

Walmart Web Scraping – wie kann man 1 Million Produkte schaben?

  • by

Wir haben einen Schaber von Walmart. Und wir haben die Aufgabe bekommen, 20 hochwertige Produkte von Walmart herunterzuladen.

Hier finden Sie mehr https://mydataprovider.com/sites/walmart/

Diese Aufgabe sieht einfach aus, aber wenn Sie die Definition von hochwertigen Produkten kennen, werden Sie verstehen, dass es nicht so einfach ist.
Warum?
denn wenn Sie 20 hochwertige Produkte von Walmart per Scraping erhalten möchten, müssen Sie etwa 500 oder sogar 1000 (1 Million) schaben.
Nach dem Web Scraping ist es notwendig, Produkte nach Produktbewertungen von Walmart-Produktseiten + Verkäuferbewertungen zu filtern.

Wie haben wir Produkt-URLs erhalten?

Im ersten Schritt haben wir damit begonnen, Produkt-URLs aus Kategorien zu sammeln.
Wir haben einen Schaber entwickelt, der einfache Arbeit leistet
input – Kategorie-URLs
Ausgabe – Produkt-URLs.

+ 1 einfache Funktion – es ist möglich, die Kategorie-URL mit allen angewendeten Filtern über die Browser-Benutzeroberfläche einzufügen.
Dadurch konnten wir die Anzahl der Anfragen zu unerwünschten Produkten reduzieren. (wir haben sie nach Bewertung oder Preisen, Verkäufern usw. gefiltert)

Aber ! Sie müssen Kategorie-URLs einfügen und sie über UI-Filter filtern.
Es braucht Zeit und darunter muss ein Mensch arbeiten!
Also fingen wir an, nach dem anderen Weg zu suchen

URL-Scraping von Walmart-Produkten über satemap.xml / robots.txt

Ich hoffe, Sie wissen, dass robots.txt einen Link zu Sitemap oder Sitemaps hat.
Schauen wir uns Walmart robots.txt an

https://www.walmart.com/robots.txt
Schau dir das an :

Sie sehen, dass es mehrere Sitemaps gibt,
Sie sind logisch nach Themen gegliedert: Artikel, Marken, Produkte, Kategorien etc.
Die Idee ist also, es zum Scrapen aller Produkt-URLs aus der Sitemap zu verwenden!

Jetzt müssen wir einen Scraper zum Scrapen von Produkt-URLs aus Walmart-Sitemaps entwickeln.
Es ist wichtig zu wissen, dass die Sitemap von Walmart eine tiefe Hierarchie hat + XML-Daten mit gz-Algorithmus archiviert hat.

Und das haben wir umgesetzt!

Ich hoffe, dieser Artikel hilft Ihnen, etwas Ähnliches für Ihr Projekt zu bauen!