MijnDataProvider » Blog » Walmart-webscraping - hoe 1 miljoen producten schrapen?

Walmart-webscraping - hoe 1 miljoen producten schrapen?

  • by

We hebben een Walmart-schraper. En we kregen de taak om 20K hoogwaardige producten van Walmart te downloaden.

Vind hier meer https://mydataprovider.com/sites/walmart/

Deze taak lijkt eenvoudig, maar als u de definitie van hoogwaardige producten kent, begrijpt u dat het niet zo eenvoudig is.
Waarom?
want als je 20K hoogwaardige producten van Walmart wilt krijgen via scraping, moet je ongeveer 500K of zelfs 1000K (1 miljoen) schrapen.
Na webscraping is het noodzakelijk om producten te filteren op productrecensies van Walmart-productpagina's + verkopersbeoordelingen.

Hoe zijn we aan product-URL's gekomen?

In de eerste stap zijn we begonnen met het verzamelen van product-URL's uit categorieën.
We hebben een schraper gemaakt die eenvoudig werk deed
invoer - categorie-URL's
output – product-URL's.

+ 1 eenvoudige functie - het is mogelijk om categorie-URL in te voegen met alle toegepaste filters vanuit de gebruikersinterface van de browser.
het stelde ons in staat om het aantal verzoeken naar ongewenste producten te verminderen. (we hebben ze gefilterd op beoordeling of prijzen, verkopers enz.)

Maar ! U moet categorie-URL's invoegen en deze filteren via UI-filters.
Het kost tijd en daar moet een mens onder werken!
Dus begonnen we de andere kant op te zoeken

Walmart-producten URL's scrapen via satemap.xml / robots.txt

Ik hoop dat je weet dat robots.txt een link heeft naar sitemap of sitemaps.
Laten we eens kijken naar Walmart robots.txt

https://www.walmart.com/robots.txt
Kijk hiernaar :

Je ziet dat het meerdere sitemaps,
ze zijn logisch ingedeeld naar onderwerpen: artikelen, merken, producten, categorieën enz.
Het idee is dus om het te gebruiken om alle product-URL's van de sitemap te schrapen!

Nu moeten we een schraper ontwikkelen voor het schrapen van product-URL's van Walmart-sitemaps.
het is belangrijk om te weten dat de Walmart-sitemap een diepe hiërarchie heeft + XML-gegevens heeft gearchiveerd met het gz-algoritme.

En dat hebben we uitgevoerd!

Ik hoop dat dit artikel je zal helpen om iets soortgelijks voor je project te bouwen!