Mon fournisseur de données » Blog » Web scraping Walmart – comment gratter 1 million de produits ?

Web scraping Walmart – comment gratter 1 million de produits ?

  • by

Nous avons un grattoir Walmart. Et nous avons eu pour tâche de télécharger 20 XNUMX produits de haute qualité de Walmart.

En savoir plus ici https://mydataprovider.com/sites/walmart/

Cette tâche semble simple, mais si vous connaissez la définition des produits de haute qualité, vous comprendrez que ce n'est pas si simple.
Pourquoi ?
parce que si vous avez besoin d'obtenir 20 500 produits de haute qualité de Walmart via le grattage, vous devez gratter environ 1000 1 ou même XNUMX XNUMX XNUMX (XNUMX million).
Après le web scraping, il est nécessaire de filtrer les produits par les avis produits des pages produits Walmart + les avis des vendeurs.

Comment avons-nous obtenu les URL des produits ?

Dans un premier temps, nous avons commencé à collecter les URL des produits à partir des catégories.
Nous avons créé un grattoir qui a fait un travail simple
entrée - URL de catégorie
sortie – URL des produits.

+ 1 fonctionnalité simple - il est possible d'insérer une URL de catégorie avec tous les filtres appliqués à partir de l'interface utilisateur du navigateur.
cela nous a permis de réduire le nombre de demandes de produits indésirables. (nous les avons filtrés par note ou prix, vendeurs, etc.)

Mais ! Vous devez insérer des URL de catégorie et les filtrer via des filtres d'interface utilisateur.
Cela prend du temps et un humain doit travailler sous cela!
Alors nous avons commencé à chercher l'autre chemin

Extraction des URL des produits Walmart via satemap.xml / robots.txt

J'espère que vous savez que robots.txt a un lien vers un sitemap ou des sitemaps.
Regardons Walmart robots.txt

https://www.walmart.com/robots.txt
Regarde ça :

Vous voyez qu'il y a plusieurs sitemaps,
ils sont logiquement divisés par thèmes : articles, marques, produits, catégories etc.
L'idée est donc de l'utiliser pour extraire toutes les URL de produits du sitemap !

Nous devons maintenant développer un grattoir pour extraire les URL des produits des plans de site Walmart.
il est important de savoir que le plan du site Walmart a une hiérarchie profonde + a archivé des données XML avec l'algorithme gz.

Et nous l'avons mis en œuvre !

J'espère que cet article vous aidera à construire quelque chose de similaire pour votre projet !