MyDataProvider » Blog » Web scraping Walmart: come raschiare 1 milione di prodotti?

Web scraping Walmart: come raschiare 1 milione di prodotti?

  • by

Abbiamo il raschietto Walmart. E abbiamo il compito di scaricare 20 prodotti di alta qualità da Walmart.

Trova di più qui https://mydataprovider.com/sites/walmart/

Questo compito sembra semplice ma se conosci la definizione di prodotti di alta qualità capirai che non è così semplice.
Perché?
perché se hai bisogno di ottenere 20 prodotti di alta qualità da Walmart tramite raschiatura, devi raschiare circa 500 o addirittura 1000 (1 milione).
Dopo il web scraping, è necessario filtrare i prodotti in base alle recensioni dei prodotti dalle pagine dei prodotti Walmart + le valutazioni dei venditori.

Come abbiamo ottenuto gli URL dei prodotti?

Nel primo passaggio, abbiamo iniziato a raccogliere gli URL dei prodotti dalle categorie.
Abbiamo creato un raschietto che ha fatto un lavoro semplice
input – URL di categoria
output: URL di prodotti.

+ 1 semplice funzionalità: è possibile inserire l'URL della categoria con tutti i filtri applicati dall'interfaccia utente del browser.
ci ha permesso di ridurre il numero di richieste di prodotti indesiderati. (li abbiamo filtrati per valutazione o prezzi, venditori ecc.)

Ma ! Devi inserire gli URL di categoria e filtrarli tramite i filtri dell'interfaccia utente.
Ci vuole tempo e un essere umano deve lavorarci sotto!
Così abbiamo iniziato a cercare l'altro modo

URL dei prodotti Walmart che raschiano tramite satemap.xml / robots.txt

Spero che tu sappia che robots.txt ha un collegamento alla mappa del sito o alle mappe del sito.
Diamo un'occhiata a Walmart robots.txt

https://www.walmart.com/robots.txt
Guarda questo :

Lo vedi diverse mappe del sito,
sono logicamente divisi per argomenti: articoli, marchi, prodotti, categorie ecc.
Quindi, l'idea è di usarlo per raschiare tutti gli URL dei prodotti dalla mappa del sito!

Ora dobbiamo sviluppare uno scraper per lo scraping degli URL dei prodotti dalle mappe dei siti Walmart.
è importante sapere che la mappa del sito Walmart ha una gerarchia profonda + ha archiviato i dati XML con l'algoritmo gz.

E l'abbiamo implementato!

Spero che questo articolo ti aiuti a costruire qualcosa di simile per il tuo progetto!