MiProveedorDeDatos » Blog » Raspado web de Walmart: ¿cómo raspar 1 millón de productos?

Raspado web de Walmart: ¿cómo raspar 1 millón de productos?

  • by

Tenemos raspador de Walmart. Y tenemos la tarea de descargar 20 XNUMX productos de alta calidad de Walmart.

Encuentra más aquí https://mydataprovider.com/sites/walmart/

Esta tarea parece sencilla pero si conoces la definición de productos de alta calidad entenderás que no lo es tanto.
¿Por qué?
porque si necesita obtener 20 500 productos de alta calidad de Walmart a través del raspado, debe obtener alrededor de 1000 1 o incluso XNUMX XNUMX (XNUMX millón).
Después del raspado web, es necesario filtrar los productos por revisiones de productos de las páginas de productos de Walmart + calificaciones de vendedores.

¿Cómo obtuvimos las URL de los productos?

En el primer paso, comenzamos a recopilar las URL de los productos de las categorías.
Creamos un raspador que hizo un trabajo simple
entrada: URL de categoría
Salida: URL de productos.

+ 1 característica simple: es posible insertar URL de categoría con todos los filtros aplicados desde la interfaz de usuario del navegador.
nos permitió reducir el número de solicitudes de productos no deseados. (los filtramos por calificación o precios, vendedores, etc.)

Pero ! Debe insertar URL de categoría y filtrarlas a través de filtros de interfaz de usuario.
¡Lleva tiempo y un humano tiene que trabajar debajo de eso!
Así que empezamos a buscar el otro camino

Raspado de URL de productos de Walmart a través de satemap.xml / robots.txt

Espero que sepa que robots.txt tiene un enlace al mapa del sitio o mapas del sitio.
Veamos el archivo robots.txt de Walmart

https://www.walmart.com/robots.txt
Mira este :

Ves que son varios sitemaps,
están lógicamente divididos por temas: artículos, marcas, productos, categorías, etc.
Entonces, la idea es usarlo para extraer todas las URL de productos del mapa del sitio.

Ahora tenemos que desarrollar un raspador para raspar las URL de los productos de los mapas del sitio de Walmart.
es importante saber que el mapa del sitio de Walmart tiene una jerarquía profunda + tiene datos XML archivados con el algoritmo gz.

¡Y lo implementamos!

¡Espero que este artículo te ayude a construir algo similar para tu proyecto!