MeuProvedor de Dados » Blog » Raspagem da web do Walmart – como raspar 1 milhão de produtos?

Raspagem da web do Walmart – como raspar 1 milhão de produtos?

  • by

Temos raspador Walmart. E recebemos a tarefa de baixar 20 mil produtos de alta qualidade do Walmart.

Encontre mais aqui https://mydataprovider.com/sites/walmart/

Essa tarefa parece simples, mas se você conhece a definição de produtos de alta qualidade, entenderá que não é tão simples.
Porquê?
porque se você precisar obter 20 mil produtos de alta qualidade do Walmart por meio de raspagem, precisará raspar cerca de 500 mil ou até 1000 mil (1 milhão).
Após a raspagem da web, é necessário filtrar produtos por avaliações de produtos das páginas de produtos do Walmart + avaliações de vendedores.

Como conseguimos URLs de produtos?

Na primeira etapa, começamos a coletar URLs de produtos de categorias.
Criamos um raspador que fazia um trabalho simples
entrada – URLs de categoria
saída – URLs de produtos.

+ 1 recurso simples – é possível inserir URL de categoria com todos os filtros aplicados na interface do navegador.
permitiu-nos reduzir o número de pedidos de produtos indesejados. (filtramos por classificação ou preços, vendedores, etc.)

Mas ! Você precisa inserir URLs de categoria e filtrá-los por meio de filtros de interface do usuário.
Leva tempo e um humano tem que trabalhar sob isso!
Então começamos a procurar o outro caminho

Raspagem de URLs de produtos do Walmart via satemap.xml / robots.txt

Espero que você saiba que o robots.txt tem um link para o sitemap ou sitemaps.
Vamos dar uma olhada no Walmart robots.txt

https://www.walmart.com/robots.txt
Veja isso :

Você vê que vários sitemaps,
eles são logicamente divididos por tópicos: artigos, marcas, produtos, categorias etc.
Então, a ideia é usá-lo para extrair todas as URLs de produtos do mapa do site!

Agora temos que desenvolver um raspador para extrair URLs de produtos dos sitemaps do Walmart.
é importante saber que o mapa do site do Walmart tem uma hierarquia profunda + tem dados XML arquivados com algoritmo gz.

E nós implementamos isso!

Espero que este artigo o ajude a construir algo semelhante para o seu projeto!