MeuProvedor de Dados » Blog » Como raspar 1 milhão de páginas de 1 site diariamente?

Como raspar 1 milhão de páginas de 1 site diariamente?

  • by

O que significa raspar 1 milhão de páginas da web (URLs) diariamente?
Em página, queremos dizer aqui 1 solicitação da Web HTTP para 1 URL.

É muito importante porque a abertura de 1 página em qualquer navegador pode causar a abertura de URLs extras para imagens, css, scripts etc.

Isso significa
1000000 páginas por dia
ou 41666.66667 páginas por hora
ou 694.4444444 páginas por minuto
ou 11.57407407 páginas por segundo
então, você precisa de ~12 tentativas bem-sucedidas de raspar páginas por segundo.
ou 700 páginas por 1 minuto…
É realmente alta velocidade.
Além disso, não se esqueça de que o site de origem bloqueará sua solicitação, portanto, você precisa de cerca de 100 mil servidores proxy para gerenciá-la.

Você tem um projeto semelhante? Preencha livre para entrar em contato conosco. 😁 😎