MeuProvedor de Dados » Blog » Raspagem da web do mapa do site. Vamos tentar raspar 100K ou 1M de sitemaps

Raspagem da web do mapa do site. Vamos tentar raspar 100K ou 1M de sitemaps

  • by

O que é sitemap e por que eu quero raspá-lo?
Sitemap é uma informação central sobre as páginas do site.
Se o site for SEO-friendly, significa que o sitemap existe.
Encontre mais informações sobre o mapa do site
no google: https://developers.google.com/search/docs/advanced/sitemaps/overview
ou Wikipedia: https://en.wikipedia.org/wiki/Site_map

Para desenvolvedores que desejam extrair dados do mapa do site, é necessário conhecer o próximo
o tamanho máximo do mapa do site é 20 MB
1 arquivo de mapa do site pode ter até 50 mil URLs.
99% de todos os sitemaps são arquivos XML e 90% do caminho relativo dos sitemaps é /sitemap.xml
mas os outros 10% não têm mapa do site ou colocaram esse arquivo no local.

Se você quiser saber o URL do mapa do site, você precisa ler esses dados do arquivo /robots.txt.
deve ter linha dentro como
Sitemap: URL absoluto para o sitemap.

Você deve levar em consideração que o robots.txt é construído por humanos 🤣 então há muitos casos em que as pessoas podem adicionar problemas a esse arquivo.
Por exemplo, por motivos desconhecidos, existem 2 ou 3 mapas do site que podem estar dentro
e se você quiser raspar os sitemaps corretamente, você precisa estar preparado para isso.