MijnDataProvider » Blog » Sitemap webschrapen. Laten we proberen 100K of 1M sitemaps te schrapen

Sitemap webschrapen. Laten we proberen 100K of 1M sitemaps te schrapen

  • by

Wat is het sitemap en waarom wil ik het schrapen?
Sitemap is een kerninformatie over pagina's op de site.
Als de site seo-vriendelijk is, betekent dit dat er een sitemap bestaat.
Vind meer informatie over sitemap
bij google: https://developers.google.com/search/docs/advanced/sitemaps/overview
of Wikipedia: https://en.wikipedia.org/wiki/Site_map

Voor ontwikkelaars die gegevens uit de sitemap willen schrapen, is het noodzakelijk om het volgende te weten
maximale grootte van sitemap is 20 MB
1 sitemapbestand kan maximaal 50 URL's bevatten.
99% van alle sitemaps zijn XML-bestanden en 90% van het relatieve pad van sitemaps is /sitemap.xml
maar de andere 10% heeft helemaal geen sitemap of ze hebben dit bestand op de plaats gezet.

Als u de sitemap-URL wilt weten, moet u deze gegevens uit het /robots.txt-bestand lezen.
het zou een regel binnen moeten hebben zoals
Sitemap: Absolute URL naar de sitemap.

Je moet er rekening mee houden dat robots.txt door mensen is gebouwd, dus er zijn veel gevallen waarin mensen problemen aan dit bestand kunnen toevoegen.
Om de onbekende reden zijn er bijvoorbeeld 2 of 3 sitemaps die erin kunnen zitten
en als je sitemaps goed wilt schrapen, moet je daarop voorbereid zijn.