Mon fournisseur de données » Blog » Scraping Web du plan du site. Essayons de gratter 100K ou 1M de sitemaps

Scraping Web du plan du site. Essayons de gratter 100K ou 1M de sitemaps

  • by

Qu'est-ce que c'est que le plan du site et pourquoi est-ce que je veux le gratter ?
Le plan du site est une information de base sur les pages du site.
Si le site est optimisé pour le référencement, cela signifie que le plan du site existe.
En savoir plus sur le plan du site
sur google : https://developers.google.com/search/docs/advanced/sitemaps/overview
ou Wikipédia : https://en.wikipedia.org/wiki/Site_map

Pour les développeurs qui souhaitent extraire des données du sitemap, il est nécessaire de connaître la prochaine
la taille maximale du plan du site est de 20 Mo
1 fichier sitemap peut contenir jusqu'à 50 XNUMX URL.
99 % de tous les sitemaps sont des fichiers XML et 90 % du chemin relatif des sitemaps est /sitemap.xml
mais les 10% restants n'ont pas du tout de sitemap ou ils ont placé ce fichier à l'endroit.

Si vous voulez connaître l'URL du sitemap, vous devez lire ces données à partir du fichier /robots.txt.
il devrait y avoir une ligne à l'intérieur comme
Plan du site : URL absolue du plan du site.

Vous devez tenir compte du fait que robots.txt est construit par des humains 🤣 donc il y a beaucoup de cas où les gens pourraient ajouter des problèmes à ce fichier.
Par exemple, pour une raison inconnue, il y a 2 ou 3 sitemaps qui auraient pu se trouver à l'intérieur
et si vous voulez bien gratter les sitemaps, vous devez vous y préparer.