MeinDatenanbieter » Blog » Sitemap-Webscraping. Versuchen wir, 100 oder 1 Million Sitemaps zu kratzen

Sitemap-Webscraping. Versuchen wir, 100 oder 1 Million Sitemaps zu kratzen

  • by

Was ist eine Sitemap und warum möchte ich sie scrapen?
Sitemap ist eine Kerninformation über Seiten auf der Website.
Wenn die Website SEO-freundlich ist, bedeutet dies, dass eine Sitemap vorhanden ist.
Weitere Informationen finden Sie in der Sitemap
bei Google: https://developers.google.com/search/docs/advanced/sitemaps/overview
oder Wikipedia: https://en.wikipedia.org/wiki/Site_map

Für Entwickler, die Daten aus der Sitemap entfernen möchten, ist es notwendig, das nächste zu kennen
Die maximale Größe der Sitemap beträgt 20 MB
1 Sitemap-Datei kann bis zu 50 URLs enthalten.
99 % aller Sitemaps sind XML-Dateien und 90 % des relativen Pfads von Sitemaps ist /sitemap.xml
aber die anderen 10% haben überhaupt keine Sitemap oder sie haben diese Datei an der Stelle platziert.

Wenn Sie die Sitemap-URL wissen möchten, müssen Sie diese Daten aus der Datei /robots.txt lesen.
Es sollte eine Linie im Inneren haben
Sitemap: Absolute URL zur Sitemap.

Sie müssen berücksichtigen, dass robots.txt von Menschen erstellt wird 🤣, daher gibt es viele Fälle, in denen Menschen dieser Datei Probleme hinzufügen könnten.
Aus dem unbekannten Grund gibt es beispielsweise 2 oder 3 Sitemaps, die darin enthalten sein könnten
und wenn Sie Sitemaps richtig kratzen möchten, müssen Sie darauf vorbereitet sein.