MiProveedorDeDatos » Blog » Raspado web del mapa del sitio. Intentemos raspar 100K o 1M de mapas de sitio

Raspado web del mapa del sitio. Intentemos raspar 100K o 1M de mapas de sitio

  • by

¿Qué es el mapa del sitio y por qué quiero rasparlo?
El mapa del sitio es una información central sobre las páginas en el sitio.
Si el sitio es compatible con SEO, significa que existe un mapa del sitio.
Encuentre más información sobre el mapa del sitio
en google: https://developers.google.com/search/docs/advanced/sitemaps/overview
o Wikipedia: https://en.wikipedia.org/wiki/Site_map

Para los desarrolladores que desean extraer datos del mapa del sitio, es necesario conocer el siguiente
el tamaño máximo del mapa del sitio es de 20 MB
1 archivo de mapa del sitio puede tener hasta 50 XNUMX URL en su interior.
El 99% de todos los sitemaps son archivos XML y el 90% de la ruta relativa de los sitemaps es /sitemap.xml
pero el otro 10% no tiene ningún mapa del sitio o colocaron este archivo en el lugar.

Si desea conocer la URL del mapa del sitio, debe leer estos datos del archivo /robots.txt.
debería tener una línea dentro como
Mapa del sitio: URL absoluta al mapa del sitio.

Debe tener en cuenta que robots.txt está creado por humanos 🤣, por lo que hay muchos casos en los que las personas podrían agregar problemas a este archivo.
Por ejemplo, por razones desconocidas, hay 2 o 3 mapas de sitios que podrían haber dentro
y si desea raspar correctamente los mapas del sitio, debe estar preparado para eso.