Mirror de un sitio wordpress

Con wget, se puede hacer una réplica básica de una web basada en WordPress:

# de https://swsblog.stanford.edu/blog/creating-static-copy-website
wget -P DIRECTORIO_REPLICA -mpck --user-agent="" -e robots=off --wait 1 -E URL

Uno de los puntos clave del proceso es la reescritura de las URL dentro de cada página, paso que wget hace después de descargarse todas las páginas. De ahí que si alguna ya existe, se la “salte” y no se tenga en cuenta para la reescritura.

Las dependencias (por ejemplo, las hojas de estilo) están bien soportadas, incluso “a pesar” de que en WordPress las URL incluyen la version (con lo que los ficheros de la réplica tienen nombres como “style.css?ver=4.5.3.css”)

Curiosamente, parece que los enlaces permanentes (permalink) no se respetan. Visitando el sitio con un navegador, las URL son las correspondientes al permalink, mientras que la página descargada y reescrita con wget utiliza el ID de página. El problema es que las páginas index con ID (por ejemplo, “index.html?p=9.html”) no son accesibles, a pesar de que existen en la réplica… Parece que si en el proceso de réplica wget se encuentra ese tipo de “páginas con ID”, luego se lía en el proceso de reescritura (simplemente bajando la página con wget, sin reescritura, se respetan los permalinks…)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *