Mirror de un sitio wordpress

Con wget, se puede hacer una rÃ©plica bÃ¡sica de una web basada en WordPress:

# de https://swsblog.stanford.edu/blog/creating-static-copy-website
wget -P DIRECTORIO_REPLICA -mpck --user-agent="" -e robots=off --wait 1 -E URL

Uno de los puntos clave del proceso es la reescritura de las URL dentro de cada pÃ¡gina, paso que wget hace despuÃ©s de descargarse todas las pÃ¡ginas. De ahÃ que si alguna ya existe, se la «salte» y no se tenga en cuenta para la reescritura.

Las dependencias (por ejemplo, las hojas de estilo) estÃ¡n bien soportadas, incluso «a pesar» de que en WordPress las URL incluyen la version (con lo que los ficheros de la rÃ©plica tienen nombres como «style.css?ver=4.5.3.css»)

Curiosamente, parece que los enlaces permanentes (permalink) no se respetan. Visitando el sitio con un navegador, las URL son las correspondientes al permalink, mientras que la pÃ¡gina descargada y reescrita con wget utiliza el ID de pÃ¡gina. El problema es que las pÃ¡ginas index con ID (por ejemplo, «index.html?p=9.html») no son accesibles, a pesar de que existen en la rÃ©plica… Parece que si en el proceso de rÃ©plica wget se encuentra ese tipo de «pÃ¡ginas con ID», luego se lÃa en el proceso de reescritura (simplemente bajando la pÃ¡gina con wget, sin reescritura, se respetan los permalinks…)

Dejar un comentario Cancelar la respuesta