Descargar un sitio web completo con wget

network-wiredInternet es maravillosa. Sin embargo, en ocasiones te puedes quedar con la miel en los labios. ¿No te ha ocurrido nunca que sabías donde encontrar justo la información que necesitabas, y cuando has ido a consultarla, ya no estaba? Para evitarlo, puedes descargarla cuando la encuentras y tenerla guardada en tu disco para cuando la necesites.

Para realizar este trabajo, existen programas realmente interesantes, pero también podemos hacerlo solamente usando el sistema operativo. Concretamente, el comando wget. Es tan sencillo somo abrir una consola (Aplicaciones > Accesorios > Terminal) y escribir las siguientes líneas:

cd Descargas
wget --recursive --page-requisites --html-extension --convert-links --domains wordpress.com --no-parent https://sliceoflinux.wordpress.com

Nada más pulsar la tecla Intro, verás que comienza la descarga…

Figura 1

… y que se crea una carpeta en el directorio de destino, donde después tendrás todo el contenido del sitio.

Figura 1

Lógicamente, habrá que cambiar el texto que aparece en azul, para que se adapte a tus necesidades. Debes tener en cuenta que el directorio donde se almacenen los archivos será el directorio actual. Por ese motivo, yo he creado un directorio, llamado Descargas, y lo utilizo para ese fin.

Si tienes curiosidad por saber qué hace cada uno de los atributos, puedes echarle un vistazo a la siguiente tabla:

Argumento Significado
–recursive Para indicar que debe descargarse el sitio completo.
–domains sitio Evita que se sigan los enlaces fuera del sitio que estemos descargando.
–no-parent Impide que se descarguen enlaces fuera del ámbito de descarga, aunque pertenezcan al mismo sitio.
–page-requisites Descarga todos los recursos relacionados con cada documento descargado (imágenes, javascript, CSS, …).
–html-extension Almacena los archivos utilizando la extensión .html.
–convert-links Modifica los enlaces para que hagan referencia a los archivos locales.

Además, disponemos de dos atributos más, que pueden resultarte útiles en algunos momentos:

Argumento Significado
–restrict-file-names=windows Cambia los nombres de los archivos para que sean compatibles con Windows.
–no-clobber Se utiliza para cuando se continúa una descarga que se había interrumpido. Evita que se vuelvan a escribir archivos que ya existían.

Como ves, se trata de una funcionalidad muy fácil de utilizar. El único peligro es que llenes tu disco duro antes de lo que tenías previsto. A pesar de todo, espero que te resulte útil.

Imágen de cabecera: Mashup 3.7 icon theme


Anuncios

5 Responses to “Descargar un sitio web completo con wget”


  1. 1 dinpel Jueves, 4 junio 2009 en 12:47 am

    Hola buenas tengo una duda sobre el comando wget. Me gustaria saber si descargo habitualmente una web en este caso sliceoflinux y cada semana quiero descargarme solo las actualizaciones que se publican a la misma carpeta que tengo descargado toda la web anteriormente como lo deberia poner, que comando deberia usar para solo descargarme las actualizaciones que existan el la web para asi no volver a descargarme toda la web entera. Un saludo. Y gran Blog.

  2. 3 dinpel Miércoles, 10 junio 2009 en 11:02 pm

    Hols buenas de nuevo encontré esto no se si funcionara.

    Fuente. http://diariolinux.com/2007/03/17/descarga-de-paginas-web-con-wget/

    – N : time-stamping. Esta opción es una de las más importantes si tu intención es descargar periodicamente cierta web y traerte sólo las actualizaciones ocurridas desde la última descarga. Es decir, con esta opción conseguiremos una actualización incremental, con lo que no sólo se ahorra en ancho de banda, ¡sino también en tiempo! Un fichero se marcará para descarga si se cumple alguna de las siguientes condiciones: 1. no tenemos ya un fichero local con el mismo nombre que el archivo a descargar y 2) existe un fichero con el mismo nombre, pero el archivo remoto fue modificado más recientemente que el local. Para implementar esas condiciones, debemos de conocer la fecha de última modificación tanto del fichero local como del remoto. Esta información se conoce como time-stamps.

    Según la documentación, Wget se fija también en cambios en el tamaño del archivo. En caso de diferencia entre el tamaño local y remoto, se descargará el fichero, independientemente de la fecha del time-stamp.

  3. 4 pruizar Sábado, 13 junio 2009 en 10:33 am

    Muchas gracias dinpel, lo probaré


Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




Síguenos en Twitter

 

Sitios amigos:

Si has leído nuestro Acerca de, sabes que no publicamos ningún artículo práctico que no hayamos probado. Aún así, no podemos garantizar que en tu sistema funcione como en el nuestro.

Esta página no es de soporte. Compartimos lo que sabemos, pero si resolviésemos todas las dudas que recibimos, no podríamos hacer artículos nuevos. Por eso, si alguien plantea un problema, y sabes la respuesta, siéntete libre para comentarla.

Si tienes una duda y no obtienes respuesta, puedes recurrir a sitios específicos como ubuntu-es.org o Linux Q.

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.


A %d blogueros les gusta esto: