miércoles, 6 de mayo de 2015

Como descargarte una web completa

A veces nos gustaría descargamos una web completa, con todos sus videos, audios y textos, pero es algo tedioso tener que pinchar en todos sus enlaces, y luego descargar, etc.. pues con wget es posible!

Si somos usuarios de Windows nos lo tendremos que descargar de: http://gnuwin32.sourceforge.net/packages/wget.htm

si somos Linuxeros con el comando bastará:

 sudo apt-get install wget  

Ahora viene la magia, una vez con el wget instalado ejecutamos lo siguiente:

 wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains www.nuestraweb.com --no-check-certificate --no-parent http://nuestraweb.com/manual -c  

Y aquí la explicación...

--recursive: Significará que probará todos los enlaces, y los enlaces dentro de los enlaces, etc..
--no-clobber: Para que no sobrescriba archivos, por si reinicias la descarga
--page-requisites: Descargar requisitos de la web como CSS, imágenes, etc..
--html-extension: guardar los archivos con extensión HTML
--convert-links: Convertir los enlaces para que funcionen de forma offline
--restrict-file-names=windows: Guardar los nombres de los archivos en un formato que Windows lo entienda.
--no-check-certificate: No revisa los certificados para las conexiones SSL
--domains www.nuestraweb.com: Descargar los enlaces que apunten a este dominio
--no-parent http://nuestraweb.com/manual: No descargar enlaces fuera de esta ruta
-c: Permite resumir la descarga

Webs protegidas por contraseña

En el caso de que queramos descargar una web donde necesitemos logearnos antes deberías de enviar las cabeceras de las cookiees antes, pero esto será muy fácil gracias a la extensión Cliget de Firefox.



Una instalada, dentro de Complementos --> Extensiones --> y Opciones de Cliget lo configuramos de la siguiente manera:


Una vez guardada las opciones, nos logeamos desde el navegador a la web que nos queremos descargar y pinchamos con el botón derecho sobre cualquier parte de la página y seleccionamos

 Cliget --> Copy wget for page




Ahora si pegamos el comando en nuestra terminal tendremos algo así como:

wget --header="Host: www.nuestraweb.com" --header="User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:37.0) Gecko/20100101 Firefox/37.0" --header="Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" --header="Accept-Language: es-ES,es;q=0.8,en-US;q=0.5,en;q=0.3" --header="Accept-Encoding: gzip, deflate" --header="Content-Type: application/x-www-form-urlencoded" --header="Cookie: optimizelySegments=%7B%222000810488%22%3A%22false%22%2C%222017550344%22%3A%22ff%22%2C%221994990450%22%3A%22none%22%2C%222011280991%22%3A%22search%22%7D; optimizelyEndUserId=oeu1429614064505r0.1741141341333865; optimizelyBuckets=%7B%7D; __utma=164683759.2145078024.1429614066.1429696603.1430915128.3; __utmz=164683759.1430915128.3.2.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utma=150903082.504954974.1429614782.1429614782.1429614782.1; __utmz=150903082.1429614782.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmc=164683759" "https://www.nuestraweb.com/manual" -c

Ahora justamente antes de "https://www.nuestraweb.com/manual" añadimos las opciones del ejemplo anterior: --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --no-check-certificate --domains www.sigsiu.net  --no-parent 

Y Voilá! Esperar que se descargue la web. :)

No hay comentarios:

Publicar un comentario

Gracias por frikear con nosotros!