wget
Al final me toca meterme como siempre en todos los charcos. :smileyvery-happy:
Venga, lo inicio yo, que además, me parece que va a ser un subforo que si me ayudáis será de los que más "molen".
He pensado un rato largo con qué os podría sorprender: si con algo 2.0, algo "cool" y de moda, algo superextravagante, o algo marca Movistar, pero al final creo que empezaré justo con lo contrario. Espartano a más no poder.
Amigos de la Comunidad, os presento, a los que no lo conozcáis, a .... wget :smileyhappy:
Dice la Wikipedia (resumiendo, claro):
"GNU Wget es una herramienta de software libre que Permite la descarga de contenidos desde servidores Web de una forma simple. Ofrece entre otras cosas la descarga de mirrors (espejos) complejos de forma recursiva, conversión de enlaces para la visualización de contenidos HTML localmente, soporte para proxies...
Es un programa utilizado a través de línea de comandos, principalmente en sistemas de UNIX/Linux. Escrito en el lenguaje de programación C, Wget puede ser fácilmente instalado en sistemas derivados de UNIX, y ha sido portado a muchas interfaces gráficas de usuario (GUI) y aplicaciones gráficas de descarga como Gwget[1] para GNOME, wGetGUI[2] y VisualWget[3] para Microsoft Windows, Wget 1.10.2r2[4] para Mac OS X."
Los que uséis Linux seguro que lo conocéis, pero en Windows creo que es un desconocido. ¿Y qué podemos hacer con wget?
Para lo que más se usa es para automatizar descargas.
Lo mejor es probarlo y que lo veáis vosotros mismos. Para Windows se puede descargar aquí:
http://sourceforge.net/projects/gnuwin32/files/wget/1.11.4-1/wget-1.11.4-1-setup.exe/download
Una vez instalado (con total garantía del compilado original pues es GNU) debemos situarnos desde "Símbolo del sistema" en la carpeta donde se instaló para poder ejecutarlo:
NOTA: Para evitar tener que ponernos siempre en ese directorio parta ejecutar wget podemos meter en el PATH esa ruta:
Sea de la forma que sea, nos encontramos dispuestos a escribir por primera vez algo con el wget:
Lo escribimos a secas y ... No hace nada , nos dice que debemos meter algún parámetro y la/s url. Bien pues vamos con un caso práctico, (en siguientes mensajes del hilo podemos construir más ejemplos y sacarle un partido extraordinario a esta herramienta). Vamos a decirle a wget que nos descargue todo pdf que encuentre dentro de una URL de forma recursiva hasta una profundidad de 3 (esto significa URL dentro de otra URL dentro de otra URL)
Lo hacemos de esta forma:
wget -r -l3 -H -t1 -nd -N -np -A.pdf -erobots=off http://www.temariosyapuntesgratis.com/
Lo podéis copiar y pegar en la consola (se pega en el Símbolo del sistema con el botón derecho => pegar ) :smileywink:
¿Qué hace toda esta batería de parámetros:
-r =recursivo
-l3 hasta nivel 3
-H=ir a host diferentes en los recursivos
-t1=1 reintento
-nd=no escales por encima de la URL padre
-A.pdf =extensiones pdf
-erobots=off = wget no leerá el contenido de los erobots
Veréis como poco a poco va descargándose todo pdf que encuentra en la prospección de esa Web hasta 3 de profundidad, ¿a que es potente? :smileyhappy:
No olvidéis no obstante que esos contenidos pueden estar sujetos a ciertos derechos de autor, pero conociéndolos y respetándolos nunca habrá ningún problema con este tipo de extracción automatizada.
¿Qué os parece? ¿Lo usabais ya?
:smileyhappy: