martedì 12 aprile 2022

Download ricursivo con wget

Una semplice nota a memoria di come usare il comando wget per scaricare in maniera ricorsiva files da un sito.

Generalmente in rete, o anche dalla documentazione, viene indicato di usare le opzioni :

-r    per scaricare in modo ricorsivo

-np   per ignorare le directory 'padre' indicate nella path al sito

quindi un esempio classico d'uso è questo :

wget -r -np http://www.sitoxyz.com/directory

sfortunatamente quando ne ho avuto necessità il risultato è stato quello di non scaricare nulla per via di un fantomatico file robots.txt.

Quindi per ovviare al problema la sintassi da usare è :

wget -e robots=off -r -np http://www.sitoxyz.com/directory

Ora tutto il contenuto del sito dalla directory indicata verrà scaricato in locale.

Ovviamente ci sono almeno altre dodicimila opzioni utili con wget quando si fanno questo genere di operazioni.

wget -e robots=off -r -A .zip -nH --cut-dirs=3 http://www.sitoxyz.com/dir/foo/con/

Con questa sintassi scarico nella directory corrente tutti i files ZIP dal sito indicato senza creare nessuna delle 3 directory ( /dir/foo/con ) indicate nel percorso al sito da cui fare il download.

Di solito questo è quanto basta per le mie necessità.