» SelfLinux » Internet » World Wide Web » Tools » wget » Abschnitt 3 SelfLinux-0.12.3
zurück Startseite Kapitelanfang Inhaltsverzeichnis PDF-Download (30 KB) GFDL weiter

SelfLinux-Logo
Dokument wget  Autor
 Formatierung
 GFDL
 

3 Das Verhalten von wget anpassen


3.1 Unterdrücken und Erzwingen von Ordnern

Bei dem Aufruf von wget -r wird immer ein Ordner mit dem Namen der Webseite erstellt. Will man dies verhindern, lautet der Aufruf wget -r -nd. Aber Vorsicht mit gleich lautenden Dateinamen: Sollte ein Name schon vorhanden sein, überschreibt wget den Inhalt ohne zu fragen.

Will man das Anlegen der Ordner aus irgendeinem Grund erzwingen, lautet die Option -x oder in der langen Version --force-directories. Die Verzeichnisstruktur wird nun komplett übernommen.

Neben diesen beiden bietet wget noch eine dritte Möglichkeit. Hierbei wird die Verzeichnisstruktur übernommen, doch wird der Ordner mit dem Domainnamen weggelassen. Dies erreicht man mit -nH (--no-host-directories).


3.2 Nur bestimmte Dateitypen herunterladen

Wildcards können bei wget nicht verwendet werden, wenn die Dateien per http geladen werden. Es gibt aber dennoch eine Möglichkeit, nur spezielle Dateitypen zu bekommen. Dafür muss man eine Liste mit -A (--accept) erstellen. FTP kennt wildcards!

user@linux ~$ wget -r -A jpg,png http://www.selflinux.org

Bei diesem Aufruf werden rekursiv die Dokumente nach *.jpg und *.png durchsucht und abgespeichert. Da HTTP keinen List-Befehl kennt, muss wget zuerst alle HTML-Dateien herunterladen, um an die Links zu kommen. Sobald die Bilder gefunden sind, werden die HTML-Dateien gelöscht.

Der Umkehrbefehl von -A ist -R (--reject). Sollen alle Dateien, ausser *.jpg und *.png geholt werden, lautet der Aufruf

user@linux ~$ wget -r -R jpg,png http://www.selflinux.org

3.3 Grössenbegrenzung des Downloads

Auf die Größe des Downloads kann aber nicht nur über -A und -R Einfluss genommen werden, sondern auch mittels -Q (--quota). Die Größenangabe erfolgt in Bytes und legt den Wert für den ganzen Download fest. Da die Angabe großer Werte in Bytes mühsam ist, kann man auch andere Einheiten verwenden. Für Megabytes wird an die Zahl ein m angehängt, für Kilobytes dient ein k.

user@linux ~$ wget -r -nH -Q5m http://www.selflinux.org

Damit werden maximal 5 Megabyte Daten von de  www.selflinux.org geholt und im aktuellen Verzeichnis abgelegt. Sind weniger als 5 MB Daten vorhanden, kann wget ja nicht das ganze Quota ausnutzen.


3.4 Dateien vor Download auf Datum prüfen

Holt man sich öfters Daten vom gleichen Server, möchte man ja nur die neuesten Dateien herunterladen. Mit -N (--timestamping) veranlasst man wget, vor dem Download das Datum der Datei auf dem Server mit dem der lokalen Kopie zu vergleichen. Nur wenn die lokale Datei veraltet ist, beginnt wget mit dem Download.

user@linux ~$ wget -N http://www.selflinux.org

3.5 Verwenden eines Proxy-Servers

Will man einen Proxy-Server verwenden, genügt die Option -Y on/off. Dabei wird auf die Umgebungsvariablen $http_proxy und $FTP_PROXY ausgelesen. Diese müssen natürlich gesetzt werden:

user@linux ~$ export http_proxy="http://meinproxy.provider.de:3128/"
user@linux ~$ export FTP_PROXY="http://meinproxy.provider.de:3128/"


zurück Seitenanfang Startseite Kapitelanfang Inhaltsverzeichnis PDF-Download (30 KB) GFDL weiter