Artikelaktionen

Wie erstelle ich einen kompletten Mirror einer Website die lokal im Browser läuft?

Damit auch URL's die von CGI-Skripten stammen lokal funktionieren können diverse Optionen in wget gesetzt werden. Ich bevorzuge folgende Befehls-Kombination, die auch mit der robots.txt Direktive gesperrte inhalte herunterlädt:

cd Zielverzeichnis
wget -p -m -k -K -E http://www.url.de -a ./mylogfile -e robots=off

Die Optionen im einzelnen (Langform mit prefix -- dahinter):

-p --page-requisites alle für eine Page benötigten Inhalte (CSS, Images, Javascripts etc.) mit herunterladen auch wenn die Rekursionstiefen-Begrenzung mit -l ggf. enger gefaßt wird.
-m --mirror Mirror
-k --convert-links Link Konvertierung in lokale relative Links
-K --backup-converted bevor die Links konvertiert werden ein Backup mit Suffix .orig behalten
-E --html-extension Sichere HTML-Dateien mit .html Erweiterung zum Öffnen im Browser
-e robots=off --execute="robots=off" (führt einen .wgetrc konformen Befehl aus) hier: "Die robots.txt Direktive ignorieren!"
-a --append-output=FILE füge das Protokoll an eine ggf. bestehende Logdatei an oder erzeuge ein neues Logfile

Mehr Informationen zu den Optionen des Befehls wget erhält man durch Eingabe von

wget --help

oder

man wget

Sektionen

Benutzerspezifische Werkzeuge

Artikelaktionen

Wie erstelle ich einen kompletten Mirror einer Website die lokal im Browser läuft?