Wie erstelle ich einen kompletten Mirror einer Website die lokal im Browser läuft?
Damit auch URL's die von CGI-Skripten stammen lokal funktionieren können diverse Optionen in wget gesetzt werden. Ich bevorzuge folgende Befehls-Kombination, die auch mit der robots.txt Direktive gesperrte inhalte herunterlädt:
cd Zielverzeichnis
wget -p -m -k -K -E http://www.url.de -a ./mylogfile -e robots=off
Die Optionen im einzelnen (Langform mit prefix -- dahinter):
- -p --page-requisites alle für eine Page benötigten Inhalte (CSS, Images, Javascripts etc.) mit herunterladen auch wenn die Rekursionstiefen-Begrenzung mit -l ggf. enger gefaßt wird.
- -m --mirror Mirror
- -k --convert-links Link Konvertierung in lokale relative Links
- -K --backup-converted bevor die Links konvertiert werden ein Backup mit Suffix .orig behalten
- -E --html-extension Sichere HTML-Dateien mit .html Erweiterung zum Öffnen im Browser
- -e robots=off --execute="robots=off" (führt einen .wgetrc konformen Befehl aus) hier: "Die robots.txt Direktive ignorieren!"
- -a --append-output=FILE füge das Protokoll an eine ggf. bestehende Logdatei an oder erzeuge ein neues Logfile
Mehr Informationen zu den Optionen des Befehls wget erhält man durch Eingabe von
wget --help
oder
man wget