Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Dokumentation Freelancer Wie lade ich automatisiert ganze Webseiten incl. Inhalte zur lokalen Betrachtung herunter? Wie erstelle ich einen kompletten Mirror einer Website die lokal im Browser läuft?
Artikelaktionen

Wie erstelle ich einen kompletten Mirror einer Website die lokal im Browser läuft?

Damit auch URL's die von CGI-Skripten stammen lokal funktionieren können diverse Optionen in wget gesetzt werden. Ich bevorzuge folgende Befehls-Kombination, die auch mit der robots.txt Direktive gesperrte inhalte herunterlädt:
cd Zielverzeichnis
wget -p -m -k -K -E http://www.url.de -a ./mylogfile -e robots=off
Die Optionen im einzelnen (Langform mit prefix -- dahinter):
  • -p --page-requisites alle für eine Page benötigten Inhalte (CSS, Images, Javascripts etc.) mit herunterladen auch wenn die Rekursionstiefen-Begrenzung mit -l ggf. enger gefaßt wird.
  • -m --mirror Mirror
  • -k --convert-links Link Konvertierung in lokale relative Links
  • -K --backup-converted bevor die Links konvertiert werden ein Backup mit Suffix .orig behalten
  • -E --html-extension Sichere HTML-Dateien mit .html Erweiterung zum Öffnen im Browser
  • -e robots=off --execute="robots=off" (führt einen .wgetrc konformen Befehl aus) hier: "Die robots.txt Direktive ignorieren!"
  • -a --append-output=FILE füge das Protokoll an eine ggf. bestehende Logdatei an oder erzeuge ein neues Logfile
Mehr Informationen zu den Optionen des Befehls wget erhält man durch Eingabe von
wget --help
oder
man wget