HTTrack ist eine kostenlose und plattformübergreifende Software, deren Zweck das Erfassen von Websites ist, dh das Herunterladen einer Website oder eines Teils davon, um sie später offline durchsuchen zu können. Es gibt eine Linux-Version namens WebHTTrack und die Windows-Version heißt WinHTTrack . Wir können die HTTrack-Software von der offiziellen Website herunterladen:
Im Falle von Linux können wir es auch von den Repositories installieren, indem wir den folgenden Befehl verwenden.
sudo apt-get install httrack
Diese Software wird häufig verwendet, um Kopien von Websites zu erstellen, diese dann auf einen anderen Server hochzuladen und damit den Datenverkehr auf die Kopienseite umzuleiten und Besucher auf eine gefälschte Seite zu leiten. Es wird auch von Personen verwendet, die den Code oder den Betrieb einer bestimmten Website anzeigen möchten. Schauen wir uns ein Beispiel mit der Website httrack.com an, auf der die Anwendung gehostet wird.
httrack "httrack.com"
Dieser Befehl lädt die Dateien aus dem Internet in einen Ordner www.httrack.com herunter , den wir lokal sehen können.
HTTrack nimmt jede Website und erstellt eine Kopie in dem Ordner oder der Einheit, in der wir positioniert sind . Dies kann für die Suche nach Daten auf der Website in Offline-Form nützlich sein, z. B. E-Mail-Adressen, nützliche Informationen für SEO oder Struktur einer Website. HTTrack gibt es sowohl in Windows als auch in einer Version für Linux, und die Verwendung ist dieselbe, nur in Windows hat Visual Intergaz.
Wir können Httrack für Penetrationstests und Sicherheitstests verwenden , da beim Replizieren einer Website der gesamte Inhalt und die heruntergeladenen Dateien analysiert werden können, um festzustellen, ob ein Angreifer eine kritische Datei sieht. Wenn wir Daten und Informationen sammeln, können wir Tests durchführen, Code oder Schlüsselwörter suchen und analysieren. Wir können auch Daten sammeln, die später verwendet werden können.
Auch auf diese Weise verwenden Hacker die Kopien, die erstellt wurden, um sie auf einen Server mit einer ähnlichen Domain wie das kopierte Web hochzuladen , um die Websites zu emulieren und sie dann durch Phishing zu verwenden, um Daten von ahnungslosen Benutzern zu stehlen oder Social-Engineering-Angriffe auszuführen. Httrack hat viele Optionen und Parameter, um den Download zu verbessern. Hierzu wird der Befehl verwendet:
httrack --hilfe
Einige wichtige Parameter, die wir mit dem Httrack-Tool verwenden können, sind:
- equivalente a 20 mb. -m : Gibt die maximale Dateigröße in Byte an, die heruntergeladen werden soll, z. B. -m 20000000 entsprechend 20 MB .
- -mime : Dient zum Herunterladen nur eines bestimmten Dateityps, den wir mit seiner Erweiterung angeben, beispielsweise mit dem Befehl
httrack www.WEB.com -mime: application / * + mime: application / pdf
Mit httrack ist es ganz einfach, wir müssen die Domain der Website, die wir kopieren möchten, hinzufügen und dann den Scan starten, der sich in einem Verzeichnis unserer Festplatte befindet, auf der wir die Website speichern werden. Wir müssen berücksichtigen, wie viele Links oder Inhalte eine Website aufgrund der Menge der herunterzuladenden Informationen haben kann. Das Durchsuchen der Webkopie kann dazu dienen, nach Fehlern und Schwachstellen zu suchen, die die Navigation gefährden können, und außerdem zu bestimmen, welche Teile verschlüsselt oder die Sicherheit erhöht werden können.
Wenn der Zweck des Downloads darin besteht, Informationen über ein Unternehmen oder Benutzerlisten, Telefone oder andere Daten zu finden, insbesondere für das Social Engineering oder den Versuch, sich als Website auszugeben oder sich anzumelden, um Benutzerdaten zu erhalten, ist HTTrack ein hervorragendes Tool für beide Aufgaben.
WebHTTrack ist eine grafische Oberfläche für httrack, die von einem Webbrowser verwendet wird und Kopien vollständiger Websites für den Offline-Zugriff ermöglicht und die Links automatisch ändert. Tools wie WebHTTrack können helfen und ermöglichen die Aktualisierung der Kopie, ohne sich die Parameter merken zu müssen, um den Download oder die Kopie eines Webs und seines Inhalts durchzuführen. Wir können es mit dem Befehl installieren:
sudo apt-get install webhttrack
Um es dann auszuführen, schreiben wir den gleichen Befehl:
Webhttrack
Um die grafische Benutzeroberfläche zu starten , können Sie direkt über das Anwendungsmenü nach der Anwendung Gespiegelte Websites durchsuchen suchen .
Eine andere Möglichkeit besteht darin, wie bereits erwähnt, den Befehl webhttrack über das Terminalfenster zu schreiben, um einen lokalen Webserver auf Port 8080 zu starten, und dann den Browser zu öffnen, wobei zu berücksichtigen ist, dass er sich nicht im Inkognito-Modus oder im privaten Modus und im Browser befindet Wir haben die Adresse localhost geschrieben: 8080 .
Dies zeigt uns den Grafikassistenten, der uns bei der Arbeit mit httrack hilft. Um zu beginnen, müssen wir die Sprache konfigurieren und auf Weiter klicken. Als nächstes konfigurieren wir ein neues Projekt. Der Vorteil der grafischen Oberfläche besteht darin, dass wir die Daten der heruntergeladenen Websites und die verwendeten Parameter in einer Textdatei speichern können.
Als nächstes weisen wir die Website zu, die wir kopieren werden:
Anschließend konfigurieren wir unter Optionen definieren die Parameter und Filter mithilfe eines Assistenten:
Nachdem Sie die Filter konfiguriert haben, beginnen Sie im nächsten Bildschirm mit dem Scan.
- Dynamische Inhalte oder Seiten, die mit Skripten generiert wurden, werden nicht erfasst.
- Wenn Sie Websites herunterladen, die zu groß sind oder große Dateien enthalten, kann der Server zusammenbrechen.
- Wenn wir httrack für zu viele gleichzeitige Verbindungen zum gleichen Web verwenden, können wir den Server verlangsamen oder außer Betrieb setzen.
Möglicherweise interessiert Sie das Tutorial, in dem ein Code zum Verfolgen von Links erstellt wird:
Verfolgen Sie Weblinks mit Python