Es ist schon eine Weile her, dass ich ein neues Programm veröffentlicht habe und ich habe beschlossen, ein sehr einfaches, aber effektives Tool zu veröffentlichen. Ich habe es Sitemap Extractor genannt . Wie der Name schon sagt, können wir die URLs einer XML-Sitemap extrahieren und in eine Textdatei exportieren .
Das Programm wurde auf vielen Websites getestet. Wenn die Sitemap den XML-Codierungsstandards für Sitemaps entspricht, kann das Programm die URLs extrahieren. Es gibt zwei Arten von Sitemaps, die nicht verarbeitet werden können:
- Mit gzip komprimierte Sitemaps (wir erkennen sie an der Erweiterung .gz). In Zukunft schließe ich es nicht aus, Unterstützung für diese Art von komprimierten Sitemaps hinzuzufügen.
- Sitemaps, die nicht den XML-Standards für Sitemaps entsprechen.
Zum Zeitpunkt des Schreibens dieses Artikels befindet sich Sitemap Extractor in einer ersten Betaversion, sodass möglicherweise Fehler auftreten. Persönlich habe ich es in mehreren WordPress-Blogs ausprobiert, die verschiedene Plugins zum Erstellen der Sitemap verwenden (Google XML-Sitemaps, WordPress SEO von Yoast usw.). Ich habe es auch in Tumblr-Blogs getestet und die URLs in allen Fällen korrekt extrahiert.
Viele von Ihnen werden sich fragen, warum Sie die URLs einer Sitemap extrahieren müssen, aber ich kann Ihnen keine Antwort geben, da es viele Situationen gibt, in denen wir diese Funktionalität benötigen. Um Ihnen einige Beispiele zu nennen, habe ich sie als Ausgangspunkt verwendet, um Inhalte in großen Mengen zu extrahieren, SEO-Audits durchzuführen und sogar die Suche nach abgelaufenen Domains zu beschleunigen. Das Programm selbst erlaubt es Ihnen nicht, die gezeigten Beispiele direkt zu erstellen, aber die Liste der URLs einer Webseite zu erhalten, ist der Ausgangspunkt, um sie zu erstellen.
So extrahieren Sie die URLs einer Sitemap mit Sitemap Extractor
Die Bedienung des Programms ist sehr einfach, Sie müssen nur die URL der Sitemap eingeben, und das Programm verarbeitet den Inhalt automatisch.
Basierend auf der Nummerierung des vorherigen Bildes folgen wir den folgenden Schritten:
- Geben Sie die URL der zu extrahierenden Sitemap ein. Um die Sitemap zu finden, können wir den am häufigsten verwendeten Speicherort (
http://www.web.com/sitemap.xml
testen oder dierobots.txt
Datei überprüfen, umrobots.txt
, wo die Sitemap gespeichert ist. Klicken Sie nach Eingabe der Sitemap-URL auf die Schaltfläche “Extrahieren” . - Zweitens markieren wir die Sitemaps, auf die wir ihre URLs extrahieren möchten. Viele Websites verfügen über einen Index mit Unterobjektkarten, der XML-Sitemap-Extraktor erkennt sie jedoch und muss nur die zu extrahierenden Websites auswählen. In vielen Fällen sind wir möglicherweise daran interessiert, die URLs der Kategorien oder Labels nicht oder nur die URLs eines bestimmten Monats usw. zu extrahieren.
- Drittens müssen wir nur die ausgewählten Sitemaps bearbeiten , dazu klicken wir mit der rechten Maustaste in den Bereich, in dem die URLs der Sitemaps aufgelistet sind und klicken auf die Schaltfläche “Bearbeiten” . Wir werden sehen, wie ein neues Fenster angezeigt wird, in dem wir nach dem Namen und dem Speicherort der Textdatei gefragt werden, in der die URLs gespeichert werden.
- Schließlich können wir nur warten, bis der Vorgang abgeschlossen ist, und im Registrierungsbereich können wir überprüfen, ob alles gut gelaufen ist oder ob eine Fehlermeldung vorliegt.
Und mit diesen einfachen Schritten (lange mit Worten zu erklären, aber in wenigen Sekunden mit wenigen Mausklicks erledigt) erhalten wir eine Liste von URLs, die wir für andere Aufgaben verwenden können.
Ich hoffe, Sie finden es nützlich und wenn Sie ein Problem finden oder Vorschläge haben, zögern Sie nicht, die Kommentare zu verwenden, um mich zu informieren.
Sitemap Extractor:
- Anforderungen: Windows-Betriebssystem, .NET Framework 4 und ein funktionierendes Gehirn.
- Download Sitemap Extractor v0.1beta: Herunterladen