Robot Exclusion Standard oder Robots.txt und Crawlen in Suchmaschinen

Hallo allerseits, ich veröffentliche dieses Tutorial auf robots.txt, ich hoffe es gefällt euch ;)

Roboter werden häufig von Suchmaschinen verwendet, um Dateien von Websites zu kategorisieren, oder von Webmastern, um den Quellcode zu korrigieren oder zu filtern. Die robots.txt-Datei enthält bestimmte Anweisungen, die erfüllt sein müssen.

Analysieren und spezifizieren wir den Quellcode einer robots.txt:

Roboter

Allen Robotern erlauben, alle Dateien zu besuchen, die im Stammverzeichnis des Webs gespeichert sind:

 User-Agent: * Verbieten: 

Verhindern Sie den Zugriff auf alle Robots und alle Dateien, die im Stammverzeichnis gespeichert sind:

 User-Agent: * Verbieten: / 

Erlaube nur einem Roboter den Zugriff, in diesem Beispiel kann nur Google verfolgen

 User-Agent: googlebot Verbieten: User-Agent: * Verbieten: / 

Die bekanntesten Roboter haben einen Namen, den sie im User-Agent verwenden können

googlebot => für Google
msnbot => MSN Suche
Yahoo-Slurp => Yahoo
scrubby => Scrubbe das Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
Baiduspider => Baidu

Es gibt auch spezifischere Roboter wie Image

googlebot-image => Google Image
googlebot-mobile => Google Mobile

Ein weiteres Beispiel, damit alle Unterverzeichnisse, die den Platzhalter (/) enthalten, blockiert werden müssen, nur diese, mit Ausnahme aller anderen Dateien und Verzeichnisse, die keinen Platzhalter enthalten, werden die Systemverzeichnisse oder das Back-End blockiert:

 User-Agent: * Disallow: / cgi-bin / Verbieten: / images / Disallow: / tmp / Disallow: / adminstrador / 

Verhindert, dass eine bestimmte Datei verfolgt wird

 User-Agent: * Disallow: /page.htm 

Dies wird häufig verwendet, wenn eine Seite gelöscht werden soll, die 404-Fehler enthält, oder wenn eine Seite aus den Suchergebnissen entfernt werden soll, damit sie nicht verfolgt wird.

Verwalten Sie die Tracking-Häufigkeit von Robotern

In Google Analytics und in den Webmastertools können Sie die Statistiken einsehen. Sie sehen auch, dass einige Roboter manchmal viel Zeit benötigen, um unsere Website zu überprüfen und Anfragen an den Server zu senden. Die Roboter verbrauchen Bandbreite und Ressourcen, als wären sie nur ein anderer Besucher.
Es gibt eine Möglichkeit, dass Roboter nicht außer Kontrolle geraten, das können wir allen sagen
User-Agent: googlebot Crawl-Verzögerung: 30

See also  So erstellen und installieren Sie eine in Hyper-V optimierte virtuelle Maschine mit Ubuntu 18.04

Hiermit weisen wir den Google-Roboter an, zwischen den einzelnen Scans 30 Sekunden zu warten. Beachten Sie, dass die Crawling-Verzögerung möglicherweise nicht von allen Suchmaschinen, Bing und Google, unterstützt wird, sofern diese dies unterstützen.

Die offizielle Website von robots.txt ist http://www.robotstxt.org/, wo wir die Namen aller Roboter finden, Spezifikationen zum Code. Hier wird offengelegt, dass die Roboter verwendet werden, um diejenigen zu standardisieren, die verfolgt werden müssen, und auf anderen Plattformen verwendet werden, um HTML zu verfolgen und zu validieren, Links zu validieren, Informationen zu indexieren, Inhalte in Suchmaschinen zu aktualisieren und Websites zu schützen.

administrator

Leave a Reply

Your email address will not be published. Required fields are marked *