Wiedner Gürtel 12/3/11a, 1040 Wien

Was ist ein Web Crawler?

Was ist ein Web Crawler?

Stern inaktivStern inaktivStern inaktivStern inaktivStern inaktiv
 

Hast du dich schon mal gefragt, wie die Suchmaschinen zu ihren Ergebnissen in ihrem Suchindex kommen?

Die Antwort: Durch Web Crawler.

Was Web Crawler sind und wie diese funktionieren, erfährst du hier.

 

Was ist ein Web Crawler?

Ein Web Crawler ist ein Computerprogramm, das das Internet (auch www oder world wide web) durchsucht und Webseiten untersucht. Andere Bezeichnungen für Web Crawler sind:

  • Spider (denn sie wandern bildlich gesprochen durch das weltweite Netz),
  • Robot (denn die Maschine arbeitet automatisch) oder
  • Searchbot (denn der Roboter durchsucht Webseiten).

Suchmaschinen setzten Web Crawler ein, um Seiten automatisiert zu analysieren und in ihren Index aufzunehmen. Das Analysieren einer Seite nennt man Crawlen (denn die kleinen Spinnen krabbeln von einer URL zur anderen über das große weite Netz).

 

Einige der bekanntesten Web Crawler und deren Betreiber

  

GoogleBot

googlebot

 

  Der Googlebot ist einer der beliebtesten Web Crawler im Internet, da er für die Indexierung von Inhalten für die Google-Suchmaschine verwendet wird und weil er uns viele Tools (Webmaster Tools, Analytics, etc.) und die Kontrolle über den Prozess gibt.

 

 Bingbot

bingbot

 

  Bingbot ist ein Webcrawler, der 2010 als Ersatz für den früheren MSN-Bot von Microsoft bereitgestellt wurde, um Informationen an seine Bing-Suchmaschine zu liefern.

 

 Slurp Bot

slurp bot

 

  Die Suchergebnisse von Yahoo stammen vom Yahoo-Webcrawler Slurp und vom Web-Crawler von Bing. Slurp sammelt außerdem Inhalte von Partnerseiten zur Aufnahme in Websites wie Yahoo News, Yahoo Finance und Yahoo Sports und greift auf Seiten von Websites im Internet zu, um die Richtigkeit zu bestätigen und die personalisierten Inhalte von Yahoo für seine Nutzer zu verbessern.

 

 DuckDuckBot

duckduckbot

 

  DuckDuckBot ist der Webcrawler für DuckDuckGo , eine Suchmaschine, die in letzter Zeit sehr beliebt ist, da sie für den Datenschutz bekannt ist und seine User nicht ausspioniert. Heute werden mehr als 12 Millionen Anfragen pro Tag bearbeitet.

 

 Baiduspider

baidu spider

 

  Baiduspider ist der Web Crawler der chinesischen Suchmaschine Baidu. Er crawlt Webseiten und liefert Aktualisierungen an den Baidu-Index. Baidu ist mit einem Marktanteil von 80 % am gesamten Suchmaschinenmarkt von China die führende chinesische Suchmaschine.

 

 Yandex Bot

yandex bot

 

  YandexBot ist der Web-Crawler von Yandex, eine der größten russischen Suchmaschinen. Die Suchmaschine ist in Russland mit 64 % Marktanteil klarer Marktführer im Bereich der Internetsuche. Auch in einigen anderen Ländern Osteuropas ist Yandex stark vertreten.

 

Ist ein Web Crawler eine Suchmaschine?

1993 wurde von Matthew Gray am MIT der World Wide Web Wanderer als erster Web Crawler entwickelt, um die Größe des Internets zu messen. Dieser basierte auf der Programmiersprache Perl.

Die erste öffentlich erreichbare Suchmaschine mit Volltextindex wurde 1994 vom CSE Studenten Brian Pinkerton in dessen Freizeit entwickelt.

 

webcrawler

 

Von ihrem Namen WebCrawler stammt der Begriff Web Crawler für ein Programm, das das Internet durchsucht.

Heute gibt es viele Suchmaschinen und viele unterschiedliche Web Crawler. Suchmaschinen benötigen Web Crawler, um Seiten durchsuchen zu können.

 

Wie funktioniert ein Web Crawler?

Ein Web Crawler ist eine Software nach dem Client-Server-Modell. Das heißt, es handelt sich nicht um eine Desktopanwendung, sondern Web Crawler gelangen, wie beim Surfen über den Browser, über Links von einer Webseite zur anderen.

Daher ist ein gutes Link Building wichtig für Suchmaschinen und SEO.

Zu Beginn des Prozesses werden eine oder mehrere URLs eingegeben, von denen aus die Web Crawler starten. Die neuen Links werden in die Liste der bekannten URLs aufgenommen. Dieser Vorgang wird als Algorithmus programmiert.

Bei einem Algorithmus wird ein Rechenvorgang vorgegeben, der sich nach einem bestimmten Schema wiederholt. Ada Lovelace hat den ersten Computeralgorithmus aufgezeichnet. Nach ihr wurde die Programmiersprache Ada benannt.

 

Kann ein Web Crawler das ganze Internet durchsuchen?

Theoretisch können Web Crawler alle verlinkten Seiten durchsuchen. Einige Suchmaschinenbetreiber wie z. B. Google, Yahoo und Bing haben sich aber auf das Robots-Exclusion-Standard-Protokoll von 1994 geeinigt, um das Verhalten von Web Crawlern auf Webseiten zu steuern.

Hierbei müssen die Web Crawler als erstes im Root-Verzeichnis einer Domain, dem Stammverzeichnis, nach der Datei https://www.domain-beispiel.com/robots.txt suchen. Hier lesen die Web Crawler aus, ob sie den Links der Webseite folgen dürfen und für welche Crawler das gilt.

 

  • User-agent: * bedeutet, dass der Abschnitt für alle Web Crawler gilt.
  • Disallow: / teilt den Web Crawlern mit, dass es den Links NICHT folgen darf.

 

Den Zugriff durch Schadsoftware kann man dadurch allerdings nicht verhindern. Außerdem kann jeder einsehen, welche Seiten man für Web Crawler sperren möchte.

 

Was muss man bei der Suchmaschinenoptimierung in Bezug auf Web Crawler beachten?

Damit eine Webseite in den Suchergebnissen angezeigt werden kann, muss sie zuerst in den Suchindex der Suchmaschine aufgenommen werden. SEO Expert(en/innen) sorgen dafür, dass die Webseiten für die Web Crawler der Suchmaschinen optimiert sind.

Manchmal ist es auch sinnvoll, einzelne Seiten für bestimmte Web Crawler zu sperren. Dies kann man über die Meta Tags der Seite einstellen.

 

  • Mit noindex gibt man den Suchmaschinen zu verstehen, dass die jeweilige Seite nicht in den Index aufgenommen werden soll.
  • Mit nofollow zeigt man den Web Crawlern, dass den Links auf der Seite nicht gefolgt werden soll.
  • Für SEO kann man außerdem eigene Bots einsetzen, um Fehler erkennen und beheben zu können.

 

Wie kann man Web Crawler programmieren?

Natürlich kann man die Software für eigene Web Crawler selbst schreiben. Dafür gibt es für unterschiedliche Programmiersprachen Anleitungen und Tutorials.

Hier sind einige Beispiele:

und ein Web Crawler Tutorial (Video) in 7 Teilen.

 

Der erste Teil: Make your Own Web Crawler - Part 1 - The Basics

 

 

Gibt es Web Crawler Tools auch online oder als Open Source?

Ja, den Web Crawler kann man auch online ausprobieren. Hier ist eine kleine Liste von Tools - online oder zum Download.

 

 

Die 10 häufigsten SEO-Fehler

Unsere Leistungen

Bleiben wir in Kontakt!

Blogheim.at Logo

ithelps logo 220

Wiedner Gürtel 12/3/11a, 1040  Wien
Pernerstorferstraße 18, 3032 Eichgraben
Bessemerstraße 82/10. OG Süd , 12103 Berlin

Die 10 häufigsten SEO Fehler

und wie Sie diese vermeiden können:

Erfahrungen & Bewertungen zu ithelps