Grundlagen

Larry Page, einer der Gründer Googles, beschrieb die perfekte Suchmaschine als etwas, das genau versteht, was man sucht und auch genau das als Ergebnis liefert. Um diesen Anspruch zu erfüllen hat Google eine Technologie entwickelt, die sich auf die drei folgenden Bestandteile stützt:

Crawling
Indexing
Query Processing

Abgerundet wird das durch die Einführung eines Rankings, durch das als relevant identifizierte Dokumente in eine für den User komfortable Reihenfolge gebracht werden. Die Grundlagen dafür werden unter ursprüngliche Ranking Kriterien zusammengefasst.

Crawling

Google setzt sogenannte Webcrawler (oft auch Crawler oder Spider gennant) ein um Webseiten zu finden. Der Crawler von Google nennt sich Googlebot. Generell werden dabei nicht zufällig beliebige Webseiten abgerufen, sondern der Crawler arbeitet sich systematisch durch die Verlinkung von Webseiten. Von einer abgerufenen Webseite werden die Hyperlinks extrahiert und in einer Queue gespeichert. Diese Queue wird dann nach und nach abgearbeitet. Um Ressourcen zu schonen wird allerdings zuvor verglichen, welche Webseiten der Crawler bereits abgerufen hat.

In der heutigen Zeit werden zwei verschiedene Crawling Verfahren unterschieden, das Deep-Crawling und das Fresh-Crawling. Dabei entspricht das Deep-Crawling dem oben erklärten Verfahren, während das Fresh-Crawling für die Aktualität der abgerufenen Seiten verantwortlich ist. In diesem Fall werden also bereits bekannte Webseiten erneut gecrawlt um die neusten Änderungen darauf zu erkennen.

Die Ergebnisse des Crawling werden an den sogenannten Indexer übergeben, der im Folgenden erklärt wird.

Indexing

Das reine Sammeln von Webseiten bietet zunächst nichts anderes als die Archivierung von Informationen. Der Hauptzweck von Suchmaschinen ist jedoch das Suchen (und Finden) von Dokumenten. Da die Dauer dieses Prozesses mit einer steigenden Anzahl von Dokumenten ebenfalls ansteigt, muss eine Technik gefunden werden um diesen Prozess so effizient wie möglich zu gestalten. Aus diesem Grund legt Google für jede gecrawlte Webseite einen Index an, der aus den einzelnen Wörtern des Dokumentes besteht. Der Index verknüpft ein Wort mit einem Dokument und kann von mehreren Servern parallel durchsucht werden. Dieses Prinzip wird auch als „inverted index“ bezeichnet.

Der Index selbst ist für suchende Zugriffe optimiert (Wörter werden zum Beispiel nur in Kleinschreibung gespeichert und alphabetisch sortiert). Die effiziente Anwendung dieses Verfahrens ermöglicht es Google, Suchanfragen in den Bruchteilen einer Sekunde zu beantworten, obwohl theoretisch mehrere Milliarden erfasste Webseiten durchsucht werden müssten.

Query Processing

Das Query Processing stellt die Schnittstelle von Google zu den Nutzern der Suchmaschine dar. Eine von einem Suchenden eingegebene Begriffsmenge wird von Google aufbereitet und an die Datenbank gesendet. Die Aufbereitung beinhaltet zum Beispiel die Entfernung von Stoppwörtern (zum Beispiel „`und“‚, „`in“‚, „`die“‚, etc.).

Die Anfrage an die Index-Datenbank liefert nun alle Dokumente, die die gesuchten Begriffe enthalten. Diese Dokumentmenge bezeichnet man auch als „posting list“. Die wirkliche Leistung liegt darin, diese posting list so zu sortierten, dass sie die relevantesten Ergebnisse zu Beginn anzeigt. Dazu setzt Google mehr als 200 Bewertungsfaktoren ein, die zum einen die Relevanz und zum anderen die Reputation einer Seite bewerten. Die Ergebnisse sind das, was man generell unter dem Begriff SERP zusammenfasst und was sich in der aufbereiteten Anzeige für den suchenden User manifestiert.

Ursprüngliche Ranking Kriterien

Einige von Googles Ranking-Faktoren werden in The Anatomy of a Large-Scale Hypertextual
Web Search Engine beschrieben. Diese werden im Folgenden erläutert und es wird eine Evaluation im Bezug auf die heutige Relevanz dieser Faktoren vorgenommen. Die Faktoren sind:

Dabei fallen PageRank und Anchor Text in den Bereich der OffPage Optimierung, während sich die „Other Features“ auf den Bereich der OnPage Optimierung beziehen.

Other Features

Unter „Other Features“ werden in der Ursprungsversion von Google 1998 die Faktoren „Keyword Proximity“ und „HTML Markup“ genannt. Unter Keyword Proxmity versteht man dabei die Nähe von Suchbegriffen innerhalb eines Dokumentes zueinander. Dabei wird die Indexposition im Quelltext des ersten Suchbegriffes mit der der weiteren Suchbegriffe verglichen. HTML Markup bezeichnet die syntaktische Textauszeichnung wie zum Beispiel die Schriftgröße und -Farbe.

«« Suchmaschinen