TrustRank


Ein Konzept, dem heutzutage eine sehr große Bedeutung zugemessen wird, ist der TrustRank. Trust bedeutet in diesem Zusammenhang die Vertrauenswürdigkeit einer Seite bezüglich deren bereitgestellten Informationen und deren Resistenz gegen Webspam.

Suchmaschinen haben ein begründetes Interesse daran, den Benutzern lediglich relevante, auf deren Suche zugeschnittene Ergebnisse zu liefern. Dabei sehen sie sich ständig der Problematik aggressiver Online-Marketing-Methoden ausgesetzt, die sich zum Beispiel durch automatisierten Webspam äußern.

Begriffsklärung

Bevor auf die Umsetzung des TrustRanks eingegangen wird, muss zunächst der Begriff eindeutig identifiziert werden. Im Allgemeinen wird der in Combating Web Spam with TrustRank vorgestellten Algorithmus gemeint, wenn von TrustRank die Rede ist. Einer der Co-Autoren dieses Papers war Jan Pedersen, ein Yahoo! Mitarbeiter der ein Jahr später den Patentantrag Link-based spam detection einreichte. Es handelt sich bei dem TrustRank also nicht um ein von Google eingereichtes Patent. Es ist jedoch davon auszugehen, dass Google ein dem TrustRank recht ähnliches Prinzip verwendet. Für einige Verwirrung sorgte in diesem Zusammenhang auch die Tatsache, dass Google fast zur selben Zeit den Trademark auf den Begriff „TrustRank“ hielt, damit jedoch einen Anti-Phishing Filter bezeichnete. Siehe dazu auch das folgende Video von Matt Cutts:

Algorithmus

Die Grundidee des TrustRanks besteht in der Einteilung in gute und schlechte Webseiten. Unter guten Webseiten versteht man solche, die regelmäßig gepflegt und deren Inhalte überwacht werden. Es wird dabei keine Unterscheidung einzelner Webseiten innerhalb einer Domain gemacht. Gute Webseiten zeichnen sich außerdem dadurch aus, dass sie mit sehr geringer Wahrscheinlichkeit auf schlechte Seiten verlinken, dafür aber mit einer hohen Wahrscheinlichkeit auf qualitativ hochwertige Seiten. Schlechte Webseiten sind Spam-Seiten, die zum Beispiel illegale oder betrügerische Absichten verfolgen oder allein zum Zwecke der Suchmaschinenmanipulation existieren. Der TrustRank stellt nun ein Kriterium dar, an Hand dessen gute und schlechte Webseiten identifziert werden können:

  • Gute Webseite > hoher TrustRank
  • „Schlechte/Spammy“ Webseite > niedriger TrustRank

Das Problem ist an dieser Stelle die Unfähigkeit, die Unterscheidung in gute und schlechte Seiten komplett automatisiert vorzunehmen. Deshalb basiert der TrustRank Algorithmus auf einer sogenannten Orakelfunktion, bei der ein menschlicher Autor diese Unterscheidung vornimmt. Da es bei einer ständig wachsenden Anzahl an Webseiten unmöglich ist, jede Webseite einzeln mit einem Wert für den TrustRank auszustatten, wird ein dem PageRank Algorithmus ähnliches Vererbungsprinzip eingesetzt. Dazu wird zunächst eine automatisierte Vorauswahl an Webseiten getroffen, die möglichst viele gute Webseiten besitzen sollte. Für diese Vorauswahl kann zum Beispiel der PageRank als Auswahlkriterium dienen. Die ausgewählten Webseiten werden als Seed bezeichnet und bekommen von einem Menschen einen sogenannten Trustscore zugewiesen. Dieser Trustscore ist im Wesentlichen der Wert des TrustRanks und wird dann ebenso wie der PageRank an verlinkte Webseiten vererbt. Durch die oben erwähnte Eigenschaft guter Webseiten, nur mit einer sehr geringen Wahrscheinlichkeit auf schlechte, aber mit hoher Wahrscheinlichkeit auf gute Webseiten zu verlinken, bietet der TrustRank jedoch eine größere Sicherheit vor Manipulationen als der PageRank. Da jedoch nicht davon auszugehen ist, dass sämtliche verlinkte Seiten ebenfalls der gleichen inhaltlichen Überwachung und Pflege wie die ursprüngliche Seed unterliegen, wird ein Dämpfungsfaktor bei der Vererbung des TrustRanks eingesetzt. Die folgende Abbildung verdeulicht diese Aussage:

Das TrustRank-Konzept
Das TrustRank-Konzept

Der TrustRank – Fazit

Der TrustRank ist ein wirkungsvolles Konzept um die Verbreitung von Spam in den Suchmaschinenergebnissen zu minimieren. Weiterhin kann er außerdem als Rankingfaktor eingesetzt werden, da er ebenso wie der PageRank iterativ ermittelt werden und allen Seiten des Internets einen Wert zuweisen kann, wodurch wiederum eine Metrik entsteht, die einen Vergleich verschiedener Webseiten ermöglicht. Ein hoher TrustRank kann also zu einem besseren Ranking führen. Dieser kann erreicht werden, indem man von einer Seite mit hohem Trust verlinkt wird.

Das Problem beim Einsatz des TrustRank Algorithmus ist zum einen die Wahl der richtigen Seed-Webseiten und zum anderen die Kalibrierung der verschiedenen Parameter (wie zum Beispiel dem Dämpfungsfaktor).

Zum Schluss noch einmal die wichtigsten Fakten zum Thema TrustRank in Kürze:

  • Der TrustRank dient der Unterscheidung von guten und schlechten (im Sinne von spammy) Webseiten
  • Der Algorithmus zur Berechnung des TrustRanks basiert auf einer manullen Auswahl von vertrauenswürdigen Webseiten, von denen aus Trust weitergegeben wird
  • Analog zum PageRank gibt es auch beim TrustRank das Prinzip der gedämpften Vererbung
  • Der TrustRank kann nicht angezeigt werden, aber es ist wahrscheinlich, dass er einen Einfluss auf das Ranking hat

«« Qualitative Faktoren

Eigenschaften von Backlinks »»