Ein großes Problem bei der Bewertung von Dokumenten ist das Erkennen der Thematik, die dieses Dokument beschreibt. Diese Problematik wird offensichtlich, wenn man zum Beispiel Wörter mit mehreren Bedeutungen (sogenannte „Teekesselchen“) als Beispiel nimmt. Ohne zusätzliche Informationen kann eine Suchmaschine nicht unterscheiden, welche Bedeutung ein Wort auf einer Seite einnimmt.
Phrase Matching
Um dieses Problem zu umgehen verwendet Google vermutlich Algorithmen, die die semantische Nähe von Wörtern berechnen. Einen Anhaltspunkt dafür findet man zum Beispiel in Automatic taxonomy generation in search results using phrases. Dort wird ein Verfahren vorgestellt bei dem Wortgruppen im Zusammenhang mit einem Keyword oder einer Kombination von Keywords untersucht werden. Wendet man dieses Verfahren auf entsprechend viele Dokumente an, so lassen sich diese Dokumente anhand der Wortgruppen in Clustern zusammenfügen und ermöglichen dadurch eine Kategorisierung des Inhaltes.
LDA – Latent Dirichlet Allocation
Einen ähnlichen Ansatz verfolgt auch die sogenannte Latent Dirichlet Allocation (LDA). Diese Systeme sind in der heutigen Zeit durchaus denkbar, was zum Beispiel auch in der Online Vorlesung Information Retrieval and Text Mining demonstriert wird.
LSI – Laten Semantic Indexing
Häufig liest man auch von einer sog. latent semantischen Indexierung (LSI), die auf ein ähnliches Ergebnis hinausläuft. Allerdings hat es sich LSI als impraktikabel bei zu großen Datenmengen erwiesen:
The algorithm does not scale and keeping the data in memory for very large datasets is not feasible. Keeping it on disk and making random disk seeks takes too much time. LSI has been shown to work best on small homogeneous document collections but for large non-homogeneous document collections it remains a research tool of an as yet unknown efficacy.
Fazit
Letztendlich sollte auf jeden Fall darauf geachtet werden, dass es bereits verschiedene Verfahren gibt, mittels derer sich der Inhalt von Dokumenten auch semantisch in gewisser Weise erkennen lässt. Diese Daten können von Google also durchaus für das Ranking verwendet werden. SeoBook.com liefert einige praktische Beispiele, wie man sich dieses Wissen als SEO zu Nutze machen kann. Für einen suchmaschinenoptimierten Text bedeutet das generell, dass nicht nur die Nennung des Keywords für das Ranking von Bedeutung ist, sondern das auch der Kontext des Wortes durch semantisch ähnliche Begriffe näher erläutert wird, so dass sich für eine Suchmaschine eine höhere Relevanz ergibt.