Einzigartigkeit von Texten


Der Hauptzweck eines Article Spinners ist es, sog. Duplicate Content zu vermeiden. Wenn ein Text von Google als Duplikat eingestuft wird, dann kann es sein, dass diesem die Aufnahme in den Google Index verweigert wird. Die 1. Frage an dieser Stelle lautet:

Wie einzigartig muss ein Artikel sein, damit er nicht als Duplicate Content eingestuft wird?

Empirische Versuche in diesem Bereich haben gezeigt, dass zwei Texte mindestens eine Einzigartigkeit von 30% aufweisen sollten. Das führt auch gleich zur nächsten Frage:

Wie wird die Einzigartigkeit eines Artikels gemessen?

Leider gibt es von Google keine offiziellen Aussagen dazu, aber es gibt gewissen Indizien, die auf den verwendeten Algorithmus schließen lassen. Eine sehr gute Zusammenstellungen gibt es auf MyWebsolution in dem Artikel Unique und Duplicate Content.

Die Einzigartigkeitsberechnung beruht unter anderem auf dem sog. Shingle Algorithmus beruht. Generelle Informationen dazu gibt es unter anderem auf Wikipedia sowie in diversen Veröffentlichungen von Andrei Broder, wie zum Beispiel in Identifying and Filtering Near-Duplicate Documents. An der TU Braunschweig wird dies in einer Online Vorlesung zum Thema Information Retrieval ebenfalls erläutert (ab etwa 01:44:00).

Der Article Wizard implementiert diesen Algorithmus und ist dadurch in der Lage, einen Näherungswert für die Einzigartigkeit eines Artikels auf Basis der gewünschten Anzahl der Artikel zu berechnen. Dabei werden zwei verschiedene Werte betrachtet, die durchschnittliche Einzigartigkeit sowie die minimale. Diese Werte können als Parameter beim Erzeugen von Artikeln sowohl ungefähr berechnet als auch als Restriktionen festgelegt werden. Dadurch ist es möglich, die Qualität der resultierenden Artikel zu steuern. Der Article Wizard ist bislang die einzige Software, die diese Funktionalität bietet.

Die aktuelle Einzigartigkeit eines Textes kann im Informationsfenster jederzeit eingesehen werden. Die dargestellten Prozentwerte basieren allerdings nur auf einer Probe. Bei der durchschnittlichen Einzigartigkeit spielt das kaum eine Rolle, bei der minimalen Einzigartigkeit kann es jedoch durch eine ungünstige zufällige Auswahl dazu führen, dass der Wert zu niedrig ist.

Im realen Einsatz wird die durchschnittliche Einzigartigkeit als Indikator für die aktuelle Qualität des Spinning benutzt („Wie gut ist mein Artikel bisher gespinnt?“) während die minimale Einzigartigkeit der tatsächliche Restriktionswert ist, der für das Programm relevant ist. Die beiden Werte korellieren allerdings in gewisser Weise, da man bei einer hohen minimalen Einzigartigkeit davon ausgehen kann, dass auch die durchschnittliche Einzigartigkeit nicht zu groß ist. Weitere Informationen über die Bedeutung der Einzigartigkeitswerte und der Werte, die man anstreben sollte werden bei der Massenspeicherung erläutert.

«« Vorlagen

Linkinjektion »»