Deutsche Suchmaschinen im Vergleich


AltaVista.de,Fireball.de, Google.de und Lycos.de

Google-Logo: Die Suchmaschine ist für Deutsche die Benutzeroberfläche des Webs

Die vier Suchmaschinen AltaVista.de, Fireball.de, Google.de und Lycos.de
werden einem Retrievaltest unterzogen, um ihre Eignung für den deutschsprachigen
Suchraum zu betrachten. Die Evaluierung erfolgt mit 28 Studierenden und Mitarbeitern
der Informationswissenschaft und insgesamt 56 Suchfragen im Januar 2002.

Es zeigen sich deutliche Vorteile für Google.de gegenüber den anderen Suchmaschinen.
Die sichtbaren Vorteile von Lycos.de können den statistischen Überprüfungen nicht
standhalten, so dass bei den anderen drei Suchmaschinen von einer gleich hohen
Retrievalleistung ausgegangen werden muss.

Hier gehts zum Pdf Dokument

Die Implementierung des PageRank in die Suchmaschine Google


Für die Implementierung des PageRank ist von zentraler Bedeutung, auf welche Art und Weise der PageRank in die generelle Bewertung von Webseiten durch die Suchmaschine Google einfließt. Das Verfahren wurde von Lawrence Page und Sergey Brin mehrfach in ihren Veröffentlichungen beschrieben. Ursprünglich basierte die Seitenbewertung durch Google auf drei Faktoren: Seitenspezifische Faktoren
Ankertext eingehender Links

PageRank


Zu den seitenspezifischen Faktoren zählen neben den konkreten Textinhalten etwa auch der Inhalt des Title-Tags und die URL einer Seite. Es ist mehr als wahrscheinlich, dass seit der Veröffentlichung dieser Punkte weitere Faktoren hinzugekommen sind. Dies soll an dieser Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus den seitenspezifischen Faktoren und den Ankertexten eingehender Links für den Suchbegriff eine nach Position und Grad der Hervorhebung gewichteter IR-Wert berechnet. Die Bewertung für die Relevanz einer Webseite für eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert. Dieses Kombinieren erfolgt in multiplikativer Form. Dass hier kein additives Verfahren eingesetzt wird ist unmittelbar einleuchtend, da ansonsten Seiten mit einem sehr hohen PageRank auch auf Suchanfragen hin gefunden werden könnten, obwohl sie in keinerlei Zusammenhang zum gesuchten Begriff stehen.
Insbesondere bei aus mehreren Begriffen bestehenden Suchanfragen zeigt sich ein deutlich größerer Einfluss der inhaltsspezifischen Bewertungskomponenten. Der Einfluss des PageRank hingegen wird eher bei unspezifischen, aus lediglich einem Suchbegriff bestehenden Anfragen deutlich. Gerade für Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen Mitteln der Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen, die einen weitaus höheren PageRank-Wert inne haben.
Bei der Optimierung für Suchbegriffe, für die in den Suchmaschinen ein großer Wettbewerb herrscht, ist ein hoher PageRank-Wert unerlässlich für eine hohe Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen Kriterien der Suchmaschinen-Optimierung folgt. Dies liegt darin begründet, dass die Wertung des zusätzlichen Vorkommens eines Suchbegriffs innerhalb eines Dokuments sowie in den Ankertexten von eingehenden Links mit der Häufigkeit des Vorkommens abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden. Damit sind die Möglichkeiten zur Seitenoptimierung im klassischen Sinne beschränkt, und bei hohem Wettbewerb in Suchmaschinen für einen Suchbegriff wird der PageRank zum ausschlaggenden Faktor.
Die PageRank Anzeige der Google Toolbar
Einen großen Bekanntheitsgrad erlangte der PageRank durch seine Anzeige in der Google Toolbar. Die Google Toolbar ist ein Browser-Plug-In für den Microsoft Internet Explorer, das von der Google Website herunter geladen werden kann und zahlreiche Erleichterungen für die Google-Suche bereithält.

Die Google Toolbar zeigt den PageRank einer Seite auf einer Skala von 0 bis 10 an. Zunächst ist der PageRank an der Breite des grünen Balkens in der Anzeige ersichtlich. Fährt der Benutzer mit der Maus über die Anzeige, gibt die Toolbar darüberhinaus den Wert des Toolbar-PageRank an. Vorsicht: Die PageRank-Anzeige zählt zu den „Advanced Features“ der Google Toolbar. Sobald diese „Advanced Features“ aktiviert sind, sammelt Google über die Toolbar Daten über das Benutzerverhalten. Außerdem führt die Toolbar selbstständig Updates durch, ohne dass der Benutzer über das Herunterladen der neuen Version informiert wird. Dies bedeutet letztlich, dass Google Zugriff auf die Festplatte des Benutzers hat.
Der tatsächliche PageRank, der für eine Seite theoretisch maximal einen Wert von dN+(1-d) annehmen kann, wobei N die Anzahl aller Seiten des Webs ist und d üblicherweise auf 0.85 gesetzt wird, muss für die Anzeige in der Google Toolbar skaliert werden. Es wird im Allgemeinen davon ausgegangen, dass die Skalierung nicht linear sondern logarithmisch erfolgt. Bei einem Dämpfungsfaktor von 0.85 und einem damit verbundenen minimalen PageRank von 0.15 sowie einer angenommenen logarithmischen Basis von 6 ergäbe sich das folgende Bild für die Skalierung:

Toolbar-PR     Tatsächlicher PR

0/10               0.15                          – 0.9
1/10               0.9                            – 5.4
2/10               5.4                            – 32.4
3/10               32.4                          – 194.4
4/10              194.4                         – 1,166.4
5/10              1,166.4                      – 6,998.4
6/10              6,998.4                      – 41,990.4
7/10              41,990.4                    – 251,942.4
8/10              251,942.4                  – 1,511,654.4
9/10              1,511,654.4               – 9,069,926.4
10/10            9,069,926.4               – 0.85 × N + 0.15
Ob tatsächlich eine mathematisch strikte logarithmische Skalierung erfolgt ist natürlich ungewiss. Wahrscheinlich erfolgt eine manuelle Skalierung, die einem logarithmischen Schema folgt, damit Google die volle Kontrolle darüber behält, wie viele Seiten einen bestimmten Toolbar-PageRank inne haben. Diesem Schema dürfte allerdings eine logarithmische Basis von 6 bis 7 zu Grunde liegen, was sich etwa ansatzweise aus der Anzahl der von Google angezeigten eingehenden Links mit einem Toolbar-PageRank größer 4 für Seiten mit einem sehr hohen Toolbar-Pagerank herleiten lässt.

Die Datenkommunikation der Toolbar
Auch Webmaster, die aufgrund von Sicherheitsbedenken die Google Toolbar oder auch den Internet Explorer nicht dauerhaft nutzen möchten, haben eine Möglichkeit zum Einblick in die PageRank-Werte ihrer Seiten. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt.

Die PageRank-Textdateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):
http://www.google.com/search?client=navclient-auto&
ch=0123456789&features=Rank&q=info:http://www.domain.com/
Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.

Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert „navclient-auto“ für den Parameter „client“ die Toolbar; mit dem Parameter „q“ wird die abgefragte URL übermittelt. Der Wert „Rank“ für den Parameter „features“ legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter „ch“ wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.

Um die Prüfsummen einzelner URLs herauszufinden ist es damit erforderlich, die Toolbar zumindest einmal zu installieren. Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen Proxies und ähnlichem empfohlen, um die Kommunikation zwischen Toolbar und Google aufzuzeichnen. Dies ist allerdings nicht zwingend erforderlich, da die PageRank-Dateien vom Internet Explorer gecached werden und somit die Prüfsummen im Ordner Temporary Internet Files eingesehen werden können. Die PageRank-Dateien können hiermit dann auch z.B. in anderen Browsern als dem Internet Explorer angezeigt werden, ohne dass Googles 36-Jahres-Cookies akzeptiert werden müssen.

Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind, und sofern eine Abfrage nicht automatisiert erfolgt, sollte dies keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)

Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.
Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter „failedip“ mit Werten wie z.B. „216.239.35.102;1111“. Die IPs sind jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren Googles zugeordnet. Wozu der Parameter „failedip“ tatsächlich genutzt wird, ist unklar. Hintergrund der unmittelbaren Abfrage der PageRank-Dateien bei einzelnen IPs ist wohl der Versuch, die PageRank-Anzeige insbesondere in den Zeiten des „Google Dance“ besser zu steuern.
Die PageRank Anzeige der Google Directory


Denjenigen, denen der Abruf der PageRank-Dateien zu kompliziert ist, bleibt schließlich mit der Google Directory (directory.google.com) noch eine eingeschränkte Möglichkeit, etwas über den PageRank ihrer Site zu erfahren.

Bei der Google Directory handelt es sich um einen Dump des Open Directory Projects (dmoz.org), der neben den Seiteneinträgen ähnlich der Google Toolbar den skalierten PageRank für die in das ODP eingetragene Seite in Balkenform anzeigt. Allerdings erfolgt die PageRank-Anzeige in der Google-Directory auf einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt, kann aber über die zweigeteilte Balkengrafik bzw. die Breite von deren Einzelgrafiken bestimmt werden, falls der Betrachter sich beim einfachen Augenschein unsicher ist.
Durch den Vergleich des Toolbar-PageRanks mit dem Directory-PageRank kann vom tatsächlichem PageRank von Seiten, die in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi (www.searchnerd.com/pagerank) aufgezeigt.

Insbesondere für Seiten mit einem Toolbar-PageRank von 5 oder 6 ergibt sich hier die Möglichkeit der Einschätzung, ob sich die Seite eher am unteren oder am oberen Ende eines Bereichs der Toolbar-Skalierung befindet. Es sei an dieser Stelle angemerkt, dass für die Darstellung des Vergleichs der beiden PageRank-Anzeigen der Toolbar-PageRank von 0 nicht berücksichtigt wurde. Dass dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank von 3 nachvollzogen werden. Hier ist allerdings zu berücksichtigen, dass zur Überprüfung eine Seite der Google Directory mit einem Toolbar-PageRank von maximal 4 ausgewählt werden sollte, da sich sonst in der Regel keine von dort verlinkten Seiten mit einem Toolbar-PageRank von 3 finden lassen.

Quelle:pr.efactory.de

Der PageRank-Algorithmus


Der ursprüngliche PageRank-Algorithmus wurde von Lawrence Page und Sergey Brin mehrfach beschrieben. Er hat die folgende Form:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Hierbei ist:

PR(A) der PageRank einer Seite A,

PR(Ti) der PageRank der Seiten Ti, von denen ein Link auf die Seite A zeigt,

C(Ti) die Gesamtanzahl der Links auf Seite Ti und

d ein Dämpfungsfaktor (Damping Factor), wobei 0 <= d <= 1 ist.

Das PageRank-Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt.
Der PageRank der Seiten Ti, die auf eine Seite A verlinken, fließt nicht gleichmäßig in den PageRank von Seite A ein. Der PageRank einer Seiten T wird stets anhand der Anzahl C(T) der von Seite T ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite T hat, umso weniger PageRank gibt sie an Seite A weiter.
Der anhand der Anzahl an ausgehenden Links gewichtete PageRank der Seiten Ti wird nun addiert. Dies hat zur Folge, dass jeder zusätzliche eingehende Link für eine Seite A stets den PageRank dieser Seite A erhöht.

Schließlich wird die Summe der gewichteten PageRanks der Seiten Ti mit dem Dämpfungsfaktor d, der stets zwischen 0 und 1 liegt multipliziert. Hierdurch wird das Ausmaß der Weitergabe des PageRanks von einer Seite auf einer andere verringert.
Das Random Surfer Modell

Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen eine sehr einfache, intuitive Rechtfertigung des PageRank-Algorithmus an. Sie betrachten PageRank-Verfahren als ein Modell zur Abbildung von Benutzer-Verhalten. Hierzu führen sie einen Zufalls-Surfer an, der von einer Webseite zur nächsten jeweils beliebige Links verfolgt, ohne dabei auf Inhalte zu achten.
Der Zufalls-Surfer befindet sich mit einer bestimmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. Die Wahrscheinlichkeit, dass der Zufalls-Surfer nun einen bestimmten Link verfolgt, ergibt sich dann einzig und allein daraus, aus wievielen Links er die Auswahl hat. Aus diesem Grunde fließt der PageRank einer verlinkenden Seite stets nach der Anzahl Ihrer ausgehenden Links gewichtet in die PageRank Berechnung einer verlinkten Seite ein.

Die Wahrscheinlichkeit, dass der Zufalls-Surfer auf eine Seite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verlinkenden Seite den entsprechenden Link verfolgt. Nun wird allerdings die Wahrscheinlichkeit, mit der der Zufalls-Surfer auf eine Seite gelangt, um den Faktor d gedämpft. Dies hat im Rahmen des Random Surfer Modells den Hintergrund, dass der Zufalls-Surfer nicht unendlich viele Links verfolgt. Nach einer bestimmten Zeit wird er gelangweilt und ruft eine beliebige andere Webseite auf.

Die Wahrscheinlichkeit, mit der der Zufalls-Surfer die Verfolgung von Links nicht abbricht und somit weiterklickt, wird durch den Dämpfungsfaktor d angegeben, der abhängig von der Höhe der Wahrscheinlichkeit einen Wert von 0 bis 1 annimmt. Je höher d ist, um so wahrscheinlicher ist es, dass der Zufalls-Surfer Links verfolgt. Da der Zufalls-Surfer nach dem Abbruch der Link-Verfolgung eine beliebige Seite aufruft, geht die Wahrscheinlichkeit mit er er dies tut, mit dem Wert (1-d) als Konstante in die Berechnung des PageRanks einer jeden Seite ein.

Abweichende Formulierung des PageRank-Algorithmus

Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen zwei unterschiedliche Versionen des PageRank-Algorithmus an. In dieser zweiten Version bestimmt sich der PageRank einer Seite A wie folgt:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Hierbei ist N die Anzahl aller Seiten des Webs. Diese zweite Version des PageRank-Algorithmus unterscheidet sich allerdings nicht grundlegend von der ersten. In der zweiten Version beschreibt der PageRank einer Seite im Sinne des Random Surfer Modells lediglich die tatsächliche Wahrscheinlichkeit, mit der der Zufalls-Surfer nach dem Verfolgen vieler Links eine Seite erreichen wird. Dieser Algorithmus bildet damit eine Wahrscheinlichkeitsverteilung über alle Seiten des Webs ab. Die Summe aller PageRank-Werte des Webs ist damit bei dieser Version des Algorithmus gleich 1.

In der oben genannten, ersten Version erfolgt eine Gewichtung der Wahrscheinlichkeit des Besuchs einer Seite nach der Anzahl der Seiten des Webs. Demnach ist der PageRank in dieser Version im Grunde der Erwartungswert für den Besuch des Zufalls-Surfers auf einer Seite, wenn er hierfür Anläufe in genau der Höhe der Anzahl der Seiten des Webs nimmt. Bestünde das Web also aus 100 Seiten, und eine Seite hat einen PageRank von 2, so würde der Zufalls-Surfer sie bei 100 „Surfgängen“ im Mittel zweimal erreichen.

Wie bereits erwähnt, unterscheiden sich die beiden Versionen des Algorithmus sich nicht grundlegend. Letztlich muss der PageRank einer Seite aus der Algorithmus-Version 2 lediglich mit der Anzahl der Webseiten multipliziert werden, um zum PageRank der Algorithmus-Version 1 zu gelangen. Selbst Page und Brin ist in Ihrer wohl bekanntesten Veröffentlichung „The Anatomy of a Large-Scale Hypertextual Web Search Engine“ der Fehler unterlaufen, die erste Version des PageRank-Algorithmus als Wahrscheinlichkeitsverteilung zu charakterisieren, bei der die Summe der PageRank-Werte aller Seiten gleich eins sei.

Im Folgenden wird für die weiteren Betrachtungen der oben zuerst genannte Algorithmus verwandt. Dies hat den einfachen Hintergrund, dass Berechnungen hiermit wesentlich einfacher sind, da die Größe des Webs vollkommen außer Acht gelassen werden kann.

Die Eigenschaften des PageRank

Die Eigenschaften des PageRank sollen jetzt anhand eines Beispieles veranschaulicht werden.

Hierzu wird ein kleines 3-Seiten-Web aus den Seiten A, B und C betrachtet, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Der Dämfungsfaktor d wird Angaben von Lawrence Page und Sergey Brin zufolge für tatsächliche Berechnungen üblicherweise auf 0.85 gesetzt. Der Einfachheit halber wird d an dieser Stelle ein Wert von 0.5 zugewiesen, wobei die Höhe von d zwar Auswirkungen auf den PageRank hat, das hier zu erläuternde Prinzip jedoch nicht beeinflusst. Es ergeben sich die folgenden Gleichungen für den PageRank der einzelnen Seiten:

PR(A) = 0.5 + 0.5 PR(C)
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))

Dieses Gleichungssystem lässt sich sehr einfach für den PageRank der einzelnen Seiten lösen. Es ergeben sich die folgenden Werte:

PR(A) = 14/13 = 1.07692308
PR(B) = 10/13 = 0.76923077
PR(C) = 15/13 = 1.15384615

Es zeigt sich, dass die Summe der PageRanks aller Seiten gleich drei und somit gleich der Anzahl der Seiten ist. Dies ist keine spezifisches Ergebnis für unser Beispiel, da der PageRank Algorithmus einen Erwartungswert für den Besuch von Seiten bei Anläufen in Höhe der Anzahl der Seiten darstellt.

Für ein kleines 3-Seiten-Beispiel lässt sich ein Gleichungssystem unproblematisch lösen. Das tatsächliche WWW besteht jedoch mittlerweile aus mehreren Milliarden Webseiten, so dass die Lösung eines entsprechenden Gleichungssystems nicht mehr möglich ist.

Die iterative Berechnung des PageRank
Aufgrund der Größe des Webs erfolgt in der Praxis der Suchmaschine Google eine näherungsweise, iterative Berechnung des PageRank. Dies bedeutet, dass zunächst jeder Seite ein PageRank zugewiesen wird, und anschließend der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt wird. Diese näherungsweise Berechung soll wiederum anhand unseres kleinen Beispiels demonstriert werden, wobei als Ausganswert für den PageRank einer jeden Seite zunächst 1 angenommen wird.

Iteration   PR(A)           PR(B)            PR(C)

0            1                  1 1
1            1                  0.75               1.125
2            1.0625          0.765625        1.1484375
3            1.07421875   0.76855469    1.15283203
4            1.07641602   0.76910400    1.15365601
5            1.07682800   0.76920700    1.15381050
6            1.07690525   0.76922631    1.15383947
7            1.07691973   0.76922993    1.15384490
8            1.07692245   0.76923061    1.15384592
9            1.07692296   0.76923074    1.15384611
10          1.07692305   0.76923076    1.15384615
11          1.07692307   0.76923077    1.15384615
12          1.07692308   0.76923077    1.15384615
Es zeigt sich, dass sich in unserem Beispiel bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Für die Berechnung des PageRanks für das komplette WWW werden von Lawrence Page und Sergey Brin ca. 100 Iterationen als hinreichend genannt.

Entscheidend ist, dass die Summe der PageRanks aller Seiten nach der Durchführung der iterativen Berechnung gegen die Anzahl aller Seiten konvergiert. Der durchschnittliche PageRank aller Seiten geht mithin gegen 1. Jede Seite hat einen minimalen PageRank von (1-d). Der theoretisch maximale PageRank einer Seite beträgt dN+(1-d), wobei N die Anzahl aller Webseiten ist. Dieser theoretische Wert käme zustande, wenn sämtliche Webseiten ausschließlich auf eine Seite verlinken, und auch diese wiederum ausschließlich auf sich selbst verlinkt.

Die Implementierung des PageRank

Quelle: pr.efactory.de

Überblick über das PageRank-Verfahren der Suchmaschine Google


Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine entwickelt. Maßgebend verantworlich hierfür war neben einer hohen Performance und einer großen Benutzerfreundlichkeit vor allem die anderen Suchmaschinen teilweise weit überlegene Qualität der Suchergebnisse. Diese Qualität der Suchergebnisse beruht ganz wesentlich auf dem PageRank-Verfahren.
An dieser Stelle soll ein möglichst breiter Überblick über alle Aspekte des PageRank-Verfahrens wiedergegeben werden. Unser Überblick stützt sich dabei im Kern auf Veröffentlichungen der Google-Gründer Lawrence Page und Sergey Brin aus ihrer Zeit als Graduiertenstudenten an der Stanford University.

Aktuelle Änderungen im PageRank (Bild: Sistrix.de)

Vielerorts wird angeführt, dass seit den Forschungsarbeiten am PageRank-Verfahren vor allem angesichts der Dynamik des Internets zu viel Zeit vergangen ist, als dass die veröffentlichten Dokumente immer noch für die Bewertungsmethodik der Suchmaschine Google maßgebend sind. Es soll auch nicht bezweifelt werden, dass im Verlauf der letzten Jahre mit großer Wahrscheinlichkeit zahlreiche Änderungen, Anpassungen und Modifikationen am ursprünglichen PageRank-Algorithmus stattgefunden haben. Allerdings war gerade das PageRank-Verfahren ein wichtiger Faktor für den Erfolg der Suchmaschine Google, womit zumindest das Konzept des PageRank-Verfahrens immer noch grundlegend sein sollte.

Das PageRank-Konzept

Im Zuge der Entwicklung des World Wide Webs wurden verschiedene Verfahren zur Bewertung von Webseiten mit dem Ziel der Relevanzbeurteilung durch Suchmaschinen entwickelt. Ein aus unmittelbar einleuchtenden Gründen auch heute immer noch von praktisch allen Suchmaschinen genutzter Maßstab ist das Vorkommen eines Suchbegriffs in den Inhalten einer Webseite. Dieses Vorkommen wird nach den verschiedensten Kriterien wie etwa der relativen Häufigkeit des Vorkommens (der sog. Keyword-Dichte), den Stellen des Vorkommens des Suchbegriffs oder auch der Exponiertheit des Suchbegriffs im Dokument gewichtet.
Aus der Absicht, Suchmaschinen resistent gegen Webseiten zu machen, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität. Dabei fließt die Anzahl der eingehenden Links für ein Dokument als ein grundsätzliches Kriterium für die Bedeutung einer Webseite in die Relevanzbeurteilung ein. Diesem Ansatz liegt zu Grunde, dass ein Dokument um so wichtiger ist, je häufiger es von anderen verlinkt wird. Hierdurch wird weitestgehend verhindert, dass automatisch generierte „suchmaschinenoptimierte“ Webseiten ohne jeglich Einbindung in das WWW oben in den Suchmaschinenergebnissen erscheinen. Es zeigte sich allerdings, dass auch das Konzept der Link-Popularität schnell von Webmastern antizipiert werden konnte, indem sie von ebenso unbedeutenden, automatisch generierten Seiten eingehendeLinks für Doorway Pages schufen.

Im Gegensatz zum Konzept der Link-Popularität nutzt das PageRank-Konzept nicht einfach die absolute Anzahl eingehender Links für die Beurteilung der Bedeutung einer Webseite. Die Argumentation der Google-Gründer gegen das Konzept der einfachen Link-Popularität war, dass ein Dokument zwar bedeutsam ist, wenn es von vielen anderen verlinkt wird, nicht jedes verlinkende Dokument ist jedoch gleichwertig. Vielmehr sollte einem Dokument – völlig unabhängig von seinen Inhalten – ein hoher Rang zugewiesen werden, wenn es von anderen bedeutenden Dokumenten verlinkt wird.

Die Bedeutsamkeit eines Dokuments bestimmt sich im Rahmen des PageRank-Konzepts also aus der Bedeutsamkeit der darauf verlinkenden Dokumente. Deren Rang wiederum bestimmt sich ebenfalls aus dem Rang verlinkender Dokumente. Die Bedeutsamkeit eines Dokuments definiert sich stets rekursiv aus der Bedeutsamkeit anderer Dokumente. Da – wenn auch über viele hintereinanderfolgende Links hinweg – der Rang eines jeden Dokuments eine Auswirkung auf den Rang eines jeden anderen hat, beruht das PageRank-Konzept letztlich auf der Linkstruktur des gesamten Webs. Obwohl diese ganzheitliche Betrachtung des WWW es nicht vermuten lässt, gelang es Page und Brin das PageRank-Konzept mittels eines relativ trivialen Algorithmus umzusetzen.

Copyright-Verstöße Google löscht Millionen Links


Im Kampf gegen Verletzungen des Urheberrechts drückt Google auf die Löschen-Taste. Der Web-Konzern hat nach eigenen Angaben im großen Stil Links zu Inhalten aus seinem Angebot entfernt, die zuvor von Copyright-Inhabern gemeldet wurden.

Berlin/Mountain View – Google hat im vergangenen Jahr wegen möglicher Urheberrechtsverletzungen in 5,4 Millionen Fällen Inhalte, Webseiten und Web-Adressen aus seinen Angeboten – ohne YouTube – gelöscht. Das erklärte der Web-Konzern am Donnerstag in einem Blogpost.

Pro Monat bearbeitet Google demnach durchschnittlich 1,2 Millionen Anfragen, Inhalte wegen möglicher Copyright-Verletzungen offline zu nehmen. Unter den gelöschten Daten befanden sich allein 3,3 Millionen Weblinks in den Suchergebnissen. 97 Prozent der angeprangerten Inhalte werden laut Google entfernt. Verschiedene Anfragen können dabei sich auf ein und dasselbe Ziel beziehen.
„Der Kampf gegen Online-Piraterie ist sehr wichtig“, schreibt Google-Manager Fred von Lohmann in seinem Blogeintrag. „Wir wollen nicht, dass unsere Suchergebnisse die Menschen auf Stellen im Netz lenken, wo die Urheberrechte verletzt werden.“ Um das Ausmaß der Löschungen deutlich zu machen, erfasst der Konzern die wegen Copyright-Verletzungen entfernten Inhalte nun im „Transparency Report“. Dort waren bislang vor allem die staatlich verfügten Löschungen dokumentiert worden.

Die Suchmaschine bietet Rechteinhabern ein Verfahren an, mit dem Verstöße gegen das Urheberrecht gemeldet und unterbunden werden können. Ob diese Prozedur ausreicht, gegen Copyright-Verletzungen im Internet vorzugehen, ist allerdings umstritten. Verlegerverbände und Musikverwerter wie die deutsche Gema hatten dem Internet-Konzern in der Vergangenheit immer wieder vorgeworfen, zu wenig gegen Inhalte-Klau im Netz zu unternehmen und finanziell von Verstößen gegen das Urheberrecht zu profitieren.

Google betonte nun, die aktuellen Zahlen belegten, dass die Benachrichtigungen der Rechteinhaber über mögliche Urheberrechtsverletzungen konsequent geprüft würden. Anfragen würden durchschnittlich innerhalb von elf Stunden bearbeitet. Bei bekannten Organisationen, die den Status eines „vertrauenswürdigen Partners“ hätten, betrage dieser Zeitraum sogar nur sieben Stunden. Anfragen von Firmen und Organisationen wie Microsoft , NBC Universal oder dem Verband der US-Musikindustrie RIAA machten dem größten Anteil aus.

Google wies zugleich darauf hin, dass nicht jede Anfrage zur Löschung von Inhalten gerechtfertigt sei. So habe eine Fahrschule in Großbritannien den Ausschluss der Homepage eines Wettbewerbers aus dem Google-Index verlangt, nur weil dort auch eine alphabetisch sortierte Ortsliste zu finden war.

suc/dpa

Was ist laut Google eine News?


Mmmh, so sehen News auf Google eigentlich nicht aus…
Ob ein Thema prominent im “Story Ranking” von Google News erscheint, wird von den Redakteuren aller Newsseiten entschieden. Denn wenn mehrere von ihnen etwas zu einem Thema veröffentlichen, wird es zum “News-Thema” erhoben. Dann bekommt dieses Thema einen Platz in Google News und eine News Onebox in den natürlichen Suchergebnissen. Die Positionierung innerhalb eines solchen “Themas” nennt man dann “Article Ranking”.

Es ist also von entscheidender Bedeutung, zu einem wichtigen Thema (das im “Story Ranking” hoch gewertet wird) eine möglichst prominente Position (im “Article Ranking”) einzunehmen.

Ein eher theoretischer Faktor für Google News ist der “Query Deserves Freshness”-Algorithmus. Hier wird aufgrund einer sprunghaft gestiegenen Zahl von Suchanfragen der Index für ein Keyword auf “aktuell” gestellt und es sind auf der ersten Seite aktuellere Beiträge zu sehen. Das fällt wohl meistens zusammen mit einer “News”, deshalb kann das nicht isoliert betrachtet werden. Es gibt aber viele Beispiele, in denen kein “GDF”-Algo angewendet wurde – aber die News Onebox angezeigt wird.

Und wie lange bleibt eine News eine News? Das hat sehr viel mit dem Klickverhalten der User zu tun. So lange eine Nachricht noch geklickt wird bleibt sie. Und das können in Spezialgebieten auch mehrere Tage sein. Hauptsache, die User klicken noch…

Der Inhalt einer News

Um es deutlich zu sagen: Eine Optimierung für News funktioniert nur bei News, also bei aktuellen Inhalten. Es gibt zwar exotische Begriffe, die durch eine etablierte Nachrichtenquelle eine “News Onebox” bekommen – aber dies ist für eine systematische Optimierung zu mühselig. Es sollte also im Laufe einer Woche schon zehn bis zwanzig meldenswerte Nachrichten im zu optimierenden Themengebiet geben um überhaupt damit zu beginnen.

Bekanntlich werden an News nicht die herkömmlichen Duplicate-Content-Kriterien angelegt. Schon das einfache Melden einer DPA-Meldung kann zu einem Ergebnis führen – wenn die Seite Autorität hat. Allerdings ist es immer besser, doppelte Inhalte zu überarbeiten – nicht nur für Google.

Regionalität rules – sagt jedenfalls Google. Das ist ja auch gutes, journalistisches Handwerk. Fällt in einem Dorf ein Sack Reis um, kann für die Dorfbewohner genauso wichtig sein, wie eine Überschwemmung mit vielen Toten am anderen Ende der Welt. Wie Google das in Google News umsetzt konnten wir (noch) nicht erforschen.

Wichtige Elemente einer News

Die Überschrift muss die Keywords der anderen News im “Story Ranking” haben. Je weiter vorne das Keyword steht, umso besser ist das für das Ranking.
Der Text muss dieses Keyword auch enthalten – und er sollte nicht zu lang sein. Oft genügen auch schon 50-60 Wörter für eine prominente Einblendung. 300 Wörter für eine News sind nicht nötig.

Das Bild kann eine besondere Rolle spielen. Denn während die besten Plätze (großer Teaser) meist von Spiegel, Zeit und Welt belegt sind, kommen die Bildeinblendungen häufig von kleineren, spezialisierten Webseiten. Damit dies funktioniert, sollte man das Bild technisch und inhaltlich sauber einpassen. Außerdem hilft es, bei personenbezogenen News (also mit Namen) ein Portrait einzubauen. Dies kann Google (zumindest in Zukunft) erkennen. Selbstverständlich ist der Name des Bildes unique, der ALT-Tag beinhaltet einen sinnvollen Eintrag und das Bild ist kein Link. Ach ja: Ein gutes News-Bild ist ein JPEG…

Ausdrücklich erwünscht sind Links. Interne Links sowieso, aber auch Links zu externen Nachrichtenquellen oder weiterführenden Webseiten sind eher günstig.
Wie es scheint, ist der Begriff “/news/” z.B. in der URL sinnvoll.
Google News wünscht sich ausdrücklich so etwas wie eine Stichzeile, also Datum und Ort am Anfang des Artikels oder als erste Begriffe des ersten Textblocks. Und zwar maschinenlesbar, also wenn möglich sogar nach schema.org ausgezeichnet. Dies dient der zeitlichen und räumlichen Einordnung. Wenn dies gewünscht ist (z.B. für rein regionale News oder wenn es ein “Ablaufdatum” gibt) sollte es verwendet werden.

Welche Rolle die Verlinkung spielt

Eingehende Links sind natürlich wichtig. Hierbei spielt die Domainpopularität eine relativ große Rolle. Die Verlinkung einer einzelnen News kann bei dem schnellen Zeitablauf allerdings nur begrenzt beachtet werden. Wird ein News-Artikel mehrfach als Referenz für andere Artikel angegeben, erhält er allerdings ein höheres Ranking. Und: Es kann darüber spekuliert werden, ob sich die Deep-Verlinkung zurückliegender News auswirkt. Gibt es etwa einige News, auf die damals fleißig referenziert wurde, schlägt sich das auf die Beurteilung neuer News durch….

Tatsächlich spielten aber Links für die Optimierung von Google News eine zum “normalen” Info-Index ein untergeordnete Rolle.

Der Zeitpunkt der Veröffentlichung

Wie schnell wird die News von Google indiziert? Schon nach 10 Minuten können News in Google News und damit auch in den regulären Suchergebnissen erscheinen. Mit ein wenig Unterstützung durch Twitter kann man dies als Nachrichtenquelle ein wenig beschleunigen. Wirklich wahr.

Die Ranking-Faktoren im “Article Ranking”

Die wichtigsten Faktoren für eine gute Position sind

Trust der Nachrichtenseite: Dieser ist abhängig von einer Einstufung durch Google (durchaus auch manuell) und den Backlinks die auf die Seite zeigen. Außerdem ist das Klickverhalten der User allgemein auf diese Newsseite ein Faktor.
Onsite-Optimierung der News: Passen die Keywords zu einem “Story Ranking”?
Wird die News geklickt? Mindestens für die Dauer, wie lange eine News prominent angezeigt wird, ist dies der vermutlich wichtigste Faktor. Wird die News geklickt, bleibt sie, wird sie nicht geklickt, fliegt sie raus.
Technische Voraussetzungen

Alle News werden durch eine News-Sitemap an Google gemeldet. Gerne crawlt der Robot auch selber – aber man hat die Situation besser unter Kontrolle, wenn man seine News nur via Sitemap meldet. Dies kann man beantragen.
Die URL eines jeden Beitrags beinhaltet eine mindestens dreistellige, fortlaufende ID. Dies ist nicht mehr unbedingt notwendig. Aber stört auch nicht…
Eine Redaktion ist wichtig. Es gibt offensichtlich mehr als drei Personen, die News erstellen.

Der Code einer News ist idealerweise unterbrechungsfrei in dieser Reihenfolge: Überschrift, Bild, Datum, Body-Text. Wenn etwa zwischen Überschrift und News-Body eine große Anzeige steht, verwirrt das den Robot manchmal. Auch zu viele Social Links machen es eher schlechter als besser.
Die Sitemap wird bei Google als News-Quelle angemeldet. Dies erfolgt über die Google Webmastertools. Dann kann man die Seite vorschlagen (unter “Inhalte vorschlagen”)

Weitere Tipps für Google News

Nicht zu viele Informationen in eine News zusammen ziehen. Dann fällt die Zuordnung zu einem “Thread” schwer…
Besondere Aufmerksamkeit hat die Überschrift verdient: Sie sollte die notwendigen Keywords enthalten, unbedingt zum Klicken auffordern und auch noch nach einigen Tagen nicht unangenehm wirken (also nicht mit “heute” o.ä. arbeiten).
Es gibt zwei Strategien: Möglichst viele News stakkatoartig veröffentlichen oder möglichst früh mit einer kurzen Nachricht online sein und diese immer wieder aktualisieren.

Es ist zu lesen, dass Google gerne “objektive” Texte liest und danach auch sortiert. Mit welchem Algorithmus dies erfolgen soll, ist nicht klar.
Ob man dann in Google News aufgenommen ist, sieht man mit dem “site:”-Befehl. Einfach “site:domain.de” bei Google News eingeben.
Noch ein Wort zur Seitenstruktur: Wichtig ist, dass wirklich nur News an Google News gemeldet werden. Jeder Versuch, einen Beitrag ohne News-Charakter dort unter zu bringen, kann mit einem Rausschmiss bei Google News enden. Deshalb sollte die News-Sitemap auf jeden Fall nur News enthalten, die News sollten am besten in einem eigenen Verzeichnis erscheinen (oder alle anderen Beiträge in einem eigenen Verzeichnis) und man sollte dem News-Robot verbieten das Nicht-News-Verzeichnis zu lesen.

Quelle:seo-book.de

Facebook-Konkurrenz Nutzer verspotten neues Google+


Die lieben User: Google+ wird ausgelacht

Ein Facelift für mehr Erfolg: Google hat sein soziales Netzwerk überarbeitet – zum Unmut von Mitgliedern und Entwicklern. Die machen sich jetzt über die ihrer Meinung nach fragwürdigen Design-Entscheidungen bei Google+ lustig.

Google hat die Oberfläche seines sozialen Netzwerks Google+ überarbeitet. Einer offenbar beliebten Funktion, dem Videochat Hangout, wurde nun prominent Platz eingeräumt. Das neue Layout kommt luftiger daher – vielleicht sogar zu luftig: Auf breiten Displays lässt Google+ viel ungenutzten Weißraum im Browserfenster. Angesichts der immer höher auflösenden Bildschirme eine Designentscheidung, die nun für reichlich Spott sorgt.

Bei Twitter machte sich schnell ein Mem, ein kollaborativer Metawitz breit: Unter dem Schlagwort #whitespace werden Vorschläge verbreitet, welchen Nutzen die große, leere Bildschirmfläche wohl haben könnte: um Topfblumen vor ihr aufzustellen, um Facebooks Instagram-Kauf etwas entgegenzusetzen, um ein Facebook-Fensterchen darin zu öffnen?

Zu den weniger umstrittenen Änderungen gehört die prominente Platzierung einer Liste mit aktuell diskutierten Themen, die stark an Twitters Trending Topics erinnert. Die Design-Änderungen fachten auch ernstzunehmende Kritik an: App-Entwickler Mohamed Mansour wirft Google schlechten Umgang mit freien Entwicklern vor.

Er sei von der Design- und Funktionsänderung überrascht worden, seine millionenfach heruntergeladenen Google+-Apps seien nun so lange potentielle Fehlerquellen, bis er sie angepasst habe. Warum hat Google ihn und andere Entwickler nicht vor den tiefgreifenden Design-Änderungen gewarnt, fragt Mansour? Wie ihm dürfte es auch vielen anderen Entwicklern gegangen sein. „Facebook hat sowas nie gemacht“, beschwert sich Mansour in einem öffentlichen Blog-Eintrag bei Google+. „Dort gab es eine Übergangszeit, in der wir die Chance zu Anpassungen und Anmerkungen hatten.“

Kritik am „Datenstaubsauger“

Google hatte sein soziales Netzwerk erst spät gestartet, nun soll es dabei helfen, die diversen Google-Funktionen personalisiert zusammenzuführen. Die Änderungen im Hintergrund, an den Datenschutzrichtlinien, die eine Art Super-Profil ermöglichen, hat Google bereits vollzogen. Künftig könnte Google+ im Zentrum jeder Nutzeraktivität stehen – und dazu muss diese mächtige Funktion möglichst unsichtbar und nebensächlich werden. Google beschreibt die Umgestaltung im Firmenblogetwas holprig: „Unser Ziel ist ein Erlebnis, das Nützlichkeit und Attraktivität miteinander verschmilzt.“

Google+ ist der Versuch, den sozialen Funktionen von Facebook und Twitter etwas entgegenzusetzen – und in den Augen vieler Kritiker eine Abkehr vom bisherigen Google-Versprechen, eine möglichst objektive Web-Suche anzubieten. Wie erfolgreich Google+ ist, lässt sich kaum sagen. Das Unternehmen selbst zählt 170 Millionen Nutzer bei seinem Netzwerk, wie viele davon allerdings wie viel Zeit mit dem Netzwerk verbringen, sagt Google nicht.

Der ehemalige Google- und jetzige Microsoft-Angestellte James Whittaker geht sogar so weit, einen Abstieg Googles zu prophezeien. Schuld daran sei Google+.