Warum Content wichtig ist


See on Scoop.itSupportstore.de | SEO Performance-Marketing

Das aktuelle Panda-Update des Google-Suchindex soll den Fokus auf Inhalte legen.

See on www.supportstore.de

Advertisements

Deutsche Suchmaschinen im Vergleich


AltaVista.de,Fireball.de, Google.de und Lycos.de

Google-Logo: Die Suchmaschine ist für Deutsche die Benutzeroberfläche des Webs

Die vier Suchmaschinen AltaVista.de, Fireball.de, Google.de und Lycos.de
werden einem Retrievaltest unterzogen, um ihre Eignung für den deutschsprachigen
Suchraum zu betrachten. Die Evaluierung erfolgt mit 28 Studierenden und Mitarbeitern
der Informationswissenschaft und insgesamt 56 Suchfragen im Januar 2002.

Es zeigen sich deutliche Vorteile für Google.de gegenüber den anderen Suchmaschinen.
Die sichtbaren Vorteile von Lycos.de können den statistischen Überprüfungen nicht
standhalten, so dass bei den anderen drei Suchmaschinen von einer gleich hohen
Retrievalleistung ausgegangen werden muss.

Hier gehts zum Pdf Dokument

Die Implementierung des PageRank in die Suchmaschine Google


Für die Implementierung des PageRank ist von zentraler Bedeutung, auf welche Art und Weise der PageRank in die generelle Bewertung von Webseiten durch die Suchmaschine Google einfließt. Das Verfahren wurde von Lawrence Page und Sergey Brin mehrfach in ihren Veröffentlichungen beschrieben. Ursprünglich basierte die Seitenbewertung durch Google auf drei Faktoren: Seitenspezifische Faktoren
Ankertext eingehender Links

PageRank


Zu den seitenspezifischen Faktoren zählen neben den konkreten Textinhalten etwa auch der Inhalt des Title-Tags und die URL einer Seite. Es ist mehr als wahrscheinlich, dass seit der Veröffentlichung dieser Punkte weitere Faktoren hinzugekommen sind. Dies soll an dieser Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus den seitenspezifischen Faktoren und den Ankertexten eingehender Links für den Suchbegriff eine nach Position und Grad der Hervorhebung gewichteter IR-Wert berechnet. Die Bewertung für die Relevanz einer Webseite für eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert. Dieses Kombinieren erfolgt in multiplikativer Form. Dass hier kein additives Verfahren eingesetzt wird ist unmittelbar einleuchtend, da ansonsten Seiten mit einem sehr hohen PageRank auch auf Suchanfragen hin gefunden werden könnten, obwohl sie in keinerlei Zusammenhang zum gesuchten Begriff stehen.
Insbesondere bei aus mehreren Begriffen bestehenden Suchanfragen zeigt sich ein deutlich größerer Einfluss der inhaltsspezifischen Bewertungskomponenten. Der Einfluss des PageRank hingegen wird eher bei unspezifischen, aus lediglich einem Suchbegriff bestehenden Anfragen deutlich. Gerade für Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen Mitteln der Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen, die einen weitaus höheren PageRank-Wert inne haben.
Bei der Optimierung für Suchbegriffe, für die in den Suchmaschinen ein großer Wettbewerb herrscht, ist ein hoher PageRank-Wert unerlässlich für eine hohe Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen Kriterien der Suchmaschinen-Optimierung folgt. Dies liegt darin begründet, dass die Wertung des zusätzlichen Vorkommens eines Suchbegriffs innerhalb eines Dokuments sowie in den Ankertexten von eingehenden Links mit der Häufigkeit des Vorkommens abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden. Damit sind die Möglichkeiten zur Seitenoptimierung im klassischen Sinne beschränkt, und bei hohem Wettbewerb in Suchmaschinen für einen Suchbegriff wird der PageRank zum ausschlaggenden Faktor.
Die PageRank Anzeige der Google Toolbar
Einen großen Bekanntheitsgrad erlangte der PageRank durch seine Anzeige in der Google Toolbar. Die Google Toolbar ist ein Browser-Plug-In für den Microsoft Internet Explorer, das von der Google Website herunter geladen werden kann und zahlreiche Erleichterungen für die Google-Suche bereithält.

Die Google Toolbar zeigt den PageRank einer Seite auf einer Skala von 0 bis 10 an. Zunächst ist der PageRank an der Breite des grünen Balkens in der Anzeige ersichtlich. Fährt der Benutzer mit der Maus über die Anzeige, gibt die Toolbar darüberhinaus den Wert des Toolbar-PageRank an. Vorsicht: Die PageRank-Anzeige zählt zu den „Advanced Features“ der Google Toolbar. Sobald diese „Advanced Features“ aktiviert sind, sammelt Google über die Toolbar Daten über das Benutzerverhalten. Außerdem führt die Toolbar selbstständig Updates durch, ohne dass der Benutzer über das Herunterladen der neuen Version informiert wird. Dies bedeutet letztlich, dass Google Zugriff auf die Festplatte des Benutzers hat.
Der tatsächliche PageRank, der für eine Seite theoretisch maximal einen Wert von dN+(1-d) annehmen kann, wobei N die Anzahl aller Seiten des Webs ist und d üblicherweise auf 0.85 gesetzt wird, muss für die Anzeige in der Google Toolbar skaliert werden. Es wird im Allgemeinen davon ausgegangen, dass die Skalierung nicht linear sondern logarithmisch erfolgt. Bei einem Dämpfungsfaktor von 0.85 und einem damit verbundenen minimalen PageRank von 0.15 sowie einer angenommenen logarithmischen Basis von 6 ergäbe sich das folgende Bild für die Skalierung:

Toolbar-PR     Tatsächlicher PR

0/10               0.15                          – 0.9
1/10               0.9                            – 5.4
2/10               5.4                            – 32.4
3/10               32.4                          – 194.4
4/10              194.4                         – 1,166.4
5/10              1,166.4                      – 6,998.4
6/10              6,998.4                      – 41,990.4
7/10              41,990.4                    – 251,942.4
8/10              251,942.4                  – 1,511,654.4
9/10              1,511,654.4               – 9,069,926.4
10/10            9,069,926.4               – 0.85 × N + 0.15
Ob tatsächlich eine mathematisch strikte logarithmische Skalierung erfolgt ist natürlich ungewiss. Wahrscheinlich erfolgt eine manuelle Skalierung, die einem logarithmischen Schema folgt, damit Google die volle Kontrolle darüber behält, wie viele Seiten einen bestimmten Toolbar-PageRank inne haben. Diesem Schema dürfte allerdings eine logarithmische Basis von 6 bis 7 zu Grunde liegen, was sich etwa ansatzweise aus der Anzahl der von Google angezeigten eingehenden Links mit einem Toolbar-PageRank größer 4 für Seiten mit einem sehr hohen Toolbar-Pagerank herleiten lässt.

Die Datenkommunikation der Toolbar
Auch Webmaster, die aufgrund von Sicherheitsbedenken die Google Toolbar oder auch den Internet Explorer nicht dauerhaft nutzen möchten, haben eine Möglichkeit zum Einblick in die PageRank-Werte ihrer Seiten. Google übermittelt den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per XML. Der Wechsel zu Textdateien fand im August 2002 statt.

Die PageRank-Textdateien können direkt von der Domain http://www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen aus (ohne Zeilenumbrüche):
http://www.google.com/search?client=navclient-auto&
ch=0123456789&features=Rank&q=info:http://www.domain.com/
Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die letzte Ziffer in dieser Zeile.

Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert „navclient-auto“ für den Parameter „client“ die Toolbar; mit dem Parameter „q“ wird die abgefragte URL übermittelt. Der Wert „Rank“ für den Parameter „features“ legt fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter „ch“ wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.

Um die Prüfsummen einzelner URLs herauszufinden ist es damit erforderlich, die Toolbar zumindest einmal zu installieren. Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen Proxies und ähnlichem empfohlen, um die Kommunikation zwischen Toolbar und Google aufzuzeichnen. Dies ist allerdings nicht zwingend erforderlich, da die PageRank-Dateien vom Internet Explorer gecached werden und somit die Prüfsummen im Ordner Temporary Internet Files eingesehen werden können. Die PageRank-Dateien können hiermit dann auch z.B. in anderen Browsern als dem Internet Explorer angezeigt werden, ohne dass Googles 36-Jahres-Cookies akzeptiert werden müssen.

Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen einsehbar sind, und sofern eine Abfrage nicht automatisiert erfolgt, sollte dies keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)

Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.
Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht von der Domain http://www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren Parameter „failedip“ mit Werten wie z.B. „216.239.35.102;1111“. Die IPs sind jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren Googles zugeordnet. Wozu der Parameter „failedip“ tatsächlich genutzt wird, ist unklar. Hintergrund der unmittelbaren Abfrage der PageRank-Dateien bei einzelnen IPs ist wohl der Versuch, die PageRank-Anzeige insbesondere in den Zeiten des „Google Dance“ besser zu steuern.
Die PageRank Anzeige der Google Directory


Denjenigen, denen der Abruf der PageRank-Dateien zu kompliziert ist, bleibt schließlich mit der Google Directory (directory.google.com) noch eine eingeschränkte Möglichkeit, etwas über den PageRank ihrer Site zu erfahren.

Bei der Google Directory handelt es sich um einen Dump des Open Directory Projects (dmoz.org), der neben den Seiteneinträgen ähnlich der Google Toolbar den skalierten PageRank für die in das ODP eingetragene Seite in Balkenform anzeigt. Allerdings erfolgt die PageRank-Anzeige in der Google-Directory auf einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt, kann aber über die zweigeteilte Balkengrafik bzw. die Breite von deren Einzelgrafiken bestimmt werden, falls der Betrachter sich beim einfachen Augenschein unsicher ist.
Durch den Vergleich des Toolbar-PageRanks mit dem Directory-PageRank kann vom tatsächlichem PageRank von Seiten, die in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi (www.searchnerd.com/pagerank) aufgezeigt.

Insbesondere für Seiten mit einem Toolbar-PageRank von 5 oder 6 ergibt sich hier die Möglichkeit der Einschätzung, ob sich die Seite eher am unteren oder am oberen Ende eines Bereichs der Toolbar-Skalierung befindet. Es sei an dieser Stelle angemerkt, dass für die Darstellung des Vergleichs der beiden PageRank-Anzeigen der Toolbar-PageRank von 0 nicht berücksichtigt wurde. Dass dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank von 3 nachvollzogen werden. Hier ist allerdings zu berücksichtigen, dass zur Überprüfung eine Seite der Google Directory mit einem Toolbar-PageRank von maximal 4 ausgewählt werden sollte, da sich sonst in der Regel keine von dort verlinkten Seiten mit einem Toolbar-PageRank von 3 finden lassen.

Quelle:pr.efactory.de

Der PageRank-Algorithmus


Der ursprüngliche PageRank-Algorithmus wurde von Lawrence Page und Sergey Brin mehrfach beschrieben. Er hat die folgende Form:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Hierbei ist:

PR(A) der PageRank einer Seite A,

PR(Ti) der PageRank der Seiten Ti, von denen ein Link auf die Seite A zeigt,

C(Ti) die Gesamtanzahl der Links auf Seite Ti und

d ein Dämpfungsfaktor (Damping Factor), wobei 0 <= d <= 1 ist.

Das PageRank-Verfahren bewertet damit grundsätzlich nicht Websites in ihrer Gesamtheit, sondern basiert ausschließlich auf der Beziehung einzelner Webseiten zueinander. Der PageRank einer Seite A bestimmt sich dabei rekursiv aus dem PageRank derjenigen Seiten, von denen ein Link auf die Seite A zeigt.
Der PageRank der Seiten Ti, die auf eine Seite A verlinken, fließt nicht gleichmäßig in den PageRank von Seite A ein. Der PageRank einer Seiten T wird stets anhand der Anzahl C(T) der von Seite T ausgehenden Links gewichtet. Das bedeutet, dass je mehr ausgehende Links eine Seite T hat, umso weniger PageRank gibt sie an Seite A weiter.
Der anhand der Anzahl an ausgehenden Links gewichtete PageRank der Seiten Ti wird nun addiert. Dies hat zur Folge, dass jeder zusätzliche eingehende Link für eine Seite A stets den PageRank dieser Seite A erhöht.

Schließlich wird die Summe der gewichteten PageRanks der Seiten Ti mit dem Dämpfungsfaktor d, der stets zwischen 0 und 1 liegt multipliziert. Hierdurch wird das Ausmaß der Weitergabe des PageRanks von einer Seite auf einer andere verringert.
Das Random Surfer Modell

Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen eine sehr einfache, intuitive Rechtfertigung des PageRank-Algorithmus an. Sie betrachten PageRank-Verfahren als ein Modell zur Abbildung von Benutzer-Verhalten. Hierzu führen sie einen Zufalls-Surfer an, der von einer Webseite zur nächsten jeweils beliebige Links verfolgt, ohne dabei auf Inhalte zu achten.
Der Zufalls-Surfer befindet sich mit einer bestimmten Wahrscheinlichkeit auf einer Website, die sich aus deren PageRank herleiten lässt. Die Wahrscheinlichkeit, dass der Zufalls-Surfer nun einen bestimmten Link verfolgt, ergibt sich dann einzig und allein daraus, aus wievielen Links er die Auswahl hat. Aus diesem Grunde fließt der PageRank einer verlinkenden Seite stets nach der Anzahl Ihrer ausgehenden Links gewichtet in die PageRank Berechnung einer verlinkten Seite ein.

Die Wahrscheinlichkeit, dass der Zufalls-Surfer auf eine Seite gelangt, ist also die Summe der Wahrscheinlichkeiten, mit der er von einer verlinkenden Seite den entsprechenden Link verfolgt. Nun wird allerdings die Wahrscheinlichkeit, mit der der Zufalls-Surfer auf eine Seite gelangt, um den Faktor d gedämpft. Dies hat im Rahmen des Random Surfer Modells den Hintergrund, dass der Zufalls-Surfer nicht unendlich viele Links verfolgt. Nach einer bestimmten Zeit wird er gelangweilt und ruft eine beliebige andere Webseite auf.

Die Wahrscheinlichkeit, mit der der Zufalls-Surfer die Verfolgung von Links nicht abbricht und somit weiterklickt, wird durch den Dämpfungsfaktor d angegeben, der abhängig von der Höhe der Wahrscheinlichkeit einen Wert von 0 bis 1 annimmt. Je höher d ist, um so wahrscheinlicher ist es, dass der Zufalls-Surfer Links verfolgt. Da der Zufalls-Surfer nach dem Abbruch der Link-Verfolgung eine beliebige Seite aufruft, geht die Wahrscheinlichkeit mit er er dies tut, mit dem Wert (1-d) als Konstante in die Berechnung des PageRanks einer jeden Seite ein.

Abweichende Formulierung des PageRank-Algorithmus

Lawrence Page und Sergey Brin bieten in ihren Veröffentlichungen zwei unterschiedliche Versionen des PageRank-Algorithmus an. In dieser zweiten Version bestimmt sich der PageRank einer Seite A wie folgt:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Hierbei ist N die Anzahl aller Seiten des Webs. Diese zweite Version des PageRank-Algorithmus unterscheidet sich allerdings nicht grundlegend von der ersten. In der zweiten Version beschreibt der PageRank einer Seite im Sinne des Random Surfer Modells lediglich die tatsächliche Wahrscheinlichkeit, mit der der Zufalls-Surfer nach dem Verfolgen vieler Links eine Seite erreichen wird. Dieser Algorithmus bildet damit eine Wahrscheinlichkeitsverteilung über alle Seiten des Webs ab. Die Summe aller PageRank-Werte des Webs ist damit bei dieser Version des Algorithmus gleich 1.

In der oben genannten, ersten Version erfolgt eine Gewichtung der Wahrscheinlichkeit des Besuchs einer Seite nach der Anzahl der Seiten des Webs. Demnach ist der PageRank in dieser Version im Grunde der Erwartungswert für den Besuch des Zufalls-Surfers auf einer Seite, wenn er hierfür Anläufe in genau der Höhe der Anzahl der Seiten des Webs nimmt. Bestünde das Web also aus 100 Seiten, und eine Seite hat einen PageRank von 2, so würde der Zufalls-Surfer sie bei 100 „Surfgängen“ im Mittel zweimal erreichen.

Wie bereits erwähnt, unterscheiden sich die beiden Versionen des Algorithmus sich nicht grundlegend. Letztlich muss der PageRank einer Seite aus der Algorithmus-Version 2 lediglich mit der Anzahl der Webseiten multipliziert werden, um zum PageRank der Algorithmus-Version 1 zu gelangen. Selbst Page und Brin ist in Ihrer wohl bekanntesten Veröffentlichung „The Anatomy of a Large-Scale Hypertextual Web Search Engine“ der Fehler unterlaufen, die erste Version des PageRank-Algorithmus als Wahrscheinlichkeitsverteilung zu charakterisieren, bei der die Summe der PageRank-Werte aller Seiten gleich eins sei.

Im Folgenden wird für die weiteren Betrachtungen der oben zuerst genannte Algorithmus verwandt. Dies hat den einfachen Hintergrund, dass Berechnungen hiermit wesentlich einfacher sind, da die Größe des Webs vollkommen außer Acht gelassen werden kann.

Die Eigenschaften des PageRank

Die Eigenschaften des PageRank sollen jetzt anhand eines Beispieles veranschaulicht werden.

Hierzu wird ein kleines 3-Seiten-Web aus den Seiten A, B und C betrachtet, wobei Seite A sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt lediglich auf Seite C und Seite C wiederum verlinkt auf Seite A. Der Dämfungsfaktor d wird Angaben von Lawrence Page und Sergey Brin zufolge für tatsächliche Berechnungen üblicherweise auf 0.85 gesetzt. Der Einfachheit halber wird d an dieser Stelle ein Wert von 0.5 zugewiesen, wobei die Höhe von d zwar Auswirkungen auf den PageRank hat, das hier zu erläuternde Prinzip jedoch nicht beeinflusst. Es ergeben sich die folgenden Gleichungen für den PageRank der einzelnen Seiten:

PR(A) = 0.5 + 0.5 PR(C)
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))

Dieses Gleichungssystem lässt sich sehr einfach für den PageRank der einzelnen Seiten lösen. Es ergeben sich die folgenden Werte:

PR(A) = 14/13 = 1.07692308
PR(B) = 10/13 = 0.76923077
PR(C) = 15/13 = 1.15384615

Es zeigt sich, dass die Summe der PageRanks aller Seiten gleich drei und somit gleich der Anzahl der Seiten ist. Dies ist keine spezifisches Ergebnis für unser Beispiel, da der PageRank Algorithmus einen Erwartungswert für den Besuch von Seiten bei Anläufen in Höhe der Anzahl der Seiten darstellt.

Für ein kleines 3-Seiten-Beispiel lässt sich ein Gleichungssystem unproblematisch lösen. Das tatsächliche WWW besteht jedoch mittlerweile aus mehreren Milliarden Webseiten, so dass die Lösung eines entsprechenden Gleichungssystems nicht mehr möglich ist.

Die iterative Berechnung des PageRank
Aufgrund der Größe des Webs erfolgt in der Praxis der Suchmaschine Google eine näherungsweise, iterative Berechnung des PageRank. Dies bedeutet, dass zunächst jeder Seite ein PageRank zugewiesen wird, und anschließend der PageRank aller Seiten in mehreren Berechnungsrunden ermittelt wird. Diese näherungsweise Berechung soll wiederum anhand unseres kleinen Beispiels demonstriert werden, wobei als Ausganswert für den PageRank einer jeden Seite zunächst 1 angenommen wird.

Iteration   PR(A)           PR(B)            PR(C)

0            1                  1 1
1            1                  0.75               1.125
2            1.0625          0.765625        1.1484375
3            1.07421875   0.76855469    1.15283203
4            1.07641602   0.76910400    1.15365601
5            1.07682800   0.76920700    1.15381050
6            1.07690525   0.76922631    1.15383947
7            1.07691973   0.76922993    1.15384490
8            1.07692245   0.76923061    1.15384592
9            1.07692296   0.76923074    1.15384611
10          1.07692305   0.76923076    1.15384615
11          1.07692307   0.76923077    1.15384615
12          1.07692308   0.76923077    1.15384615
Es zeigt sich, dass sich in unserem Beispiel bereits nach sehr wenigen Iterationen eine sehr gute Näherung an die tatsächlichen Werte ergibt. Für die Berechnung des PageRanks für das komplette WWW werden von Lawrence Page und Sergey Brin ca. 100 Iterationen als hinreichend genannt.

Entscheidend ist, dass die Summe der PageRanks aller Seiten nach der Durchführung der iterativen Berechnung gegen die Anzahl aller Seiten konvergiert. Der durchschnittliche PageRank aller Seiten geht mithin gegen 1. Jede Seite hat einen minimalen PageRank von (1-d). Der theoretisch maximale PageRank einer Seite beträgt dN+(1-d), wobei N die Anzahl aller Webseiten ist. Dieser theoretische Wert käme zustande, wenn sämtliche Webseiten ausschließlich auf eine Seite verlinken, und auch diese wiederum ausschließlich auf sich selbst verlinkt.

Die Implementierung des PageRank

Quelle: pr.efactory.de

Überblick über das PageRank-Verfahren der Suchmaschine Google


Im Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten Suchmaschine entwickelt. Maßgebend verantworlich hierfür war neben einer hohen Performance und einer großen Benutzerfreundlichkeit vor allem die anderen Suchmaschinen teilweise weit überlegene Qualität der Suchergebnisse. Diese Qualität der Suchergebnisse beruht ganz wesentlich auf dem PageRank-Verfahren.
An dieser Stelle soll ein möglichst breiter Überblick über alle Aspekte des PageRank-Verfahrens wiedergegeben werden. Unser Überblick stützt sich dabei im Kern auf Veröffentlichungen der Google-Gründer Lawrence Page und Sergey Brin aus ihrer Zeit als Graduiertenstudenten an der Stanford University.

Aktuelle Änderungen im PageRank (Bild: Sistrix.de)

Vielerorts wird angeführt, dass seit den Forschungsarbeiten am PageRank-Verfahren vor allem angesichts der Dynamik des Internets zu viel Zeit vergangen ist, als dass die veröffentlichten Dokumente immer noch für die Bewertungsmethodik der Suchmaschine Google maßgebend sind. Es soll auch nicht bezweifelt werden, dass im Verlauf der letzten Jahre mit großer Wahrscheinlichkeit zahlreiche Änderungen, Anpassungen und Modifikationen am ursprünglichen PageRank-Algorithmus stattgefunden haben. Allerdings war gerade das PageRank-Verfahren ein wichtiger Faktor für den Erfolg der Suchmaschine Google, womit zumindest das Konzept des PageRank-Verfahrens immer noch grundlegend sein sollte.

Das PageRank-Konzept

Im Zuge der Entwicklung des World Wide Webs wurden verschiedene Verfahren zur Bewertung von Webseiten mit dem Ziel der Relevanzbeurteilung durch Suchmaschinen entwickelt. Ein aus unmittelbar einleuchtenden Gründen auch heute immer noch von praktisch allen Suchmaschinen genutzter Maßstab ist das Vorkommen eines Suchbegriffs in den Inhalten einer Webseite. Dieses Vorkommen wird nach den verschiedensten Kriterien wie etwa der relativen Häufigkeit des Vorkommens (der sog. Keyword-Dichte), den Stellen des Vorkommens des Suchbegriffs oder auch der Exponiertheit des Suchbegriffs im Dokument gewichtet.
Aus der Absicht, Suchmaschinen resistent gegen Webseiten zu machen, die auf der Basis von Analysen der inhaltsspezifischen Bewertungskriterien generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität. Dabei fließt die Anzahl der eingehenden Links für ein Dokument als ein grundsätzliches Kriterium für die Bedeutung einer Webseite in die Relevanzbeurteilung ein. Diesem Ansatz liegt zu Grunde, dass ein Dokument um so wichtiger ist, je häufiger es von anderen verlinkt wird. Hierdurch wird weitestgehend verhindert, dass automatisch generierte „suchmaschinenoptimierte“ Webseiten ohne jeglich Einbindung in das WWW oben in den Suchmaschinenergebnissen erscheinen. Es zeigte sich allerdings, dass auch das Konzept der Link-Popularität schnell von Webmastern antizipiert werden konnte, indem sie von ebenso unbedeutenden, automatisch generierten Seiten eingehendeLinks für Doorway Pages schufen.

Im Gegensatz zum Konzept der Link-Popularität nutzt das PageRank-Konzept nicht einfach die absolute Anzahl eingehender Links für die Beurteilung der Bedeutung einer Webseite. Die Argumentation der Google-Gründer gegen das Konzept der einfachen Link-Popularität war, dass ein Dokument zwar bedeutsam ist, wenn es von vielen anderen verlinkt wird, nicht jedes verlinkende Dokument ist jedoch gleichwertig. Vielmehr sollte einem Dokument – völlig unabhängig von seinen Inhalten – ein hoher Rang zugewiesen werden, wenn es von anderen bedeutenden Dokumenten verlinkt wird.

Die Bedeutsamkeit eines Dokuments bestimmt sich im Rahmen des PageRank-Konzepts also aus der Bedeutsamkeit der darauf verlinkenden Dokumente. Deren Rang wiederum bestimmt sich ebenfalls aus dem Rang verlinkender Dokumente. Die Bedeutsamkeit eines Dokuments definiert sich stets rekursiv aus der Bedeutsamkeit anderer Dokumente. Da – wenn auch über viele hintereinanderfolgende Links hinweg – der Rang eines jeden Dokuments eine Auswirkung auf den Rang eines jeden anderen hat, beruht das PageRank-Konzept letztlich auf der Linkstruktur des gesamten Webs. Obwohl diese ganzheitliche Betrachtung des WWW es nicht vermuten lässt, gelang es Page und Brin das PageRank-Konzept mittels eines relativ trivialen Algorithmus umzusetzen.

Copyright-Verstöße Google löscht Millionen Links


Im Kampf gegen Verletzungen des Urheberrechts drückt Google auf die Löschen-Taste. Der Web-Konzern hat nach eigenen Angaben im großen Stil Links zu Inhalten aus seinem Angebot entfernt, die zuvor von Copyright-Inhabern gemeldet wurden.

Berlin/Mountain View – Google hat im vergangenen Jahr wegen möglicher Urheberrechtsverletzungen in 5,4 Millionen Fällen Inhalte, Webseiten und Web-Adressen aus seinen Angeboten – ohne YouTube – gelöscht. Das erklärte der Web-Konzern am Donnerstag in einem Blogpost.

Pro Monat bearbeitet Google demnach durchschnittlich 1,2 Millionen Anfragen, Inhalte wegen möglicher Copyright-Verletzungen offline zu nehmen. Unter den gelöschten Daten befanden sich allein 3,3 Millionen Weblinks in den Suchergebnissen. 97 Prozent der angeprangerten Inhalte werden laut Google entfernt. Verschiedene Anfragen können dabei sich auf ein und dasselbe Ziel beziehen.
„Der Kampf gegen Online-Piraterie ist sehr wichtig“, schreibt Google-Manager Fred von Lohmann in seinem Blogeintrag. „Wir wollen nicht, dass unsere Suchergebnisse die Menschen auf Stellen im Netz lenken, wo die Urheberrechte verletzt werden.“ Um das Ausmaß der Löschungen deutlich zu machen, erfasst der Konzern die wegen Copyright-Verletzungen entfernten Inhalte nun im „Transparency Report“. Dort waren bislang vor allem die staatlich verfügten Löschungen dokumentiert worden.

Die Suchmaschine bietet Rechteinhabern ein Verfahren an, mit dem Verstöße gegen das Urheberrecht gemeldet und unterbunden werden können. Ob diese Prozedur ausreicht, gegen Copyright-Verletzungen im Internet vorzugehen, ist allerdings umstritten. Verlegerverbände und Musikverwerter wie die deutsche Gema hatten dem Internet-Konzern in der Vergangenheit immer wieder vorgeworfen, zu wenig gegen Inhalte-Klau im Netz zu unternehmen und finanziell von Verstößen gegen das Urheberrecht zu profitieren.

Google betonte nun, die aktuellen Zahlen belegten, dass die Benachrichtigungen der Rechteinhaber über mögliche Urheberrechtsverletzungen konsequent geprüft würden. Anfragen würden durchschnittlich innerhalb von elf Stunden bearbeitet. Bei bekannten Organisationen, die den Status eines „vertrauenswürdigen Partners“ hätten, betrage dieser Zeitraum sogar nur sieben Stunden. Anfragen von Firmen und Organisationen wie Microsoft , NBC Universal oder dem Verband der US-Musikindustrie RIAA machten dem größten Anteil aus.

Google wies zugleich darauf hin, dass nicht jede Anfrage zur Löschung von Inhalten gerechtfertigt sei. So habe eine Fahrschule in Großbritannien den Ausschluss der Homepage eines Wettbewerbers aus dem Google-Index verlangt, nur weil dort auch eine alphabetisch sortierte Ortsliste zu finden war.

suc/dpa

Google+ Buch für Neulinge steht zum kostenlosen Download bereit


Das eBook „Plus Eins – Das Google+ Buch für Jedermann“ kann man ab sofort kostenlos herunterladen. Das Buch richtet sich in erster Linie an Anfänger, hat aber auch für eingefleischte Plusser den ein oder anderen Tipp parat. Darüber hinaus gibt es Interviews mit Google+ Chef Vic Gundotra und anderen Experten.

Auch wenn Google+ seit dem Start im Juni 2011 schon etwa 100 Millionen Nutzer für sich gewinnen konnte, ist das soziale Netzwerk noch nicht im Mainstream angekommen. Genau aus diesem Grund ist das Engagement von Philipp Steuer zu begrüßen, denn sein Google+ Buch ist besonders für Menschen, die sich mit dem Google-Netzwerk noch nicht auseinander gesetzt haben, eine willkommene Starthilfe.

google+ buch jedermann

Download Plus Eins das Google Buch für Jedermann