6.1     Technische bzw. qualitative Probleme bei Suchmaschinen

6.1.1  Willkürliche Rangfolge und mangelnde Transparenz der Suchkriterien

Die Rangfolge der Suchergebnisse ist eine der wichtigsten Qualitätsmerkmale einer Suchmaschine. Oft erfolgt auf eine einfache Suchanfrage die Ausgabe tausender Ergebnisse. Von den Nutzern werden i.d.R. jedoch nur die ersten zehn bis zwanzig berücksichtigt. [117] Wie diese Ergebnisse zustande kommen bzw. nach welchen Maßstäben, Verfahren und Kriterien sie gewichtet werden, bleibt ein wohl behütetes Geschäftsgeheimnis. Keine kommerzielle Suchmaschine dokumentiert die eingesetzten Ranking-Algorithmen, die zur Auswahl und zur Einordnung der Suchergebnisse eingesetzt werden. Aus diesem Mangel an Transparenz ergibt sich das Problem, dass die Validität der Suchergebnisse für Nutzer nicht nachvollziehbar ist. Die Rangfolge der Ergebnisse erscheint dem durchschnittlichen Benutzer als willkürlich und nicht nachvollziehbar (vgl. Kapitel 8.4.3 ). Diese Tatsache erschwert die Einschätzung der Qualität und Zuverlässigkeit der Suchergebnisse. [118]

6.1.2  Externe Manipulation

Um die Optimierung von Websites für Suchmaschinen ist mittlerweile ein eigener Berufszweig entstanden. So genannte Suchmaschinenoptimierer gestalten im Auftrag der Anbieter Websites durch unterschiedliche technische Verfahren so, dass sie für bestimmte Suchbegriffe in den Ergebnislisten oben stehen. Sie entwickeln auf empirischem Weg neue Tricks, um die aktuelle „Google-Formel“ für sich nutzbar zu machen. Die Masse der nicht-optimierten Websites wird dadurch benachteiligt und die Chancengleichheit der Kommunikation im Web aufgehoben. „Ein gutes Suchmaschinenranking ist damit nicht mehr eine Frage der Qualität des ursprünglichen Angebotes, sondern wird mehr und mehr zu einer reinen Investitionsfrage.“ [119] Im Umkehrschluss bedeutet dies, dass die aktuellen Algorithmen nicht in der Lage sind, den Unterschied zwischen den für sie populärsten und den qualitativ hochwertigsten Websites festzustellen. Mit anderen Worten ausgedrückt: eine Hierarchisierung der Suchergebnisse nach semantisch relevanten Inhalten ist aus technischen Gründen derzeit (noch) nicht möglich. In dieser „Unzulänglichkeit“ liegt die Tatsache begründet, warum Websites überhaupt manipuliert werden können. Die Grenzen zwischen Optimierung und Spamming sind dabei fließend: was heute erlaubt ist, kann morgen seitens der Suchdienste schon als Spam interpretiert werden und zur Abwertung im Ranking führen. Zwar weisen die Suchmaschinen auf die „illegalen Methoden“ hin, die zu einem Ausschluss führen können, eine trennscharfe Abgrenzung wird jedoch nicht vorgenommen. Um einer „Vermüllung der Indizes“ vorzubeugen, führen die Suchdienstanbieter in regelmäßigen Abständen eine Anpassung ihrer Algorithmen durch. Googles Marktdominanz (in Deutschland > 90 Prozent) bekommen bereits diejenigen Websitebetreiber zu spüren, deren Umsätze direkt vom Suchmaschinen-Traffic abhängen. Eine Umstellung der Rankingkriterien kann bewirken, dass die Seiten von einem Tag auf den nächsten nur noch von einem Bruchteil der gewohnten Besucher besucht werden. [120] Wird die Optimierung einer Seite als Spam eingestuft, droht im schlimmsten Fall sogar der Ausschluss aus dem Index.

Abbildung 12: Interessenlagen von Nutzern, Websiteanbietern, Suchmaschinenoptimierern und Suchmaschinenbetreibern [121]

 

Ein besonderes negatives Exempel für Suchmaschinen-Spamming statuierte

im März 2007 die zwielichtige Organisation "Gromozon-Gang", indem sie es mit dubiosen Methoden der Suchmaschinenoptimierung schaffte, ihre Websites auf den vorderen Plätzen mehrerer Suchmaschinen zu etablieren. Vor allem bei Live.com, dem Nachfolger der MSN-Suchmaschine gelang es ihr ‑für bestimmte Suchanfragen‑ etliche der vorderen Plätze zu erobern. Die von „Gromozon“ erstellten Seiten enthielten einen verschleierten Javascript-Code, der die Nutzer auf manipulierte Websites umleitete, wo zwangsläufig der Download einer Malware („ErrorSafe“) veranlasst wurde. [122]

Auch Google geriet schon mehrfach ins Visier Krimineller. [123] Bspw. verbreitete sich im Dezember 2007 der Trojaner „Trojan.Qhost.WU“. Er tauschte Google AdSense-Anzeigen gegen andere ‑täuschend echt aussehende‑ Anzeigen aus. Auf den besuchten Web-Seiten erschienen für den Benutzer eines infizierten Rechners nicht mehr die Google-Anzeigen, sondern „gefakete“ Links. Bei Anklicken dieser Anzeigen bestand die Gefahr, dass automatisch ein schädlicher Code ausgeführt wurde. Einige der Links führten auch auf Server, die versuchten, Malware einzuschleusen. [124]

Insgesamt ist davon auszugehen, dass ‑auf Grund der Monopolstellung und der damit verbundenen Gewinnchancen‑ gerade Google zukünftig ein immer beliebteres Angriffsziel für Hacker und Spammer wird. Aus Sicht diverser Experten ist es nur eine Frage der Zeit, bis kriminelle Hacker auf die Idee kommen, die Google-Server direkt zu attackieren und die dort lagernden privaten Informationen zu stehlen. Lohnenswert wären diese Daten allemal. [125]

6.1.3  Interne Manipulation durch Suchmaschinenbetreiber

Neben der externen Manipulation von Suchmaschinen gibt es auch Formen der internen Manipulation, die von den Suchmaschinen selbst initiiert sind. Eine solche interne Manipulation sind „Paid inclusions“, hierbei handelt es sich um Suchergebnisse, für die Websiteanbieter bezahlen und die von den Suchmaschinen nicht oder nicht ausreichend als solche (z.B. "Sponsored link", „Paid Placement“) gekennzeichnet werden. [126] Während bspw. Yahoo und Mirago nicht auf Einnahmen ihrer Paid inclusions-Programme verzichten, hat Google dieses Geschäftsmodell (offiziell) noch nie eingesetzt.

6.1.4  Die Deep-Web-Problematik

Entgegen der allgemein weit verbreiteten Vermutung sind Suchmaschinen derzeit nicht in der Lage, alle verfügbaren Inhalte des Webs vollständig zu indizieren. Auch Google greift zur Erstellung der Suchergebnisse laut eigener Aussage im Januar 2005 auf einen Index von „nur“ 8 Mrd. URLs zurück. [127] Verglichen mit der im Jahr 2000 geschätzten Anzahl von etwa 550 Mrd. [128] bestehender Seiten im Web erscheint diese Zahl jedoch als gering. Dies liegt zum einen daran, dass nicht alle Dokumententypen von den Crawlern der Suchmaschinen gelesen werden können, zum anderen an den im Web existierenden dynamischen Websites. [129] Dynamische Seiten erleichtern den Umgang und die Verwaltung  der Inhalte (CMS-Systeme), gleichzeitig sind sie aber für Suchmaschinen unauffindbar. „Suchmaschinen können zwar die Startseiten von Datenbanken (in der Regel Eingabeformulare) erreichen, können jedoch keine Inhalte der Datenbanken indexieren, da sie nicht in der Lage sind, Suchanfragen zu stellen.“ [130] Inhalte des Webs, die nicht indexiert werden können, werden unter dem Begriff „Deep-Web“ bzw. „Verstecktes Web“ subsumiert.

Problematisch ist hierbei die Annahme, dass Deep-Web-Inhalte tendenziell qualitativ hochwertiger und relevanter eingeschätzt werden, als indexierbare Inhalte (Visible Web oder Surface Web). [131] BERGMANN stützt diese These mit der Begründung, dass die Notwendigkeit einer Datenbank erst ab einer bedeutsamen Menge an Daten besteht und dass solche Datenbanken meist von professionellen Anbietern unterhalten werden. [132] Nicht indexiert werden weiter kostenpflichtige Angebote und häufig hochwertige Inhalte wie Zeitungsarchive, Bibliothekskataloge und wissenschaftlich Fachdatenbanken. Gleichwohl arbeiten Suchmaschinen an der Erschließung des Deep-Webs. Ein Paradebeispiel dafür ist die Google Buchsuche (Google Scholar). Hier wurden mit diversen akademischen Verlagen Verträge ausgehandelt, um ihre (Buch-)inhalte zu indexieren und damit für die Allgemeinheit sichtbar und besser auffindbar zu machen. [133]

 

6.1.5  Aktualität der Suchergebnisse

Nach der Veröffentlichung von Informationen im Web kann es Monate dauern, bis die Inhalte von den Crawlern der Suchmaschinen gefunden und in den Index übernommen werden. Zum Teil vergeht sehr viel Zeit, bis bestimmte Informationen der Internetgemeinde zur Verfügung stehen. Auch der Crawler von Google  (Googlebot genannt) braucht Zeit, um neue Daten zu indexieren. Insbesondere bei völlig neuen Websites dauert es relativ lange, bis alle Unterseiten indexiert sind. Hier kommt der Googelbot nur von Zeit zu Zeit vorbei. Findet er jedes Mal neue, relevante Inhalte, besucht er die Website im Lauf der Zeit öfters. Nur wenige ‑als „besonders relevant“ eingeschätzte Seiten‑ überprüft er mehrmals täglich.

 

suchmaschinenkompetenz.de -> Inhaltsverzeichnis -> Probleme und Gefahren bei Suchdiensten -> Technisch-qualitative Probleme