3      Funktionsweise von Suchmaschinen

- Wie funktionieren Suchmaschinen?

Für viele Nutzer ist die Funktionsweise von Suchmaschinen auf den ersten Blick nicht erkennbar. Sie sehen nur, dass nach Eingabe einer Suchanfrage eine Ergebnisliste mit (relevanten) Links ausgegeben wird. Häufig wird fälschlicherweise vermutet, dass Suchmaschinen das gesamte Web nach den eingegebenen Begriffen durchsuchen. Um dieses Missverständnis aufzulösen und um ein besseres Verständnis dafür zu schaffen, wie Suchmaschinen funktionieren, soll nun ein Überblick über die Arbeitsweise von Suchmaschinen gegeben werden. Die nachfolgenden Ausführungen orientieren sich an den Darstellungen von GLÖGGLER. [29]

Jede Suchmaschine (im Sinne von Kapitel 2.1.2) verfügt über einen Datenbestand, auf den zur Beantwortung von Suchanfragen zugegriffen wird. Die Erfassung, Aufbereitung und Bewertung sowie Verwertung dieses Datenbestandes geschieht folgendermaßen: Im Wesentlichen setzten sich Suchmaschinen aus drei Systemkomponenten zusammen: [30]

Nachstehende Darstellung veranschaulicht den Funktionsablauf einer Suchmaschine, der in den folgenden Unterkapiteln noch näherbeleuchtet werden soll.

Vereinfachte Funktionsweise von Suchmaschinen

Abbildung 3: Vereinfachte Funktionsweise von Suchmaschinen [31]

3.1     Web-Robot-System: Beschaffung und Analyse der Daten

Grundsätzlich wird das von Suchmaschinen eingesetzte System zur Datenbeschaffung als Web-Robot-System bezeichnet. Statt der Bezeichnung Web-Robot-System werden häufig auch Synonyme wie Robot, Web Wanderer, Web-Crawler oder auch Spider verwendet, welche im Grunde alle die gleiche Art von Systemen bzw. Prozessen beschreiben. Der Robot ist die aus Hard- und Software bestehende Systemkomponente von Suchmaschinen, die für die Erfassung neuer oder veränderter Dokumente im Internet zuständig ist. [32] Im Fokus stehen dabei (bisher noch) HTML-Dokumente. Die meisten Suchmaschinen erlauben neben HTML aber auch eine Indexierung von Texten aus Microsoft-Dateien (.doc, .xls, .ppt), PDF-Dokumenten (.pdf), Rich-Text-Dateien (.rft), einfachen Textdateien (.txt) sowie Alt-Tags von Bildern und Videos. Eine Restriktion auf bestimmte Dokumente bzw. Protokolle erfolgt mit dem Zweck, eine Homogenität der Eingangsdateien und damit verbunden einen höheren Effizienzgrad bei der Verarbeitung von Daten zu erreichen.

3.2     Information Retrieval System: Aufbereitung und Analyse der Daten

Information Retrieval Systeme sind spezielle Datenbanken zur Verarbeitung von Textdokumenten. Ziel eines Retrievalsystems ist es, Textdokumente so aufzubereiten, dass ein effizient durchsuchbarer Datenbestand entsteht, der Texte unter Berücksichtigung bestimmter Bewertungskriterien erfasst und eine Rangfolgenbewertung gefundener Dokumente ermöglicht.

Der Aufbau eines adäquaten Datenbestandes (Indexierungsprozess) lässt sich in drei Teilprozesse gliedern: [33]

3.2.1  Datennormalisierung und Dokumentenanalyse

Die vom Robot gefundenen Daten aus dem Internet liegen in unstrukturierter Weise vor und müssen zuerst analysiert und aufbereitet werden, bevor sie als Index zu einem homogenen, durchsuchbaren Datensatz werden. Dies geschieht durch Nutzung unterschiedlicher Filter. Das Hauptziel der Strukturierung, die die Prozesse der Datennormalisierung und Dokumentenanalyse umfasst, liegt in der Bestimmung von geeigneten Schlüsselworten für den Index, welche den Inhalt der Dokumente thematisch erfassen. Die hierzu eingesetzten Filterprozesse können dabei in Teilen vom Web-Robot-System als auch vom Retrieval-System ausgeführt werden. Ein Überblick der eingesetzten Verfahren gibt Abbildung 4.

Prozesse der Datennormalisierung und Datenanalyse

Abbildung 4 : Prozesse der Datennormalisierung und Datenanalyse [34]

3.2.2  Bildung von durchsuchbaren Datenstrukturen (Indexierung)

Das angestrebte Ziel der Suchmaschinen, Dokumente inhaltlich so unterscheidbar zu machen, dass Suchergebnisse entsprechend ihrer inhaltlichen Relevanz sortiert werden können, macht spezielle Datenstrukturen notwendig. Diese müssen so angelegt sein, dass innerhalb möglichst kurzer Zeit alle Dokumente im Datenbestand gefunden werden, die für eine Suchanfrage relevant sind. Darüber hinaus müssen die Datenstrukturen dem Query Processor (vgl. Kapitel 3.3) Hinweise liefern, die es ermöglichen, eine Unterscheidung der Dokumente bezogen auf ihre Relevanz zu einer Suchanfrage vornehmen zu können. [35] Die vom Information Retrieval grundsätzlich eingesetzte Datenstruktur ist das invertierte Dateisystem in Verbindung mit einer zentralen Indexdatei. Die Summe aller durchgeführten Aktionen zur Erarbeitung des invertierten Dateisystems wird Indexierung genannt.

Beispiel für ein invertiertes Dateisystem

Abbildung 5 : Beispiel für ein invertiertes Dateisystem [36]

Jedes Wort aus dem Index verfügt über einen Verweis zu einer invertierten Datei. Diese wiederum umfasst Verweise zu allen Dokumenten, in denen das jeweilige Wort vorkommt. Da diese Dokumente eine große Anzahl an Worten beinhalten, werden sie aus ökonomischen Gründen mit einer Dokumentennummer (docID) versehen und so als numerischer Verweis innerhalb der invertierten Datei gelistet. Wenn nun bei einer Suchanfrage das Keyword im Index enthalten ist, werden über das invertierte Dateisystem alle Dokumente, die das Keyword enthalten mit den entsprechenden externen Links aufgelistet. [37]

Abbildung 5 verdeutlicht diese Beziehung. Nach Eingabe der Begriffe Hotel und Pforzheim in die Suchmaske der Suchmaschine werden die invertierten Dateien zu beiden Begriffen ausgelesen. So enthalten z.B. die Dokumente mit den Dokumentennummern 1234 und 2345 beide in der Sucheingabe verwendeten Begriffe. Hingegen enthält das Dokument 1129 nur eines der beiden Keywords, nämlich das Wort Hotel. Da bei einer Suchanfrage mit mehreren Worten automatisch der boolesche Operator UND zu Grunde gelegt wird (damit müssen in den gesuchten Dokumenten zwingend beide Worte vorkommen), wird das Dokument 1129, welches nur ein Wort enthält, als irrelevant eingestuft und abgelehnt.

3.3     Query Processor: Ranking und Aufbau der Ergebnislisten

Suchanfragen werden über den Query Processor der Suchmaschine ausgeführt. Er stellt für den Nutzer die Schnittstelle zur Datenbank der Suchmaschine dar. Die Aufgabe des Query Processors ist es, all jene Dokumente im Datenbestand aufzufinden, die einer Suchanfrage bis zu einem gewissen Grad ähnlich sind und diese in eine Reihenfolge zu bringen. Er ist damit diejenige Systemkomponente, die Daten in einem Datenbestand sucht und als sortiertes Ergebnis in Form einer Ergebnisliste liefert. Während die Daten zur Berechnung durch das Information Retrieval System bereitgestellt werden, wird die Relevanzkalkulation durch den Algorithmus des Query Prozessors vorgenommen. Das Gewichtungsmodell sowie die Datenstruktur stehen somit in einem engen funktionalen Zusammenhang. [38]

suchmaschinenkompetenz.de -> Inhaltsverzeichnis -> Funktionsweisen von Suchmaschinen