Was sind Suchmaschinen?
Suchmaschinen sind im Prinzip das Telefonbuch im Internet und für die allermeisten Internetseiten der wichtigste Besucherlieferant schlechthin. Gute Positionen in den Suchmaschinen bei den entsprechenden Suchbegriffen bringen jede Menge potentielle Kunden auf ihre Internetseite. Damit ist das Internet eine günstige Variante, um Neukunden zu erreichen.
Der Benutzer sieht eine Eingabemaske, in der er ein oder mehrere Suchbegriffe eingibt, und erhält als Ergebnis eine Liste (meist mehrere Seiten lang), in der Links zu entsprechenden Seiten gelistet sind. Im Allgemeinen werden ein Titel, eine kurze Beschreibung und die URL angegeben.
Suchmaschinen funktionieren vollautomatisch. Der Datenbestand wird automatisch durch Spider erstellt, die Relevanzbewertung erfolgt durch den Ranking-Algorithmus der Suchmaschinen und die Ausgabe der Ergebnisse erfolgt ebenfalls automatisch.
Was ist ein Spider?
Ein Spider ist ein Programm, das automatisch eine Seite besucht und diese als Kopie im Datenbestand der Suchmaschinen ablegt. Dabei sieht der Spider die Seite anders, als Menschen sie in einem Browser sehen. Der Spider analysiert nur auf der Seite befindlichen Text und keine Multimediaformate, wie Bilder oder Flashformate. Findet die Suchmaschine in dieser besuchten Seite eine ihr unbekannte URL, so wird diese URL der Liste hinzugefügt, so dass der Spider diese Seite bei passender Gelegenheit ebenfalls besucht. Im Prinzip würde es reichen, wenn man den Suchmaschinen einen einzigen Link nennt. Alle weiteren Seiten würde die Suchmaschine dann irgendwann automatisch erkennen.
Die pure Existenz einer Seite ist jedoch keine Garantie für deren Aufnahme in einen Suchmaschinenindex. Die sicherste und für manche Suchmaschinen auch die einzigste Methode, den Suchmaschinenroboter (auch Robots oder Bot) dazu zu bringen, die eigene Seite überhaupt erst einmal zur Kenntnis zu nehmen, ist das Setzen eines Links von einer bereits in einer Suchmaschine gelisteten Seite hin zu der aufzunehmenden Seite.
Praktisch geht ein Spider folgendermaßen vor:
Als erstes fragt dieser eine Datei namens robots.txt ab. Findet er dort nichts, was ihn am weiteren Besuch der Domain hindert, fragt er einige der Seiten aus seiner Liste von dieser Domain ab. Meistens besucht der Spider nicht alle Seiten einer Präsenz bzw. einer IP-Adresse auf einmal, um den Server nicht zu überlasten. Teilweise (Google) werden nicht nur HTML-Dateien gespidert, sondern auch andere Dokumente wie beispielsweise PDF-Dokumente.
Was bedeutet Suchmaschinenindex?
Der so genannte Indexer erhält vom Spider die HTML-Dateien geliefert, die der Spider besucht hat. Diese Dateien durchsucht der Indexer auf Schlüsselbegriffe und erstellt daraus die Datenbank und den Inversen Index. Des Weiteren untersucht er die erhaltenen HTML-Dateien auf neue URLs (d. h. der Suchmaschine unbekannten Links).
Diese Links werden der Liste hinzugefügt, die die durch den Spider abzuarbeitenden Seiten enthält.
Wenn an die Suchmaschinen Anfragen gestellt werden, haben diese meistens nur wenig Zeit, um diese zu beantworten. Diese Zeit reicht nicht aus, um den vollständigen Datenbestand der Suchmaschinen mittels einer Volltextsuche zu durchforsten. Stattdessen legt die Suchmaschine einen Inversen Index an.
Die Suchmaschinen verfügen damit über zwei Listen
» In der einen Liste sind sämtliche Seiten, die der Suchmaschine bekannt sind, der Reihe nach aufgelistet und nummeriert.
» In der zweiten Liste (inverser Index) ist für jeden Suchbegriff verzeichnet, in welcher der ersten aufgelisteten Seiten dieser Begriff vorkommt.
Wird nun nach dem Suchbegriff Spider gesucht, liefert der inverse Index dafür die laufenden Nummern der Seiten, in denen dieser Begriff vorkommt. Anhand dieser Nummern werden aus der ersten Liste die zugehörigen URL´s ermittelt und ausgegeben.
Jetzt weiß die Suchmaschine, welche Seiten zu listen sind. Die Reihenfolge steht aber noch nicht fest. Daher wird in dem inversen Index ein zweiter Parameter pro Seite geführt, der Auskunft über die Relevanz einer Seite zu dem entsprechenden Suchbegriff gibt. Dieser Parameter wird durch einen weiteren Teil, den Suchmaschinen-Algorithmus, geliefert, der die Relevanzbewertung der Seite übernimmt. Die Relevanzbewertung der verschiedenen Seiten ergibt sich aus dem Suchmaschinen-Algorithmus der einzelnen Suchmaschinen. Dieser Algorithmus ist bei allen Suchmaschinen leicht unterschiedlich und deren wohlbehütetes Geheimnis. Wäre dieser im Detail bekannt, hätten die Suchmaschinen keine Möglichkeit mehr, sich gegen Manipulationen zur Wehr zu setzen.