5.1 Aufbau und Funktionsweise
von "eigentlichen" Suchmaschinen
Kataloge werden manuell erstellt, eigentliche Suchmaschinen hingegen
automatisch. Sie bestehen aus 3 wesentlichen Elementen:
- einem Robot (auch Spider oder Crawler), welcher das Netz systematisch
durchsucht nach noch nicht indizierten Seiten, in dem er Hyperlinks auf
bekannten Seiten verfolgt.
- einer Datenbank, die die Ergebnisse des Robots speichert
- und einer Software, die Suchanfragen entgegennimmt und Ergebnisse
ausgibt.
Spider unterscheiden sich in zwei Merkmalen: Auswahl der URLs und Erstellung
der Informationen über eine gefundene Seite. Spider benutzen eine
Liste mit URLs, an die man manuell neue URLs hinzufügen kann. Sie
surfen diese Links nun ab und fügen neue Adressen an diese Liste an.
In welcher Reihenfolge die Seiten besucht werden, ist dem Robot überlassen.
Alte Seiten müssen aufgrund der hohen Änderungsrate des Internets
von Zeit zu Zeit neu eingelesen werden. Die Sammlung von Informationen
über eine Seite kann über einen oder mehrere der folgenden Inhalte
geschehen:
- Meta Tags enthalten Informationen der Seite, wie der Autor sie sieht
- Der Titel beschreibt den Inhalt der Seite
-Schlüsselwörter sind dem hingegen nicht so anfällig
gegenüber Manipluation des Autors
Deutlich wird hier, das automatisch ablaufende Robots den Inhalt der
Seiten nicht verstehen können, sondern lediglich durch das Zählen
von Wörtern oder durch Übernehmen der Meta Tags die Seite erfassen
können. Dieses ist auch die größte Schwachstelle der Suchmaschinen.
Excite arbeitet derzeit an Ansätzen mit Sprachtheorien und künstlicher
Intelligenz. Hier werden in Zukunft einige Verbesserungen zu erwarten sein.
[5.1]
Die eigene Seite in allen Suchmaschinen an vorderster Stelle stehen
zu haben ist unmöglich. Prinzipiell gilt, die Meta-Tags und den Titel
so deskriptiv, wie möglich zu bezeichnen. So ist z.B. der Titel "A.
Klein" nicht so aussagekräfti, wie "A. Klein GmbH, Landwirtschaftliche
Maschinen". Aufpassen sollte man prinzipiell im Bereich der Schlüsselwörter.
Versteckte Schlüsselwörter im Text zu verwenden widerspricht
der "Nettiquette", den inoffiziellen Verhaltensregeln im Netz und manche
Robots bestrafen solches Vorgehen. Erleichtert wird die Veröffentlichung
der Seite, wenn man bei allen großen Suchmaschinen seine Seite bekannt
macht. Da die Anzahl der Suchmaschinen schier unendlich scheint, ist es
ratsam besonders die Suchmaschinen über die eigene Seite zu informieren,
die man selber am meisten benutzt. [5.2]
Publizierung der Seiten in Suchmaschinen ist nicht immer erwünscht.
Fast alle Robots unterstützen deshalb die Datei robots.txt, die, wenn
sie im Root- Verzeichnis eines Servers installiert ist, Seiten vor der
Zugriff durch die Robots schützen kann. Jedoch kann ein Adminsitrator
nicht verhindern, daß andere Leute Links auf die Seite anlegen und
diese Seiten dann evtl. unter dem eigenen Stichwort in Suchmaschinen zu
finden ist. Wirksamer Schutz vor Robots ist, die Datei mit Passwortschutz
zu versehen. Dann können aber nicht mehr alle Leute auf die Seite
zugreifen. Eine andere Möglichkeit ist, den Zugriff auf die Seite
nur von bestimmten Domains zu erlauben. Zu den technischen Details empfiehlt
der Autor [6.3] und [6.4]
5.2 Kataloge
Kataloge basieren auf von Hand erstellten Datenbanken, die in vielen
Fällen voraussetzen, das die Internet- Seiten auch tatsächlich
vom Menschen besucht worden sind. Somit sind Kataloge personalintensiver
und die Datenbanken sind deutlich kleiner, aber meistens auch besser sortiert
und strukturiert. Die Qualität der Datenbank hängt in großem
Maße davon ab, wie oft auch bereits indizierte Informationsangebote
auf ihre Aktualität überprüft werden. [5.1]
5.3 Beispiele
5.3.1 Internationale Suchmaschinen und Kataloge
Suchmaschinen
Webcrawler http://www.webcrawler.com
Altavista http://altavista.digital.com
Excite http://www.excite.com
Kataloge
Yahoo! http://www.yahoo.com
5.3.2 Deutsche Suchmaschinen und Kataloge
Suchmaschinen
Dino Lotse http://www.lotse.de
Lycos http://www.lycos.de
Kataloge
Web.de http://web.de
Dino Online http://www.dino-online.de
Eine Übersicht über weitere deutsche Suchmaschinen befindet
sich unter http://www.dmarkt.com/fritz/liste.htm, eine Übersicht häufig
benutzer Suchmaschinen bietet http://www.uni-karlsruhe.de/~uo01/d/search.
Zur Publizierung der eigenen Seiten empfiehlt sich der amerikanische Service
http://www.submit-it.com.
. |
Quellenangaben Kapitel
2
|