INTERNET - Möglichkeiten und Dienste

Prof. Jürgen Plate

7 Suchen im Internet

"Everything you need to know is on
the Internet. You just can't find it."
Anonymous

Ein großer Vorteil des Internet ist, daß man dort Dokumente schnell und einfach publizieren kann. Für den Publikationsprozeß und die publizierten Inhalte ist allein der Autor verantwortlich. Die Qualität der angebotenen Inhalte ist daher sehr unterschiedlich. Das WWW als Teil des Internet bietet eine große Menge an wissenschaftlichen Informationen. Forschungsberichte, Seminarunterlagen, Dissertationen, akademische Schriften jeglicher Fachdisziplin sind schnell und mit einem sehr hohen Aktualitätsgrad verfügbar. Auch zahlreiche Broschüren, Arbeitsberichte, Protokolle von Vereinen, Verbänden und Parteien sind über das Internet schnell und aktuell zu bekommen. Die wichtigsten Probleme bei der Informationssuche sind:

7.2 Wie funktionieren Suchmaschinen?

Zunächst jedoch erfahren Sie wie die Suchmaschinen an ihre Informationen kommen. Die Kenntnis der verschiedenen Strukturen von Suchmaschinen ist die erste Voraussetzung für eine erfolgreiche Recherche. Die wichtigsten Suchsysteme des Internet arbeiten mit zwei Verfahren:
  1. gibt es die automatische Volltextindexierung von Intemet-Dokumenten (das machen zum Beispiel Alta Vista, HotBot, oder Infoseek)
  2. gibt es Dienste, die die Internet-Ressourcen systematisch, klassifikatorisch, oder hierarchisch aufgliedern (wie zum Beispiel Yahoo, DINO oder Web.de)
  3. Daneben existieren noch weitere Ansätze. So beschränken sich manche Dienste auf das Verzeichnen von Teilbereichen (wie zum Beispiel der Commercial Sites Index auf Unternehmen im Internet). Andere Suchdienste setzen nicht auf eine möglichst große Zahl indexierter Dokumente, sondern auf eine differenzierte Bewertung dieser Dokumente (beispielsweise Magellan).

Bei der Volltext-Indexierung wird der gesamte Text der Web-Seiten indexiert. Die Indexierung verläuft automatisch. Für den Input sorgen sogenannte Robots oder Spider. Dies sind Programme, die selbständig arbeitend Ressourcen im Internet "aufspüren", indem sie Verweisen (Hyperlinks) von bereits bekannten Dokumenten folgen. Jedes neu von einem solchen Robot gefundene Dokment wird automatisch in der Datenbank der Suchmaschine verschlagwortet. Wie dies geschieht, hängt vom einzelnen Robot ab; manche indexieren den HTML-Titel oder die ersten Absätze eines Dokuments; andere durchforsten das gesamte Dokument und indexieren buchstäblich jedes Wort. Die meisten Suchmaschinen speichern die gesammelten Dokumente nicht als komplette Spiegelung. Dazu bedarf es eines gigantischen Rechen- und Speicheraufwandes, den derzeit nur Alta Vista betreibt. Zur Suche wird eine Indextabelle angelegt, die die Worte einer Seite in einer Ja-Nein-Struktur enthält. Hierdurch kommen verschiedene Eigenschaften der Suchmaschine zustande:

Ein für die Abfrage bedeutsamer Unterschied liegt darin, ob die Suchmaschinen alle Begriffe, auch sogenannte Stopwörter wie "der", "die", "das", "und", "ob", "ein", "ich" indexieren, oder ob sie sich auf sogenannte Schlüsselwörter beschränken, die wichtige Informationen eines Dokumentes tragen. Beides hat Vor- und Nachteile: Mit Suchmaschinen, die alle Begriffe indexieren, können Sie auch nach Phrasen wie "to be or not to be" suchen, eine Phrase, die - wenngleich klassisch - nur aus Stopwörtem besteht. Andererseits verlängert die Indexierung aller Wörter die Dauer einer Suchanfrage natürlich beträchtlich, weil die Datenmenge, die bei einer Anfrage durchforstet werden muß, um ein Vielfaches größer ist. Die einzelnen Suchdienste unterscheiden sich außerdem darin, wie weitgehend ihre Robots und Spider Dokumente indexieren; sie unterscheiden sich in der Indexierungsbreite (wie viele unterschiedliche Dienste/Server werden durchforstet) und in der Indexierungstiefe (wie tief dringt ein Robot in die Angebots- und Verzeichnisstruktur eines Webangebotes ein).

Sucht man in einem auf Volltext-Indexierung basierenden Suchdienst nach einem beliebigen Begriff, verweist die Suchmaschine auf alle Dokumente, die sie durchsucht hat und die den gesuchten Begriff enthalten. Die Suchdienste geben als Ergebnis gleich die URLs der gefundenen Dokumente als Hyperlinks aus, so daß Sie sofort das gefundene Dokument aufsuchen können. In vielen Fällen bekommen Sie jedoch nicht nur einen Treffer, je nach Suchbegriff meldet Ihnen die Suchmaschine mehrere Tausend von Treffern. Um die Auswahl aus mehreren Treffern zu erleichtern, nehmen die meisten, auf Volltext basierenden Suchmaschinen eine automatische Gewichtung der Suchergebnisse vor, das sogenannte "Ranking". Die Suchmaschine gewichtet die Ergebnisse auf der Basis eines mathematischen Verfahrens, der unter anderem die Häufigkeit des gesuchten Begriffs im Dokument bewertet. Es gibt keine generelle Gewichtung; jede Suchmaschine verwendet zur Feststellung der Relevanz eines Suchtreffers unterschiedliche Mechanismen. Im Suchergebnis erscheint die Liste der Treffer bei manchen Suchdiensten nach Prozenten gewichtet. Bei anderen Suchdiensten stehen einfach ohne weitere Angaben die "besten" Treffer am Anfang. Die verschiedenen Hauptaspekte sind:

  1. Anzahl der übereinstimmenden Wörter Werden mehrere Suchworte verknüpft, so werden Ergebnisse, die alle oder viele der gesuchten Begriffe oder Phrasen enthalten, als relevanter eingestuft.
  2. Häufigkeit des Vorkommens von Suchbegriffen Je öfter das Suchwort im Dokument vorkommt, desto wichtiger wird es für den Gesamtinhalt des Dokumentes gewertet.
  3. .Domain und URL: Auf Systemen, die lange Dateinamen zulassen, werden Dokumente oft unter einem aussagekräftigen Namen gespeichert. Die Indexierungssoftware wertet das Dokument bei Übereinstimmung mit dem Suchwort als besonders relevant. Das gilt ganz besonders, wenn es sich um den Domainnamen handelt.
  4. Titel: Ein Dokument, mit dem Suchwort im Titel hat gute Chancen auf einen vorderen Platz.
  5. Überschrift: Enthält eine Überschrift das gesuchte Wort, befaßt sich das gesamte Dokument oder ein wesentlicher Teil damit.
  6. Meta-Tag: Die Maschinen, die den Meta-Tag auswerten, ordnen Dokumente, die den Begriff im Content- (Inhalt) oder Keywords (Schlüsselworte)-Tag führen, höher ein.
  7. Dokumentenanfang: Je früher das Wort im Dokument auftaucht, desto relevanter für das Suchergebnis wird es gewichtet.
  8. Bezahlung: Manche wenige Suchmaschinen setzen gegen Bezahlung bestimmte Links nach vorne.

Das Ranking grenzt zwar die Suchergebnisse ein, liefert aber dennoch in vielen Fällen eine unübersichtliche Anzahl von Treffern mit über 90-prozentiger Genauigkeit. Dabei ist allerdings keineswegs garantiert, daß die einzelnen Ergebnisse wirklich alle mit dem zu tun haben, was Sie suchen. Selbst bei einer Treffergenauigkeit von 99 Prozent kann es sein, daß es in der Fundstelle nicht wirklich um die Frage geht, auf die Sie eine Antwort suchen.

7.2 Erster Grundsatz beim Suchen

Die Recherche nur beginnen, wenn das Internet als richtiges Medium für die Suche in Frage kommt. Überlegtes Handeln und ein bißchen Organisation sind bei der Recherche im Internet die ersten Schritte zum Erfolg. Denn es gibt weder die eine Suchmaschine, die das ganze Internet erfaßt, noch die eine geniale Suchmethode, die immer funktioniert. Doch die erste Vorüberlegung, bevor man sich überhaupt an den Computer setzt, lautet: Ist das Internet überhaupt das am besten geeignete Medium zur Suche nach den gewünschten Auskünften? Als nächstes muß man sich Gedanken darum machen, was genau gesucht wird. Von der Antwort dieser durchaus nicht trivialen Frage hängt das weitere Vorgehen ab, und damit sind das Wo und das Wie der Suche vorgegeben. Leitkategorien lassen sich für eine grobe Gliederung heranziehen. Klar definieren, was gesucht wird:

7.3 Wann lohnt sich die Suche im Internet?

Eine Suche im Internet ist nicht immer von Erfolg gekrönt. Das allein wäre nicht so schlimm, aber zum Zeitpunkt dieser Erkenntnis ist oft bereits eine Menge wertvoller Zeit und Geld für Online- und Telekom-Gebühren vertan. Um solchen Ärgernissen zu entgehen, sollten Sie von vornherein überlegen, ob das Internet das richtige Medium für Ihre Recherche ist. Diese Rat mag zwar überflüssig erscheinen, doch es kommt immer wieder vor, daß man genau aus diesem Grund wertvolle Zeit vor dem Rechner vergeudet.

Während genau definierbare, thematisch gut abzugrenzende Begriffe relativ leicht zu finden sind, macht insbesondere die Suche nach komplexen Konzepten mit vielen thematischen Verknüpfungen sehr viel Mühe. Ein weitverzweigter Themenkomplex muß erst in einzelne Teilgebiete aufgebrochen werden, und dann muß jedes dieser Teilgebiete individuell nach passenden Dokumenten durchforstet werden. Um es kurz zu machen: Dieser Zeitaufwand lohnt sich im Normalfall nicht. Ziehen Sie in solchen Fällen lieber Kollegen, Experten oder Fachliteratur zu Rate. Tip für diesen Fall: Versuchen Sie Ihr Glück mit einer schnellen Anfrage, denn es gibt durchaus die Chance eines Zufallstreffers, aber lassen Sie sich nicht in eine lange, erfolglose Suche nach weitverzweigten Inhalten ein.

7.4 Suchmaschinen versus Verzeichnisse

Ein möglichst umfassender Nachweis von Web-Dokumenten ist über Suchmaschinen möglich, die in Einzelfällen bis zu 60 Mio. Web-Seiten nachweisen. Einfache Suchfragen, die aus ein oder zwei Suchbegriffen bestehen, führen hier aber i.d.R. bereits zu unübersichtlichen Treffermengen. Als grobe Regel gilt, daß Suchmaschinen erst bei Suchfragen mit drei oder mehr Suchbegriffen einigermaßen problemlos anwendbar sind. Sie sind deshalb vor allem für die Beantwortung spezieller Fragestellungen gut geeignet.

Wie verfährt man aber bei allgemeineren Fragestellungen? Bei einer gründlichen, umfassenden und aktuellen Suche wird man auch hier auf Suchmaschinen nicht verzichten können. Fast alle bieten sinnvolle Möglichkeiten der Einschränkung von Suchfragen. In vielen Fällen auch ausreichend ist die Heranziehung von Auswahlsammlungen oder 'Verzeichnissen', die intellektuell erstellt bzw. bearbeitet werden. Auch diese haben Nachteile: Ihre Aktualität läßt fast immer zu wünschen übrig. Obwohl die meisten von ihnen eine Abfrage nach Suchbegriffen zulassen, sind sie nur beschränkt über sog. "Meta-Suchmaschinen" gemeinsam recherchierbar. Schließlich ist auch die beste Auswahl dem Verwurf der Subjektivität ausgesetzt.

7.5 Suchmaschinen richtig bedienen

Suchmaschinen arbeiten aus Platzgründen mit Indizes, zerlegen also die Texte und Meta-Tags (vom Autor mitgelieferte Suchworte im Vorspann des Webangebotes) der in die Datenbank aufgenommenen Seiten in wenige, mehr oder minder relevante Stichworte. Wenn Sie zumindest eine teilweise Deckung mit einem dieser indizierten Stichworte bei der Suchanfrage erhalten, dann haben Sie einen Treffer gelandet. Je mehr Stichworte aus dem Index mit ihren Suchbegriffen übereinstimmen, um so wahrscheinlicher haben Sie eine inhaltlich passende Seite gefunden.

Um eine möglichst genaue Abfrage zu ermöglichen, erlauben viele Suchmaschinen sogenannte logische Operatoren, wie zum Beispiel UND, ODER bzw. NICHT. In den allermeisten Fällen werden nicht anders gekennzeichnete Wortfolgen als ODER-Verknüpfungen behandelt. Neben diesen Grundoperatoren bieten einzelne Suchmaschinen weitere Hilfsmittel, wie zum Beispiel das einem Wort vorangestellte '+' bei Fireball oder AltaVista, welches die Suchmaschine zwingt, nur Treffer zurückzuliefern, die diesen Begriff genau in dieser Form enthalten. Überlegen Sie sich Stichworte, die möglichst genau den Kern oder das Konzept des von Ihnen gesuchten Begriffes benennen. Falls Sie ausschließlich ODER-Verknüpfungen verwenden, sollten Sie die Suchbegriffe sehr penibel formulieren, zum Beispiel die genaue Typenbezeichnung eines Gerätes eintragen. ODER-Verknüpfungen sind vorteilhaft, wenn Sie nicht exakt wissen, wie die Antwort beschaffen sein soll. Dies trifft beispielsweise bei der Suche nach einem technologischen Konzept zu, dessen Elemente Sie zwar vage umschreiben können, dessen zentrale Fachbegriffe aber unbekannt sind.

7.6 So gehen Sie bei der Suche vor

Eine ausführliche Anleitung zur Internet-Recherche mit Hintergründen, Tips und vielen Links finden Sie unter http://www.netzmafia.de/skripten/suchen/.

Zum Inhaltsverzeichnis        Zum nächsten Abschnitt


Copyright © Prof. Jürgen Plate, Fachhochschule München