
|
|
Nur 0,2 Prozent des Web bekannt
(Meldung von PC-Welt vom 28.7.2000)
Nur 0,2 Prozent des Internets werden von herkömmlichen Suchmaschinen erfasst. Zu
diesem Ergebnis kommt eine Studie der Firma SearchEngineWatch.com. Der größte Teil der online verfügbaren
Information liegt demnach in dynamischen Seiten und Datenbanken, die durch reine
Indexsuche nicht erfasst werden können. Dieser Bereich des Web wird als
"Unsichtbares Web" oder "Tiefes Web" bezeichnet, im Gegensatz zum
sichtbaren, oberflächlichen Web. Die Datenmenge im tiefen Web wird auf 7500 Terabyte
geschätzt.
Die neue Tiefensuchmaschine "Lexibot"
will diese verborgenen Daten zugänglich machen. Sie spricht 22.000 Datenbanken per
Suchabfrage an, und soll ihr Suchgebiet auf 100.000 Datenbanken ausdehnen.
Die Software für Lexibot ist allerdings nicht kostenlos, weshalb sich der Suchdienst
vor allem an Wissenschaftler richtet. "Das ist nichts für Oma, die nach Rezepten
für Schokokekse sucht", so Thane Paulsen, Generaldirektor von BrightPlanet, die
Lexibot anbietet. Die dreißigtägige Testphase ist allerdings kostenlos. Eine typische
Suchanfrage dauert zwischen 10 und 25 Minuten.
|
2.115.638.000 Seiten am 10.7.2000 im Internet
(Meldung vom 11.7.2000)
Nach einer Studie des amerikanischen Online-Marktforschers Cyveillance besteht das Internet aus
mehr als zwei Milliarden statischen Seiten und wächst jeden Tag um weitere sieben
Millionen. Sollte das Netz weiterwachsen wie bisher, prophezeien die Marktforscher, dass
sich schon Anfang 2001 der Umfang des Internets auf über vier Mrd. Seiten verdoppelt.
Cyveillance geht davon aus, dass die höchsten Wachstumsraten noch lange nicht erreicht
sind.
Laut Cyveillance ist das Internet US-amerikanisch dominiert. Knapp 85 Prozent der Sites
stammen aus den USA, der Rest kommt aus anderen Ländern. Am 10. Juli befanden sich laut
Cyveillance-Webwatch 2.115.638.000 Seiten im Internet.
|
Suchmaschinen versagen: Studie zählt 800 Mio.
Webseiten
(Meldung von Hightext vom 12.7.1999)
Alle Internet-Suchmaschinen hinken der Entwicklung des Web hinterher. Zu diesem
Ergebnis kommt eine Studie der Wissenschafts-Zeitschrift 'Nature'. Keine
Suchmaschine katalogisiere mehr als 16 Prozent des Webs, heißt es. Noch vor
anderthalb Jahren hatte eine ähnliche Untersuchung bessere Such-Ergebnisse dokumentiert.
Damals deckten die besten Suchmaschinen 33 Prozent des Internets ab.
Die beste Suchmaschine, Northern
Light erreicht eine Trefferquote von 16 Prozent. Dich auf den Fersen: Snap and Altavista. Hotbot, die bei der letzten Untersuchung auf 34 Prozent
kam, rutsche auf einen Wert von nur noch elf Prozent.
Die Studie kam zu dem Ergebnis, daß es inzwischen durchschnittlich mehr als ein halbes
Jahr dauert, bis eine Website von einem Crawler indiziert wird. Die Autoren schätzen,
daß im Februar das durchsuchbare Web aus etwa 800 Millionen Seiten mit mehr als sechs
Trillionen Zeichen besteht. Die Untersuchung im Dezember 1997 kam auf 320 Millionen.Zum
Vergleich: Die US-Kongreßbibliothek mit ihren rund 800 Kilometern Buchrücken besteht aus
20 Trillionen Zeichen.
Die Studie wurde von den Informatik-Wissenscjhaftlern Steve Lawrence und C. Lee Giles
am NEC Research Institute in Princeton, N.J. durchgeführt.
|
Das gezähmte Netz
(Meldung der Science New vom 2.5.1998)
Einem Team von Forschern der Cornell Universität (www.cornell.edu ) und das Almaden
Forschungszentrums von IBM (http://www.ibm.com)
ist es gelungen, eine Methode zu entwickeln, mit der die Anzahl von Antworten auf eine
Internet-Suchanfrage beschränkt werden kann; das neue Verfahren stützt sich bei der
Suche nicht, wie bisher üblich, auf Wörter im Text, sondern auf sogenannte Hotlinks.
Diese Verweise zwischen Internet-Seiten stellen "genau die Art menschlicher Bewertung
dar, die wir brauchen, um geeignete Quellen zu finden, die sich auf die Suchbegriffe
beziehen", sagte Jon Kleinberg von der Cornell Universität. Sein Programm führt
zunächst eine normale textbasierte Suche durch, die dann um diejenigen Internet-Seiten
erweitert wird, auf die die gefundenen Seiten verweisen. Anschließend wertet das Programm
unabhängig vom Text die Links aus und sortiert die Seiten anhand der Häufigkeit von
Links, die auf die jeweilige Seite verweisen oder auf der jeweiligen Seite vorhanden sind.
Nach mehreren Suchdurchgängen werden die Ergebnisse zu einer Liste der wesentlichen
Informationsquellen zum gesuchten Thema zusammengefaßt. IBM hat den zugrundeliegenden
Algorithmus zum Patent angemeldet.
|
Schlechte Noten für
Suchmaschinen
(Meldung der PC-WELT von
7.4.1998)
Ohne die nützlichen Suchmaschinen wie Lycos, Yahoo oder Altavista bliebe manche
Information im Internet unauffindbar. Eine amerikanische Studie hat jetzt aber ermittelt,
daß diese Suchdienste nicht besonders effektiv arbeiten. Die beiden Forscher Steve
Lawrence und Lee Giles des NEC Research Institute ermittelten in Ihrer Studie, daß auf
einzelne Suchmaschinen allein kein Verlaß ist, wenn's um die vollständige Erfassung
aller Dokumente zu einem Thema geht. Die Forscher gehen davon aus, daß mittlerweile rund
320 Millionen Seiten im WWW veröffentlicht sind. Die einzelnen Suchmaschinen decken aber
nur drei (Lycos) bis 34 (Hotbot) Prozent dieser Informationen ab. Der Einsatz von
Meta-Suchmaschinen, zum Beispiel Metacrawler, erhöht die Effizienz beim Aufstöbern der
gesuchten Informationen erheblich: www.metacrawler.com. |
(zurück) zum Glossar: 
|

Bestellungen aus
Deutschland werden
von unserem Partner
AMAZON.de
versandkostenfrei
und ohne
Mindestbestellwert
bearbeitet!
Noch mehr
ausgewählte Bücher
gibt es bei
BAUBUCH.de. |
|
 |
Site-Promotion.
Werbung auf dem WWW
Andreas Werner2000. Taschenbuch. 204 Seiten
dpunkt.verlag; ISBN: 3932588525
Preis: DM 69,00 (EUR 35,27)
Da hat man eine halbe Ewigkeit mit Konzeption und Fertigstellung seiner Homepage
verbracht, das Ergebnis stolz ins Netz gestellt - aber dann wollen sich die Besucher
einfach nicht einstellen. SITE PROMOTION erklaert auf knapp 200 Seiten, wie man die Zahl
der Klicks erhoeht: Von Metaindices und Suchmaschinen-Eintraegen ueber Mailinglisten bis
hin zur Bannerwerbung. |
Web Promotion
Professionelle Werbung im Internet. Midas Management
Martin Bürlimann
Taschenbuch, 256 Seiten (), Midas Verlag; ISBN: 3907100077
Preis: DM 68,00 (EUR 34,76) |