|
Nächste Seite: 3. Einführung in die Aufwärts: I. Der Untersuchungsbereich Vorherige Seite: I. Der Untersuchungsbereich   Inhalt
|
| (2.2) |
Somit sind alle, der in Definition 2.1 gestellten Forderungen erfüllt.
Mit den bisherigen Überlegungen ist es möglich den Informationgehalt
von einzelnen Nachrichtenelementen zu bestimmen. Die Entropie H stellt
dagegen den mittleren Informationsgehalt aller, mit einer
Symbolmenge2.1 darstellbaren, Nachrichten dar. Dazu muß
die Wahrscheinlichkeit des Auftretens jedes einzelnen Elementes
der Symbolmenge bekannt sein. Die Entropie wird über
das arithmetische Mittel aller Werte
gebildet, die mit der
Wahrscheinlichkeit ihres Vorkommens gewichtet sind [Herter1990].
Mit dieser Definition (Gleichung 2.3) kann gemessen werden, wieviel Information über eine gegebene Übertragungsstrecke übertragen werden kann. Es wird jedoch die Bedeutung der Nachricht für den Empfänger, z.B. eine Person, nicht berücksichtigt. Ob die Information inhaltlich wahr oder falsch, ob sie präzise, nützlich oder wertvoll ist, bleibt außer Betracht; z.B. kann mit Hilfe der Entropie der mittlere Informationsgehalt der Nachricht ,,1+1=2''gemessen werden. Voraussetzung dafür ist, daß die Wahrscheinlichkeit des Auftretens jedes einzelnen Zeichens bekannt ist. Doch enthält diese Nachricht für die meisten Empfänger keine Information, weil dieser Zusammenhang allgemein bekanntes Wissen darstellt. Diese Nachricht teilt uns nichts Neues, Unerwartetes mit. Diese Art der Definition von Information findet daher hauptsächlich in der Nachrichtentechnik ihre Anwendung [Meadow1992].
Eine viel weiterreichende, philosophische Definition kommt aus dem Bereich der Informationswissenschaft und ist im folgenden Abschnitt beschrieben.
2.1.2 Definitionen in der Informationswissenschaft
G. Wersig geht bei seiner Definition von einem Modell des Organismus aus, in dem der Organismus in seinem Inneren ein Arbeitsmodell der Außenwelt aufbaut. Die Außenwelt ist nach dieser Vorstellung für den ,,Organismus'' nicht unmittelbar zugänglich, sondern nur über ,,Perzeptoren'' (Sinnesorgane) erfaßbar, siehe Abbildung 2.1. Ein ,,internes Außenweltmodell'' im Organismus repräsentiert für diesen die ihn umgebende Realität. Wissen wird als die Struktur des internen Außenweltmodells definiert, Denken als Operation an diesem. Der Organismus befindet sich in einem Zustand der Ungewißheit, wenn er in einer bestimmten Lage über kein adäquates Programm zur Lösung der Situation verfügt. In diesem Fall muß er sein internes Außenweltmodell erst verändern, um auf die neue problematische Situation sinnvoll reagieren zu können. Dieser Prozeß wird als Denken bezeichnet. Anhand dieser Modellvorstellung lassen sich die folgenden Definitionen treffen [Wersig1971][Rauch1982]:
|
- Wissen ist die Struktur des internen Außenweltmodells.
- Ungewißheit besteht, wenn für eine problematische Situation kein Lösungsweg im internen Außenweltmodell vorliegt.
- Denken nennt man Operationen am internen Außenweltmodell.
- Redundanz ist Information, die keine Korrektur des internen Außenweltmodells mit sich bringt.
- Information ist die Reduktion von Ungewißheit.
Ausgehend von den in Abschnitt 2.1.1 und 2.1.2 vorgestellten Überlegungen werden im nachfolgenden Abschnitt für die Wissensverarbeitung notwendige Definitionen getroffen.
2.1.3 Definitionen in der Wissensverarbeitung
In der Wissensverarbeitung ist die Unterscheidung zwischen Begriffen Daten, Information und Wissen sehr wichtig. Diese Begriffe werden in der weiteren Arbeit wie folgt verwendet [Rauch1996][Meadow1992]:
- Daten:
- Eine Kette von elementaren Symbolen (z.B. Zeichen), die einem
bestimmen, vereinbarten Syntax folgen.
- Information:
- Daten welche eine Zustandsänderung im Empfängersystem (Computer, Mensch, usw.) hervorrufen. Mit dieser Definition sind auch folgende Eigenschaften verbunden:
- Information muß einen gewissen Neuigkeitswert haben.
- Information ist kontextabhängig; Was für eine Person Information darstellt, muß noch lange nicht für eine andere Person gelten.
- Information kann redundant sein und in bestimmten Fällen doch den Informationscharakter nicht verlieren, nämlich dann, wenn unsicheres vorhandenes Wissen bestätigt wird.
- Information kann zu Verunsicherung führen, insbesondere, wenn neue Informationen im Gegensatz zu bisher erworbenen Wissen stehen.
- Information ist zeitabhängig, das heißt, der Zeitpunkt zu dem ich eine Information erhalte, bestimmte deren Wert. Im Extremfall kann zu spät erworbenes Wissen damit seinen Informationscharakter verlieren, z.B. Börsennachrichten.
- Information ist ein immaterielles Gut und wird gehandelt. Es kann in Beschaffung, Nutzung und Weiterleitung Kosten verursachen.
- Information ist auch ein gesellschaftlicher Faktor. Insbesondere in demokratischen Systemen muß der Bürger die Möglichkeit haben, seine Interessen gut informiert zu vertreten. Nur wenn Information keinen ausschließlichen Warencharakter hat, können gesellschaftliche Entscheidungen für alle möglichst transparent und informationell abgesichert getroffen werden.
- Wissen:
- Wissen ist die in einem System (Computer, Mensch, Bibliothek, usw.) gespeicherte Information. Dabei kann Wissen folgende Eigenschaften besitzen:
- Wissen wird allgemein für wahr gehalten.
- Wissen kann falsch sein, z.B. Wissen, das durch falsche, irreführende Information entstanden ist.
- Allgemein für wahr gehaltenes Wissen kann sich als falsch herausstellen, z.B. das geozentrische Weltbild galt bis in das 16. Jahrhundert als allgemein anerkannt. Durch die Erkenntnisse von Kopernikus fand ein Paradigmenwechsel statt, seitdem wird das heliozentrische Weltbild allgemein anerkannt.
- Wissen kann Widersprüche enthalten, z.B. können in einem System zwei sich widersprechende Fakten gespeichert sein. Dieser Widerspruch tritt erst zu Tage, wenn zur Lösung eines Problems beide Fakten herangezogen werden.
Wissen kann somit als Informations-Ressource aufgefaßt werden. Abhängig von der Qualität der Systeme kann ein qualifizierteres System mehr Informationen aus einem Wissenspeicher extrahieren, als ein weniger Qualifiziertes. Ähnlich verhält es sich auch mit natürlichen Ressourcen, wie z.B. den Bodenschätzen. Unabhängig von der Qualifikation kann jeder Mensch ein Goldnugget als Wurfobjekt verwenden, jedoch nur der qualifizierte Goldschmied kann aus dem Edelmetall ein Schmuckstück erzeugen. Analog dazu muß ein System viele Qualifikationen besitzen, um aus Wissen, für das System wichtige Informationen zu extrahieren. Dieser Extraktionsvorgang stellt einen aktiven Prozeß dar. Ohne diesen Prozeß wird die Informations-Ressource Wissen nicht ausgeschöpft. Ohne diesen Prozeß bleibt ein Goldnugget ein Stein, bzw. ein Buch ein Dekorgegenstand.
Die in diesem Abschnitt getroffenen Definitionen für Daten, Information und Wissen sollen nun abschließend durch ein anschauliches Beispiel zusammengefaßt werden: Bei einer Fernsehübertragung werden die Daten entsprechend der PAL-Norm (Syntax) codiert und übertragen. Nur syntaktisch korrekt übertragene Daten können beim Empfänger ordnungsgemäß auf der Bildröhre dargestellt werden.
Der Zuschauer hat das Wissen , daß er die dargestellten Gegenstände und Personen als solche erkennt und die Sprache des Sprechers versteht. Ohne dieses Wissen wäre das Fernsehbild nur eine Anordnung farbiger, sich bewegender Punkte.
Erfährt der Zuseher z.B. in einer Sportsendung, daß sein Lieblingsverein das letzte Spiel gewonnen hat, so wird er sich freuen. Er hat die Information aufgenommen und danach gehandelt. Die Informationen über das Spiel sind in sein Wissen übergegangen. Läßt sich der Zuseher jedoch nur vom Fernsehen berauschen oder ist er nicht an Sport interessiert, so wird er sich kaum an die Ergebnisse erinnern und hat somit keine Information aufgenommen.
Bedeutung
Ein verwandter Begriff zu Daten, Wissen, Information und deren Eigenschaften, ist die Bedeutung. Mit Bedeutung ist die Aussage gemeint, für die ein Wort, ein Satz oder mehrere Sätze bis hin zu einem Buch stehen. Wie aus dem allgemeinen Sprachgebrauch bekannt ist, ist die Bedeutung eines Wortes oder eines Satzes nicht eindeutig. Die Richtige Interpretation der Aussage ,,Ich habe einen Virus.'' macht Wissen um den Kontext, in dem die Aussage gefallen ist notwendig. Darüberhinaus wird auch Wissen über die Verwendungsmöglichkeiten der einzelnen Worte benötigt, sowohl auf der Senderseite der Aussage, als auch auf der Empfängerseite. Das Wort ,,Virus'' im obigen Beispiel kann in diesem Zusammenhang für einen Computervirus oder für einen Krankheitserreger stehen. Die Wörter ,,Ich habe'' können im Zusammenhang mit dem Wort ,,Virus'' folgende Bedeutungen annehmen: ,,Ich habe'' kann sich auf meinen Computer beziehen, auf dem sich ein Virus befindet, auf meinen Körper, in dem er als Krankheitserreger auftritt oder auf ein Reagenzglas, in dem ich eine Virenkultur halte. [Meadow1992]
Somit ergibt sich für die Bedeutung folgende Definition:
Die Bedeutung ist die situationsabhängige Aussage einer Menge von Worten, die von den Worten selbst, dem Wissen des Senders und des Empfängers und der Beziehung der Worte zueinander abhängt.
Die Bedeutung spielt in der Wissensverarbeitung speziell auf dem Gebiet der Spracherkennung, der automatisierten Fremdsprachenübersetzung und in der Informations Extraction eine Rolle.
2.1.4 Versuch der Definition von Wissensverarbeitung
In der Literatur gibt es keine anerkannte Definition von Wissensverarbeitung. Um eine Vorstellung über den Begriff zu erhalten, soll hier der Versuch unternommen werden, Wissensverarbeitung zu definieren.
Abbildung 2.2 zeigt den Kreislauf der Transformation von Wissen in Information und umgekehrt. Darin steht Handeln für denken, logisches schießen und kommunizieren, durch das wir Informationen aus unserer Umgebung aufnehmen. Handeln steht aber auch für das Verhalten in problematischen, unbekannten Situationen, in denen ein System (Mensch, Computer, usw.) Informationen benötigt, um sinnvoll zu handeln.
Im Prozeß der Informationsverwaltung werden die Informationen für die dauerhafte Speicherung aufbereitet. Der Speicher kann einerseits ein herkömmlicher Wissensspeicher wie eine Bibliothek sein, aber auch das menschliche Hirn, eine Datenbank oder die Wissensbasis eines Computersystems [Rauch1996].
Im Prozeß der Informationserarbeitung wird aus dauerhaft gespeicherten Wissen, die für die Situation nötige handlungsrelevante Information gewonnen. Damit verbunden ist das Wiederauffinden, das Verstehen und das Interpretieren des gespeicherten Wissens [Rauch1996].
Definition Wissensverarbeitung:
Bei der Wissensverarbeitung handelt es sich um jene Wissenschaft, die sich mit der Beschleunigung, der Rationalisierung und Automatisierung der Transformation von Wissen in Information und umgekehrt, befaßt. Dabei werden einerseits Informationen aus der Umgebung exzerpiert und als Wissen gespeichert, andererseits werden aus gespeicherten Wissen Informationen gewonnen, um sinnvolles handeln und entscheiden zu ermöglichen.
Um dies zu erreichen bedient sich die Wissensverarbeitung der Methoden der künstlichen Intelligenz, der Heuristik und des Automatisieren Erkennens. Die künstliche Intelligenz (KI) befaßt sich mit der Simulation menschlicher Intelligenz. Einen genaueren Definitionsversuch und eine Einführung in die wichtigsten Techniken findet sich unter Kapitel 3. Unter Heuristik versteht man den Versuch, Techniken des menschlichen Problemlösens in der Programmierung umzusetzen. In Abschnitt 4.2 werden heuristische Suchmethoden in Graphen besprochen. Das automatisierte Erkennen befaßt sich mit der Bild- und Spracherkennung. [Kupka1997]
2.2 Wissensverbreitung
Die Wissensverbreitung erfolgt durch einen Kommunikationsprozeß zwischen dem Informationsproduzenten, dem Sender, und dem Informationsempfänger. Dieser Prozeß kann entweder direkt oder über den Umweg eines Speichers erfolgen. [Rauch1993]
2.2.1 ,,Sender - Kanal - Empfänger'' Schema
Bei dieser Art der Kommunikation müssen Sender und Empfänger zeitgleich miteinander in Verbindung stehen (siehe Abbildung 2.3). Bei dem Kanal kann es sich um ein direktes Gespräch, ein Telefonat, ein Chatt, eine Videokonferenz oder ähnliches handeln. Diese Art der Kommunikation zwischen dem Informationsproduzenten und dem Empfänger wird man in der Praxis recht selten antreffen. Viel häufiger tritt das ,,Sender - Speicher - Empfänger'' Schema auf. [Rauch1993]
2.2.2 ,,Sender - Speicher - Empfänger'' Schema
Dieses Schema erlaubt es, daß Sender und Empfänger nicht zeitgleich präsent sein müssen, ja einander nicht mehr zu kennen brauchen (siehe Abbildung 2.4). Der Sender produziert seine Dokumente2.2 für einen Speicher. Aus diesem Speicher können nun ein oder mehrere Empfänger, je nach Bedarf, Dokumente abrufen. Die Dokumente stellen somit die kleinsten Einheiten des Wissensspeichers dar. Diese Speicher müssen die einzelnen Dokumente in einer Form aufbewahren, die eine Speicherung über einen größeren Zeitraum gestattet und Möglichkeiten zur Verfügung stellen, gezielt nach bestimmten Dokumenten zu suchen. Beispiele für solche Speicher sind Bibliotheken, das Internet, die Massenmedien, der Buchhandel, usw. Die Kommunikation des Senders bzw. des Empfängers mit dem Speicher erfolgt über Netze. Bei den Netzen kann es sich um ein elektronisches Netz wie das Internet handeln, aber auch um herkömmliche Netze wie das Vertriebsnetz eines Verlages oder die Fernleihe der Universitätsbibliothek. [Rauch1993]
Der Nachteil dieses Schemas ist, daß der Sender den Empfänger im allgemeinen nicht mehr kennt und dadurch nicht auf seine speziellen Interessen, Wünsche und Kommunikationsmöglichkeiten eingehen kann. Der Sender muß sich vielmehr beim Erstellen eines Dokuments für eine Zielgruppe entscheiden und deren Vorwissen, Wortschatz und Bedürfnisse einschätzen. Dabei kann es zu großen Mißverständnissen kommen, z.B. eine Einführung in eine Textverarbeitung, die ständig unbekannte Fachbegriffe verwendet.
Der Empfänger ist in einer ähnlichen Situation. Er kennt im Normalfall den Produzenten eines Dokuments nicht. Es ist somit schwer für ihn zu beurteilen, von welcher Qualität, von welchem Niveau und für welche Zielgruppe ein Dokument geschrieben wurde.
Darum sollen die Speicher auch Informationen beinhalten, die es dem Empfänger ermöglichen, Dokumente hinsichtlich dieser Kriterien zu beurteilen. Ob und in welchem Ausmaß dies bei realisierten Speichern geschieht, wird in Kapitel 2.3 besprochen.
2.2.3 Publikationsformen
Im Sender-Speicher-Empfänger Schema, das in Abschnitt 2.2.2 besprochen wurde, nehmen die in Wissensspeichern gespeicherten Dokumente eine zentrale Rolle ein. Mit ihrer Hilfe wird zusammengehörendes Wissen in Einheiten gebündelt und dem Empfänger zugänglich gemacht. Wissenschaftliche Relevanz haben dabei nur Dokumente von hoher Qualität. Wie die Qualität von Dokumenten beurteilt wird, ist in den nachfolgenden Abschnitten beschreiben. Wissenschaftliche Journale, Tagungsbände (Proceedings) und Fachbücher stellen die Publikationsformen dar, die in der Wissenschaft die größte Bedeutung haben. Sie lassen sich gedruckt, elektronisch, z.B. auf CD-ROM, oder online, z.B. über das Internet oder Online-Datenbanken vertreiben. In den nachfolgenden Abschnitten werden die Schritte bis hin zur Veröffentlichung der einzelnen Publikationen erläutert.
2.2.3.1 Wissenschaftliche Journale und Tagungsbände
Wissenschaftliche Journale und Tagungsbände stellen Publikationsformen mit zwei verschiedenen Aufgabenbereichen dar. Wissenschaftliche Journale haben die Aufgabe die interessantesten und aktuellsten Arbeiten auf ihrem Fachgebiet zu veröffentlichen. In Tagungsbänden werden alle Referate, die im Zuge einer Tagung oder Konferenz vorgetragen wurden, veröffentlicht. Jedoch die typischen Schritte bis eine eingereichte Arbeit in einem Journal abgedruckt wird, bzw. für eine Tagung angenommen wird, sind identisch und sollen im folgenden beschrieben werden. Wie die Schritte im Detail aussehen, ist von Verlag zu Verlag, bzw. von Tagung zu Tagung verschieden. Bei der Beschreibung der Schritte wird hauptsächlich auf wissenschaftliche Journale eingegangen. [Grötschel1995]
Am Beginn steht der Abschluß der wissenschaftlichen Arbeit. Der Autor bzw. eine Autorengruppe bringen anschließend ihre Erkenntnisse zu Papier und senden dieses an einen Verlag. Dabei sind die Vorgaben des Verlages bezüglich der Länge, der Schriftgröße, dem Layout und andere Vorgaben zu beachten. Von einem Redakteur des Verlages wird das Papier (Paper) nun an mehrere Begutachter versandt. Die Begutachter (Referees) sind Wissenschaftler, die im gleichen oder einem ähnlichen Wissenschaftsgebiet arbeiten. Diese haben die Aufgabe, die vorgelegte Papers nach ihrer Qualität zu beurteilen und auf ihre inhaltliche Richtigkeit zu überprüfen. Sie geben in ihrer Stellungnahme bekannt, ob ein Paper mit leichten Änderungen angenommen wird, noch einmal überarbeitet werden muß oder grundsätzlich abgelehnt wird [Zimmer1998]; z.B. beim Journal of Universal Computer Science (J.UCS) wird ein eingereichtes Paper von drei Referees begutachtet. Damit ein Paper angenommen wird, müssen mindestens zwei Begutachter der Veröffentlichung zustimmen. [JUCS]
Nach der Begutachtung bekommt der Autor das Paper wieder zurück, um die geforderten Änderungen vorzunehmen. Das korrigierte Paper sendet der Autor nun wieder an den Verlag. Dieser prüft die Änderungen, unter Umständen wieder unter Zuhilfenahme der Referees, paßt das Layout noch nach seinen Richtlinien an und gibt das Dokument zum Druck frei. Nach dem Druck geht das Journal an die Bibliotheken, die es abonniert haben. Dieser ganze Prozeß, vom Abschluß der wissenschaftlichen Arbeit bis zu dem Zeitpunkt, zu dem andere Wissenschaftler den Artikel lesen und auf dieses Wissen aufbauen können, dauert zwischen drei Monaten und drei Jahren [Zimmer1998].
Dieser Prozeß ist sehr aufwendig und langwierig. Die Dauer des Prozesses ließe sich durch elektronische Fachjournale (E-Journale) stark reduzieren. Doch warum kommen E-Journale nur langsam auf? In der Arbeit von [Zimmer1998] werden dafür zwei Gründe genannt:
Erstens stellt ein Artikel in einem Fachjournal nicht nur gespeichertes Wissen dar, das an andere Forscher weitergegeben wird, sondern ist gleichzeitig eine Urkunde, die dem Wissenschaftler seine erbrachten Leistungen zuschreibt. Ab dem Zeitpunkt, ab dem eine Arbeit in einer Zeitschrift abgedruckt wurde, ist festgehalten, wann ein Forscher ein bestimmtes Forschungsergebnis erzielt hat. Erst dann ist es ,,zitierbar'' und kann als Grundlage für andere Wissenschaftler dienen. Welchen Arbeiten wirklich zitiert wurden, ist mit Hilfe des Citations Index, der in Abschnitt 2.4.2 besprochen wird, ersichtlich. In ihm ist vermerkt, wer einen Artikel zitiert hat und ihn somit als Grundlage für seine wissenschaftliche Arbeit verwendete.
Zweitens gibt es in jedem Fachgebiet eine ungeschriebene, aber jedem Forscher bewußte, Hierarchie der Zeitschriften. Damit ist es das Ziel eines Forschers möglichst in den meistbedeutendsten Fachjournalen seiner Fachrichtung zu publizieren, um einen internationalen Ruf zu erlangen und ihn zu erhalten. Die von den Begutachtern vorgenommene Auslese stellt einen notwendigen Filter dar, der je nach Prestige der Zeitschrift unterschiedlich streng ist. Erst durch diese Auslese kann sich der Leser auf die Qualität und Zuverlässigkeit des ihm vorliegenden Dokuments verlassen. Da, zum Zeitpunkt des Erstellens der vorliegenden Arbeit, die meistbedeutenden Zeitschriften in geduckter Form erscheinen, ist der Zustrom zu E-Journalen noch gering.
Die Schwerfälligkeit der gedruckten Journale verleiht ihnen einen gewissen Urkundencharakter. E-Journale habe hingegen den Vorteil schneller flexibler und kostengünstiger zu sein. Doch alles was im Internet gespeichert ist, kann verändert oder gelöschte werden. Es kann niemand sicher sein, daß er ein bestimmtes Dokument an einer bestimmen Stelle wiederfindet. Es kann der Host aufgelöst, die Seite verschoben oder gelöscht worden sein. Nie kann der Leser im Netz sicher sein, wer wirklich der Urheber eines Dokuments ist und ob es manipuliert oder gefälscht wurde. Ein elektronisches Dokument befindet sich ständig in einem Zustand der Diskussion. Irgendwann aber muß sich die Diskussion zu zitierbaren Ergebnissen verfestigen, auf die sich ein Forscher beziehen kann und die für Andere nachvollziehbar sind. Ein denkbarer Lösungsansatz für das Problem wäre die Speicherung der einzelnen Versionen eines Dokumentes. Dadurch würde sich die Änderungen und die Entwicklung eines Dokumentes nachvollziehen lassen. Einen anderen Lösungsansatz verfolgt z.B. der Springer Verlag, indem parallel zur gedruckten Auflage auch eine elektronische Online-Ausgabe des Journals herausgegeben wird. Damit wird auch die dauerhafte Archivierung der Dokumente sichergestellt. Der Verlag Elsevier2.3 hat auf diese Art über 1000 wissenschaftliche Journale online zugänglich gemacht. Der Springer Verlag2.4 plant bis zum Ende des Jahres 1999 sämtliche 400 Fachjournale des Hauses online zur Verfügung zu stellen. Verzeichnisse von Online-Journalen finden sich unter http://www.edoc.com/ejournal/ oder http://wuecon.wustl.edu/hyperjrn/director.htm.
Weitere Probleme die mit E-Journalen verbunden sind, sind rechtlicher Natur. Dürfen E-Journale kopiert werden? Dürfen sie im Universitätsnetzwerk zugängig gemacht werden? Ob und an wieviele Personen dürfen Benutzername und Paßwort weitergegeben werden? Nach welchem Modus werden die Kosten abgerechnet: pro Zugriff oder pro Abonnement? All diese Fragen beantworten die Verlagshäuser mit unterschiedlichen Lösungsansätzen.
Zum Zeitpunkt des Verfassens der vorliegenden Arbeit gibt es über 30002.5E-Journale, dem gegenüber stehen 900.000 Zeitschriftentiteln, die in der Deutschen Zeitschriftendatenbank erfaßt sind [ZDB1998]. Wie schnell die Anzahl der E-Journale weiter anwächst, ist stark damit verbunden, wie die rechtlichen Probleme und die Probleme mit der Beurkundung und der dauerhaften Archivierung gelöst werden.
Working Paper Archives
Einen anderen Ansatz bestreiten die Working Paper Archives (WPA). Sie bezeichnen sich selbst nicht als elektronische Journale. Diese Archive beruhen auf einer Idee des Hochenergiephysikers Paul Ginsparg2.6 (1991). In ihnen kann ein Forscher seine Preprints -- noch unbegutachtete Vorversionen von Veröffentlichungen -- im Internet zugänglich machen, noch bevor sie ein halbes Jahr oder noch später in einem referierten Journal abgedruckt werden. Dadurch wurde die Kommunikation auf dem Gebiet der Physik stark beschleunigt [Stix1998a]. Basierend auf dieser Idee wurden auch weitere Working Paper Archives eingerichtet, z.B. das Economics Working Paper Archives an der Washington University in St. Louis2.7. Seit August 1998 gibt es das Computing Research Repository2.8, ein WPA auf dem Gebiet der Informatik. Es bleibt jedoch die Frage offen, inwieweit diese Preprints als seriöse Quellen herangezogen und zitiert werden können. [Stix1998a]
2.2.3.2 Das Fachbuch
Während in einem wissenschaftlichen Journal die letzten Forschungsergebnisse stark komprimiert zusammengefaßt sind, sodaß sie oft ohne fundiertes Hintergrundwissen nicht verstanden werden können, umfassen Fachbücher ein größeres Teilgebiet eines Wissenschaftszweiges, das sie entsprechend der Zielgruppe inhaltlich aufbereiten. Auch hier sollen nur die typischen Schritte bis zur Veröffentlichung angeführt werden. Welche Schritte im Detail notwendig sind, ist von Verlag zu Verlag verschieden. [Ebel1998]
Am Anfang steht die Idee zu einem Buchthema. Der Autor arbeitet zunächst ein detailiertes Inhaltsverzeichnis aus und vermerkt bei jedem Kapitel, den geplanten Inhalt. Ein Beispielkapitel arbeitet der Autor vollständig aus. Dieses Konzept sendet er nun an mehrere Verlagshäuser. Die Idee zu einem Buch kann aber auch durch eine, schon bestehende Publikation wie z.B. eine Diplomarbeit, eine Dissertation oder ein Vorlesungsskriptum entstehen. In diesem Fall liegt ein fertiger Entwurf vor, den man an die Verlagshäuser schickt.
Der Verlag leitet das Manuskript weiter an mehrere Gutachter. Auf Grund der Stellungnahme der Gutachter, der ,,Blattlinie'' und Überlegungen zur eigenen Produktpalette entscheidet der Verlag, ob ein Manuskript angenommen wird. Wurde das Manuskript angenommen, beginnt ein Kommunikationsprozeß zwischen dem Verlag und dem Autor, der je nach Verlag von unterschiedlicher Intensität ist. Der Autor beginnt die Kapitel auszuarbeiten und sendet die fertigen an den Verlag. Dieser überprüft sie auf inhaltliche und formale Richtigkeit und sendet sie zur erneuten Korrektur an den Autor zurück. Welcher Aufwand in diesen Prozeß gesteckt wird, hängt unter anderem auch von der Intention ab, die mit diesem Buch verfolgt wird. Soll ein Buch z.B. für die nächsten 10 Jahre zum Standardwerk auf diesem Wissensgebiet werden, wird der Aufwand der in die Nachbearbeitung des Manuskripts gesteckt wird, entsprechend größer sein. Bevor ein Buch endgültig in den Druck geht, wird es nochmals von einem Lektor auf seine formale Richtigkeit überprüft. Dabei werden die verwendeten Zeichensätze, die Seitenumbrüche, das Inhaltsverzeichnis, usw. kontrolliert.
Elektronische Bücher sind im Internet heute kaum zu finden. Der Grund dafür ist in den hohen Kosten zu suchen, die der Publikationsprozeß verursacht und dem Problem, diese Kosten durch die Veröffentlichung im Internet zu decken. Ein weiterer Grund sind die Probleme die sich durch das Copyright ergeben. Die meisten Bücher die zur Zeit elektronisch abrufbar sind, wurden als Serviceleistung oder als Werbung für die gedruckte Ausgabe von den Verlagshäusern ins Internet gebracht.
Um die oben angeführten Probleme zu analysieren und Lösungsansätze zu finden, wurde von der Europäischen Kommission das LIBERATION2.9 Projekt ins Leben gerufen. Ziel des Projekts ist es, einen Prototypen einer innovativen digitalen Bibliothek zu erstellen, die den Anforderungen der Verlagshäuser und der Benutzer entgegenkommt, den Prototypen zu analysieren und Schlüsse für künftige Arbeiten zu ziehen. Projektkoordinator ist das Institut für Informationsverarbeitung und Computerunterstützte neue Medien Graz (IICM2.10) [Stubenrauch1998].
In dem auf Hyperwave2.11 basierenden Prototypen sind zum Zeitpunkt des Verfassens der vorliegenden Arbeit ca. 60 Arbeiten mit insgesamt ca. 200.000 Einzelseiten gespeichert. Trotz der direkten Beteiligung von drei großen Verlagshäusern (Springer, Addison-Wesley, BIFAB) war es schwer, umfassende qualitativ hochwertige Inhalte für das LIBERATION-Projekt zu erhalten. Ein Ergebnis des Projekts ist, daß die Zukunft des online zugänglichen elektronischen Fachbuchs davon abhängt, daß zusätzlich zu den bereits im Projekt implementierten Methoden, von Verlagshäusern und Bibliotheken neue Methoden ausgearbeitet werden, wie die Zugriffe auf die Werke verrechnet werden können. [Stubenrauch1998]
2.3 Wissensspeicher
Wie in Abschnitt 2.2.2 erklärt, stellen Wissensspeicher das zentrale Glied in der Verbindung zwischen dem Informationssender und dem Empfänger dar. Ihnen kommt die Aufgabe zu, jedem Benutzer, egal ob Mensch oder Maschine, das gewünschte Wissen zur Verfügung zu stellen. Dabei haben Menschen und Maschinen unterschiedliche Möglichkeiten und Anforderungen was die Suche und die Darstellung des geforderten Wissens betrifft.
2.3.1 Arten von Wissensspeichern
Eine Art Wissensspeicher zu unterscheiden ist nach der Art ihres Zugangs. Beim Internet oder bei Datenbanken z.B. erfolgt der Zugang elektronisch, bei Bibliotheken durch entlehnen eines Werkes, usw.
Eine andere, für die Wissensverarbeitung viel wichtigere Unterscheidung zwischen Wissensspeichern, ist die Art, in der das Wissen in den Dokumenten gespeichert ist. Da früher die Menschen die einzigen Systeme waren, die Wissen verarbeitet haben, sind bis heute die meisten Dokumente, in einer für den Menschen lesbaren Form, gespeichert. Durch das Aufkommen der Wissensverarbeitung wird es aber notwendig, die Anforderungen und Fähigkeiten des Computers bei der Wissensspeicherung zu berücksichtigen. Es genügt nicht alleine Dokumente in elektronischer Form abzuspeichern, sondern es müssen zusätzliche Informationen gespeichert werden, die das automatisierte verarbeiten und erschließen der Dokumente ermöglichen. Diese Tatsache wird bis jetzt im World Wide Web zu wenig berücksichtigt. Ora Lassila faßt dies in folgender Aussage zusammen:
,,The Web was built for human consumption, and although everything on the Web is machine-readable, it ist not machine-understandable. This makes it very hard to automate anything on the Web and -- because of the sheer volume of information -- impossible to manage manually.'' [Lassila1998]
Welche Möglichkeiten existieren nun, um Wissen in Dokumenten zu speichern? Die älteste und somit am weitesten verbreitete Möglichkeit ist die analoge Speicherung, wie z.B. auf Papier, Fotos, Tonbandaufnahmen oder Filmen. Diese Dokumente sind für Computer nicht zugänglich. Erst nach der Digitalisierung können sie in einem Computer gespeichert werden. Das Wissen, das in diesen Dokumenten steckt, ist jedoch für einen Computer nur schwer zugänglich, z.B. über eine Schrifertkennung. Erst dann liegt ein Dokument in seinen elementaren Symbolen2.12 vor. Heute werden die meisten Dokumente direkt in dieser Form am Computer erstellt. Ein Beispiel dafür ist eine ASCII-Datei die mit einem Texteditor erstellt wurde. Sie liegen daher unmittelbar, ohne Nachbearbeitung, in elementaren Symbolen vor. Bei dieser Art der Speicherung sind alle Symbole gleichwertig. Dies stellt bei der Suche in Dokumenten ein großes Problem dar. So kann z.B. für ein Textdokument nur eine Volltextsuche realisiert werden. Man erhält durch eine Suche nach einem Begriff alle Dokumente, in denen dieser Begriff auftritt. Wie jeder aus persönlicher Erfahrung weiß, kann diese Treffermenge sehr groß sein. Zudem können die gefundene Dokumente aus verschiedenen Wissenschaftsgebieten stammen, in denen der gesuchte Begriff in einem unterschiedlichen Kontext vorkommen kann. [Lassila1998]
Um dieses Problem in den Griff zu bekommen, erweist es sich als sinnvoll, spezielle Attribute des Dokumentes getrennt zu speichern, z.B. den Autor, das Erstellungsdatum, das Thema, den Titel, usw. Die zusätzlich gespeicherten Informationen werden Metadaten genannt. Damit sind nicht mehr alle Symbole gleichwertig und eine Suche nach bestimmten Attributen wird möglich. Ein Beispiel für die Speicherung von Metadaten sind die Bibliothekskataloge, siehe Abschnitt 2.4.1. Durch sie wird es möglich nach bestimmten Attributen im Bibliotheksbestand zu suchen. Auch beim Internet geht der Trend dazu, zusätzlich in den Dokumenten, Metadaten abzuspeichern. Unter HTML kann dies mit Hilfe der Meta-Tags, bei Hyperwave mit Hilfe der Attribute geschehen. Um zu allen Webresourcen Metadaten speichern zu können, hat das W3C2.13 das Resource Description Framework (RDF) ausgearbeitet. Es befindet sich zum Zeipunkt des Verfassens dieser Arbeit noch im Diskussionsstadium. Mit Hilfe des RDF ist es möglich zu jeder Webresource Metadaten zu speichern. Es ist sogar möglich Abhängigkeiten von Metadaten untereinander darzustellen [Lassila1997]. Dadurch wird es möglich eine Suche auf bestimmte Attribute der Dokumente einzuschränken.
Eine Anwendung für Metadaten stellt das Projekt der IEEE Learning Object Metadata (LOM) Workinggroup2.14dar. Ziel der LOM-Arbeitsgruppe ist es einen Standard zu schaffen, um elektronisch unterstützte Unterrichtsmaterialien und Software mit Metadaten zu beschreiben. Dabei wird Augenmerk darauf gelegt, mit einer minimalen Anzahl von Attributen die Unterrichtsmaterialien managebar, wiederauffindbar und evaluierbar zu machen. In LOM werden nicht nur die bibliographischen Daten wie Autor, Titel, Sprache usw. gespeichert, sondern auch pädagogische Attribute wie Art der Interaktion, die Lernmethode, das Leistungsniveau, das erforderliche Vorwissen, usw. Erst die ausführliche Beschreibung der Unterrichtsmaterialien mit Metadaten ermöglicht es dem Lehrer als auch dem Lernenden die passenden Unterrichtsmaterialien aufzufinden, zu beurteilen und somit effektiv einzusetzen. Darüber hinaus wird es möglich, mit der Hilfe von Software-Agenten, wie sie in Abschnitt 10 vorgestellt werden, automatisiert und dynamisch individuelle Lerneinheiten erstellen zu lassen. [LOM1998]
Um jedoch das gesamte in einem Dokument gespeicherte Wissen dem Computer zugänglich zu machen, muß man auf spezielle Wissensrepräsentationen der künstlichen Intelligenz zurückgreifen. Diese sind für den Menschen meist nur unter Zuhilfenahme von speziellen Hilfsprogrammen lesbar. Diese Repräsentationen werden in Abschnitt 3.2 vorgestellt.
Aufgrund der vorangegangenen Überlegungen kann man folgende Arten von Wissensspeichern unterscheiden:
- Human readable, nicht digital verfügbar: Alle Analogen Speicher, wie Papier, Fotos, Tonbandaufnahmen, Filme, usw.
- Human readable, digital verfügbar: Digitalisierte Fotos und Texte oder Audio-CDs.
- Human readable, aus elementaren Symbolen: Die Dokumente sind in ihren elementaren Symbolen digital gespeichert, z.B. ASCII-Text, MIDI oder Vektorgrafik.
- Human readable, mit Metadaten: Zusätzlich zum Text sind noch weitere Informationen, wie der Autor, das Erstellungsdatum, usw. gespeichert.
- Machine understandable: Wissensspeicher wie sie in der künstlichen Intelligenz verwendet werden.
Die beiden letzten Speicherarten haben in der Wissensverarbeitung die größte Bedeutung. So wird z.B. durch die Speicherung von Metadaten die effektive Suche mit intelligenten Software Agenten ermöglicht. Die Techniken die diese Software Agenten benutzen, sind in Kapitel 10 beschrieben. Die Maschinen verständliche Art der Wissensspeicherung stellt die Grundlage für die künstliche Intelligenz dar. Die dabei verwendeten Wissensrepräsentationen werden in Abschnitt 3.2 vorgestellt.
2.4 Wissenswiederauffindung
Wie beim Sender-Speicher-Empfänger Schema aus Abschnitt 2.2.2 angeführt, müssen Wissensspeicher Möglichkeiten zur Verfügung stellen, gezielt nach bestimmten Informationen zu suchen. Ausgehend von den historisch gewachsenen Techniken der Bibliothekslehre, werden in diesem Abschnitt die Techniken moderner Internet-Suchdienste beleuchtet.
|
Es gibt zwei meßbare Kriterien für die Qualität von Suchhilfen in Wissensspeichern, den Recall und die Precision. In Abbildung 2.5 ist die Bedeutung der beiden Begriffe veranschaulicht, die folgendermaßen definiert sind []:
| (2.4) |
| (2.5) |
Dabei gibt der Recall an, wieviel Prozent aller relevanten Dokumente gefunden wurden. Die Precision gibt an, wieviel Prozent der gefundenen Dokumente relevant waren. Qualitativ hochwertige Suchhilfen zeichnen sich dadurch aus, daß sie für einen bestimmten Recall eine höhere Precision besitzen als schlechte. Dieser Zusammenhang zwischen Recall und Precision ist in Abbildung 2.6 dargestellt.
|
Abhängig von der gesuchten Information kommt dem Recall und der Precision ein unterschiedlicher Stellenwert zu. Dies soll anhand des nachfolgenden Beispiels erläutert werden. Will man wissen, wie hoch der Mount Everest ist, so reicht es aus ein Dokument zu finden, das die gewünschten Informationen enthält. Um dieses Informationsproblem zu lösen, ist eine hohe Precision gefordert. Der Recall dabei ist vernachlässigbar. Will man aber eine Arbeit über die Geschichte der Höhenmessung des Mount Everest schreiben, wird man an möglichst vielen Dokumenten interessiert sein und in Kauf nehmen müssen, daß einige Dokumente nicht die gewünschten Informationen enthalten. In diesem Fall sollte der Recall möglichst hoch sein, um sicher zu gehen, daß keine wesentlichen Dokumente übersehen werden. []
2.4.1 Bibliothekskataloge
Bibliotheken sind wohl die Wissensspeicher mit der längsten Tradition. In dieser langen Entwicklungsgeschichte haben sich bestimmte Techniken herausentwickelt, die in weitergeführter Form auch bei Internet-Suchdiensten zu finden sind. Daher ist es sinnvoll, einige Begriffe der Bibliothekswissenschaft zu betrachten [Hacker1992] [Rauch1993]:
- Stichwort:
- Dem Wortlaut eines Dokuments zum Zwecke der Kennzeichnung des Inhalts unverändert entnommene Benennung.
- Schlagwort:
- Zum Zweck der Kennzeichnung des Inhaltes eines Dokuments in die dafür vorgesehene Informationskategorie aufgenommene Benennung. Ein Schlagwort muß nicht im Titel oder im Text des Dokuments vorkommen.
- Freies Schlagwort:
- Schlagwort, das nicht einer vereinbarten und kontrollierten Liste von Schlagworten angehört.
- Gebundenes Schlagwort:
- Schlagwort, das einer Liste vereinbarter und kontrollierter Schlagwörter entnommen worden ist.
- Klassifizieren:
- Ein Klassifizierungs-System entsteht durch den mehrfach nacheinander durchgeführten Prozeß der Untergliederung. Dabei wird gleiches oder ähnliches zusammengefaßt. Um eine Klasse in weitere Unterklassen zu zerteilen, muß pro Teilungsschritt ein zusätzliches unterscheidendes Merkmal herangezogen werden. So enthält jedes Element einer untergeordneten Klasse alle Merkmale der Elemente der übergeordneten Klasse plus ein weiteres Merkmal. Beim Klassifizieren ordnet man ein Dokument einer bestimmten Klasse mit Dokumenten gleichen Inhalts zu. Ein Beispiel für ein Klassifizierungssystem ist das ACM Computing Classification System2.15, welches das Wissensgebiet Informatik in einer Klassenhierarchie ordnet.
- Indexieren:
- Kennzeichnen des Inhalts eines Dokuments durch Zuordnung von Stich- oder Schlagwörter.
Um das Wissen, das in Bibliotheken gespeichert ist, möglichst einfach zugänglich zu machen, wird der Bestand nach unterschiedlichen Gesichtspunkten durch Kataloge erschlossen. Früher gab es eine Unterscheidung zwischen den einzelnen Katalogen, die durch die Einführung des online Katalogs (Online Public Access Catalog, OPAC) verschwunden ist [Hacker1992] [Rauch1993].
- Der Alphabetische Katalog verzeichnet die in der Bibliothek vorhandenen Bücher nach formalen Gesichtspunkten in alphabetischer Reihenfolge. Die formalen Elemente sind vor allem der Verfassername und der Sachtitel. Mit Hilfe dieses Kataloges kann die Frage beantwortet werden, ob die Bibliothek ein bestimmtes Buch, dessen wichtigste Daten bekannt sind, besitzt.
- Der Schlagwortkatalog ist ein Sachkatalog, der den Bibliotheksbestand unter Schlagwörtern verzeichnet, die aus dem Inhalt der Bücher gewonnen werden. Der Schlagwortkatalog eignet sich besonders zur raschen Orientierung über die Literatur zu einem bestimmten, begrenzten Thema.
- Beim Online Katalog sind die wichtigsten Daten zu jedem Werk in einer Datenbank gespeichert, die nach unterschiedlichen, auch verknüpften Kriterien durchsucht werden kann.
Bei der Katalogisierung müssen die Bibliotheken sich strickt an bestimmte Regeln halten, z.B. die alphabetische Behandlung von Umlauten und Sonderzeichen oder das ignorieren führender Artikel im Buchtitel beim Einordnen in den Katalog (,,Das verschwinden der Kindheit'' steht unter ,,V'').
Hinsichtlich der Qualität, des Niveaus oder der Zielgruppe eines Werkes werden in den Katalogen keine Angaben geführt. Es bleibt also dem Benutzer überlassen aufgrund seiner Erfahrung, dem Buchtitel und dem Verlag auf die persönliche Relevanz zu schließen. Im Zweifelsfall wird man sich das Werk ausleihen und selbst beurteilen müssen.
2.4.2 Citations Index
Der Citations Index hilft bei einem Problem, mit dem man bei jeder wissenschaftlichen Recherche zu tun hat. Sucht man zu einem Dokument weiterführende Literatur oder Wissenschaftler und Institutionen die sich auch mit diesem Thema befassen, so erhält man durch die Literaturhinweise nur Quellen die zeitlich vor dem aktuellem Dokument verfaßt wurden. Man hat auf diese Weise keine Möglichkeit weiterführende aktuelle Literatur zu diesem Thema zu finden [Rauch1993].
Ausgangspunkt für den Citations Index ist die Überlegung, daß wissenschaftliche Autoren in der Regel jene Arbeiten zitieren, deren Gedanken und Ergebnisse sie verwenden, weiterentwickeln oder falsifizieren. Im Citations Index findet man also zu einem Werk jene Dokumente, in denen das Werk zitiert wurde. Er stellt hiermit Beziehungen zwischen einer dem Leser bereits bekannten Veröffentlichung und neueren Arbeiten, in denen diese Veröffentlichung zitiert worden ist, her. So ist es möglich, ausgehend von einer bestimmten Veröffentlichung neuere Arbeiten ausfindig zu manchen, die thematisch verwandt sind.
Der Citation Index wird vom Institute for Scientific Information2.16, Philadelphia herausgegeben und erscheint in drei Ausgaben, dem Science Citation Index, dem Social Science Citation Index und dem Arts & Humanities Citation Index. Der Aufbau aller drei Kataloge ist annähernd gleich und besteht aus folgenden Teilen [Rauch1993]:
- Citation Index:
- Verzeichnet die zitierten Arbeiten und gibt an, wo und von wem sie zitiert wurden. Eine Altersbeschränkung für die aufgenommenen zitierten Arbeiten gibt es nicht.
- Source Index:
- Enthält die vollständigen bibliographischen Angaben aller im Citation Index aufgenommenen Werke, alphabetisch nach Autoren oder Herausgebern geordnet.
- Permuterm Index:
- Ein alphabetisch nach Stichwörtern geordneter Index. Die Stichwörter werden aus Paaren von jeweils zwei sinntragenden Wörtern des Titels oder des Untertitels gebildet.
- Corporate Index:
- Verzeichnet die Veröffentlichungen nach der Institutsanschrift des erstgenannten Autors. Der Corporate Index ist eine geografischen Auflistung die nach Organisationen unterteilt ist. Mit seiner Hilfe ist es möglich, Veröffentlichungen aus einer bestimmten Universität ausfindig zu machen.
- Relatet Records:
- Hilft bei der Suche nach verwandten Arbeiten, auch wenn diese sich nicht gegenseitig zitieren. Im diesem Index sind zu allen Arbeiten Verweise auf jene Arbeiten gespeichert, die mindestens zwei gleiche Quellen zitieren.
Der Science Citation Index (SCI) z.B. ist ein interdisziplinärer Index zur Zeitschriftenliteratur der Naturwissenschaften. Er deckt etwa 3.500 Zeitschriften aus 160 Fachgebieten ab. Im SCI wird jeder Artikel und signifikante Beitrag aus den vollständig abgedeckten Zeitschriften indiziert. Neben den bibliographischen Angaben enthält jeder Datensatz die Bibliographie des Dokuments. Dadurch wird die Suche nach zitierten Autoren, Patenten oder Artikeln ermöglicht. Zudem ist es erlaubt, zu einem Dokument andere Datensätze zu suchen, die auf gleiche Quellen wie das Ursprungsdokument verweisen. Ab dem Jahrgang 1994 wird das Dokument zusätzlich beschlagwortet und, wo im Original vorhanden, der englischsprachige Abstract2.17aufgenommen.
Der Citations Index wird auch dazu verwendet, um Wissenschaftler oder Institutionen zu bewerten. Maßgebend ist hier wie oft deren Publikationen, bzw. die Publikationen einer Institution zitiert wurden [Zimmer1998].
2.4.3 Suchdienste
Das Internet stellt den zur Zeit am schnellsten wachsenden Wissensspeicher dar. Die Dokumente, die auf Web-Servern gespeichert sind, definden sich in ständiger Veränderung. Sie werden veröffentlicht, modifiziert, verschoben und wieder gelöscht. Es existiert keine ,,zentrale Instanz'' die diese laufenden Veränderungen registriert. Gerade diese Tatsachen machen es unmöglich, manuell einen Katalog, ähnlich dem Online-Katalog bei Bibliotheken zu erstellen. Da es manuell nicht möglich ist, das gespeicherte Wissen durch eine Suchhilfe zu erschließen, muß diese automatisiert mit der Hilfe von Computern erzeugt werden. Rechner die eine solche Suchhilfe erstellen und diese dem Internet-Benutzer zur Verfügung stellen, werden als Suchdienste bezeichnet [Sander1998] und lassen sich wie folgt einteilen [Neussl1998]:
- Singuläre Suchdienste
- Indexsuchdienste mit vollautomatischer Auffindung
- Volltext- und reduzierter Volltextindex
AltaVista http://www.altavista.com/ HotBot http://www.hotbot.com/ Harvest http://harvest.austria.eu.net/ - Schlüsselwörter und Metadaten
Magellan http://www.mckinley.com/ WWW-Worm http://www.cs.colorado.edu/wwww/
- Volltext- und reduzierter Volltextindex
- Katalogdienste
Yahoo http://www.yahoo.com/ Web.de http://www.web.de/ Dino.online http://www.dino-online.de/ Henkel http://www.henkel.co.at/henkel/ha_www_1.html
- Indexsuchdienste mit vollautomatischer Auffindung
- Metasuchdienst und Kombinationen
- Metasuchdienst durch Nutzung mehrerer Suchdienste
MetaCrawler http://metacrawler.cs.washington.edu:8080/ IBM infoMarket http://infomarket.ibm.com/ Inference Find http://www.inference.com:8080/ - Zusammenfassung mehrerer Katalogsuchdienste
Metaindex European Web http://www.hj.se/hs/bibl/miewww/ - Kombination von Index- und Katalogsuchdiensten
Lycos http://www.lycos.com/
- Metasuchdienst durch Nutzung mehrerer Suchdienste
Singuläre Suchdienste
Bei singulären Suchdiensten kann man zwei Arten unterscheiden, die indexierenden und die klassifizierenden Suchdienste. Beide unterscheiden sich grundsätzlich in der Art, in der sie den Wissensspeicher Internet erschließen. Die indexierenden Suchmaschinen bedienen sich der Hilfe eines Web-Crawlers, einem Programm, das jeder dem System bekannten Internet-Adresse folgt, die Seite lädt, den darin enthaltenen Text volltextindexiert und nach weiteren Internet-Adressen durchsucht. Auf diese Weise erstellt die Suchmaschine einen Index, der von ihr untersuchten Web-Seiten. Manche Suchdienste berücksichtigen dabei auch Meta-Daten und Strukurinformationen, die in den HTML-Seiten enthalten sind. Bei einer Suchanfrage wird mit Hilfe des Index, eine Liste mit den relevanten Seiten generiert und an den Benutzer übermittelt. Beispiele für solche Suchmaschinen sind AltaVista, Hotbot, usw.
Katalogdienste bauen auf eine Klassenhierarchie auf. Jedes neue Dokument wird durch klassifizieren, wie in Abschnitt 2.4.1 beschrieben, einer Klasse von Dokumenten gleichen Inhalts zugeordnet. Die Suche in diesen Systemen erfolgt durch Navigation in der Klassenhierarchie. Ein Beispiel für eine solche Suchmaschine ist Yahoo.
Meta-Suchdienste
Zum Zeitpunkt des Erstellens der vorliegenden Arbeit existieren über 1400 Suchdienste im Internet; eine Auflistung findet man beim Suchdienst Yahoo2.18. Diese Suchdienste haben die Aufgabe, den Inhalt von über 800 Millionen indizierbaren Internetseiten zu erschließen. Doch wie eine Studie von NEC-Forschungsinstitut2.19 in Priston zeigt, erschließt jede Suchmaschine nur einen Bruchteil des vorhandenen Informationsangebots. Quantitative Angaben darüber, wieviel Prozent der Internetseiten ein Suchdienst erfaßt, ist aus Tabelle 2.1 ersichtlich. Will man somit einen umfassenden Überblick über ein Themengebiet im Internet erhalten, reicht es nicht aus, nur einen Suchdienst zu verwenden. [SEW1999]
|
An dieser Stelle haken die Meta-Suchdienste ein. Damit der Benutzer nicht mehrere Suchdienste von Hand durchsuchen muß, erledigt das ein Meta-Suchdienst für ihn. Der Benutzer gibt die Suchbegriffe in die Meta-Maschine ein. Diese gibt die Begriffe parallel an mehrere singuläre Suchdienste weiter. Aus den Ergebnissen werden doppelte Treffer eliminiert und die verbleibenden in einer einheitlichen Form an den Benutzer weitergegeben. Beispiele für solche Suchdienste sind MetaCrawler, Highway61, usw [Sander1998].
Multimedia Suche
Die bisher vorgestellten Suchdienste können dem Benutzer beim Auffinden gesuchter Textstellen helfen. Beim Internet handelt es sich aber um ein multimediales Medium. In den Dokumenten können neben Text auch Bilder, Musik, Videos, 3D-Modelle, usw. enthalten sein. Sucht man z.B. nach einem Bild der Französischen Fahne, so wird man diese mit den obigen Suchdiensten unter dem Begriff ,,Trikolore'' nur dann finden, wenn der Begriff im Filenamen der Grafik vorkommt, auf der Seite aufscheint, auf der das Bild abgebildet ist oder im Link-Text enthalten ist, der auf die Grafik verweist. Wünschenwert wäre also ein Suchdienst, bei der man die Suche nicht als Text eingibt, sondern skizziert, wie das gesuchte Bild aussehen soll [Stix1998b].
Einen Ansatz zur Lösung dieses Problems stellt der Suchdienst WebSEEK2.20 dar. Es wurde an der New Yorker Columbia-University entwickelt. WebSEEK sendet einen Web-Crawler aus, der die Internetseiten nach Grafiken und Videos durchsucht. Aus deren Namen versucht es Informationen zum dargestellten Inhalt zu extrahieren. Anschließend überprüft WebSEEK welche Farben in einem Bild wo vorkommen. Daraus lassen sich Rückschlüsse auf die Art des Bildes wie Grafik, Foto, Schwarzweiß- oder Graubilder ziehen. Anhand dieser Informationen werden die Bilder in Klassen eingeordnet. Die Suche erfolgt demnach nicht nach einem Suchbegriff, sondern durch Navigation durch die Klassenhierarchie. Informationen aus Videosequenzen extrahiert das Programm aus Einzelbildern. Insgesamt hat WebSEEK mehr als 660 000 Internet-Bilder auf diese Weise indiziert [Stix1998b].
Eine Suche mit WebSEEK kann wie folgt aussehen: In diesem Beispiel soll nach einem Foto gesucht werden, auf dem eine schwarze Katze abgebildet ist. Zuerst wird man die Klasse ,,Animal'', weiters die Klasse ,,Cat'' auswählen. WebSEEK präsentiert dann eine Auswahl an Bildern mit Katzen. Da wir ein Bild einer schwarzen Katze suchen, wählen wir ein Ikon, auf dem eine solche abgebildet ist. Damit engen wir die Suche auf Bilder ein, die eine ähnliches Farbprofil haben. Somit werden fast nur mehr schwarze Katzen angezeigt. Es ist jedoch möglich, daß z.B. ein schwarzer Polster angezeigt wird. Der Benutzer kann die Suche weiter verfeinern, indem er im Suchmuster bestimmte Farben ausschließt oder hinzufügt [Stix1998b].
Ein leistungsfähigeres Programm zum durchsuchen von Bild-Datenbanken stellt das Programm Query by Image Content (QBIC) von IBM dar. QBIC liefert bessere Suchresultate als WebSEEK, da es nicht nur die Farbverteilung beurteilt, sondern beurteilt auch die Struktur nach mehreren Kriterien, wie Kontrast (etwa das Schwarzweiß von Zebrastreifen), Körnigkeit (Kieselsteine/Sand) und Ausrichtung (parallele Zaunlatten/rotationsymetrische Blütenblätter). QBIC kann sogar einfache Formen erkennen. So ist es möglich, nach einer grünen Fläche mit einem rosa Punkt zu suchen. Als Ergebnis erhält man rote Blüten auf grünem Hintergrund oder Bilder auf denen eine ähnliche Form dargestellt ist, siehe Abbildung 2.7 [Stix1998b]. Unter der Internet-Adresse http://wwwqbic.almaden.ibm.com/ finden sich drei interessante Demo-Applikationen.
|
All diese Programme beruhen ausschließlich auf dem Vergleich visueller Merkmale. Sie benötigen immer noch einen menschlichen Begutachter, um entscheiden zu können, ob es sich z.B. bei dem Bild um eine Katze oder um einen Polster handelt.
Ein Programm das selbst entscheidet, ob es sich bei der Abbildung um eine nackte Person handelt oder nicht, wurde von Margaret M. Fleck von der Universität von Iowa in Iowa City und David A. Forsyth von der Universität von Kalifornien in Berkeley entwickelt [Fleck1996]. Ein bearbeitetes Bild wird zunächst von einem Skin-Filter untersucht. Bilder in denen keine hautfarbenen Elemente vorkommen, werden hier ausgeschieden. Im nächsten Schritt wird überprüft, ob die hautfarbenen Stellen der zylindrischen Form von Armen und Beinen entsprechen. Ob es sich dabei wirklich um eine Extremität handelt, kontrolliert der Algorithmus durch die Suche nach weiteren solchen Formen, die in bestimmten Winkeln zu den bereits identifizierten stehen müssen. Bei Tests hat dieses System von 4854 vorgelegten Testbildern 43 Prozent richtig als nackte Personen erkannt. Im Gegentest mit 4289 Abbildungen von bekleideten Personen wurden nur 4 Prozent fälschlicher Weise als nackt bewertet.
2.5 Informationsflut
Der Beginn des Kapitels beschäftigte sich damit, was Wissen ist, später wie es verbreitet und gespeichert werden kann. An dieser Stelle soll anhand der Bibliotheken und des Internets beleuchtet werden, wie schnell das ,,Wissen der Menschheit'' wächst.
In Bibliotheken ist nicht nur das Wissen unserer Generation gespeichert, sondern auch das Wissen aller Generationen vor uns, sofern dieses aufgezeichnet und nicht durch Verfall, Krieg oder Zensur vernichtet wurde. Dieses gespeicherte Wissen wächst wie Kapital, mit Zins und Zinseszinsen exponentiell. So leben z.B. 90 Prozent aller Wissenschaftler, die jemals gelebt haben, heute. Die Aussage trifft nicht nur auf die heutige Situation zu, sondern galt auch schon vor einhundert oder zweihundert Jahren [Rauch1994]. Dieses rasante Wachstum wird auch augenscheinlich, wenn man die ,,Verdoppelungszeit'' des Wissens betrachtet. Die Verdoppelungszeit des Wissens beträgt 10 Jahre, berücksichtigt man alle wissenschaftlichen Publikationen, 15 Jahre, bei einer engeren Auslegung und 20 Jahre, wenn man nur Publikationen höchster Qualität berücksichtigt [Rauch1994]. Das bedeutet die Verdoppelungszeit des Wissens liegt unter der halben Schaffenszeit einer Wissenschaftler-Generation [Tröger1998].
|
Auch das Internet als moderne Methode Wissen zu speichern und zu verbreiten, weist enorme Wachstumsraten auf. Dies ist jedoch nicht nur auf die wissenschaftliche Tätigkeit des Menschen zurückzuführen, sondern beruht auch darauf, daß die Wirtschaft das Internet als Werbeträger und Vertriebsmöglichkeit erkannt hat. Laut einer Untersuchung von Alexa Internet2.21 wächst das Internet täglich um 1,5 Millionen Seiten [Alexa1998]. Dies spiegelt sich auch in der weltweiten Entwicklung der Anzahl der Hosts wieder. Abbildung 2.8 zeigt dieses exponentielle Wachstum.
Noch vor 300 Jahren, als z.B. Gottfried Wilhelm Leibniz als Philosoph, Bibliothekar und Universalgelehrter tätig war, basierte der wissenschaftliche Gedankenaustausch aus einem regen direkten Briefwechsel unter den Wissenschaftlern, an dem sich fast alle Gelehrten Europas beteiligten. Die geometrische Zunahme der Zahl der Wissenschaftler und Gelehrten und ihr Interesse an einem öffentlichen Gedankenaustausch führte Ende des 17. Jahrhunderts zur Gründung der ersten wissenschaftlichen Zeitschriften [Hauffe1997]. Die Anzahl dieser Zeitschriften ist bis heute auf über 900.000 Zeitschriftentiteln, die in der Deutschen Zeitschriftendatenbank erfaßt sind, angewachsen [ZDB1998]. Wenn man bedenkt, daß ein Wissenschaftler im Durchschnitt 100 Quellen durchforsten muß, bevor er eine für ihn relevante findet, so kommt man auf eine Zahl von 10 000 Quellen die ein Wissenschaftler in einem Jahr sichtet, weil sie ihm relevant erscheinen, um die 100 Arbeiten zu finden, die er eingehender studiert [Umstätter1998].
Die obigen Beispiele sollen aufzeigen, welche Probleme durch die steigende Informationsmenge auf die Menschen zukommen. Manuell ist diese gewaltigen Datenmenge nicht mehr zu bewältigen, daher wird zunehmend an Techniken gearbeitet, die es erlauben, den Computer für diese Aufgabe heranzuziehen. Um dies bewältigen zu können müssen sich Computer intelligent verhalten. Wie dieses intelligente Verhalten definiert ist, und mit Hilfe welcher Techniken diese ,,künstliche Intelligenz'' am Computer umgesetzt wird, soll im nächsten Kapitel besprochen werden.
Nächste Seite: 3. Einführung in die Aufwärts: I. Der Untersuchungsbereich Vorherige Seite: I. Der Untersuchungsbereich   Inhalt Gerald Reif
2000-02-01
