Berlin-Brandenburgische Akademie der
Wissenschaften (BBAW), Berlin, 05. und 06.04.2016
Schon die
Anzahl der wissenschaftlichen Forschungsergebnisse, die jedes Jahr veröffentlicht
werden ist schier unüberschaubar. Eine inhaltliche, nach Zusammenhängen
suchende Analyse erscheint daher erst einmal unmöglich. Wie man diese
gewaltigen Datenmengen durchaus erschließen kann, das war Thema eines Workshops
in der Berlin-Brandenburgischen Akademie der Wissenschaften.
„FORSCHUNGSDATEN IN BESTER LAGE - Nutzungsszenarienund Perspektiven digitaler Forschungsinfrastrukturen.“ Der
Titel versprach Humor. Und der war gefragt.
Will man Daten, also z. B. Forschungsergebnisse oder auch nur E-Mail-Daten
erfassen, so unterscheidet man schlicht zwischen Inhalt und formaler
Beschreibung. In der Analogie kann man sich einen Brief vorstellen (Inhalt),
der in einem Briefumschlag (formale Beschreibung auch Metadaten genannt) steckt.
Gerade die Metadaten erlauben es, Inhalte sauber zu adressieren
oder zu speichern. Sie entsprechen quasi der Signatur, die es ermöglicht, Bücher in Bibliotheken
systematisch erfassen, verstauen und wiederfinden zu können.
Die drei größten Parlamentsbibliotheken der Welt befinden sich in
Washington, Tokio und Berlin. Wer jemals Gelegenheit hatte, dort hinter die
Kulissen zu schauen, der erlebte, was logistischer Aufwand bedeuten
kann. Und wer während seines Studiums in einer Uni-Bibliothek verzweifelt nach
einem Buch suchte, welches laut Computer im Regal xyz in Reihung 5599 hätte stehen
müssen, der kann erahnen, dass Aufwand sich immer mit Fehlerquellen
paart.
Gerade in
der digitalen Welt werden der Probleme nicht weniger.
Forschungsergebnisse stehen zunächst in unterschiedlicher Form zur
Verfügung. Es kann sich um statistische Daten handeln, die in SQL-Datenbanken
abgelegt sind. Es kann um Texte gehen (z. B. Doktorarbeiten), die im
HTML-Format zugänglich sind. Ergebnisse können aber auch auf andere Weise
digital erfasst sein. Ein Text kann schlicht als Ergebnis eines Scanvorgangs
als Bilddatei vorliegen.
Eine Reihe
erhellender Pilot-Studien vom uclab.fh-potsdam.de! Graphisch
schön. Der Nutzen für Nutzer zeigt sich nicht unbedingt:
"Blogger-Screenshot" (Quelle: uclab.fh-potsdam.de) |
Man kann sehr wohl davon ausgehen, dass im Bereich der Wissenschaften
alle Daten mit Metadaten versehen werden, die der Systematik dienen. Nicht
zwingend vorgeschrieben bleibt, ob dabei
standardisierte Verfahren verwendet werden. Somit sind Strukturen unterschiedlichster
„Metadaten-Ausprägungen“ prinzipiell unterschiedlich.
Versuche, unterschiedliche digitale Wissensdatenbanken zu verknüpfen und
zur Verfügung zu stellen, gleichen daher ansatzweise dem Versuch, die
unterschiedlichen Systematiken der Parlamentsbibliotheken von Washington, Tokio
bzw. Berlin mit denen in Sanaa, Sucre oder Yamoussoukro über ein gemeinsames
Ausleihesystem in Verbindung zu bringen.
Nur bedeutet die Inventarisierung von Forschungsergebnissen in digitaler
Form, dass alleine eine systematische statistische Erfassung solcher
Datenbanksysteme (Repositorien)
dazu führt, dass man sich sofort mit einer nur amorph vergleichbaren Zahl von
ca. 2.000 Wissenszugangssystemen konfrontiert sieht. Eine wissenschaftlich
gehaltvolle Analyse verbleibt dann ob des Aufwands in einem statistischen
Schwarz-Weiß („ist institutionell oder halt nicht organisiert“).
Gerade am zweiten Tag des Workshops wurden Piloten und Projekte
vorgestellt, die klar vor Augen führten, dass der Visualisierung zu selten
Aufmerksamkeit geschenkt wird. Insbesondere wird zu wenig Augenmerk auf
Sichtweise und Blickwinkel der Nutzer gelegt. Es ist z. B. anzustreben, dass
Bibliothekare jede Fascette einer Signatur verstehen. Der Nutzer sollte aber
ebenfalls in der Lage sein, „seine relevanten“ Bücher zu finden.
Das Beispiel
prometheus sieht auf den ersten Blick „nur“ gut gemacht aus. Die vorgenommenen
Indizierungen und Algorithmiken sind sehr ansprechend:
"Blogger-Screenshot - Das prometheus-Bildarchiv" (Quelle: http://www.prometheus-bildarchiv.de/) |
Irritierend bleibt ein zaghafter Querverweis. Wer die Publikationen über
das Agieren des Geheimdienstes NSA mit allen E-Mail-Daten auf diesem
Planeten (und deren Verknüpfung mit möglichst allen anderen Internetdaten)
verfolgt hat, der kennt die durch Snowdon geleakten Oberflächen der
Tools, die in der Welt der Geheimdienste aktuell sind. So schlecht sind deren
Zugänge zu „digitalen Wissensspeichern“ nicht.
Good old „XKeyscore“ ist hier angesagt!
Und verständlich wird es, warum es manchmal Jahre braucht, bis
Journalisten oder Citizen Scientists aus den Abertausenden von Dokumenten, die
WikiLeaks zugespielt werden, erstaunliche Ergebnisse veröffentlichen können.
Das wird
auch im Bereich der Panama-Papiere
so sein! Die BBAW sollte ein DFG-Forschungsprojekt beantragen, um geleakte
Datensammlungen systematisch erfassen und präsentieren zu können!
Keine Kommentare:
Kommentar veröffentlichen