Mittwoch, 6. April 2016

Wie man Forschungsergebnisse schön finden kann



Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), Berlin, 05. und 06.04.2016 



Schon die Anzahl der wissenschaftlichen Forschungsergebnisse, die jedes Jahr veröffentlicht werden ist schier unüberschaubar. Eine inhaltliche, nach Zusammenhängen suchende Analyse erscheint daher erst einmal unmöglich. Wie man diese gewaltigen Datenmengen durchaus erschließen kann, das war Thema eines Workshops in der Berlin-Brandenburgischen Akademie der Wissenschaften.


Will man Daten, also z. B. Forschungsergebnisse oder auch nur E-Mail-Daten erfassen, so unterscheidet man schlicht zwischen Inhalt und formaler Beschreibung. In der Analogie kann man sich einen Brief vorstellen (Inhalt), der in einem Briefumschlag (formale Beschreibung auch Metadaten genannt) steckt.

Gerade die Metadaten erlauben es, Inhalte sauber zu adressieren oder zu speichern. Sie entsprechen quasi der Signatur, die es ermöglicht, Bücher in Bibliotheken systematisch erfassen, verstauen und wiederfinden zu können.

Die drei größten Parlamentsbibliotheken der Welt befinden sich in Washington, Tokio und Berlin. Wer jemals Gelegenheit hatte, dort hinter die Kulissen zu schauen, der erlebte, was logistischer Aufwand bedeuten kann. Und wer während seines Studiums in einer Uni-Bibliothek verzweifelt nach einem Buch suchte, welches laut Computer im Regal xyz in Reihung 5599 hätte stehen müssen, der kann erahnen, dass Aufwand sich immer mit Fehlerquellen paart.

Gerade in der digitalen Welt werden der Probleme nicht weniger.

Forschungsergebnisse stehen zunächst in unterschiedlicher Form zur Verfügung. Es kann sich um statistische Daten handeln, die in SQL-Datenbanken abgelegt sind. Es kann um Texte gehen (z. B. Doktorarbeiten), die im HTML-Format zugänglich sind. Ergebnisse können aber auch auf andere Weise digital erfasst sein. Ein Text kann schlicht als Ergebnis eines Scanvorgangs als Bilddatei vorliegen. 

Eine Reihe erhellender Pilot-Studien vom uclab.fh-potsdam.de! Graphisch schön. Der Nutzen für Nutzer zeigt sich nicht unbedingt:

"Blogger-Screenshot" (Quelle: uclab.fh-potsdam.de)

Man kann sehr wohl davon ausgehen, dass im Bereich der Wissenschaften alle Daten mit Metadaten versehen werden, die der Systematik dienen. Nicht zwingend vorgeschrieben  bleibt, ob dabei standardisierte Verfahren verwendet werden. Somit sind Strukturen unterschiedlichster „Metadaten-Ausprägungen“ prinzipiell unterschiedlich.

Versuche, unterschiedliche digitale Wissensdatenbanken zu verknüpfen und zur Verfügung zu stellen, gleichen daher ansatzweise dem Versuch, die unterschiedlichen Systematiken der Parlamentsbibliotheken von Washington, Tokio bzw. Berlin mit denen in Sanaa, Sucre oder Yamoussoukro über ein gemeinsames Ausleihesystem in Verbindung zu bringen.

Nur bedeutet die Inventarisierung von Forschungsergebnissen in digitaler Form, dass alleine eine systematische statistische Erfassung solcher Datenbanksysteme (Repositorien) dazu führt, dass man sich sofort mit einer nur amorph vergleichbaren Zahl von ca. 2.000 Wissenszugangssystemen konfrontiert sieht. Eine wissenschaftlich gehaltvolle Analyse verbleibt dann ob des Aufwands in einem statistischen Schwarz-Weiß („ist institutionell oder halt nicht organisiert“).

Gerade am zweiten Tag des Workshops wurden Piloten und Projekte vorgestellt, die klar vor Augen führten, dass der Visualisierung zu selten Aufmerksamkeit geschenkt wird. Insbesondere wird zu wenig Augenmerk auf Sichtweise und Blickwinkel der Nutzer gelegt. Es ist z. B. anzustreben, dass Bibliothekare jede Fascette einer Signatur verstehen. Der Nutzer sollte aber ebenfalls in der Lage sein, „seine relevanten“ Bücher zu finden. 


Das Beispiel prometheus sieht auf den ersten Blick „nur“ gut gemacht aus. Die vorgenommenen Indizierungen und Algorithmiken sind sehr ansprechend:


"Blogger-Screenshot - Das prometheus-Bildarchiv" (Quelle: http://www.prometheus-bildarchiv.de/)

Irritierend bleibt ein zaghafter Querverweis. Wer die Publikationen über das Agieren des Geheimdienstes NSA mit allen E-Mail-Daten auf diesem Planeten (und deren Verknüpfung mit möglichst allen anderen Internetdaten) verfolgt hat, der kennt die durch Snowdon geleakten Oberflächen der Tools, die in der Welt der Geheimdienste aktuell sind. So schlecht sind deren Zugänge zu „digitalen Wissensspeichern“ nicht. 


Good old „XKeyscore ist hier angesagt!



Und verständlich wird es, warum es manchmal Jahre braucht, bis Journalisten oder Citizen Scientists aus den Abertausenden von Dokumenten, die WikiLeaks zugespielt werden, erstaunliche Ergebnisse veröffentlichen können.

Das wird auch im Bereich der Panama-Papiere so sein! Die BBAW sollte ein DFG-Forschungsprojekt beantragen, um geleakte Datensammlungen systematisch erfassen und präsentieren zu können!

Keine Kommentare: