Potentialbereich, gefördert durch die Forschungsinitiative Rheinland-Pfalz
Data Science ist ein interdisziplinäres Gebiet, das wissenschaftliche Methoden, Prozesse, Algorithmen und Systeme verwendet, um Wissen aus und Einsichten in Daten zu gewinnen, die in unterschiedlichen Formaten vorliegen. Kennzeichnend für das Gebiet ist einerseits die hohe Signifikanz, die es aufweist. Aufgrund der gewonnenen Resultate werden zahlreiche wichtige Entscheidungen getroffen, die den einzelnen oder die Gesellschaft als Ganzes betreffen: Diagnosen, Therapien, Kreditentscheidungen, Raumplanungen, etc. Andererseits ist Data Science charakterisiert durch die iterative und empirischheuristische Vorgehensweise, mittels derer Wissen extrahiert und Entscheidungen abgeleitet werden. Was typischerweise zu kurz kommt, ist eine systematische, ingenieurorientierte Vorgehensweise, die Aussagen über die Qualität der Datenanalyse erlaubt.
Die Korrektheit von Softwaresystemen wird heute durch methodisches Vorgehen und formale Werkzeuge unterstützt oder gar bewiesen. Für Data Science und daraus entstehende datenintensive Software fehlt aber ein entsprechendes Inventar an Methoden, Prozessen, Algorithmen und Systemen, die zur Korrektheit beitragen. Insbesondere lässt sich auch nicht ohne weiteres "korrektes Verhalten" eines datenintensiven Systems beschreiben, denn das Ergebnis ist nicht vorherbestimmt und soll erst durch den Datenanalyseprozess gewonnen werden.
Das Ziel dieses Forschungsschwerpunktes ist es, methodische Vorgehensweisen und formale Werkzeuge zu erforschen, die die ingenieurmäßigen Entwicklung korrekter - oder zumindest vertrauenswürdiger - datenintensiver Software unterstützen. Dieses Ziel wird in verschiedenen Teilprojekten verfolgt, in einer Data-Science-Entwicklungsumgebung wie Jupyter implementiert, und in Anwendungsgebieten evaluiert werden.
Das Projekt beschäftigt sich mit den wissenschaftlichen Fragestellungen in Hinblick auf die Vertrauenswürdigkeit von Datenanalyse-Prozessen und ihrer Ergebnisse, die sich vor, zwischen und nach den einzelnen Phasen des Prozesses stellen. Vertrauenswürdige Daten-intensive Software muss demnach verschiedene Aspekte des Datenanalyse-Proezesses berücksichtigen. Diese werden in verschiedenen Teilprojekten untersucht: