Framework für die Evaluierung im Design Science Research - Eine Anleitung für die Gestaltung der Evaluierung von Artefakten

Aufgabenstellung

Der erste Teil unserer Aufgabenstellung beschäftigte sich mit der Zusammenfassung der Motivation und Zielsetzung der Evaluierung im DSR. Diesbezüglich haben wir Faktoren herausgearbeitet, welche verdeutlichen wieso Evaluierung unabdingbar ist. Ein weiterer Teil der Aufgabe bestand darin, die Unterschiede zwischen ex-ante-Evaluierung und ex-post-Evaluierung zu verdeutlichen und verschiedene Evaluationsstrategien gegenüberzustellen. Die Gegenüberstellung von ex-ante und ex-post-Evaluierung erfolgen in tabellarischer Form, während die verschiedenen Evaluationsstrategien sowohl in tabellarischer Form als auch in einem Koordinatensystem dargestellt sind. Darüber hinaus war es gefordert, den Prozess für die Wahl einer Evaluierungsstrategie zu erläutern. Die vorgestellten Inhalte sollten anhand eines einheitlichen Beispiels aus der Software-Entwicklung veranschaulicht werden. Abschließend erfolgte eine kritische Auseinandersetzung zu den vermittelten Sachverhalten.

Motivation: 

Die Evaluierung von Artefakten im Design Science Research hat eine hohe Bedeutung. Es können sechs Kernaspekte genannt werden. Zunächst einmal dient es der Bestimmung in welchem Umfang die hervorgegangenen Artefakte einem vorgesehenen Zweck dienen oder diesen erfüllen (Zweckerfüllung). Ein weiterer Punkt ist, dass durch die Evaluierung nachgewiesen werden kann, dass ein Artefakt aus einer Theorie hervorgeht und dieses Artefakt zur Lösung oder Verbesserung eines Problems führt (Problemlösung). In diesem Zusammenhang kann auch der nächste Punkt genannt werden, denn ein weiter Aspekt welche die Evaluierung notwendig macht ist, dass Artefakte miteinander verglichen werden können (Vergleich). Auf diese Weise ist es möglich zu sehen, ob ein Artefakt, im Vergleich zu anderen Artefakten, Verbesserungen der aktuellen Situation bringt oder nicht. Ebenfalls wichtig ist die Evaluierung, um die Nützlichkeit eines Artefaktes zu demonstrieren. Nützlichkeit wird hier als ein Zusammenspiel mehrere Faktoren angesehen (Nützlichkeit). Zu diesen Faktoren zählen Qualität, Effizienz und Performanz. Aus diesen Faktoren ergibt sich, ob ein Artefakt als nützlich angesehen werden kann oder nicht. Beispielsweise würden schlechten Performanz und schlechte Qualität eines Artefaktes nicht dazu beitragen, dass man dieses als nützlich bezeichnet. Diese Nützlichkeit gilt es durch gründlich durchgeführte Methoden zu beweisen und in diesem Bereich ist hier die Evaluierung zuzuordnen. Evaluierung ist ebenfalls wichtig, wenn es darum geht unerwünschte Auswirkungen von Artefakten zu untersuchen (unerwünschte Auswirkungen). Durch die angewendeten Methoden der Evaluierung kann sichergestellt werden, dass keine unbekannten oder unerwünschten Nebenwirkungen auftreten. Darüber hinaus eignet sich die Evaluierung hervorragend um zu bestimmen aus welchen Gründen ein Artefakt funktioniert oder nicht fungiert. Hier steht also die Erkenntnisgewinnung über wesentliche Merkmale des Artefaktes im Vordergrund (Erkenntnisgewinnung).  

Zentrale Untersuchungsergebnisse: 

Gegenüberstellung ex-ante und ex-post-Evaluierung: Der Hauptunterschied bei der Evaluierung befindet sich in der Ex-ante- und Ex-post-Evaluierung. Die Unterscheidung dieser zwei Vorgehensweisen basiert auf den Zeitpunkt zu welchem die Evaluierung erfolgt. 

Ex-ante-Evaluierung wird vor Erzeugung bzw. Instanziierung von Artefakten durchgeführt. Das bedeutet, dass es sich um eine Evaluierung mit vorrauschauendem Charakter handelt, da vor der Instanziierung geklärt wird, ob eine Instanziierung erfolgen sollte oder nicht. Dies kann bei der Entscheidung helfen, ob eine Technologie entwickelt wird oder nicht. Im Rahmen von DSR stellt Ex-ante Modelle für die theoretische Evaluierung eines Designs ohne Bedarf der Implementierung des Systems oder der Technologie zur Verfügung. D.h. dass das Artefakt auf Basis seiner Anforderungen an das Design evaluiert wird. Ex-post- Evaluierung ist demnach geeignet, um Schätzungen über zukünftige Situationen zu ermöglichen. Ex-post-Evaluierung hingegen beschreibt die Evaluierung nach der Instanziierung. Hierbei handelt es sich also um eine nachträgliche Evaluierung. Das bedeutet, dass der Wert des Artefaktes, sowohl in finanzieller als auch nicht-finanzieller Hinsicht, bestimmt werden kann. In Bezug auf den Zeitpunkt nehmen Ex-ante- und Ex-post-Evaluierungen die beiden Extreme eines Evaluierungskontinuums ein.
Eine Ex-ante-Evaluierung bezieht sich auf potentielle Systeme oder Technologien, bevor sie, erworben, implementiert, entworfen oder entwickelt werden. Eine Ex-post-Evaluierung bezieht sich auf ein ausgewähltes und entwickeltes System oder eine Technologie, nachdem es erworben, entworfen, implementiert oder umgesetzt worden ist.

Formative Evaluierungen werden verwendet, um empirisch begründete Interpretationen zu erstellen, die eine Grundlage von Verbesserungsmaßnahmen für den Evaluierungsgegenstand bereitstellen. Die setzen den Fokus auf die Ergebnisse und unterstützen die Entscheidungen, die den Evaluierungsgengestand verbessern würden.
Inzwischen werden auch Summative Evaluierungen verwendet, um empirisch begründete Interpretationen zu erstellen, die eine Grundlage von gemeinsamer Bedeutung über den Evaluierungsgegenstand im Hinsicht unterschiedlicher Kontexten schafft. Die konzentrieren sich auf Bedeutungen und unterstützen die Entscheidungen, die die Auswahl des Evaluierungsgegenstands für eine Anwendung beeinflussen können. Es mag intuitiv erscheinen, dass Ex-ante immer formativ und Ex-post summativ sein kann. Jedoch beziehen sie sich Ex-ante und Ex-post nur auf das Timing. Bei Ex-ante-Evaluierungen kann eine summative Evaluierung erforderlich sein und auf der anderen Seite können Ex-post-Evaluierungen über formative Zwecke verfügen.

Da Ex-post nach der Erzeugung des Artefakts stattfindet, ist hier eine Messung des Resultats erforderlich und dies kann durch eine summative Evaluierung erfolgen, weshalb kann summativ zu Ex-post zugeordnet werden.
Im Gegensatz zu formativ die lieber zu Ex-ante zugeordnet werden soll, da die formative Evaluierung uns eine iterative Messung der Verbesserung ermöglicht und diese Eigenschaft gilt vor der Erzeugung des Artefakts als sehr nützlich.

Evaluierungsstrategien: Für die Evaluierung können verschiedene Evaluierungsstrategien verwendet werden. Bevor im folgenden Abschnitt der Auswahlprozess für eine Evaluationsstrategie vorgestellt wird, werden vorerst die verschiedenen Strategien charakterisiert. Venable et al. identifizieren vier unterschiedliche Evaluierungsstrategien:

  • Human Risk & Effectiveness
  • Quick & Simple
  • Technical Risk & Efficacy
  • Purely Technical

Diese Strategien lassen sich in einem Koordinatensystem einordnen. Die erste Dimension (x-Achse) beschreibt den ''Functional Purpose" und unterscheidet in formativ in Richtung des Ursprungs und in summativ in Richtung positiv unendlich. Die zweite Dimension (y-Achse) beschreibt den ''Paradigm of the Evaluation Study'' und unterscheidet in künstliche Evaluierungsumgebung in Richtung des Ursprungs sowie natürliche Evaluierungsumgebung in Richtung positiv unendlich. Die Schritte einer Strategie sind als Punkte in dem Koordinatensystem eingetragen und somit kann anhand der Summe der Schritte ein Verlauf der Strategie identifiziert werden. 

 Die Human Risk & Effectiveness Strategie ist dadurch gekennzeichnet, dass viele Evaluierungsschritte vorgesehen sind. Zu Beginn sind die Schritte eher einer künstlichen Evaluierungsumgebung zuzuordnen. Diese wechseln jedoch relativ schnell in eine natürliche Umgebung. Der Verlauf zeigt zudem, dass sowohl formative als auch summative Schritte vorgesehen sind. Dieser Verlauf ist dadurch zu erklären, dass diese Strategie bei sozialen oder nutzerorientierten Risiken verwendet wird. Zudem findet sie Anwendung, wenn eine Evaluierung mit echten Nutzern in einer echten Umgebung günstig zu realisieren ist. Ein weiteres Kernargument für die Verwendung liegt vor, wenn das Ziel die Feststellung des dauerhaften Nutzens in realen Situationen ist. 

Die Quick & Simple Strategie hat vergleichsweise wenig Evaluierungsschritte. Dies ist der Tatsache geschuldet, dass diese Strategie bei kleiner und einfacher Konstruktion des Designs gewählt wird oder wenn ein geringes soziales und technisches Risiko besteht. Aus diesen Gründen sind nicht viele Schritte erforderlich.

Bei der der Verwendung der Technical Risk & Efficacy Strategie sind viele Evaluierungsschritte erforderlich. Diese Schritte finden zu sehr lange in einer künstlichen Umgebung statt und wechseln in den letzteren Schritten in eine reale Umgebung. Sowohl formative als auch summative Methoden sind wichtig. Dieser Verlauf ist darauf zurück zu führen, dass diese Strategie verwendet wird bei technisch orientiertem Hauptrisiko oder wenn es teuer ist mit realen Nutzern in einer realen Umgebung zu evaluieren. Das erklärt den späten Wechsel auf die reale Umgebung. Zudem findet diese Strategie Verwendung, wenn verdeutlicht werden soll, dass ein Nutzen nur auf ein Artefakt zurückzuführen ist. 

Die Purely Technical Strategie findet lediglich in einer künstlichen Evaluierungsumgebung statt. Sie ist zudem dadurch charakterisiert, dass weniger Schritte notwendig sind als bei der Human Risk und Effectiveness oder Technical Risk & Efficacy Strategie. Sie findet Verwendung bei Artefakten, welche rein technischer Natur sind oder bei Artefakten bei welchen die Verwendung nicht in naher Zukunft erfolgt. 

Auswahlprozess für Evaluierungsstrategien: Der Auswahlprozess für Evaluierungsstrategien besteht aus vier Schritten:

  1. Festlegung von Zielen: Der erste Schritt beschreibt die Auswahl von Zielen. Dabei wird ausgewählt aus Präzision, Reduzierung von Unsicherheiten und Risiko, Ethik sowie Effizienz.
  2. Auswahl einer Evaluierungsstrategie: Hier wird eine Evaluierungsstrategie ausgewählt (siehe oberen Abschnitt).
  3. Bestimmung von Evaluierungsgegenständen: Hierzu findet ein kleinerer Prozess statt. Dazu müssen zunächst alle potentiellen Evaluierungsgegenstände bestimmt werden. Im zweiten Schritt geht es darum, dass diese Gegenstände den Zielen aus Schritt 1 (Festlegung von Zielen) zugeordnet werden. Anschließend vergewissert man sich über die ausgewählte Strategie aus Schritt 2 (Auswahl einer Evaluierungsstrategie). Dies dient dazu, um sagen zu können welche Gegenstände für die aktuelle Strategie relevant sind. 
  4. Gestaltung der einzelnen Evaluierungsschritte: In diesem Schritt erfolgen die Identifikation sowie die Analyse und Priorisierung der Restriktionen. Das bedeutet, dass sich vergewissert wird, welche Einschränkungen vorhanden sind. Anschließend kann die Anzahl, der Zeitpunkt und die Gestaltung der einzelnen Evaluierungsschritte, welche während einer Strategie durchgeführt werden, bestimmt werden.

Beispiel zur Veranschaulichung: 

Um das Framework (FEDS) besser verstehen zu können, wurden zwei Beispiele aus der Literatur ausgewählt, die völlig unterschiedliche Auswahlmöglichkeiten von Evaluierungsstrategien veranschaulichen.

Quick & Simple - Beispiel

1.Festlegung der Ziele der Evaluierung

Modell Namens GIST (Gather-Infer-Segment-Track), welches die Gestaltung und Management von webbasierten Systemen unterstützt. Das Modell stellt einen Mehrstufigen Prozess dar und dient hier als Artefakt. Für die Evaluierung wurde geschaut, ob die Neugestaltung der Webseite neue Geschäftszweige identifiziert hat.  Hierbei wurden die Ziele auf Präzision, Effizienz und Reduzierung von Unsicherheiten festgelegt.

2. Auswahl einer Evaluierungsstrategie

Offenbar wurde in dem Fall die Evaluierungsstrategie Quick & Simple verfolgt. Direkt summativ und natürlich Quick & Simple ist eine Strategie, die potentiell ein hohes Risiko des Scheiterns birgt, falls die Evaluierung schlecht ausgeht, aber die schnellste Evaluierung der Effektivität im realen Einsatz (reale Benutzer, reales System, mit realen Problemen, die gelöst werden müssen) bietet.

3.Bestimmung von Evaluierungsgegenstände

 Hierbei wurden die potentiellen Evaluierungsgegenstände eigegrenzt, zu den Zielen aus Schritt 1(Präzision, Effizienz und Reduzierung von Unsicherheiten) zugeordnet und in Bezug auf die offenbar verfolgte Strategie (Quick&Simple) wurden die Evaluierungsgegenstände bestimmt. Bei den untersuchten Evaluierungsgegenständen handelte es sich um Verbesserungspotenziale und die waren sowohl der Website-Entwicklungsprozess als auch der Website-Management-Prozess.

4.Gestaltung der einzelnen Evaluierungsschritte

Die Artefakte wurden nach deren Erzeugung summativ evaluiert. Eine natürliche Evaluierung lässt durch die Anwendung der Methoden auf einer bestehenden Website die Verbesserungen einschätzen. Die Evaluierung war natürlich, bei der ein reales System in einer realen Umgebung und vor realen Probleme verwendet wurde. Während die Quick & Simple-Strategie, die sich schnell auf eine summative natürliche Evaluierung zubewegt, ein hohes Risiko darstellt, falls die Evaluierung schlecht ausgeht, gab es keinen Anzeichen, dass andere Evaluierungsschritte zur Risikoreduzierung angewendet wurden. Könnte aber sein, dass ihre Strategie mit einer formativen Evaluierung begonnen hat, die auf eine Human Risk & Effectiveness Strategie abzielt, bei der das Risiko des Scheiterns in der formativen Evaluierung ziemlich niedrig ist.

Die Verbesserungsvorschläge waren kaum kritisch bezogen, sondern dass sie hervorheben, welche Verbesserungsmaßnahmen umgesetzt werden könnten, falls FEDS angewendet worden wäre.

Bedeutung für Wissenschaft und Praxis: 

Die vier verschiedenen Evaluierungsstrategien sollten DSR-Forscher dazu anregen, alternative Evaluierungsstrategien in Betracht zu ziehen, und die identifizierten Kriterien sollten zur richtigen Wahl der Strategie leiten. Der vierstufige Evaluierungsdesign-Prozess bietet den DSR-Forschern eine weitere Anleitung zur Anwendung des FEDS-Frameworks und zur Entscheidung, welche Evaluierungsstrategie(n) für ein bestimmtes DSR-Projekt / Programm zu verwenden sind, indem sie ihren Fokus auf verschiedene relevante Aspekte wie Ziele und Eigenschaften richten, zusätzlich zu dem funktionalen Zweck und das Paradigma der Bewertung des Frameworks. Die Anwendung von FEDS auf zwei DSR-Beispielstudien zeigt auch, dass FEDS auch hilfreich für das Verständnis der Evaluierungsstrategien früherer DSR-Studien ist.

Die Forschung, die zum FEDS Framework and Evaluation Design Prozess für DSR führt, ist begrenzt. Die Bewertung des Frameworks und des Prozesses beschränkt sich auf eine kleine Anzahl von Studien. Eine weitere Anwendung und Bewertung, insbesondere bei einer Vielzahl von entwickelten Artefakten, würde eine weitere Validierung des Ansatzes liefern. Ein anderer Weg für die zukünftige Arbeit besteht darin, andere neue Strategien zu entwickeln und den Wert hybrider Strategien weiter zu erforschen.

Datei: 

Kategorie: