Evaluation von Design Science Research Artefakten II - Mut zur Selbstkritik

Wiedergabe der Aufgabenstellung

Für die Gestaltung unseres wissenschaftlichen Posters wurde der Beitrag von Peffers et al. (2012) „Design Science Research Evaluation“ vorgegeben. Aus diesem Text und der Analyse weiterer Literaturquellen sollten zunächst die zentralen Gründe für die Notwendigkeit einer Evaluation im Rahmen DSR, sowie die verfolgten Ziele vorgestellt werden. Hauptaugenmerk hierbei sind die von Peffers et al. erwähnten Artefakt-Typen und Evaluationsmethoden, welche ausführlich erläutern werden sollten.

Anschließend sollte der Zusammenhang zwischen dem Artefakt, dem Artefakt-Kontext und der ausgewählten Evaluationsmethode herausgearbeitet und die Wahl der jeweiligen Evaluationsmethode kritisch bewertet werden.

Motivation: 

Evaluation in DSR ist von größer Bedeutung und die Gründe für die Evaluierung sind folgende:

  • Es sollt bestimmt werden, in welchem Umfang ein Artefakt einem Zweck dienen oder ihn erfüllen kann.
  • Zusätzlich soll ein neues Artefakt mit bereits vorhandenen Artefakten verglichen werden. Ein neues Artefakt soll einen relativ größeren Nutzen als vorhandene Artefakte zur Verfügung stellen. (Vergleich)
  • Ein anderer Zweck, den Venable identifiziert, ist der, dass ein Artefakt in Hinblick auf andere Auswirkungen, z.B. Nebenwirkungen ausgewertet wird.
  • Der vierte Zweck der Bewertung ist die formative Evaluierung, in der ein Artefakt noch in seiner Entwicklung ausgewertet wird, um Bereiche für Verbesserung und Verfeinerung zu bestimmen.

Zentrale Untersuchungsergebnisse: 

    Ziele einer Evaluation in Design Science Research

    Als Teil des DSR-Prozesses verfolgt die Evaluation folgende Ziele:

    • Rigor

    Eine Evaluation in DSR soll möglichst genau gemacht werden. Rigor hat hier zwei Bedeutungen. Erstens, es soll für jedermann klar sein, dass nur das Artefakt der Grund für eine Verbesserung ist. Zweitens soll das Artefakt in einer realen Situation funktionieren (Effektivität).

    • Effizienz

    Zusätzlich soll eine Evaluation in DSR ohne Ressourceneinschränkungen (Geld, Ausrüstung) durchgeführt werden.

    • Ethik

    Während und nach einer Evaluation sollen Personen, Organisationen nicht gefährdet werden. Bsp. Für die Arbeitssicherheit kritische Systeme und Technologien.

     

    Klassifikation nach Artefakt-Typ

    March und Smith definieren eine Evaluation als „ein Prozess, um zu bestimmen, wie gut ein Artefakt funktioniert.“ (Vgl. March und Smith 1995, S.254). Demnach soll die Nüzlichkeit, Effektivität und Qualität eines Artefakts evaluiert werden (Sonnenberg, C., Vom Brocke, J., 2012, 71-83), um relavenate Probleme zu lösen. Diese IT-Artefakte sind unter anderem:

    • Konstrukte

    stellen die Sprache dar, in der Probleme und deren Lösungen beschrieben und kommuniziert werden (Hevner et al., 2004, S.78). Zu Ihnen zählen zum Beispiel Modellierungssprachen oder Ontologien. (Hevner et al., 2004, S.84)

    • Modelle

    sind Repräsentationen von Problemen oder Lösungsräumen, die unter der Verwendung von Konstrukten erstellt werden. Sie fördern das Verständnis von Problemen und Lösungen und stellen häufig die Verbindung zwischen Problem- und Lösungskomponenten dar, wodurch die Auswirkung von Designentscheidungen und Änderungen in der realen Welt untersucht werden können. (Hevner et al., 2004, S.78)

    • Methoden

    definieren Prozesse, und geben Hinweise, wie ein bestimmtes Problem gelöst werden kann (Hevner et al., 2004, S.79). Sie sind allerdings laut Peffers et al. von Algorithmen zu unterscheiden. (Vgl. Peffers et al. 2012, S. 401).

    • Instanzen

    zeigen, dass Konstrukte, Modelle oder Methoden in einem funktionierenden System implementiert werden können. Einerseits demonstrieren sie die Machbarkeit und ermöglichen eine konkrete Bewertung der Eignung eines Artefakts für seinen beabsichtigten Zweck. Anderseits ermöglichen sie den Forschern, über die reale Welt zu erfahren, wie das Artefakt es beeinflusst und wie Benutzer sie verwenden (Vgl. Hevner et al., 2004, S.79)

    Außer den bereits erwähnten IT-Artefakte wählen Peffers et al. noch zwei andere Artefakte für ihre Forschung aus: 

    • Algorithmus

    kann ein Ansatz, eine Methode oder ein Prozess sein, der im hohen Maße durch eine Reihe formell-logischer Anweisungen beschrieben wird.

    • Unter Framework werden Meta-Modelle verstanden.

    Entsprechend diesen Definitionen lassen sich die oben genannten IT-Artefakte durch Peffers et al. in drei Kategorien einteilen (Peffers et al S.401):

    • Einmal haben wir die Konzeptionellen Artefakte, welche umsetzbare Begriffsanweisungen sind. Zu dieser Kategorie gehören die IT-Artefakte wie Konstrukte (Vokabeln, Symbole), Modelle (Abstraktionen und Repräsentationen), Methoden (Algorithmen und Praktiken), Framework (Meta-Modell)
    • Als formell-logische Handlungsvorschriften werden hier die Algorithmen klassifiziert
    • Als aktuelle Hardware- oder Softwareimplementierungen zählen hier Instanzen, die implementierte und prototypische Systeme sind

     

    Kriterien für die Evaluierung von Artefakten

    Abhängig von der Art des zu bewertenden Gegenstandes und dem Zeitpunkt sollte eine Bewertung der Artefakte durchgeführt werden. Einige Kriterien können den Fortschritt bei der Gestaltung eines Artefakts besser widerspiegeln. Dabei haben March and Smith eine umfassende Auflistung von Evaluationskriterien nach DSR Artefakten wie Konstrukte, Modelle, Methoden und Instanzen geliefert. (Vgl. March und Smith, 1995, S.261)

    Die Auswertung  des Artefakts Konstrukt laut Ihnen mit den Kriterien Vollständigkeit, Simplizität, Eleganz( auch bekannt als Stil), Verständlichkeit und Bedienkomfort verbunden. 

    Modelle werden hinsichtlich ihrer Genauigkeit mit realen Phänomenen, Vollständigkeit, Detaillierungsgrad, Robustheit/Zähigkeit und interner Konsistenz bewertet. Zum Beispiel wurden zahlreiche mathematische Modelle für Datenbankentwurfsprobleme entwickelt.

    Die Bewertung der Methoden berücksichtigt die Funktionalität (die Fähigkeit, geplante Aufgaben zu erfüllen oder die Fähigkeit des Menschen, eine Methode effektiv zu nutzen, sofern sie nicht algorithmisch ist), Effizienz, Allgemeingültigkeit und Benutzerfreundlichkeit. Als Beispiel werden die zahlreichen Entwicklungsmethoden für Informationssysteme betrachtet, und können auf Vollständigkeit, Konsistenz, Benutzerfreundlichkeit und die Qualität der Ergebnisse ausgewertet werden, die von den Analysten bei der Anwendung der Methode erhalten werden

    Instanzen können auf die Effizienz und Effektivität des Artefakts und seine Auswirkungen auf die Umwelt und deren Nutzer evaluiert werden. Jedoch besteht bei dieser Bewertung die  Schwierigkeit, Instanzen von den konstrukten, Modellen und Methoden zu trennen, welche in Instanzen implementiert sind. Case-Tools sind ein Beispiel für das Artefakt  Instanzen

    Sobald die Merkmale für die Evaluation von DSR Artefakten entwickelt sind, ist eine empirische Arbeit notwendig, um die Nützlichkeit sowie die Qualität eines Artefakts zu bestimmen. Dennoch sollten die Evaluationsmethoden vorgestellt werden. 

     

    Evaluationsmethoden im Überblick

    Verschiedene DSR-Autoren haben eine Reihe von Methoden identifiziert, die zur Auswertung in DSR verwendet werden können. Hevner et al. [5] fassen fünf Klassen von Bewertungsmethoden mit 12 spezifischen Methoden in diesen Klassen zusammen: (1)Beobachtungsmethoden umfassen Fallstudie und Feldstudie. (2) Analytische Methoden umfassen statische Analyse, Architekturanalyse, Optimierung und dynamische Analyse. (3) Experimentelle Methoden enthalten kontrolliertes Experiment und Simulation. (4) Zu den Testmethoden gehören das Testen der Funktionen (Black Box) und das Testen der Struktur (White Box). (5) Deskriptive Methoden beinhalten fundierte Argumente und Szenarien. (Hevner et al. 2004 S.75-105). Einige davon lassen sich folgendermaßen definieren.

    • Umfrage

    Umfragen aggregieren Meinungen, Eindrücke, Präferenzen und Vorlieben menschlicher Subjekte. Somit können a priori Hypothesen bewertet und eingeordnet werden. Umfragen werden immer an einer Gruppe von Individuen durchgeführt. Die Zusammensetzung dieser ist im Idealfall repräsentativ für die gesamte zu untersuchende Gruppe. Zum einen bieten Umfragen ein gutes Bild der wahrgenommenen Nützlichkeit eines Artefakts ab. Zum anderen ist gerade diese sehr subjektive Einschätzung aber auch einer der meist kritisierten Aspekte dieser Evaluationsmethode.

    • Laborexperiment / Kontrolliertes Experiment

    In einem Laborexperiment wird der Nutzen eines Artefakts unter kontrollierten Bedingungen untersucht und bewertet. Dabei werden idealerweise mehrere Artefakte unter den selben Bedingungen getestet, um somit eine präzise Aussage über die Nützlichkeit dieser aufstellen zu können. Beispielsweise können mehrere Modellierungsmethoden benutzt werden um ein vorgegebenes Datenmodell zu erstellen. Diejenige Methode welche am schnellsten, genauesten oder effizientesten „arbeitet“ kann somit ermittelt werden. Die Stärke dieser Evaluationsmethode ist zugleich auch seine Schwäche, denn Ergebnisse von Laborexperimenten sind aufgrund ihrer künstlichen Untersuchungsbedingungen nicht unbedingt auf die Praxis übertragbar.

    • Case-Study

    Im Rahmen einer Case-Study wird ein Artefakt ohne ein aktives Eingreifen der Untersucher und unter realen Bedingungen bewertet. Im Gegensatz zu einem Laborexperiment wird hierbei versucht keinerlei Rahmenbedingungen zu setzen, um so eine möglichst realistische Einbettung des Artefakts zu gewährleisten. Dies begünstigt obendrein die Bereitschaft von Unternehmen solch eine Evaluierung durchzuführen. Ein Nachteil dieser Methode ist die subjektive Einordnung der Ergebnisse einer Case-Study durch die Untersucher. Zudem ist die Vergleichbarkeit zwischen Artefakten aufgrund der nicht kontrollierten Untersuchungsbedingungen im Rahmen von Case-Studies nicht gewinnbringend

    • Action Research

    Bei der Action-Research-Methode sind die Untersucher Teil der Forschungsmaßnahme. D.h. sie können (und sollen) die Untersuchung beeinflussen, wodurch ein tieferes Verständnis des zugrunde liegenden Artefakts seitens der Untersucher ermöglicht wird. Beispielsweise könnte eine Modellierungsmethode durch die Untersucher selbst angewandt werden. Diese Evaluationsmethode bringt jedoch eine hohe Subjektivität mit sich und ist daher umstritten.

    • Prototyp

    Diese Evaluationsmethode beinhaltet die generische Implementierung eines Artefakts, um dieses auf Nützlichkeit und Umsetzbarkeit zu untersuchen. Das Ergebnis solch einer Instanziierung stellt zuverlässig die Vorteile eines Artefaktes bereit. Ein Beispiel hierzu wird von Peffers et al. zur Verfügung gestellt: Ein Datenbanksystem, bestehend aus einem Query-Analyzer, einer denormalisierten und einer normalisierten Datenbank. Schreibzugriffe wurden auf der normalisierten, Lesezugriffe von der denormalisierten Datenbank durchgeführt. Durch diese Aufteilung der Datensätze wurde gezeigt, dass eine verringerte Verarbeitungszeit erreicht werden kann.

    • Feldexperiment

    Ein Feldexperiment wird ebenfalls unter realen Bedingungen durchgeführt, meist innerhalb von Unternehmen. Das Artefakt wird auf seine Wirkung und Nützlichkeit hin untersucht. Im Gegensatz zur Case-Study werden einige unabhängige Variablen von den Untersuchern manipuliert, sprich es werden bestimmte künstliche Bedingungen gesetzt. Allerdings ist diese Art von Evaluation bei Unternehmen nicht besonders beliebt, da vor allem in Arbeitsabläufe eingegriffen wird. Daher werden Feldexperimente eher selten durchgeführt.

     

    Die Vier-Schritt-Methode für die Evaluation in DSR

    1. Analyse des Kontexts der Evaluation

    Als erster Schritt müssen alle Anforderungen oder Ziele des DSR-Projekts identifiziert werden,

    • Bestimmung des Evaluierungsobjektes.
    • Bestimmung der Art des Artefakts. (Ist das Artefakt für die Produktion eines Produkts, Prozess oder für beides entworfen worden? Wird es sicherheitskritisch sein oder nicht?)
    • Bestimmen, welche Eigenschaften und Aspekte bewerten werden sollen. Sollen auch Effizienz, Nützlichkeit, Ethik und Wirksamkeit evaluiert werden?
    • Ziel / Zweck der Evaluierung sollen nicht vergessen werden. Soll das entwickelte Artefakt mit anderen Artefakten verglichen werden?
    • Identifikation und Analyse der Einschränkungen in der Forschungsumgebung. Welche Ressourcen stehen zur Verfügung (Zeit, Budget, Leute usw.? Welche Ressourcen sind knapp und müssen sparsam eingesetzt werden?
    • Genauigkeit der Evaluierung berücksichtigen. Wie streng soll die Evaluation durchgeführt werden?
    • Die oben genannten kontextuellen Faktoren sind prioritär und es soll festgestellt werden, welche Aspekte wichtig, weniger wichtig, relevant und irrelevant sind. Dies wird dazu beitragen Konflikte zu lösen.

          2.  Zuordnung der erforderlichen Kontextfaktoren (Ziele, Artefakteigenschaften) zu den Evaluationskriterien.

          3.  Auswahl der entsprechenden Evaluationsmethode siehe (Abbildung 1: DSR Evaluation Method Selection Framework). Wenn mehr als eine Box angezeigt wird, kann die Auswahl einer Methode, die in mehr als einer Box vorhanden ist, hilfreich sein. Die daraus resultierende Auswahl an Evaluationsmethoden bildet zusammen mit der Strategie ein hochwertiges Design für die Evaluation Research.

          4.  Die Ex-Ante-Evaluation wird der Ex-Post Evaluation vorausgehen, es können jedoch mehr als eine Bewertung und mehr als eine Methode durchgeführt werden. In diesem Fall muss entschieden werden, in welcher Reihenfolge sie verwendet werden und wie die verschiedenen Evaluation zusammenpassen. (Venable, J., pries-Heje, J., & Baskerville, R., (2012) S. 434-435)

    Beispiel zur Veranschaulichung: 

    Beispiel zur Veranschlaulichung

     

    Peffers et al. haben eine Methode verwendet, die eine breite Beteiligung an der Datensammlung für IS-Planungsaktivitäten ermöglichen sollte, wobei der Fokus auf für das Unternehmen wichtigen Ideen bleiben sollte. Eine breit angelegte Beteiligung sollte es dem Unternehmen ermöglichen, das Wissen über den Wert potenzieller Systeme zu nutzen, das unter den Menschen in und um das Unternehmen weit verstreut ist, und nicht nur das Wissen, das in einem kleinen Kreis von Führungskräften vorhanden ist. Die Methode musste jedoch die Grenzen traditioneller Bottom-up-Planungsprozesse überwinden, bei denen die Teilnehmer Manager mit vielen eigennützigen Ideen überwältigen, die schwer zu bewerten, aber meist wertlos sind.

    Die Methode basiert auf der persönlichen Konstruktentheorie. Laut dieser Theorie hat jeder Beobachter Modelle, wie das Universum funktioniert, so dass Zustände des Universums Konsequenzen haben und diese Konsequenzen die Werte des Beobachters beeinflussen. PCT wird in dieser Forschung auf eine entwickelte Methode zur Datensammlung, Analyse und Ideenfindung erweitert, die Ideen für potentiell wertvolle neue Systeme für die Organisation liefern kann.

    Aretefakt-Typ: Method - CSC

    Peffers, Gengler und Tuunanen demonstrierten die CSC-Methode in zwei Fallstudien, einer ersten explorativen Fallstudie an der Rutgers University und einer umfassenderen und gründlicheren Studie bei Digia, einer Softwareentwicklungsfirma in Helsinki. Bei Digia ging es um Ideen für "Killer-Anwendungen" für mobile Finanzdienstleistungen. Die Datenerhebung mit einer Stichprobe von 32 Lead-Benutzern und Experten ergab 147 Ketten oder Argumente für spezifische Systemfunktionen. Die Analyse reduzierte diese Daten auf fünf grafische Netzwerkmodelle, die Funktionalität, Argumentation und Wert für ein Produktbündel beschreiben. Ein Ideenwerkstatt nutzte diese Ergebnisse, um brauchbare Ideen für drei neue Produkte zu entwickeln, die das Unternehmen weiter erforschen wollte.

    Hier eine Zusammenfassung von dem Beispiel von Peffer et al.

    Welches Artefakt? Critical-success-chain (CSC-Modell), welches Informationsaggregierung  in einem Unternehmen konsolidiert.

    Welche Evaluationsmethode? Case-Study – Zwei verschiedene Case-Studies, eine an der Rutgers University, eine andere bei Digia, einem    SoftwareUnternehmen. 32 Beteiligte und 147 „Ketten“ (Feature-Ideen), welche für eine Finanzdienstleistungsapp gesammelt wurden.

    Ist die Evaluationsmethode sinnvoll ausgewählt Sinnvoll, da die Methode auf den Informationsinput von Mitarbeitern eines Unternehmens    angewiesen ist.

     

    Bedeutung für Wissenschaft und Praxis: 

    Die hier vorgestellten Evaluationsmethoden und das Modell um die geeignete Methode zu klassifizieren sollen dem geneigten Forscher als eine Entscheidungshilfe dienen. Der Vergleich der Methoden und Artefakte bietet eine gute Übersicht und verdeutlicht noch einmal die Wichtigkeit der Evaluierung im Rahmen des Design Science Research. Auch die Vertreter der praktischen Seite können sich durch diese Einführung in die verschiedenen Evaluationsmethoden von der Wichtigkeit dieses Schrittes überzeugen bzw. die Möglichkeiten von dieser besser einschätzen. Andere Forschungen sind erforderlich um mehr Erfahrung mit der Verwendung von Evaluation Methoden zu sammeln. Dadurch kann die Nützlichkeit jeder Methode evaluiert werden und dadurch neue Evaluation Methoden weiterentwickeln werden.

    Datei: 

    Bilder: