Risikoanalyse
Wie werden Risiken erhoben und gemapped?
Die EU KI-Verordnung verfolgt einen risikobasierten Ansatz. Wo der Einsatz von KI-Systemen ein höheres Risiko für Gesundheit, Sicherheit und Grundrechte darstellt, sind auch höhere Anforderungen an das KI-System und dessen Einsatz zu erfüllen. Insbesondere bei KI-Systemen, die in den Bereich „Hochrisiko“ (Art. 6 EU KI-VO) fallen, ist u.a. eine menschliche Aufsicht vorgesehen, die der Risikominimierung dient (Art. 14 EU KI-VO). Die Ermittlung von Risiken und getroffenen Maßnahmen ist eine bewährte Herangehensweise in der Qualitätssicherung von Software. Auch in der EU KI-Verordnung ist für Hochrisiko-KI-Systeme die Einrichtung eines Risikomanagementsystems vorgeschrieben (Art. 9 EU KI-VO).
Mit dem KI-Cockpit bieten wir genau solche Maßnahmen zur Qualitätssicherung in Form von menschlicher Aufsicht an. In dem Versuch den Anforderungen der EU KI-Verordnung zu entsprechen, müssen diese Maßnahmen zu den identifizierten Risiken der jeweiligen KI-Software passen (Art. 14 Abs. 1 EU KI-VO). In der Softwareentwicklung gibt es bereits etablierte Normen, Prüfkataloge und Methoden zur Risikoerfassung (z.B. ISO 27001, ISO 27005, BSI 200-3), die für die Bearbeitung der Anforderungen von Artikel 9 der EU KI-Verordnung herangezogen werden können. Das KI-Cockpit zielt mit der menschlichen Aufsicht allerdings auf die spezifischen „neuen“ KI-basierten Risiken und ihre Mitigation ab, weshalb der erste Schritt der Integration eines KI-Cockpits auch in der Auseinandersetzung mit den spezifischen KI-bezogenen Risiken bestehen sollte. Ausgehend von diesen spezifischen Risiken (und dem Autonomiegrad des KI-Systems) kann die KI-Cockpit Variante gewählt werden, welche diese am wirksamsten reduziert.
Zur Erhebung dieser spezifischen KI-basierten Risiken hat das Projekt die folgende interaktive Vorgehensweise (weiter-)entwickelt. Dieses sehr gründliche Vorgehen wird nicht für alle Situationen und KI-Systeme passend sein; spezifische Risiken können ein anderes Vorgehen erforderlich machen, und auch die Ressourcen müssen bereitgestellt werden. Alternative Herangehensweisen zur Risikoerhebung sind etwa im KI-Prüfkatalog des Frauenhofer-Institut oder im Risikomanagement-Standard des BSI zu finden. In der HOL-Cockpit Variante sind zudem die KI-Risiken der Plattform plot4.ai hinterlegt, um den Anwender:innen der Cockpit Variante einen Eingangspunkt in die Erfassung der KI-Risiken der angeschlossenen Software zu geben.
KI-Risikoworkshop
Risiken von KI-Systemen lassen sich grob in technische Risiken (Fehler, Schwächen, Sicherheitsprobleme in der KI-Software selbst) und ethisch-soziale Risiken unterteilen. Während die erste Fehlergruppe üblicherweise einen technischen Zugang erfordert, der bei der Entwicklung und Einführung von Softwaresystemen ohnehin erforderlich ist, können letztere durch Software-Entwickler:innen nicht immer ausreichend adressiert werden. Zur Erhebung KI-spezifischer Risiken schlagen wir die Durchführung eines Risikoworkshops vor, welche alle Beteiligten dabei unterstützten soll, die relevanten KI-basierten Risiken ihres KI-Systems zu ermitteln.
Zielgruppe
Der hier empfohlene Risikoworkshop dient der Erhebung der ethisch-sozialen Risiken. Diese sind zentral geprägt durch die Anwendungsdomäne des KI-Systemsund die Positionierung der KI im Entscheidungsprozess. Vor diesem Hintergrund wird ein partizipatives Verfahren der Risikoermittlung empfohlen, welches auf eine breite Beteiligung sowohl in der Rollendimension als auch in Bezug auf die Diversität der Akteur:innen abzielt.
Wir schlagen hierbei eine Zusammensetzung der Zielgruppe analog zum Vorgehen im KIDD Projekt vor.
Auswahl nach Funktion im Unternehmen
z.B. Betriebsrat, Diversity-, Gleichstellungs-, Behinderten- und Datenschutzbeauftragte, Personalabteilung usw.
Auswahl nach relevanten Vielfalts- und potentiellen Diskriminierungskriterien
z.B. Alter, Geschlecht / geschlechtliche Identität und ethnische Herkunft / Nationalität
Dies hat eine Reihe von Vorteilen:
Insbesondere die sozialen Risiken, die sich aus der Fairness derKI-Algorithmen ergeben, sind nur sinnvoll durch Personen diverser Hintergründe und Rollen zu erfassen.
Ein zentrales unternehmerisches Risiko bei der Einführung von KI-Systemen ist auch das mangelnde Vertrauen der Arbeitnehmer:innen (und ihrer Interessenvertretungen) in die als intransparent empfundenen KI-Werkzeuge. Eine Beteiligung der Abeitnehmer:innen bei der Gestaltung der menschlichen Aufsicht kann Vertrauen schaffen und damit die Akzeptanz und Nutzung der KI-Systeme stärken.
Workshop Ablauf & Material
Im Rahmen des Workshops geht es zentral um eine erste partizipative Risikoanalyse sowie die Gewichtung, Beschreibung und Priorisierung der gefundenen Risiken und geeigneter Gegenmaßnahmen.
Die Beschreibung des Ablaufs findet sich im Leitfaden.
Die erste Arbeitsphase zur Sammlung der Kontextfaktoren und Verortung der Risiken findet auf einem Plakat statt.
In der zweiten Arbeitsphase, werden die einzelnen Risiken und angedachten Maßnahmen auf Arbeitsblättern spezifiziert.
Ergebnis
Im Ergebnis liegen priorisierte und beschriebene Risiken des KI-Systems in seinem Einsatzkontext sowie Maßnahmenvorschläge zur Minimierung des Risikos vor. Die Risiken und Maßnahmen können in dieser Form einen Beitrag zum allgemeinen Software-Risikomanagement darstellen, sowie die Grundlage für die Wahl und Konfiguration des KI-Cockpits bilden. Bezüglich der tatsächlichen Konfiguration des KI-Cockpits enthalten die kommenden Kapitel sowie die Dokumentation der KI-Cockpit Varianten alle relevanten Informationen.
ACHTUNG: Der hier vorgestellte Risikoworkshop stellt ausdrücklich keine tiefe Risikoprüfung dar, auch nicht der rein technischen Risiken. Der Fokus liegt hierbei darauf, gerade jene sozialen und ethischen Risiken zu finden, die nur oder besser durch einen partizipativen Ansatz identifiziert werden können. Für einen verordnungsgemäßen Betrieb sind ergänzende Maßnahmen der Risikoanalyse und -dokumentation notwendig, wie in Artikel 9 der EU KI-Verordnung gefordert.
Fieldlab Vignetten: Risikoanalyse
Die Fallvignetten dienen der Illustration der praktischen Umsetzung und der Herausforderungen der in den Kapiteln formulierten idealisierten Vorgehensweisen. Sie stellen kein vollständiges Bild der Arbeit in den Fieldlabs da, sondern sind bewusst zugespitzt, um unterschiedliche Aspekte darzustellen.
Fairness
Persönlichkeitsrechte & falsche KI-Entscheidungen
Zugänglichkeit & falsche KI-Ergebnisse
Fieldlab A ist illustrativ für die Fairness-Risiken (z.B. Ungleichbehandlung von Geschlechtern aufgrund in den Trainingsdaten vorhandener Bias). Aufbauend auf den Erkenntnissen aus dem KIDD Projekt, wurden neben einem Risikoworkshop auch Fokusgruppen mit den Nutzer:innengruppen (Recruiter:innen & Bewerber:innen) durchgeführt. Die Fairness der KI-Entscheidungen wurde hierbei als zentrales Risiko identifiziert und in unterschiedlichen Dimensionen ausformuliert.
Fieldlab B ist illustrativ für den Umgang mit sensiblen (Kamera-) Daten und mit Risiken, die die Sicherheit von Personen betreffen. Basierend auf einer externen Sicherheitsprüfung und orientiert an existierenden Standards, wie ISO 27001, und der EU KI-VO, sowie dem Fraunhofer Prüfkatalog KI, wurde eine Risikotabelle erstellt. Da im Fieldlab B über Kameras Verkehrsdaten gesammelt werden, bei denen keine explizite Einwilligung der gefilmten Personen vorgesehen ist, ist die Wahrung der Persönlichkeitsrechte besonders relevant. Als angedachter Teil der Verkehrsinfrastruktur, ist die Zuverlässigkeit des KI-Systems das zweite zentrale Risiko.
Fieldlab C hat die Risiken partizipativ über Workshops mit den Pflegenden erhoben. Die KI soll eingesetzt werden um die Pflegedokumentation und -koordination zu vereinfachen. Im Austausch mit den Pflegenden wurden sowohl Aspekte der Fairness (z.B.: versteht der Bot auch nicht-Muttersprachler:innen?), als auch Aspekte der Fehlervermeidung (z.B.: versteht der Bot Medikamenten-Namen korrekt?) als zentrale KI-Risiken identifiziert.
Artikel 9 der DSGVO schützt besondere Kategorien personenbezogener Daten, wie etwa sexuelle Orientierung oder ethnische Herkunft. Der im HOL-Cockpit gewählte Monitoring-Ansatz, bei dem Risiken über KPIs überwacht werden, erfordert die Erhebung der Merkmale der Personen, um den Ist- mit dem Soll-Wert zu vergleichen.
Beispielsweise kann mit dieser Methode nur dann eine Diskriminierung durch den KI-Algorithmus auf Basis der sexuellen Orientierung festgestellt werden, wenn man initial die sexuelle Orientierung der Bewerber:innen erhebt, um die Erfolgsrate zwischen Gruppen unterschiedlicher sexueller Orientierungen zu vergleichen.
Der Mehrwert von KI-Systemen steht und fällt mit der Datenqualität. Die Möglichkeit Daten von Verkehrsüberwachungskameras zu nutzen sind in Deutschland eingeschränkt. Das Risiko unbefugten Zugriff zu Rohdaten oder Infrastruktur zu ermöglichen, ist insofern mitzudenken. Gleichwohl dies kein KI-spezifisches KI-Risiko darstellt, sind Risiken dieser Art, aufgrund der Datenabhängigkeit moderner KI-Anwendungen stets mitzudenken. Die Korrektheit der KI-Entscheidungen kann nicht hundertprozentig gewährleistet werden. Im Anwendungsfeld „Verkehr“ sind falsche Entscheidungen aber, je nach Entscheidungsart, sehr folgenreich. Deshalb braucht es hier Prozesse die eine menschliche Abnahme einzelner Entscheidungen ermöglichen.
Der hohe Zeitdruck und die Arbeit am Menschen, die die Arbeit in der Pflege auszeichnen, gehen mit wenig Spielraum für neue Technik einher. Der partizipative Ansatz hilft hier Vorurteile abzubauen und die Risiken bewusst zu machen, statt sie zu verschleiern. Schon diese Auseinandersetzung mit den Risiken kann dabei als Maßnahme der Risikominderung gesehen werden, insofern hiermit einem Automatisierungsbias vorweggegriffen wird.
In der Abwägung der erhobenen Risiken, der im AGG formulierten Rechte und der Schutzrechte nach DSGVO, blieben einige überwachbare Risiken übrig. Unter anderem konnte ein Monitoring der Diskriminierung nach Geschlecht umgesetzt werden. Hierfür wurde das Risiko im HOL-Cockpit angelegt und als hochrelevant markiert. Des Weiteren wurde die Eintrittswahrscheinlichkeit und das Schadenspotenzial sowohl vor als auch nach den getroffenen Maßnahmen eingestuft. Als Maßnahmen wurden verschiedene Key Performance Indicators (KPIs) implementiert. Ein Risiko gleich mit mehreren KPIs zu überwachen kann sinnvoll sein um das Schutzniveau zu erhöhen, da nicht immer vorab klar ist, an welchen Stellen im System sich beispielsweise diskriminierende Tendenzen des Algorithmus am besten nachweisen lassen und am wenigsten falsch positive/negative Ergebnisse erzeugen.
Um etwa die Entscheidung Rettungskräfte zu einer Unfallstelle zu senden schnell, aber nicht automatisch, zu treffen, wurde sich hier für das HIL-Cockpit entschieden. Die damit verbundene Möglichkeit derart folgenreiche Maßnahmen nur nach Freigabe einer geschulten Person auszulösen, ist hier die zentrale Maßnahme der Risikominderung bezüglich der KI-inhärenten Fehlerwahrscheinlichkeit.
Die längsschnittlich zu messenden Risiken der Fairness (Qualität der Spracherkennung bei unterschiedlichen Muttersprachen) könnten mit dem HOL-Cockpit abgebildet werden. Die Messung derartiger KPIs erwies sich praktisch allerdings aufgrund verschiedener Faktoren als schwierig (Endgeräte werden kollektiv genutzt, daher Zuordnung von Chats zu Personen unmöglich; Korrekturen der Transkripte erst deutlich verspätet). Die Datenqualität der KPIs ist insofern stets ein Kriterium, welches für die Qualität der Risikominderung mitgedacht werden sollte. Dem Umstand, dass falsche KI-Ergebnisse hier gravierende Folgen haben könnten (z.B. Medikamentennamen falsch verstanden), wurde durch eine Teilautomatisierung auf Seiten der Pfleger:innen begegnet: Diese erhalten die transkribierte Dokumentation zunächst zur Gegensicht, bevor sie ins Dokumentationssystem einfließt. Hierdurch werden die Pfleger:innen zum Human in the Loop.
Zuletzt aktualisiert