Fairnesskriterien

Was sollte bei der Festlegung von Fairnesskriterien bedacht werden?

Die Verbreitung von KI-Systemen führt zu einer Vielzahl neuer KI-spezifischer Software-Risiken (Kapitel: Risikoanalyse). Eine besonders häufige und problematische Fehlergattung dieser neuen KI-Systeme sind Verzerrungen („Bias“) in den Bewertungen, die sich aus den Trainingsdaten ergeben. Die HOL-Cockpit Variante ist auf den Nachweis derartiger Verzerrungen spezialisiert. Welche Herausforderungen diese Verzerrungen für die Fairness des KI-Systems darstellen, und welche unterschiedlichen Anforderungen und Maßnahmen ergriffen werden können, erklären wir nachfolgend.

Fairness und KI

Fairness bei KI ist weit mehr als ein ethisches Ideal – sie ist eine zentrale Voraussetzung für gerechte, vertrauenswürdige und sozial akzeptierte algorithmische Entscheidungen. KI-Systeme übernehmen zunehmend Aufgaben mit direktem Einfluss auf das Leben von Menschen – bei Entscheidungen über Kredite, Jobbewerbungen, Versicherungen oder behördliche Leistungen. In all diesen Bereichen besteht ein hohes Risiko, dass bestehende gesellschaftliche Ungleichheiten durch technologische Prozesse nicht nur abgebildet, sondern verstärkt werden. Vor allem wenn die zugrundeliegenden Trainingsdaten Verzerrungen (Bias) enthalten, kann es zu Diskriminierungen kommen – entweder direkt, etwa durch die explizite Nutzung sensibler Merkmale wie Geschlecht oder ethnische Herkunft, oder indirekt, indem scheinbar neutrale Merkmale als Stellvertreter für diskriminierungsrelevante Eigenschaften fungieren.

Neben diesen technischen Herausforderungen sind rechtliche und normative Verpflichtungen zu beachten. Die EU-Gleichbehandlungsrichtlinien verbieten Diskriminierungen auf Basis sensibler Merkmale wie Geschlecht, Religion oder ethnische Zugehörigkeit. KI-Systeme unterliegen denselben rechtlichen Grenzen wie menschliche Entscheidungsträger, was die Einhaltung der Datenschutzgrundverordnung (DSGVO), des Allgemeinen Gleichbehandlungsgesetzes (AGG) und der EU-KI-Verordnung betrifft.

Darüber hinaus stellt sich die Frage, wie Entscheidungsprozesse in Unternehmen gestaltet werden, wenn KI eingeführt wird. Hier kommt die prozess-ethische Ebene ins Spiel. Es reicht nicht, wenn eine Entscheidung „rechtlich korrekt“ ist – sie muss auch transparent, nachvollziehbar und überprüfbar sein. Beschäftigte müssen verstehen können, unter welchen Annahmen eine KI arbeitet, wie sie zu Entscheidungen kommt und wer im Unternehmen für die Einführung und Nutzung Verantwortung übernimmt.

Die Erfahrungen aus dem KIDD-Projekt zeigen: Beteiligungsorientierte Prozesse ermöglichen genau diese Transparenz. Sie sorgen dafür, dass Annahmen, Datenquellen, Modellierungsentscheidungen und Bewertungen gemeinsam reflektiert und hinterfragt werden können. Damit können auch unerwünschte Nebenwirkungen identifiziert und gegebenenfalls korrigiert werden [Kapitel: Risikoanalyse]. Dies erhöht nicht nur die Qualität der KI-Anwendung, sondern auch deren gesellschaftliche Akzeptanz.

Eine dritte Ebene betrifft schließlich die Werteebene des Unternehmens. Auch wenn gesetzliche und prozessuale Standards eingehalten werden, stellt sich die Frage: Welche Ziele verfolgt das Unternehmen mit dem KI-System? Welche Werte sind leitend – Effizienz, Chancengleichheit, Vielfalt, Nachhaltigkeit? Anhand dieser Werte werden konkrete Entscheidungen gefällt – etwa darüber, welche Daten einfließen, wie ein Matching im Onboarding-Prozess gestaltet wird oder ob persönliche Entwicklungswünsche in der Personalauswahl berücksichtigt werden. Die Werteebene zeigt somit, dass Fairness nicht objektiv feststeht, sondern kontextabhängig ausgehandelt werden muss, und zwar im Zusammenspiel zwischen Unternehmensleitung, Beschäftigten und technischen Fachkräften.

Fairness-Definition

Es existiert nicht die eine universelle Definition von Fairness, sondern eine Vielzahl von Konzepten, die je nach Anwendungsszenario unterschiedlich gewichtet werden müssen. Man unterscheidet etwa zwischen Gruppenfairness, individueller Fairness, kausaler Fairness und dynamischer Fairness. Fairness bei KI ist insofern kein technisches Detail, sondern verlangt eine bewusste ethische und politische Entscheidung: Was gilt im jeweiligen Fall als fair – und warum? Von den im Projekt bearbeiteten Anwendungsfeldern ist das Thema Fairness im Bereich der Personalauswahl besonders plastisch erklärbar, weshalb nachfolgend Beispiele aus diesem Bereich herangezogen werden.

Gruppenfairness zielt darauf ab, statistisch definierte Gruppen – etwa nach Geschlecht oder ethnischer Herkunft – gleich zu behandeln. In der Praxis bedeutet das, dass bestimmte Erfolgs- oder Fehlerraten bei der Personalauswahl für alle Gruppen vergleichbar sein müssen. Dabei lassen sich unterschiedliche Subformen unterscheiden, etwa „Demographic Parity" (gleiche Erfolgsraten unabhängig von Eignung) oder „Equal Opportunity" (gleiche Wahrscheinlichkeit positiver Entscheidungen bei geeigneten Bewerber:innen). Gruppenfairness ist besonders wirksam, wenn es darum geht, strukturelle Benachteiligung abzubauen oder gesetzlich verankerte Gleichbehandlungsziele umzusetzen. Sie kann allerdings auch als ungerecht empfunden werden, wenn individuelle Leistungen nicht berücksichtigt werden oder sich Einzelpersonen benachteiligt fühlen, weil Quoten erreicht wurden.

Individuelle Fairness verfolgt den Anspruch, dass ähnliche Individuen gleichbehandelt werden. Für die KI-basierte Personalauswahl bedeutet das, dass zwei Bewerber:innen mit vergleichbaren Qualifikationen – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Gruppe – die gleiche Chance haben sollten. Dieser Ansatz setzt jedoch eine präzise Definition von Ähnlichkeit voraus und läuft Gefahr, strukturelle Ungleichheiten zu ignorieren.

Kausale Fairness fragt, ob sich die Entscheidung geändert hätte, wenn eine Person bei sonst identischem Profil ein anderes sensibles Merkmal aufgewiesen hätte. Solche hypothetischen Vergleiche helfen dabei, versteckte Diskriminierungsmechanismen aufzudecken, erfordern jedoch komplexe Modellierungen und Annahmen über Gleichwertigkeit.

Dynamische Fairness richtet den Blick auf langfristige gesellschaftliche Rückkopplungseffekte. KI-gestützte Auswahlentscheidungen beeinflussen nicht nur aktuelle Prozesse, sondern wirken auch auf künftige Bewerbungsgruppen zurück. Dynamisch faire Systeme versuchen, negativen Effekten durch adaptive Modelle entgegenzuwirken, sind aber methodisch anspruchsvoll.

Es gibt keine universell richtige Fairnessdefinition – vielmehr ist eine kontextbezogene, reflektierte Auswahl notwendig, die sowohl ethische Werte als auch rechtliche Anforderungen und gesellschaftliche Zielsetzungen in den Blick nimmt. In der Praxis kann es deshalb sinnvoll sein, verschiedene Fairnesskonzepte zu kombinieren, um die Komplexität menschlicher Vielfalt und struktureller Bedingungen angemessen zu berücksichtigen.

Umsetzung von Fairness im KI-Cockpit

Die Human ON the Loop-Cockpit Variante bietet mit der Möglichkeit, KPIs & Testfälle umzusetzen einen Ansatzpunkt zur Überprüfung der Fairness des angeschlossenen KI-Systems. Hierbei geht es um eine Bewertung der Fairness von aggregierten Entscheidungen, um strukturelle Benachteiligungen zu erkennen. Die Human IN the Loop-Cockpit Variante übt die Kontrolle auf der Ebene der Einzel-Entscheidungen aus, die in bestimmten Fällen überprüft werden. Eine Bewertung der aggregierten Entscheidungen kann nachrangig erfolgen.

Fairness-KPIs stellen eine Maßnahme dar, bei der die Ergebnisse des KI-Systems mit einem normativen Erwartungswert in Bezug gesetzt werden (Kapitel: KIC-Human ON the Loop). Beispielsweise indem individuelle Fairness bei der Personalvermittlung angestrebt wird, und daher davon ausgegangen wird, dass Frauen im Durchschnitt gleich hohe Bewertungszahlen (Score) erreichen sollten wie Männer. Hier würden nun im KI-Cockpit die Ergebnisse des KI-Systems (Aggregierte Bewertungszahlen je Geschlecht pro Zeiteinheit) mit dieser Erwartung (Frauen ~ Männer) abgeglichen und ein Schwellenwert definiert, bei dem das System Alarm schlägt.

Dieses grundsätzliche Prinzip ermöglicht es, das KI-System als Black-Box zu betreiben und seine Ergebnisse trotzdem so zu beaufsichtigen, dass sie im Rahmen der gesetzlichen und ethischen Vorgaben bleiben. Andere Fairnessdefinitionen, die etwa auf der Festlegung spezifischer Quoten basieren (z.B. Geschlechterparität auf der „Shortlist“) müssten systemseitig eingebaut werden und könnten dann auch über Fairness-KPIs überprüft werden. Eine weitere Option der Fairness-Implementierung bietet die Einbindung von „Tests“ (Kapitel: KIC Human ON the Loop). Hierüber kann etwa kausale Fairness überprüft werden, indem Testfälle in einer diskriminierungsrelevanten Dimension alterniert werden, und überprüft wird, ob das KI-System auf dieser Basis zu einer anderen Entscheidung gelangt, also „unfair“ entscheidet.

Die Definition von Fairness-KPIs, ihren Schwellenwerten, sowie von Tests ist dabei direkt an das KI-System und die spezifischen Entscheidungen und verfügbaren Werte, sowie den gewählten Fairness-Anspruch (s.o.) gekoppelt. Aus den einführend genannten Gründen, bietet es sich an, das Gremium, welches bereits an der Risikoermittlung (Kapitel: Risikoanalyse) beteiligt war, auch bei der Risikominderung, in Form der Konfiguration des KI-Cockpits und der dabei vorgenommenen Implementierung von Maßnahmen der menschlichen Aufsicht, zu beteiligen. Die Entscheidung wie mit den KI-Risiken umgegangen wird (Welche KPIs werden betrachtet? Welche Schwellenwerte festgelegt? Welche Fairnessdefiniton gewählt?) ist nicht nur für Betrieb der Software relevant, der mit der KI-Verordnung konform ist, sondern sind auch für die Corporate Identity und das Vertrauen der Mitarbeiter:innen von Bedeutung. Deshalb ist es wertvoll diesen Prozess nicht als rein technischen, sondern auch als sozialen Prozess zu betrachten, der von der Diversität der Akteure und ihrer Rollen im Unternehmen profitiert.

Fieldlab Vignetten: Fairnesskriterien

Die Fallvignetten dienen der Illustration der praktischen Umsetzung und der Herausforderungen der in den Kapiteln formulierten idealisierten Vorgehensweisen. Sie stellen kein vollständiges Bild der Arbeit in den Fieldlabs da, sondern sind bewusst zugespitzt, um unterschiedliche Aspekte darzustellen.

Fieldlab A: Human Ressources
Fieldlab B: Verkehr
Fieldlab C: Pflege

Die Bedeutung von Fainess ist hier besonders wichtig, weil: Erstens, dies ein zentraler Aspekt für die Klassifikation von HR als Hochrisiko-Bereich (EU KI-VO) ist und bereits nach dem AGG eine Diskriminierung ausgeschlossen werden muss. Zweitens, es eine öffentliche Erwartungshaltung diesbezüglich gibt. Drittens, die Governance-Vorgaben innerhalb der anwendenden Unternehmen Fairness vorschreiben.

Die Betrachtung von Fairness als relevante Kategorie der KI-Überwachung, hat in Fieldlab B während der Projektlaufzeit keine substantielle Rolle gespielt. Da in der Anwendung Verkehrsteilnehmer:innen nicht identifiziert werden können. Daher können Individuen bzw. deren Fahrzeuge weder bevorzugt noch benachteiligt werden. Es ist möglich, dass die Objekterkennung für bestimmte Fahrzeuge besser funktioniert, als für andere. Dies ist allerdings primär keine Fairness-Frage, sondern eine Frage der Modellqualität an der fortlaufend gearbeitet wird.

Fairness ist ein relevanter Aspekt der KI-Überwachung in Fieldlab C, insofern die arbeitserleichternde Wirkung der KI-Transkription allen Pflegenden gleichermaßen zukommen soll und somit nicht-Muttersprachler:innen nicht benachteiligt werden sollen. Diese Fairnessanforderungen sind letztlich aber der Verbesserung der Arbeit nachgeordnet. Auch wenn nur ein Teil der Pflegenden hierdurch Zeit spart, bedeutet dies insgesamt mehr Zeit für die Gepflegten.

Weiterführende Literatur

Hofmeister, Arnd (2025): Diskriminierungsfreie KI im Betrieb: Das Projekt »KI im Dienst der Diversität. In Verdi-Reader Gute Arbeit 2025.

Zuletzt aktualisiert