Vernetzen Sie sich mit uns

Vordenker

Wie Voreingenommenheit Ihre KI/ML-Strategie zunichte macht und was Sie dagegen tun können

mm

Veröffentlicht

 on

„Bias“ in Modellen jeglicher Art beschreibt eine Situation, in der das Modell ungenau auf Eingabeaufforderungen oder Eingabedaten reagiert, weil es nicht mit ausreichend hochwertigen, vielfältigen Daten trainiert wurde, um eine genaue Antwort zu liefern. Ein Beispiel wäre Die Gesichtserkennungsfunktion von Apple zum Entsperren von Mobiltelefonen scheiterte deutlich häufiger bei Menschen mit dunklerer Hautfarbe als bei Menschen mit helleren Hauttönen. Das Modell war nicht ausreichend mit Bildern von dunkelhäutigen Menschen trainiert worden. Dies war ein Beispiel für Voreingenommenheit mit relativ geringem Risiko, aber genau aus diesem Grund sieht das EU-KI-Gesetz Anforderungen vor, um die Wirksamkeit (und Kontrollen) des Modells vor der Markteinführung nachzuweisen. Modellen mit Ergebnissen, die sich auf geschäftliche, finanzielle, gesundheitliche oder persönliche Situationen auswirken, muss vertraut werden, sonst werden sie nicht verwendet.

Mit Daten gegen Bias vorgehen

Große Mengen hochwertiger Daten

Unter vielen wichtigen Datenverwaltungspraktiken ist die Erfassung großer Mengen hochwertiger, vielfältiger Daten eine Schlüsselkomponente zur Überwindung und Minimierung von Verzerrungen in KI/ML-Modellen. Dies erfordert die Zusammenarbeit mit mehreren Organisationen, die über solche Daten verfügen. Herkömmlicherweise stehen die Datenerfassung und -zusammenarbeit vor dem Problem der Privatsphäre und/oder des Schutzes des geistigen Eigentums: Sensible Daten können nicht an den Modellbesitzer gesendet werden, und der Modellbesitzer kann nicht riskieren, sein geistiges Eigentum an einen Datenbesitzer weiterzugeben. Eine häufige Problemumgehung besteht darin, mit Schein- oder synthetischen Daten zu arbeiten, was nützlich sein kann, im Vergleich zur Verwendung echter Vollkontextdaten jedoch auch Einschränkungen aufweist. Hier liefern datenschutzverbessernde Technologien (PETs) dringend benötigte Antworten.

Synthetische Daten: Nah dran, aber nicht ganz

Synthetische Daten wird künstlich generiert, um reale Daten nachzuahmen. Dies ist schwierig, wird aber mit KI-Tools etwas einfacher. Synthetische Daten von guter Qualität sollten die gleichen Merkmalsabstände wie reale Daten haben, sonst sind sie nicht nützlich. Hochwertige synthetische Daten können verwendet werden, um die Vielfalt der Trainingsdaten effektiv zu steigern, indem Lücken für kleinere, marginalisierte Bevölkerungsgruppen oder für Bevölkerungsgruppen geschlossen werden, für die der KI-Anbieter einfach nicht über genügend Daten verfügt. Synthetische Daten können auch zur Behandlung von Grenzfällen verwendet werden, die in der realen Welt möglicherweise nur schwer in ausreichenden Mengen zu finden sind. Darüber hinaus können Organisationen einen synthetischen Datensatz generieren, um Datenresidenz- und Datenschutzanforderungen zu erfüllen, die den Zugriff auf die echten Daten blockieren. Das hört sich großartig an; Allerdings sind synthetische Daten nur ein Teil des Puzzles, nicht die Lösung.

Eine der offensichtlichen Einschränkungen synthetischer Daten ist die Trennung von der realen Welt. Beispielsweise werden autonome Fahrzeuge, die ausschließlich auf synthetischen Daten trainiert werden, mit realen, unvorhergesehenen Straßenbedingungen zu kämpfen haben. Darüber hinaus erben synthetische Daten Voreingenommenheit von den realen Daten, die zu ihrer Generierung verwendet wurden – was den Zweck unserer Diskussion so gut wie zunichte macht. Zusammenfassend lässt sich sagen, dass synthetische Daten eine nützliche Option für die Feinabstimmung und die Behandlung von Grenzfällen sind, aber erhebliche Verbesserungen der Modelleffizienz und die Minimierung von Verzerrungen hängen immer noch vom Zugriff auf Daten aus der realen Welt ab.

Ein besserer Weg: Echte Daten über PETs-fähige Workflows

PETs schützen Daten während des Gebrauchs. Wenn es um KI/ML-Modelle geht, können sie auch das geistige Eigentum des ausgeführten Modells schützen – „zwei Fliegen mit einer Klappe“. Lösungen, die PETs nutzen, bieten die Möglichkeit, Modelle anhand realer, sensibler Datensätze zu trainieren, die aus Datenschutz- und Sicherheitsgründen bisher nicht zugänglich waren. Diese Entschlüsselung von Datenflüssen zu realen Daten ist die beste Option, um Verzerrungen zu reduzieren. Aber wie würde es eigentlich funktionieren?

Derzeit beginnen die führenden Optionen mit einer vertraulichen Computerumgebung. Dann eine Integration mit einer PETs-basierten Softwarelösung, die sie sofort einsatzbereit macht und gleichzeitig die Daten-Governance- und Sicherheitsanforderungen erfüllt, die in einer Standard-Trusted-Execution-Environment (TEE) nicht enthalten sind. Bei dieser Lösung werden alle Modelle und Daten verschlüsselt, bevor sie an eine sichere Computerumgebung gesendet werden. Die Umgebung kann überall gehostet werden, was bei der Erfüllung bestimmter Datenlokalisierungsanforderungen wichtig ist. Dies bedeutet, dass sowohl die Modell-IP als auch die Sicherheit der Eingabedaten während der Berechnung gewahrt bleiben – nicht einmal der Anbieter der vertrauenswürdigen Ausführungsumgebung hat Zugriff auf die darin enthaltenen Modelle oder Daten. Die verschlüsselten Ergebnisse werden dann zur Überprüfung zurückgesendet und die Protokolle stehen zur Überprüfung zur Verfügung.

Dieser Fluss erschließt Daten von höchster Qualität, unabhängig davon, wo sie sich befinden oder wer sie hat, und schafft so einen Weg zur Verzerrungsminimierung und zu hochwirksamen Modellen, denen wir vertrauen können. Dieser Fluss wurde auch im EU-KI-Gesetz in seinen Anforderungen an eine KI-Regulierungssandbox beschrieben.

Erleichterung der ethischen und rechtlichen Einhaltung

Es ist schwierig, qualitativ hochwertige und echte Daten zu erhalten. Datenschutz- und Lokalisierungsanforderungen schränken sofort die Datensätze ein, auf die Unternehmen zugreifen können. Damit Innovation und Wachstum stattfinden können, müssen die Daten an diejenigen weitergegeben werden, die daraus einen Nutzen ziehen können.

Art. 54 des EU-KI-Gesetzes stellt Anforderungen an „Hochrisiko“-Modelltypen dar, was nachgewiesen werden muss, bevor sie auf den Markt gebracht werden dürfen. Kurz gesagt, Teams müssen reale Daten innerhalb eines verwenden KI-Regulierungssandbox um eine ausreichende Wirksamkeit des Modells und die Einhaltung aller in Titel III, Kapitel 2 aufgeführten Kontrollen nachzuweisen. Zu den Kontrollen gehören Überwachung, Transparenz, Erklärbarkeit, Datensicherheit, Datenschutz, Datenminimierung und Modellschutz – denken Sie an DevSecOps + Data Ops.

Die erste Herausforderung wird darin bestehen, einen realen Datensatz zur Verwendung zu finden, da es sich bei solchen Modelltypen grundsätzlich um sensible Daten handelt. Ohne technische Garantien zögern viele Organisationen möglicherweise, dem Modellanbieter ihre Daten anzuvertrauen, oder dürfen dies nicht tun. Darüber hinaus ist die Art und Weise, wie das Gesetz eine „KI-Regulierungssandbox“ definiert, an sich schon eine Herausforderung. Zu den Anforderungen gehört die Garantie, dass die Daten nach der Ausführung des Modells aus dem System entfernt werden, sowie Governance-Kontrollen, Durchsetzung und Berichterstattung, um dies nachzuweisen.

Viele Organisationen haben versucht, sofort einsatzbereite Data Clean Rooms (DCRs) und Trusted Execution Environments (TEEs) zu verwenden. Für sich genommen erfordern diese Technologien jedoch erhebliches Fachwissen und viel Arbeit, um die regulatorischen Anforderungen an Daten und KI zu implementieren und zu erfüllen.
DCRs sind einfacher zu verwenden, aber für anspruchsvollere KI/ML-Anforderungen noch nicht nützlich. TEEs sind gesicherte Server und benötigen dennoch eine integrierte Kollaborationsplattform, um schnell nutzbar zu sein. Dies stellt jedoch eine Möglichkeit dar, Technologieplattformen zur Verbesserung der Privatsphäre in TEEs zu integrieren, um diese Arbeit zu beseitigen und die Einrichtung und Verwendung einer KI-Regulierungssandbox und damit die Erfassung und Nutzung sensibler Daten zu trivialisieren.

Indem sie die Nutzung vielfältigerer und umfassenderer Datensätze auf datenschutzfreundliche Weise ermöglichen, tragen diese Technologien dazu bei, sicherzustellen, dass KI- und ML-Praktiken ethischen Standards und rechtlichen Anforderungen im Zusammenhang mit dem Datenschutz entsprechen (z. B. DSGVO und EU-KI-Gesetz in Europa). Zusammenfassend lässt sich sagen, dass Anforderungen zwar oft mit hörbarem Grunzen und Seufzen erfüllt werden, diese Anforderungen uns jedoch lediglich dazu leiten, bessere Modelle zu erstellen, denen wir vertrauen und auf die wir uns bei wichtigen datengesteuerten Entscheidungen verlassen können, während gleichzeitig die Privatsphäre der für die Modellentwicklung verwendeten Datensubjekte geschützt wird und Anpassung.

Adi Hirschtein ist VP of Product bei Dualitätstechnologien. Adi verfügt über mehr als 20 Jahre Erfahrung als Führungskraft, Produktmanager und Unternehmer beim Aufbau und der Förderung von Innovationen in Technologieunternehmen, die sich hauptsächlich auf B2B-Startups im Bereich Daten und KI konzentrieren. Vor Duality war Adi als Produkt-Vizepräsident für Iguazio (MLOps-Unternehmen) tätig, das von McKinsey übernommen wurde. Davor fungierte er als Produktdirektor bei EMC, nachdem er ein anderes Startup namens Zettapoint (Datenbank- und Speicherunternehmen) übernommen hatte Als VP of Product leitete er das Produkt von der Einführung bis zur Marktdurchdringung und zum Wachstum.