Connect with us

KI-Datendilemma: Datenschutz, Regulierung und die Zukunft von ethischer KI

Vordenker

KI-Datendilemma: Datenschutz, Regulierung und die Zukunft von ethischer KI

mm

KI-gesteuerte Lösungen werden jeden Tag in verschiedenen Branchen, Dienstleistungen und Produkten schnell übernommen. Ihre Wirksamkeit hängt jedoch vollständig von der Qualität der Daten ab, auf denen sie trainiert werden – ein Aspekt, der oft missverstanden oder im Prozess der Datenerstellung übersehen wird.

Da Datenschutzbehörden die Überwachung verstärken, wie KI-Technologien mit Datenschutz- und Datensicherheitsvorschriften übereinstimmen, stehen Unternehmen unter wachsendem Druck, Datenbestände in konformen und ethischen Weisen zu beschaffen, zu annotieren und zu verfeinern.

Gibt es wirklich einen ethischen Ansatz zum Aufbau von KI-Datensätzen? Was sind die größten ethischen Herausforderungen der Unternehmen und wie gehen sie damit um? Und wie wirken sich die sich entwickelnden Rechtsrahmen auf die Verfügbarkeit und den Einsatz von Trainingsdaten aus? Lassen Sie uns diese Fragen erforschen.

Datenschutz und KI

Von Natur aus benötigt KI viele personenbezogene Daten, um Aufgaben auszuführen. Dies hat Bedenken hinsichtlich der Erfassung, Speicherung und Verwendung dieser Informationen aufgeworfen. Viele Gesetze weltweit regeln und beschränken den Einsatz personenbezogener Daten, von der DSGVO und dem neu eingeführten KI-Gesetz in Europa bis hin zu HIPAA in den USA, das den Zugang zu Patientendaten in der Medizinbranche regelt.

Referenz für die Strenge der Datenschutzgesetze weltweit / DLA Piper

Zum Beispiel haben derzeit vierzehn US-Bundesstaaten umfassende Datenschutzgesetze, und sechs weitere sollen 2025 und Anfang 2026 in Kraft treten. Die neue Regierung hat einen Wechsel in ihrem Ansatz zur Durchsetzung des Datenschutzes auf Bundesebene signalisiert. Ein wichtiger Schwerpunkt liegt auf der KI-Regulierung, wobei der Fokus auf der Förderung von Innovationen statt auf der Verhängung von Beschränkungen liegt. Diese Änderung umfasst die Aufhebung früherer Exekutivverordnungen zu KI und die Einführung neuer Richtlinien, um deren Entwicklung und Anwendung zu leiten.

Die Datenschutzgesetzgebung entwickelt sich in verschiedenen Ländern: In Europa sind die Gesetze strenger, während sie in Asien oder Afrika tendenziell weniger streng sind.

Allerdings ist personenbezogene Informationen (PII) – wie Gesichtsbilder, offizielle Dokumente wie Pässe oder andere sensible personenbezogene Daten – in den meisten Ländern in irgendeiner Form eingeschränkt. Laut der UN-Handels- und Entwicklungskonferenz ist die Erfassung, Verwendung und Weitergabe personenbezogener Informationen an Dritte ohne Benachrichtigung oder Zustimmung der Verbraucher ein großes Anliegen für die meisten Länder der Welt. 137 von 194 Ländern haben Vorschriften, die den Datenschutz und die Privatsphäre gewährleisten. Daher nehmen die meisten globalen Unternehmen umfangreiche Vorkehrungen, um den Einsatz von PII für die Modellierung zu vermeiden, da Gesetze wie die in der EU derartige Praktiken streng verbieten, mit seltenen Ausnahmen in stark regulierten Nischen wie der Strafverfolgung.

Im Laufe der Zeit werden die Datenschutzgesetze umfassender und global durchgesetzt. Unternehmen passen ihre Praktiken an, um rechtliche Herausforderungen zu vermeiden und neue rechtliche und ethische Anforderungen zu erfüllen.

Welche Methoden verwenden Unternehmen, um Daten zu erhalten?

Wenn man also die Datenschutzprobleme für die Modellierung untersucht, ist es wichtig, zunächst zu verstehen, wo Unternehmen diese Daten erhalten. Es gibt drei Haupt- und primäre Datenquellen.

  • Datenerfassung

Diese Methode ermöglicht die Erfassung von Daten aus Crowdsourcing-Plattformen, Medienbeständen und Open-Source-Datensätzen.

Es ist wichtig zu beachten, dass öffentliche Medienbestände verschiedenen Lizenzvereinbarungen unterliegen. Selbst eine kommerzielle Lizenz besagt oft ausdrücklich, dass der Inhalt nicht für die Modellierung verwendet werden darf. Diese Erwartungen unterscheiden sich von Plattform zu Plattform und erfordern, dass Unternehmen ihre Fähigkeit bestätigen, den Inhalt auf die von ihnen benötigte Weise zu verwenden.

Selbst wenn KI-Unternehmen Inhalte rechtmäßig erwerben, können sie noch Probleme haben. Der schnelle Fortschritt der KI-Modellierung hat die rechtlichen Rahmenbedingungen überholt, was bedeutet, dass die Regeln und Vorschriften für KI-Trainingsdaten noch im Entwicklungsstadium sind. Daher müssen Unternehmen sich über rechtliche Entwicklungen informieren und Lizenzvereinbarungen sorgfältig überprüfen, bevor sie Stock-Inhalte für die KI-Ausbildung verwenden.

  • Datenerstellung

Eine der sichersten Methoden zur Datensatzvorbereitung besteht darin, einzigartigen Inhalt zu erstellen, wie zum Beispiel das Filmen von Personen in kontrollierten Umgebungen wie Studios oder Außenorten. Bevor die Personen teilnehmen, unterzeichnen sie eine Einverständniserklärung, in der der Einsatz ihrer personenbezogenen Daten, einschließlich der Art der Datenerfassung, des Verwendungszwecks und des Zugriffs, festgelegt wird. Dies gewährleistet den vollen rechtlichen Schutz und gibt Unternehmen die Gewissheit, dass sie nicht mit Ansprüchen wegen rechtswidriger Datennutzung konfrontiert werden.

Der Hauptnachteil dieser Methode ist ihr Kosten, insbesondere wenn Daten für Randfälle oder große Projekte erstellt werden. Große Unternehmen und Konzerne verwenden jedoch zunehmend diesen Ansatz, und zwar aus zwei Gründen. Erstens stellt er sicher, dass alle Standards und rechtlichen Vorschriften eingehalten werden. Zweitens bietet er Unternehmen Daten, die speziell auf ihre Szenarien und Bedürfnisse zugeschnitten sind, was die höchste Genauigkeit bei der Modellierung gewährleistet.

  • Erzeugung synthetischer Daten

Mit Softwaretools werden Bilder, Texte oder Videos auf der Grundlage eines bestimmten Szenarios erstellt. Allerdings haben synthetische Daten Einschränkungen: Sie werden auf der Grundlage vordefinierter Parameter erstellt und fehlen die natürliche Variabilität realer Daten.

Dieses Fehlen kann sich negativ auf KI-Modelle auswirken. Obwohl es nicht für alle Fälle relevant ist und nicht immer passiert, ist es wichtig, sich daran zu erinnern, dass “Modellkollaps” – ein Punkt, an dem die übermäßige Abhängigkeit von synthetischen Daten dazu führt, dass das Modell verschlechtert wird und zu minderwertigen Ausgaben führt.

Synthetische Daten können jedoch für grundlegende Aufgaben wie das Erkennen allgemeiner Muster, das Identifizieren von Objekten oder das Erkennen grundlegender visueller Elemente wie Gesichter sehr effektiv sein.

Allerdings sind sie nicht die beste Option, wenn ein Unternehmen ein Modell von Grund auf trainieren oder mit seltenen oder sehr spezifischen Szenarien umgehen muss.

Die aufschlussreichsten Situationen treten in Innenraumumgebungen auf, wie zum Beispiel ein Fahrer, der von einem Kind abgelenkt wird, jemand, der hinter dem Steuer müde erscheint, oder sogar Fälle von rücksichtslosem Fahren. Diese Datenpunkte sind in öffentlichen Datensätzen nicht leicht verfügbar – und sollten es auch nicht sein – da sie reale Personen in privaten Umgebungen betreffen. Da KI-Modelle auf Trainingsdaten angewiesen sind, um synthetische Ausgaben zu erzeugen, haben sie Schwierigkeiten, Szenarien genau darzustellen, mit denen sie noch nie zuvor konfrontiert wurden.

Wenn synthetische Daten versagen, wird erstellter Daten – in kontrollierten Umgebungen mit realen Schauspielern – zur Lösung.

Datenlösungsanbieter wie Keymakr platzieren Kameras in Autos, engagieren Schauspieler und nehmen Aktionen wie das Versorgen eines Babys, Trinken aus einer Flasche oder das Zeigen von Anzeichen von Müdigkeit auf. Die Schauspieler unterzeichnen Verträge, in denen sie ausdrücklich zustimmen, ihre Daten für die KI-Ausbildung zu verwenden, was die Einhaltung der Datenschutzgesetze gewährleistet.

Verantwortlichkeiten im Prozess der Datenerstellung

Jeder Teilnehmer im Prozess, vom Kunden bis zum Anbieter von Annotationen, hat spezifische Verantwortlichkeiten, die in seinem Vertrag festgelegt sind. Der erste Schritt besteht darin, einen Vertrag zu erstellen, der die Natur der Beziehung, einschließlich Klauseln zur Geheimhaltung und geistigen Eigentumsrechte, detailliert.

Betrachten wir die erste Option für die Arbeit mit Daten, nämlich wenn sie von Grund auf erstellt werden. Die geistigen Eigentumsrechte besagen, dass alle Daten, die der Anbieter erstellt, dem beauftragenden Unternehmen gehören, was bedeutet, dass sie in dessen Auftrag erstellt werden. Dies bedeutet auch, dass der Anbieter sicherstellen muss, dass die Daten rechtmäßig erworben und ordnungsgemäß verwendet werden.

Als Datenlösungsunternehmen stellt Keymakr sicher, dass die Daten den Vorschriften entsprechen, indem es zunächst die Rechtsordnung überprüft, in der die Daten erstellt werden, die ordnungsgemäße Zustimmung aller beteiligten Personen einholt und gewährleistet, dass die Daten rechtmäßig für die KI-Ausbildung verwendet werden können.

Es ist auch wichtig zu beachten, dass die Daten, sobald sie für die KI-Modellierung verwendet werden, es fast unmöglich machen, zu bestimmen, welche spezifischen Daten zum Modell beigetragen haben, da KI sie alle miteinander verbindet. Der spezifische Ausgang neigt sich also nicht dazu, dessen Ausgang zu sein, insbesondere wenn man von Millionen von Bildern spricht.

Aufgrund ihrer schnellen Entwicklung werden in diesem Bereich noch klare Richtlinien für die Verteilung von Verantwortlichkeiten etabliert. Dies ist ähnlich wie die Komplexität, die bei selbstfahrenden Autos auftritt, bei denen Fragen nach der Haftung – ob es sich um den Fahrer, den Hersteller oder das Softwareunternehmen handelt – noch einer klaren Verteilung bedürfen.

In anderen Fällen, wenn ein Anbieter von Annotationen einen Datensatz zur Annotation erhält, geht er davon aus, dass der Kunde die Daten rechtmäßig erworben hat. Wenn es klare Anzeichen dafür gibt, dass die Daten unrechtmäßig erworben wurden, muss der Anbieter dies melden. Solche offensichtlichen Fälle sind jedoch extrem selten.

Es ist auch wichtig zu beachten, dass große Unternehmen, Konzerne und Marken, die ihren Ruf schätzen, sehr vorsichtig sind, wenn es um die Quelle ihrer Daten geht, auch wenn sie nicht von Grund auf erstellt, sondern aus anderen legalen Quellen stammen.

Zusammenfassend hängt die Verantwortung jedes Teilnehmers im Datenbearbeitungsprozess von dem Vertrag ab. Man könnte diesen Prozess als Teil einer umfassenderen “Nachhaltigkeitskette” betrachten, in der jeder Teilnehmer eine entscheidende Rolle bei der Einhaltung rechtlicher und ethischer Standards spielt.

Welche Missverständnisse gibt es über die Backend-Entwicklung von KI?

Ein großes Missverständnis über die KI-Entwicklung besteht darin, dass KI-Modelle ähnlich wie Suchmaschinen funktionieren, indem sie Informationen sammeln und aggregieren, um sie den Benutzern auf der Grundlage des erlernten Wissens zu präsentieren. KI-Modelle, insbesondere Sprachmodelle, funktionieren jedoch oft auf der Grundlage von Wahrscheinlichkeiten und nicht auf der Grundlage eines echten Verständnisses. Sie prognostizieren Wörter oder Begriffe auf der Grundlage statistischer Wahrscheinlichkeit, indem sie Muster in vorherigen Daten verwenden. KI “weiß” nichts; sie extrapolieren, raten und passen Wahrscheinlichkeiten an.

Darüber hinaus gehen viele davon aus, dass die Ausbildung von KI enorme Datenmengen erfordert, aber vieles, was KI erkennen muss – wie Hunde, Katzen oder Menschen – ist bereits gut etabliert. Der Fokus liegt jetzt darauf, die Genauigkeit zu verbessern und die Modelle zu verfeinern, anstatt die Erkennungsfähigkeiten neu zu erfinden. Die meisten KI-Entwicklungen heute drehen sich um die Schließung der letzten kleinen Genauigkeitslücken und nicht um den Neuanfang.

Ethische Herausforderungen und wie die europäische KI-Verordnung und die Milderung der US-Regulierungen den globalen KI-Markt beeinflussen werden

Wenn man über die Ethik und Rechtmäßigkeit der Arbeit mit Daten spricht, ist es auch wichtig, genau zu verstehen, was “ethische” KI definiert.

Die größte ethische Herausforderung, der sich Unternehmen heute bei KI gegenübersehen, besteht darin, zu bestimmen, was für KI als inakzeptabel gilt oder was sie gelehrt werden sollte. Es gibt einen breiten Konsens, dass ethische KI den Menschen helfen und nicht schaden sollte und Täuschung vermeiden sollte. KI-Systeme können jedoch Fehler machen oder “halluzinieren”, was es schwierig macht, zu bestimmen, ob diese Fehler als Fehlinformationen oder Schäden gelten.

KI-Ethik ist ein großes Thema, mit dem sich Organisationen wie die UNESCO befassen – mit Schlüsselprinzipien, die Prüfbarkeit und Nachvollziehbarkeit von Ausgaben umfassen.

Rechtliche Rahmenbedingungen im Zusammenhang mit dem Zugang zu Daten und der KI-Ausbildung spielen eine wichtige Rolle bei der Gestaltung der ethischen Landschaft von KI. Länder mit weniger Einschränkungen bei der Datennutzung ermöglichen einen einfacheren Zugang zu Trainingsdaten, während Länder mit strengeren Datenschutzgesetzen den Zugang zu Daten für die KI-Ausbildung einschränken.

Zum Beispiel bieten Europa, das den KI-Akt verabschiedet hat, und die USA, die viele KI-Regulierungen zurückgezogen haben, unterschiedliche Ansätze, die die aktuelle globale Landschaft anzeigen.

Der europäische KI-Akt hat einen erheblichen Einfluss auf Unternehmen, die in Europa tätig sind. Er verhängt einen strengen regulatorischen Rahmen, der es Unternehmen schwer macht, bestimmte KI-Modelle zu verwenden oder zu entwickeln. Unternehmen müssen spezielle Lizenzen erwerben, um mit bestimmten Technologien zu arbeiten, und in vielen Fällen machen die Regulierungen es effektiv zu schwierig für kleinere Unternehmen, diesen Regeln zu entsprechen.

Infolgedessen können einige Start-ups entscheiden, Europa zu verlassen oder dort nicht zu operieren, ähnlich wie bei den Auswirkungen, die man bei Kryptowährungsregulierungen sieht. Große Unternehmen, die die notwendigen Investitionen tätigen können, um die Konformität zu erfüllen, können sich anpassen, aber der Akt könnte die KI-Innovation aus Europa in Richtung Märkte wie die USA oder Israel treiben, wo die Regulierungen weniger streng sind.

Die Entscheidung der USA, erhebliche Ressourcen in die KI-Entwicklung mit weniger Einschränkungen zu investieren, kann auch Nachteile haben, aber sie wird auch mehr Vielfalt auf dem Markt fördern. Während die Europäische Union sich auf Sicherheit und regulatorische Konformität konzentriert, wird die USA wahrscheinlich mehr Risikobereitschaft und experimentelle Forschung fördern.

Michael Abramov ist der Gründer und CEO von Introspector, der über 15+ Jahre Erfahrung im Bereich Software-Engineering und Computer-Vision-KI-Systeme in die Entwicklung von unternehmensweiten Beschriftungstools einbringt.

Michael begann seine Karriere als Software-Entwickler und Leiter der Forschung und Entwicklung, indem er skalierbare Daten-Systeme aufbaute und cross-funktionale Ingenieur-Teams leitete. Bis 2025 war er CEO von Keymakr, einem Daten-Beschriftungsdienstleistungsunternehmen, wo er human-in-the-loop-Workflows, fortschrittliche QA-Systeme und maßgeschneiderte Werkzeuge zur Unterstützung von groß angelegten Computer-Vision- und Autonomie-Datenanforderungen entwickelte.

Er hält einen B.Sc. in Informatik und hat eine Ausbildung in Ingenieurwesen und kreativen Künsten, was ihm eine multidisziplinäre Perspektive bei der Lösung komplexer Probleme verleiht. Michael lebt an der Schnittstelle von Technologie-Innovation, strategischer Produktführung und realer Weltwirkung und treibt die nächste Grenze von autonomen Systemen und intelligenter Automatisierung voran.