Vordenker

Menschliche Datenbereitung für Machine Learning ist ressourcenintensiv: Diese beiden Ansätze sind entscheidend für die Reduzierung der Kosten

Veröffentlicht am 7. März 2022

Aktualisiert am 24. Mai 2026

Von

Dattaraj Rao

Von: Dattaraj Rao, Chief Data Scientist, Persistent Systems

Wie bei jedem System, das von Dateninputs abhängt, unterliegt Machine Learning (ML) dem Axiom “Müll rein, Müll raus”. Saubere und genau beschriftete Daten sind die Grundlage für den Aufbau jedes ML-Modells. Ein ML-Trainingsalgorithmus versteht Muster aus den Ground-Truth-Daten und lernt von dort aus, sich auf unbekannte Daten zu verallgemeinern. Wenn die Qualität Ihrer Trainingsdaten schlecht ist, wird es sehr schwierig für den ML-Algorithmus, kontinuierlich zu lernen und zu extrapolieren.

Denken Sie daran in Bezug auf das Training eines Haustiers. Wenn Sie es nicht richtig oder ungenau trainieren, können Sie nicht erwarten, dass es durch Beobachtung komplexere positive Verhaltensweisen lernt, da die zugrunde liegenden Inputs fehlten oder fehlerhaft waren. Ein ordnungsgemäßes Training ist zeitaufwändig und kann teuer sein, wenn Sie einen Experten hinzuziehen, aber die Ausbeute ist groß, wenn Sie es von Anfang an richtig machen.

Beim Trainieren eines ML-Modells erfordert die Erstellung von Qualitätsdaten, dass ein Domänenexperte Zeit aufwendet, um die Daten zu annotieren. Dies kann das Auswählen eines Fensters mit dem gewünschten Objekt in einem Bild oder das Zuweisen einer Bezeichnung zu einem Texteintrag oder einem Datenbankeintrag umfassen. Insbesondere für unstrukturierte Daten wie Bilder, Videos und Text spielt die Annotationsqualität eine wichtige Rolle bei der Bestimmung der Modellqualität. In der Regel ist unbeschriftete Daten wie rohe Bilder und Text reichlich vorhanden, aber die Beschriftung ist der Bereich, in dem der Aufwand optimiert werden muss. Dies ist der menschliche Teil des ML-Lebenszyklus und in der Regel der teuerste und arbeitsintensivste Teil jedes ML-Projekts.

Datenannotations-Tools wie Prodigy, Amazon Sagemaker Ground Truth, NVIDIA RAPIDS und DataRobot human-in-the-loop verbessern sich ständig in Qualität und bieten intuitive Schnittstellen für Domänenexperten. Die Minimierung der Zeit, die Domänenexperten für die Annotierung von Daten aufwenden müssen, ist jedoch immer noch eine große Herausforderung für Unternehmen heute – insbesondere in einer Umgebung, in der Datenwissenschaftstalent begrenzt, aber gefragt ist. Hier kommen zwei neue Ansätze für die Datenbereitung ins Spiel.

Aktives Lernen

Aktives Lernen ist eine Methode, bei der ein ML-Modell aktiv einen Domänenexperten für spezifische Annotierungen abfragt. Hier liegt der Fokus nicht darauf, eine vollständige Annotierung von unbeschrifteten Daten zu erhalten, sondern nur die richtigen Datenpunkte zu annotieren, damit das Modell besser lernen kann. Nehmen wir beispielsweise die Gesundheits- und Lebenswissenschaften, ein Diagnoseunternehmen, das sich auf die frühzeitige Krebsdetektion spezialisiert hat, um Klinikern datengesteuerte Entscheidungen über die Patientenversorgung zu ermöglichen. Als Teil ihres Diagnoseprozesses müssen sie CT-Scan-Bilder mit Tumoren annotieren, die hervorgehoben werden müssen.

Nachdem das ML-Modell aus einigen Bildern mit markierten Tumoren gelernt hat, fragt es mit aktiverm Lernen nur noch die Benutzer ab, um Bilder zu annotieren, bei denen es sich unsicher über das Vorhandensein eines Tumors ist. Diese sind Grenzpunkte, die, wenn sie annotiert werden, das Vertrauen des Modells erhöhen. Wo das Modell über einen bestimmten Schwellenwert hinaus zuversichtlich ist, führt es eine Selbstannotierung durch, anstatt den Benutzer zur Annotierung aufzufordern. So versucht aktives Lernen, genaue Modelle zu erstellen, während es die Zeit und den Aufwand für die Annotierung von Daten reduziert. Frameworks wie modAL können dazu beitragen, die Klassifizierungsleistung durch intelligente Abfrage von Domänenexperten zur Beschriftung der informativsten Instanzen zu erhöhen.

Schwache Aufsicht

Schwache Aufsicht ist ein Ansatz, bei dem verrauschte und ungenaue Daten oder abstrakte Konzepte verwendet werden können, um Hinweise für die Beschriftung einer großen Menge unüberwachter Daten zu liefern. Dieser Ansatz nutzt in der Regel schwache Bezeichner und versucht, diese in einem Ensemble-Ansatz zu kombinieren, um qualitativ hochwertige annotierte Daten zu erstellen. Der Aufwand besteht darin, Domänenwissen in eine automatisierte Beschriftungsaktivität einzubringen.

Wenn beispielsweise ein Internetdiensteanbieter (ISP) ein System benötigt, um E-Mail-Datensätze als Spam oder nicht Spam zu markieren, könnten wir schwache Regeln wie das Überprüfen von Phrasen wie “Angebot”, “Glückwunsch”, “kostenlos” usw. schreiben, die meist mit Spam-E-Mails in Verbindung gebracht werden. Andere Regeln könnten E-Mails von bestimmten Quelladressen-Mustern umfassen, die mit regulären Ausdrücken durchsucht werden können. Diese schwachen Funktionen könnten dann von einem schwachen Aufsichtsframework wie Snorkel und Skweak kombiniert werden, um verbesserte Trainingsdaten zu erstellen.

ML ist in seinem Kern darum bemüht, Unternehmen dabei zu helfen, Prozesse exponentiell in Wegen zu skalieren, die manuell unmöglich zu erreichen sind. ML ist jedoch keine Magie und hängt immer noch von Menschen ab, um a) die Modelle ordnungsgemäß von Anfang an einzurichten und zu trainieren und b) einzugreifen, wenn erforderlich, um sicherzustellen, dass das Modell nicht so stark verzerrt wird, dass die Ergebnisse nicht mehr nützlich sind und möglicherweise kontraproduktiv oder negativ sind.

Das Ziel ist es, Wege zu finden, die die menschliche Beteiligung strömen und automatisieren, um die Zeit bis zur Markteinführung und die Ergebnisse zu erhöhen, während sie jedoch innerhalb der Schranken der optimalen Genauigkeit bleiben. Es ist allgemein anerkannt, dass die Erlangung qualitativ hochwertiger annotierter Daten der teuerste, aber äußerst wichtige Teil eines ML-Projekts ist. Dies ist ein sich entwickelnder Bereich, und viele Bemühungen sind im Gange, um die Zeit, die von Domänenexperten für die Annotierung von Daten aufgewendet wird, zu reduzieren und die Qualität der Datenannotierungen zu verbessern. Die Erforschung und Nutzung von aktiverm Lernen und schwacher Aufsicht ist eine solide Strategie, um dies über mehrere Branchen und Anwendungsfälle hinweg zu erreichen.

Dattaraj Rao

Dattaraj Rao, Chief Data Scientist bei Persistent Systems, ist der Autor des Buches “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” Bei Persistent Systems leitet Dattaraj das AI Research Lab, das state-of-the-art-Algorithmen in Computer Vision, Natural Language Understanding, Probabilistic Programming, Reinforcement Learning, Explainable AI usw. erforscht und deren Anwendbarkeit in den Bereichen Gesundheitswesen, Banking und Industrie demonstriert. Dattaraj hält 11 Patente im Bereich Machine Learning und Computer Vision.

Unite.AI

Menschliche Datenbereitung für Machine Learning ist ressourcenintensiv: Diese beiden Ansätze sind entscheidend für die Reduzierung der Kosten

Aktives Lernen

Schwache Aufsicht

You may like