Stummel Resilienz > Genauigkeit: Warum „Modellresilienz“ die wahre Messgröße für die Operationalisierung von Modellen sein sollte – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Resilienz > Genauigkeit: Warum „Modellresilienz“ die wahre Messgröße für die Operationalisierung von Modellen sein sollte

mm
Aktualisiert on

Von Ingo Mierswa, Gründer, Präsident und Chief Data Scientist bei RapidMiner.

Die Datenwissenschaft hat in den letzten Jahren große Fortschritte gemacht und viele Unternehmen nutzen fortschrittliche Analysen oder Modelle des maschinellen Lernens, um tiefere Einblicke in die Prozesse zu gewinnen und in einigen Fällen sogar wahrscheinliche Ergebnisse für die Zukunft vorherzusagen. Für andere „Wissenschaften“ ist es oft nicht klar, ob ein Projekt erfolgreich sein wird oder nicht, und es gibt Berichte darüber Bis zu 87 % der Data-Science-Projekte schaffen es nie in die Produktion. Obwohl eine 100-prozentige Erfolgsquote nicht zu erwarten ist, gibt es bei datenwissenschaftlichen Projekten einige Muster, die zu höheren Erfolgsquoten führen, als in der Praxis als akzeptabel gelten sollten. Diese problematischen Muster scheinen unabhängig von einer bestimmten Branche oder einem bestimmten Anwendungsfall zu existieren, was darauf hindeutet, dass es in der Datenwissenschaft ein universelles Problem gibt, das angegangen werden muss.

Messung des Erfolgs von maschinellem Lernen

Datenwissenschaftler, die Modelle für maschinelles Lernen (ML) erstellen, stützen sich auf klar definierte mathematische Kriterien, um die Leistung solcher Modelle zu messen. Welches dieser Kriterien angewendet wird, hängt hauptsächlich von der Art des Modells ab. Nehmen wir an, ein Modell soll Klassen oder Kategorien für neue Situationen vorhersagen – zum Beispiel, ob ein Kunde abwandern wird oder nicht. In Situationen wie diesen würden Datenwissenschaftler Messungen wie Genauigkeit (wie oft das Modell korrekt ist) oder Präzision (wie oft Kunden tatsächlich abwandern, wenn wir eine Abwanderung vorhersagen) verwenden.

Datenwissenschaftler benötigen objektive Kriterien wie diese, da ein Teil ihrer Aufgabe darin besteht, diese Bewertungskriterien zu optimieren, um das beste Modell zu erstellen. Tatsächlich geht es neben der Vorbereitung der Daten für die Modellierung auch um die Erstellung und Abstimmung dieser Modelle wo Datenwissenschaftler die meiste Zeit verbringen.

Der Nachteil dabei ist, dass Datenwissenschaftler sich nicht wirklich darauf konzentrieren, diese Modelle in Produktion zu bringen, was aus mehr als einem Grund ein Problem darstellt. Erstens können Modelle, die keine erfolgreichen Ergebnisse liefern, nicht dazu genutzt werden, geschäftliche Auswirkungen für die Organisationen zu erzielen, die sie einsetzen. Zweitens: Da diese Organisationen Zeit und Geld in die Entwicklung, Schulung und Operationalisierung von Modellen investiert haben, die beim Vergleich mit Daten aus der „realen Welt“ keine erfolgreichen Ergebnisse erbracht haben, ist die Wahrscheinlichkeit groß, dass sie ML und andere datenwissenschaftliche Tools für ihr Unternehmen als nutzlos erachten und lehnen es ab, künftige Data-Science-Initiativen voranzutreiben.

Die Wahrheit ist, dass Datenwissenschaftler einfach Spaß daran haben, Modelle zu optimieren und viel Zeit damit verbringen. Aber ohne geschäftliche Auswirkungen wird diese Zeit nicht sinnvoll genutzt, was besonders schmerzhaft ist, wenn man bedenkt, wie knapp die Ressource Datenwissenschaftler in der heutigen Welt ist.

Der Netflix-Preis und Produktionsausfall

Wir haben dieses Phänomen der Überinvestition in den Modellaufbau und nicht in die Operationalisierung von Modellen in den letzten Jahren beobachtet. Der Netflix-Preis war ein offener Wettbewerb für den besten kollaborativen Filteralgorithmus zur Vorhersage von Benutzerbewertungen für Filme. Wenn Sie einem neuen Film eine hohe Bewertung geben würden, hat Ihnen dieser Film wahrscheinlich gefallen. Mit diesem Bewertungssystem empfiehlt Netflix Ihnen also bestimmte Titel, und wenn Ihnen die empfohlenen Inhalte gefallen, werden Sie wahrscheinlich länger Netflix-Kunde bleiben. Der Hauptpreis war ein Betrag von 1 Mio. USD, der an das Team vergeben wurde, das den Netflix-eigenen Algorithmus um mindestens 10 % verbessern konnte.

Die Herausforderung begann im Jahr 2006 und in den folgenden drei Jahren führten die Beiträge von über 40,000 Data-Science-Teams weltweit zu einer beeindruckenden Verbesserung des Titelempfehlungserfolgs um mehr als 10 %. Allerdings sind die Modelle des Gewinnerteams wurden nie operativ umgesetzt. Netflix sagte, dass „die höhere Genauigkeit offenbar nicht den Aufwand rechtfertigt, der erforderlich ist, um diese Modelle in Produktion zu bringen.“

Warum optimal nicht immer optimal ist

Modellgenauigkeit und andere datenwissenschaftliche Kriterien werden seit langem als Maß für die Messung des Erfolgs eines Modells verwendet, bevor das betreffende Modell in Produktion geht. Wie wir gesehen haben, schaffen es viele Modelle überhaupt nicht bis zu diesem Stadium – was eine Verschwendung von Ressourcen darstellt, sowohl in Bezug auf Energie als auch auf den Zeitaufwand.

Aber es gibt noch mehr Probleme mit dieser Kultur der Überinvestitionen in Modelloptimierungen. Das erste ist eine unbeabsichtigte Überanpassung an die Testdaten, die zu Modellen führt, die für den leitenden Datenwissenschaftler gut aussehen, in der Produktion jedoch tatsächlich eine unterdurchschnittliche Leistung erbringen – was manchmal sogar Schaden anrichtet. Dies geschieht aus zwei Gründen:

  1. Es gibt eine bekannte Diskrepanz zwischen Testfehlern und denen, die Sie in der Produktion sehen werden
  2. Geschäftsauswirkungen und Leistungskriterien der Datenwissenschaft korrelieren oft miteinander, aber „optimale“ Modelle liefern nicht immer die größte Wirkung

Der erste Punkt oben heißt auch „Überanpassung an den Testsatz.“ Es ist ein bekanntes Phänomen, insbesondere unter Teilnehmern von Data-Science-Wettbewerben wie denen von Kaggle. Bei diesen Wettbewerben kann man bereits eine stärkere Version dieses Phänomens zwischen den öffentlichen und den privaten Bestenlisten beobachten. Tatsächlich könnte ein Teilnehmer die öffentliche Bestenliste in einem Kaggle-Wettbewerb ohne gewinnen jemals die Daten gelesen. Ebenso kann es sein, dass der Gewinner der privaten Bestenliste und des Gesamtwettbewerbs kein Modell hervorgebracht hat, das seine Leistung bei einem anderen Datensatz als dem, anhand dessen es bewertet wurde, beibehalten kann.

Genauigkeit ist nicht gleichbedeutend mit geschäftlichen Auswirkungen

Zu lange haben wir diese Praxis akzeptiert, die zu einer langsamen Anpassung von Modellen an Testdatensätze führt. Was wie das beste Modell aussieht, entpuppt sich daher bestenfalls als mittelmäßig:

  • Messungen wie die Vorhersagegenauigkeit sind oft nicht gleichbedeutend mit den geschäftlichen Auswirkungen
  • Eine Verbesserung der Genauigkeit um 1 % kann nicht zu einem 1 % besseren Geschäftsergebnis führen
  • Es gibt Fälle, in denen ein leistungsschwaches Modell andere hinsichtlich der geschäftlichen Auswirkungen übertrifft
  • Auch andere Faktoren wie Wartung, Scoring-Geschwindigkeit oder Robustheit gegenüber Veränderungen im Laufe der Zeit („Resilienz“ genannt) müssen berücksichtigt werden.

Dieser letzte Punkt ist besonders wichtig. Die besten Modelle werden nicht nur Wettbewerbe gewinnen oder im Data-Science-Labor gut aussehen, sondern auch in der Produktion bestehen und bei einer Vielzahl von Testsätzen gute Leistungen erbringen. Diese Modelle bezeichnen wir als resiliente Modelle.

Drift und die Bedeutung von Resilienz

Alle Modelle verschlechtern sich mit der Zeit. Die Frage ist nur, wie schnell das geht und wie gut das Modell unter den veränderten Umständen noch performt. Der Grund für diese Verschlechterung ist die Tatsache, dass die Welt nicht statisch ist. Daher ändern sich auch die Daten, auf die das Modell angewendet wird, im Laufe der Zeit. Wenn diese Änderungen langsam erfolgen, nennen wir dies „Konzeptdrift“. Wenn die Änderungen abrupt erfolgen, nennen wir dies „Konzeptwechsel“. Beispielsweise können Kunden ihr Konsumverhalten im Laufe der Zeit langsam ändern, beeinflusst durch Trends und/oder Marketing. Propensitätsmodelle funktionieren möglicherweise ab einem bestimmten Punkt nicht mehr. Diese Veränderungen können in bestimmten Situationen drastisch beschleunigt werden. COVID-19 hat beispielsweise den Verkauf von Artikeln wie Toilettenpapier und Desinfektionsmitteln vorangetrieben – ein unerwartet starker Anstieg bei bestimmten Produkten, der ein solches Modell völlig aus der Bahn werfen kann.

Ein belastbares Modell ist möglicherweise nicht das beste Modell auf der Grundlage von Maßstäben wie Genauigkeit oder Präzision, wird jedoch bei einem breiteren Spektrum von Datensätzen eine gute Leistung erbringen. Aus diesem Grund wird es auch über einen längeren Zeitraum eine bessere Leistung erbringen und somit besser in der Lage sein, nachhaltige Geschäftseffekte zu erzielen.

Lineare und andere Arten einfacher Modelle sind häufig widerstandsfähiger, da es schwieriger ist, sie an einen bestimmten Testsatz oder Zeitpunkt anzupassen. Leistungsstärkere Modelle können und sollten als „Herausforderer“ für ein einfacheres Modell verwendet werden, damit Datenwissenschaftler sehen können, ob es auch im Laufe der Zeit bestehen kann. Dies sollte jedoch am Endpunkt und nicht am Anfang der Modellierungsreise eingesetzt werden.

Während in der Datenwissenschaft noch kein formeller KPI zur Messung der Resilienz eingeführt wurde, gibt es für Datenwissenschaftler mehrere Möglichkeiten, die Resilienz ihrer Modelle zu bewerten:

  • Kleinere Standardabweichungen in einem Kreuzvalidierungslauf bedeuten, dass die Modellleistung weniger von den Besonderheiten der verschiedenen Testsätze abhängt
  • Auch wenn Datenwissenschaftler keine vollständigen Kreuzvalidierungen durchführen, verwenden sie möglicherweise zwei verschiedene Datensätze für Tests und Validierung. Eine geringere Diskrepanz zwischen den Fehlerraten für die Test- und Validierungsdatensätze weist auf eine höhere Belastbarkeit hin
  • Wenn das Modell in der Produktion ordnungsgemäß überwacht wird, können im Laufe der Zeit Fehlerraten beobachtet werden. Die Konsistenz der Fehlerraten über die Zeit ist ein gutes Zeichen für die Modellresilienz.
  • Wenn die Modellüberwachungslösung der Wahl Drift berücksichtigt, sollten Datenwissenschaftler auch darauf achten, wie stark das Modell von dieser Eingabedrift beeinflusst wird.

Die Kultur der Datenwissenschaft verändern

Nachdem ein Modell in der Operationalisierungsphase eingesetzt wurde, bestehen immer noch Gefahren für die Genauigkeit eines Modells. Die letzten beiden oben genannten Punkte zur Modellresilienz erfordern bereits eine ordnungsgemäße Überwachung der Modelle in der Produktion. Als Ausgangspunkt für einen Kulturwandel in der Datenwissenschaft sind Unternehmen gut beraten, in eine ordnungsgemäße Modellüberwachung zu investieren und damit zu beginnen, Datenwissenschaftler für die mangelnde Leistung verantwortlich zu machen, nachdem Modelle in Produktion gegangen sind. Dies wird die Kultur sofort von einer Modellbaukultur zu einer Werte schaffenden und erhaltenden Kultur für den Bereich der Datenwissenschaft verändern.

Wie uns die jüngsten Weltereignisse gezeigt haben, verändert sich die Welt schnell. Heute müssen wir mehr denn je belastbare Modelle entwickeln – und nicht nur genaue –, um im Laufe der Zeit bedeutende geschäftliche Auswirkungen zu erfassen. Kaggle veranstaltet beispielsweise eine Herausforderung, um Datenwissenschaftler auf der ganzen Welt dazu zu bewegen, bei der Entwicklung von Modelllösungen für den globalen Kampf gegen COVID-19 mitzuhelfen. Ich gehe davon aus, dass die erfolgreichsten Modelle, die als Ergebnis dieser Herausforderung erstellt wurden, die widerstandsfähigsten und nicht die genauesten sein werden, da wir gesehen haben, wie schnell sich COVID-19-Daten an einem einzigen Tag ändern können.

Bei der Datenwissenschaft sollte es darum gehen, die Wahrheit herauszufinden und nicht darum, das „beste“ Modell zu erstellen. Indem wir uns an einen höheren Standard an Belastbarkeit als an Genauigkeit halten, werden Datenwissenschaftler in der Lage sein, größere geschäftliche Auswirkungen für unsere Organisationen zu erzielen und dazu beizutragen, die Zukunft positiv zu gestalten.

Ingo Mierswa ist seit Beginn seiner Entwicklung ein branchenerfahrener Datenwissenschaftler RapidMiner am Fachbereich Künstliche Intelligenz der TU Dortmund in Deutschland. Der Wissenschaftler Mierswa ist Autor zahlreicher preisgekrönter Publikationen zu Predictive Analytics und Big Data. Mierswa, der Unternehmer, ist der Gründer von RapidMiner. Er ist verantwortlich für strategische Innovationen und beschäftigt sich mit allen großen Fragen rund um die Technologien von RapidMiner. Unter seiner Führung ist RapidMiner in den ersten sieben Jahren um bis zu 300 % pro Jahr gewachsen. Im Jahr 2012 leitete er die Go-International-Strategie mit der Eröffnung von Büros in den USA sowie im Vereinigten Königreich und Ungarn. Nach zwei Finanzierungsrunden, der Übernahme von Radoop und der Unterstützung der Positionierung von RapidMiner bei führenden Analystenfirmen wie Gartner und Forrester ist Ingo sehr stolz darauf, das weltbeste Team zu RapidMiner zu holen.