Künstliche Intelligenz
Widerstandsfähigkeit > Genauigkeit: Warum “Modellwiderstandsfähigkeit” das eigentliche Maß für die Operationalisierung von Modellen sein sollte

By Ingo Mierswa, Gründer, Präsident & Chief Data Scientist bei RapidMiner.
Die Data Science hat in den letzten paar Jahren große Fortschritte gemacht und viele Organisationen verwenden fortschrittliche Analysen oder Machine-Learning-Modelle, um tiefergehende Einblicke in Prozesse zu gewinnen und in einigen Fällen sogar wahrscheinliche Ergebnisse für die Zukunft vorherzusagen. Für andere “Wissenschaften” ist es oft nicht klar, ob ein Projekt erfolgreich sein wird oder nicht, und es gibt Berichte, dass bis zu 87% der Data-Science-Projekte nie in die Produktion gelangen. Während eine Erfolgsquote von 100% nicht erwartet werden kann, gibt es einige Muster in Data-Science-Projekten, die zu höheren Erfolgsraten führen als in dem Feld als angemessen angesehen werden sollte. Diese problematischen Muster scheinen unabhängig von einer bestimmten Branche oder Verwendungszweck zu existieren, was darauf hindeutet, dass es ein universelles Problem in der Data Science gibt, das angegangen werden muss.
Die Messung des Erfolgs von Machine Learning
Data Scientists, die Machine-Learning-(ML)-Modelle erstellen, verlassen sich auf gut definierte mathematische Kriterien, um zu messen, wie gut diese Modelle performen. Welches dieser Kriterien angewendet wird, hängt hauptsächlich vom Modelltyp ab. Nehmen wir an, ein Modell sollte Klassen oder Kategorien für neue Situationen vorhersagen – zum Beispiel, ob ein Kunde abwandern wird oder nicht. In solchen Situationen würden Data Scientists Messungen wie Genauigkeit (wie oft das Modell korrekt ist) oder Präzision (wie oft Kunden tatsächlich abwandern, wenn wir Abwanderung vorhersagen) verwenden.
Data Scientists benötigen objektive Kriterien wie diese, weil ein Teil ihrer Arbeit darin besteht, diese Bewertungskriterien zu optimieren, um das beste Modell zu produzieren. Tatsächlich verbringen Data Scientists neben der Vorbereitung der Daten auf die Modellierung die meiste Zeit mit dem Aufbau und der Feinabstimmung dieser Modelle , wo Data Scientists den größten Teil ihrer Zeit verbringen.
Der Nachteil davon ist, dass Data Scientists tatsächlich nicht viel auf die Inbetriebnahme dieser Modelle achten, was ein Problem aus mehreren Gründen ist. Erstens und vor allem können Modelle, die keine erfolgreichen Ergebnisse produzieren, nicht zur Erzeugung von Geschäftswirkungen für die Organisationen eingesetzt werden, die sie einsetzen. Zweitens werden diese Organisationen, da sie Zeit und Geld in die Entwicklung, Schulung und Operationalisierung von Modellen investiert haben, die keine erfolgreichen Ergebnisse produziert haben, wenn sie mit “realen” Daten konfrontiert werden, wahrscheinlich eher als nutzlos für ihre Organisation betrachten und zögern, mit zukünftigen Data-Science-Initiativen fortzufahren.
Die Wahrheit ist, dass Data Scientists einfach das Feinabstellen von Modellen genießen und viel Zeit damit verbringen. Aber ohne Geschäftswirkung wird diese Zeit nicht weise investiert, was besonders schmerzhaft ist, wenn man bedenkt, wie knapp die Ressource Data Scientists in der heutigen Welt ist.
Der Netflix-Preis und das Produktionsversagen
Wir haben dieses Phänomen des Überinvestierens in die Modellbildung und nicht in die Operationalisierung von Modellen in den letzten Jahren beobachtet. Der Netflix-Preis war ein offener Wettbewerb für den besten Algorithmus zur Vorhersage von Benutzerbewertungen für Filme. Wenn Sie einem neuen Film eine hohe Bewertung geben, haben Sie diesen Film wahrscheinlich genossen – also verwendet Netflix dieses Bewertungssystem, um bestimmte Titel zu empfehlen, und wenn Sie die empfohlene Inhalte genießen, bleiben Sie wahrscheinlich länger als Kunde bei Netflix. Der Grand Prix war die Summe von 1 Mio. USD, die dem Team verliehen wurde, das in der Lage war, den Algorithmus von Netflix um mindestens 10% zu verbessern.

Die Herausforderung begann im Jahr 2006 und über die folgenden drei Jahre führten die Beiträge von über 40.000 Data-Science-Teams weltweit zu einer beeindruckenden Verbesserung von mehr als 10% für den Erfolg der Titelempfehlung. Allerdings wurden die Modelle des Gewinnerteams nie operationalisiert. Netflix sagte, dass “die Verbesserung der Genauigkeit nicht zu gerechtfertigt erschien, um die Anstrengung zu rechtfertigen, diese Modelle in die Produktion zu bringen.”
Warum optimal nicht immer optimal ist
Modelgenauigkeit und andere Data-Science-Kriterien wurden lange Zeit als Maßstab für die Messung des Erfolgs eines Modells verwendet, bevor das Modell in die Produktion gebracht wird. Wie wir gesehen haben, kommen viele Modelle nie in diese Phase – was eine Verschwendung von Ressourcen ist, sowohl in Bezug auf Energie als auch auf die verbrachte Zeit.
Aber es gibt noch mehr Probleme mit dieser Kultur des Überinvestierens in die Modellfeinabstimmung. Das erste ist ein ungewolltes Überanpassen an die Testdaten, was zu Modellen führt, die für den verantwortlichen Data Scientist gut aussehen, aber tatsächlich unterperformen, sobald sie in der Produktion sind – manchmal sogar Schaden anrichten. Dies geschieht aus zwei Gründen:
- Es gibt eine bekannte Diskrepanz zwischen Testfehler und dem, was man in der Produktion sehen wird
- Geschäftswirkung und Data-Science-Performanzkriterien sind oft korreliert, aber “optimale” Modelle liefern nicht immer die größte Wirkung
Der erste Punkt oben wird auch als “Überanpassung an die Testmenge” bezeichnet. Es ist ein bekanntes Phänomen, insbesondere unter den Teilnehmern von Data-Science-Wettbewerben wie denen von Kaggle. Für diese Wettbewerbe kann man bereits zwischen den öffentlichen und privaten Leaderboards eine stärkere Version dieses Phänomens sehen. Tatsächlich kann ein Teilnehmer den öffentlichen Leaderboard in einem Kaggle-Wettbewerb gewinnen, ohne jemanden die Daten zu lesen. Ebenso kann der Gewinner des privaten Leaderboards und des gesamten Wettbewerbs möglicherweise kein Modell produzieren, das seine Leistung auf jedem anderen Datensatz als dem, auf dem es ausgewertet wurde, beibehalten kann.
Genauigkeit entspricht nicht der Geschäftswirkung
Wir haben dieses Verfahren, das zu einer langsamen Anpassung von Modellen an die Testdatensätze führt, viel zu lange akzeptiert. Als Ergebnis sieht das, was wie das beste Modell aussieht, tatsächlich mittelmäßig aus:
- Messungen wie vorherige Genauigkeit entsprechen oft nicht der Geschäftswirkung
- Eine Verbesserung der Genauigkeit um 1% kann nicht in 1% bessere Geschäftsergebnisse übersetzt werden
- Es gibt Fälle, in denen ein schwach performendes Modell andere, im Hinblick auf die Geschäftswirkung, übertrifft
- Andere Faktoren wie Wartung, Auswertungsgeschwindigkeit oder Widerstandsfähigkeit gegenüber Änderungen über die Zeit (genannt “Widerstandsfähigkeit”) müssen ebenfalls berücksichtigt werden.
Dieser letzte Punkt ist besonders wichtig. Die besten Modelle werden nicht nur Wettbewerbe gewinnen oder im Data-Science-Labor gut aussehen, sondern auch in der Produktion bestehen und auf einer Vielzahl von Testsets gut performen. Diese Modelle sind das, was wir als widerstandsfähige Modelle bezeichnen.
Drift und die Bedeutung von Widerstandsfähigkeit
Alle Modelle verschlechtern sich über die Zeit. Die einzige Frage ist, wie schnell dies geschieht und wie gut das Modell noch unter den geänderten Umständen performt. Der Grund für diese Verschlechterung ist die Tatsache, dass die Welt nicht statisch ist. Daher ändern sich auch die Daten, auf die das Modell angewendet wird, über die Zeit. Wenn diese Änderungen langsam geschehen, nennen wir dies “Konzeptdrift”. Wenn die Änderungen abrupt geschehen, nennen wir dies “Konzeptwechsel”. Zum Beispiel können Kunden ihr Konsumverhalten langsam über die Zeit ändern, beeinflusst von Trends und/oder Marketing. Propensity-Modelle können zu einem bestimmten Zeitpunkt nicht mehr funktionieren. Diese Änderungen können in bestimmten Situationen dramatisch beschleunigt werden. COVID-19 hat beispielsweise den Verkauf von Artikeln wie Toilettenpapier und Desinfektionsmitteln – eine unerwartete starke Zunahme bestimmter Produkte – vorangetrieben, was ein solches Modell völlig aus dem Gleichgewicht bringen kann.
Ein widerstandsfähiges Modell muss nicht das beste Modell basierend auf Messungen wie Genauigkeit oder Präzision sein, aber es performt gut auf einer breiteren Palette von Datensätzen. Aus diesem Grund performt es auch über einen längeren Zeitraum besser und ist daher besser in der Lage, eine anhaltende Geschäftswirkung zu liefern.
Lineare und andere Arten von einfachen Modellen sind oft widerstandsfähiger, da es schwieriger ist, sie auf einen bestimmten Testdatensatz oder einen bestimmten Zeitpunkt zu überanpassen. Leistungsfähigere Modelle können und sollten als “Herausforderer” für ein einfaches Modell verwendet werden, um zu sehen, ob es auch über die Zeit hinweg bestehen kann. Aber dies sollte am Ende der Modellierungsreise und nicht am Anfang eingesetzt werden.
Obwohl ein formales KPI für die Messung der Widerstandsfähigkeit noch nicht in das Feld der Data Science eingeführt wurde, gibt es mehrere Möglichkeiten, wie Data Scientists die Widerstandsfähigkeit ihrer Modelle bewerten können:
- Kleinere Standardabweichungen in einem Kreuzvalidierungslauf bedeuten, dass die Modellleistung weniger von den Spezifika der verschiedenen Testsets abhängt
- Sogar wenn Data Scientists keine vollständigen Kreuzvalidierungen durchführen, können sie zwei verschiedene Datensätze für Tests und Validierung verwenden. Eine geringere Diskrepanz zwischen den Fehlerquoten für die Test- und Validierungsdatensätze weist auf eine höhere Widerstandsfähigkeit hin
- Wenn das Modell ordnungsgemäß in der Produktion überwacht wird, können Fehlerquoten über die Zeit hinweg gesehen werden. Die Konsistenz der Fehlerquoten über die Zeit ist ein gutes Zeichen für die Modellwiderstandsfähigkeit.
- Wenn die Modellüberwachungslösung der Wahl Drift berücksichtigt, sollten Data Scientists auch darauf achten, wie gut das Modell von diesem Eingangsdrift betroffen ist.
Die Änderung der Kultur in der Data Science
Nachdem ein Modell in der Operationalisierungsphase bereitgestellt wurde, gibt es noch Bedrohungen für die Genauigkeit des Modells. Die letzten beiden Punkte oben bezüglich der Modellwiderstandsfähigkeit erfordern bereits eine ordnungsgemäße Überwachung von Modellen in der Produktion. Als Ausgangspunkt für eine kulturelle Veränderung in der Data Science sind Unternehmen gut beraten, in eine ordnungsgemäße Modellüberwachung zu investieren und Data Scientists für die mangelnde Leistung nach der Inbetriebnahme von Modellen verantwortlich zu machen. Dies wird sofort die Kultur von einer Modellbaukultur zu einer Wert-schaffenden-und-aufrechterhaltenden Kultur für das Feld der Data Science ändern.
Wie jüngste Weltveranstaltungen gezeigt haben, ändert sich die Welt schnell. Jetzt mehr als je zuvor benötigen wir widerstandsfähige Modelle – nicht nur genaue – um eine bedeutende Geschäftswirkung über die Zeit zu erzielen. Kaggle beispielsweise hostet eine Herausforderung, um Data Scientists auf der ganzen Welt zu mobilisieren, um Modelllösungen zu entwickeln, die im globalen Kampf gegen COVID-19 eingesetzt werden können. Ich erwarte, dass die erfolgreichsten Modelle, die als Ergebnis dieser Herausforderung produziert werden, die widerstandsfähigsten und nicht die genauesten sein werden, da wir gesehen haben, wie schnell sich COVID-19-Daten an einem einzigen Tag ändern können.
Die Data Science sollte darin bestehen, die Wahrheit zu finden, und nicht darin, das “beste” Modell zu produzieren. Indem wir uns einem höheren Standard von Widerstandsfähigkeit gegenüber Genauigkeit verpflichten, können Data Scientists mehr Geschäftswirkung für unsere Organisationen liefern und dazu beitragen, die Zukunft positiv zu gestalten.












