Interviews
Wilson Pang, Co-Autor von Real World AI – Interview Series

Wilson Pang trat bei Appen im November 2018 als CTO und ist verantwortlich für die Produkte und Technologie des Unternehmens. Wilson verfügt über mehr als neunzehn Jahre Erfahrung in den Bereichen Softwareentwicklung und Datenwissenschaft. Bevor er zu Appen kam, war Wilson Chief Data Officer von Ctrip in China, dem zweitgrößten Online-Reisebürounternehmen der Welt, wo er Dateningenieure, Analysten, Datenproduktmanager und Wissenschaftler leitete, um die Benutzererfahrung zu verbessern und die betriebliche Effizienz zu steigern wuchs das Geschäft. Davor war er Senior Director of Engineering bei eBay in Kalifornien und leitete verschiedene Bereiche, darunter Datendienste und -lösungen, Suchwissenschaft, Marketingtechnologie und Abrechnungssysteme. Vor seiner Zeit bei eBay arbeitete er als Architekt bei IBM und entwickelte Technologielösungen für verschiedene Kunden. Wilson erwarb seinen Master- und Bachelor-Abschluss in Elektrotechnik an der Zhejiang-Universität in China.
Wir besprechen sein neues Buch: Die reale Welt der KI: Ein praktischer Leitfaden fĂĽr verantwortungsvolles maschinelles Lernen
Sie beschreiben, dass eine Ihrer ersten Lektionen im Bereich des maschinellen Lernens, als Sie die Suchwissenschaftsteams von eBay leiteten, darin bestand, zu verstehen, wie wichtig es ist, zu wissen, welche Kennzahlen gemessen werden müssen. Das angeführte Beispiel war, dass die Metrik „Käufe pro Sitzung“ den Geldwert eines Artikels nicht berücksichtigte. Wie können Unternehmen am besten verstehen, welche Kennzahlen gemessen werden müssen, um ähnliche Probleme zu vermeiden?
Beginnen Sie mit den Zielen, die Ihr Team dem KI-Modell zuschreibt – in unserem Fall wollten wir mit maschinellem Lernen mehr Umsatz erzielen. Wenn Sie den Zielen Metriken zuordnen, denken Sie darüber nach, welche Mechanismen diese Metriken bewirken, sobald Sie das Modell veröffentlichen und die Leute anfangen, damit zu interagieren, aber notieren Sie sich auch Ihre Annahmen. In unserem Fall gingen wir davon aus, dass das Modell den Umsatz optimieren würde, aber die Anzahl der Käufe pro Sitzung ließ sich nicht darauf übertragen, da das Modell für eine große Anzahl von Verkäufen mit geringem Ticketwert optimiert war, und am Ende des Tages war dies nicht der Fall Ich verdiene nicht mehr Geld. Als uns das klar wurde, konnten wir die Metriken ändern und das Modell in die richtige Richtung lenken. Für den Erfolg eines Projekts sind daher die Bestimmung der detaillierten Kennzahlen sowie die Feststellung von Annahmen von entscheidender Bedeutung.
Was haben Sie persönlich aus der Recherche und dem Schreiben dieses Buches gelernt?
Wir haben viele verschiedene Probleme, die durch KI aus verschiedenen Unternehmen und verschiedenen Branchen gelöst werden können. Die Anwendungsfälle können sehr unterschiedlich sein, die KI-Lösung kann unterschiedlich sein, die Daten zum Trainieren dieser KI-Lösung können unterschiedlich sein. Doch trotz all dieser Unterschiede sind die Fehler, die Menschen auf ihrer KI-Reise gemacht haben, ziemlich ähnlich. Diese Fehler passierten immer wieder in den unterschiedlichsten Unternehmen aus den unterschiedlichsten Branchen.
Wir haben einige gängige Best Practices bei der Implementierung von KI-Projekten geteilt, in der Hoffnung, mehr Menschen und Unternehmen dabei zu helfen, diese Fehler zu vermeiden und ihnen das Selbstvertrauen zu geben, verantwortungsvolle KI einzusetzen.
Was sind Ihrer Meinung nach einige der wichtigsten Lehren, die die Leute aus der LektĂĽre ziehen werden?
Wir sind fest davon überzeugt, dass der durchdachte, verantwortungsvolle und ethische Einsatz maschineller Lerntechnologie die Welt zu einem gerechteren, faireren und integrativeren Ort machen kann. Die Technologie des maschinellen Lernens verspricht, alles in der gesamten Geschäftswelt neu zu gestalten, aber es muss nicht schwer sein. Es gibt bewährte Methoden und Prozesse, denen Teams folgen können und die sie sicher in der Produktion einsetzen können.
Eine weitere wichtige Lektion ist, dass Branchenverantwortliche (wie Produktmanager) und Teammitglieder auf der eher technischen Seite (wie Ingenieure und Datenwissenschaftler) eine gemeinsame Sprache sprechen müssen. Um KI erfolgreich einzusetzen, müssen Führungskräfte die Lücke zwischen den Teams schließen und den Geschäftsspezialisten und der C-Ebene genügend Kontext bieten, um effizient mit technischen Implementierern zu kommunizieren.
Viele Leute denken zuerst an Code, wenn sie an KI denken. Eine der wichtigsten Erkenntnisse des Buches ist, dass Daten für den Erfolg eines KI-Modells von entscheidender Bedeutung sind. Von der Erfassung über die Kennzeichnung bis hin zur Speicherung von Daten ist viel zu beachten, und jeder Schritt hat Einfluss auf den Erfolg des Modells. Die erfolgreichsten KI-Einsätze sind diejenigen, die großen Wert auf Daten legen und danach streben, diesen Aspekt ihres ML-Modells kontinuierlich zu verbessern.
Alles, was KI in der realen Welt erfordert, ist ein funktionsĂĽbergreifendes Team und Innovationsgeist.
Besprochen wird die Bestimmung, wann die Genauigkeit eines KI-Modells hoch genug ist, um den Einsatz von KI zu unterstützen. Wie lässt sich die erforderliche Genauigkeit am einfachsten beurteilen?
Es hängt von Ihren Anwendungsfällen und Ihrer Risikotoleranz ab. Teams, die KI entwickeln, sollten immer eine Testphase haben, in der sie Genauigkeitsniveaus und akzeptable Schwellenwerte für ihre Organisationen und Stakeholder festlegen. Bei Anwendungsfällen, bei denen es um Leben oder Tod geht – bei denen es zu potenziellen Schäden kommen kann, wenn die KI schief geht, wie im Fall von Verurteilungssoftware, selbstfahrenden Autos oder medizinischen Anwendungsfällen – liegt die Messlatte sehr, sehr hoch – und die Teams müssen sich einsetzen Platzieren Sie Eventualverbindlichkeiten für den Fall, dass die Modelle falsch sind. Bei Anwendungsfällen mit höherer Fehlertoleranz, bei denen viel Subjektivität eine Rolle spielt – etwa Inhalt, Suche oder Anzeigenrelevanz – können sich Teams auf das Feedback der Benutzer verlassen, um ihre Modelle auch während der Produktion weiter anzupassen. Natürlich gibt es auch hier einige Anwendungsfälle mit hohem Risiko, bei denen illegales oder unmoralisches Material den Benutzern angezeigt werden könnte, daher müssen auch hier Schutzmaßnahmen und Feedbackmechanismen vorhanden sein.
Können Sie definieren, wie wichtig es ist, den Erfolg eines Projekts im Voraus zu definieren?
Es ist ebenso wichtig, mit einem Geschäftsproblem zu beginnen, wie den Erfolg im Voraus zu definieren, da beides Hand in Hand geht. Sie folgten dem Beispiel im Buch über den Autohändler, der KI zur Kennzeichnung von Bildern einsetzte, und ermittelten nicht, wie der Erfolg aussah, da sie kein zu lösendes Geschäftsproblem definiert hatten. Der Erfolg könnte für sie eine Reihe verschiedener Faktoren gewesen sein, die es selbst für Teams von Menschen schwierig machen, ein Problem zu lösen, ganz zu schweigen von einem maschinellen Lernmodell mit einem festen Umfang. Wenn das Team sich zum Ziel gesetzt hätte, alle Fahrzeuge mit Dellen zu kennzeichnen, um eine Liste der Fahrzeuge zu erstellen, die repariert werden müssten, und als Erfolg die genaue Kennzeichnung von 80 % aller Fahrzeugbeulen im Gebrauchtwagenbestand definiert hätte, dann hätte das Team 85 % genau etikettiert hätte es als Erfolg bezeichnet. Wenn dieser Erfolg jedoch nicht an das Geschäftsproblem und die direkten Auswirkungen auf das Unternehmen gebunden ist, ist es schwierig, das Projekt außerhalb der fokussierten Definition der Kennzeichnungsgenauigkeit in diesem Beispiel zu bewerten. Hier war das Geschäftsproblem komplexer und die Kennzeichnung von Dellen ist nur ein Teil davon. In ihrem Fall hätten sie besser daran liegen können, Erfolg als Zeit-/Geldersparnis im Schadensfallprozess oder Optimierung des Reparaturprozesses um X % zu definieren und dann die Auswirkungen der Kennzeichnung in echte Geschäftsergebnisse umzusetzen.
Wie wichtig ist es, sicherzustellen, dass Trainingsdatenbeispiele alle Anwendungsfälle abdecken, die in der Produktionsbereitstellung auftreten werden?
Es ist äußerst wichtig, dass das Modell für alle Anwendungsfälle trainiert wird, um Verzerrungen zu vermeiden. Es ist jedoch auch wichtig zu beachten, dass es zwar unmöglich ist, absolut alle Anwendungsfälle in der Produktion abzudecken, Teams, die KI entwickeln, jedoch ihre Produktionsdaten sowie ihre Trainingsdaten verstehen müssen, damit sie die KI für das trainieren können, was sie in der Produktion erwartet . Der Zugriff auf Trainingsdaten, die von großen, unterschiedlichen Gruppen mit unterschiedlichen Anwendungsfällen stammen, ist für den Modellerfolg von entscheidender Bedeutung. Beispielsweise muss ein Modell, das darauf trainiert ist, das Haustier einer Person in einem hochgeladenen Bild zu erkennen, auf alle Arten von Haustieren trainiert werden; Hunde, Katzen, Vögel, kleine Säugetiere, Eidechsen usw. Wenn das Modell nur Hunde, Katzen und Vögel trainiert und jemand ein Bild mit seinem Meerschweinchen hochlädt, kann das Modell es nicht identifizieren. Obwohl dies ein sehr einfaches Beispiel ist, zeigt es, wie wichtig das Training für möglichst viele wahrscheinliche Anwendungsfälle für den Erfolg eines Modells ist.
In dem Buch wird die Notwendigkeit besprochen, gute Datenhygienegewohnheiten von oben nach unten zu entwickeln. Was sind einige allgemeine erste Schritte, um diese Gewohnheit zu fördern?
Gute Datenhygienegewohnheiten erhöhen die Nutzbarkeit interner Daten und bereiten sie für ML-Anwendungsfälle vor. Das gesamte Unternehmen muss seine Datensätze gut organisieren und im Auge behalten. Ein sicherer Weg, dies zu erreichen, besteht darin, es zu einer Geschäftsanforderung zu machen und die Implementierung zu verfolgen, sodass es nur sehr wenige Berichte gibt, die letztendlich zu benutzerdefinierten Jobs werden, und Teams immer mehr mit Datenpipelines arbeiten, die an ein zentrales Repository mit einer klaren Ontologie weitergeleitet werden. Eine weitere bewährte Vorgehensweise besteht darin, zu protokollieren, wann und wo die Daten erfasst wurden und was mit ihnen passiert ist, bevor sie in die Datenbank eingegeben wurden. Außerdem sollten Prozesse zur regelmäßigen Bereinigung ungenutzter oder veralteter Daten eingerichtet werden.
Vielen Dank für das tolle Interview, Lesern, die mehr erfahren möchten, empfehle ich die Lektüre des Buches Die reale Welt der KI: Ein praktischer Leitfaden für verantwortungsvolles maschinelles Lernen.












