Interviews
Wilson Pang, Co-Autor von Real World AI – Interview-Serie

Wilson Pang trat Appen im November 2018 als CTO bei und ist für die Produkte und Technologie des Unternehmens verantwortlich. Wilson verfügt über neunzehn Jahre Erfahrung in der Softwareentwicklung und Datenwissenschaft. Bevor er zu Appen kam, war Wilson Chief Data Officer von Ctrip in China, dem zweitgrößten Online-Reiseveranstalter der Welt, wo er Dateningenieure, Analysten, Datenproduktmanager und Wissenschaftler leitete, um die Benutzererfahrung zu verbessern und die Betriebs-effizienz zu steigern, was das Geschäftswachstum förderte. Davor war er Senior Director of Engineering bei eBay in Kalifornien und übernahm die Führung in verschiedenen Bereichen, einschließlich Daten-Diensten und -Lösungen, Suchwissenschaft, Marketing-Technologie und Abrechnungssystemen. Er arbeitete als Architekt bei IBM, bevor er zu eBay kam, und baute Technologie-Lösungen für verschiedene Kunden. Wilson erhielt seinen Master- und Bachelor-Abschluss in Elektrotechnik von der Zhejiang-Universität in China.
Wir diskutieren sein neues Buch: Die reale Welt der KI: Ein praktischer Leitfaden für verantwortungsvolles Machine Learning
Sie beschreiben, wie Sie, als Sie die Suchwissenschafts-Teams von eBay leiteten, eine Ihrer ersten Lektionen im Machine Learning waren, die Bedeutung des Wissens, welche Metriken gemessen werden müssen. Das Beispiel, das angegeben wurde, zeigt, wie die Metrik “Käufe pro Sitzung” nicht berücksichtigte, den monetären Wert eines Artikels. Wie können Unternehmen am besten verstehen, welche Metriken gemessen werden müssen, um ähnliche Probleme zu vermeiden?
Beginnen Sie mit den Zielen, die Ihr Team dem KI-Modell zuweist – in unserem Fall wollten wir mit Machine Learning mehr Umsatz erzielen. Wenn Sie Metriken an die Ziele anhängen, denken Sie über die Mechanik nach, die diese Metriken produzieren, wenn Sie das Modell veröffentlichen und Menschen beginnen, mit ihm zu interagieren, aber machen Sie auch eine Notiz über Ihre Annahmen. In unserem Fall nahmen wir an, dass das Modell auf Umsatz optimiert werden würde, aber die Anzahl der Käufe pro Sitzung entsprach nicht dazu, da das Modell auf eine hohe Anzahl von Käufen mit niedrigem Wert optimiert war, und am Ende des Tages verdienten wir nicht mehr Geld. Als wir das erkannten, konnten wir die Metriken ändern und das Modell in die richtige Richtung lenken. Daher sind die Bestimmung der granularen Metriken sowie die Notation der Annahmen für den Erfolg eines Projekts von entscheidender Bedeutung.
Was haben Sie persönlich aus der Recherche und dem Schreiben dieses Buches gelernt?
Wir haben viele verschiedene Probleme, die durch KI aus verschiedenen Unternehmen und Branchen gelöst werden können. Die Anwendungsfälle können sehr unterschiedlich sein, die KI-Lösung kann unterschiedlich sein, die Daten, um diese KI-Lösung zu trainieren, können unterschiedlich sein. Trotz all dieser Unterschiede sind die Fehler, die Menschen während ihrer KI-Reise machen, ziemlich ähnlich. Diese Fehler wiederholen sich immer wieder in allen Arten von Unternehmen aus allen Branchen.
Wir haben einige gemeinsame Best Practices bei der Implementierung von KI-Projekten geteilt, um mehr Menschen und Unternehmen zu helfen, diese Fehler zu vermeiden und ihnen das Vertrauen zu geben, verantwortungsvolle KI zu bereitstellen.
Was sind einige der wichtigsten Lektionen, die Sie hoffen, die Menschen aus dem Lesen dieses Buches ziehen werden?
Wir glauben fest an die bedachte, verantwortungsvolle und ethische Verwendung von Machine-Learning-Technologie, um die Welt zu einem gerechteren, faireren und integrativeren Ort zu machen. Machine-Learning-Technologie verspricht, alles in der Geschäftswelt zu verändern, aber es muss nicht schwer sein. Es gibt bewährte Methoden und Prozesse, denen Teams folgen und das Vertrauen gewinnen können, um in die Produktion zu gehen.
Eine weitere wichtige Lektion ist, dass die Besitzer von Geschäftslinien (wie Produktmanager) und Teammitglieder auf der technischeren Seite (wie Ingenieure und Datenwissenschaftler) eine gemeinsame Sprache sprechen müssen. Um KI erfolgreich bereitzustellen, müssen Führungskräfte die Lücke zwischen den Teams überbrücken und den Geschäftsspezialisten und dem C-Level genügend Kontext bieten, um effizient mit den technischen Umsetzern zu sprechen.
Viele Menschen denken zuerst an Code, wenn sie an KI denken. Eine der wichtigsten Lektionen in diesem Buch ist, dass Daten für den Erfolg eines KI-Modells von entscheidender Bedeutung sind. Es gibt viel, was mit Daten von der Erfassung bis zur Kennzeichnung, zum Speichern und jedem Schritt, der den Erfolg des Modells beeinflusst. Die erfolgreichsten KI-Bereitstellungen sind die, die einen hohen Wert auf Daten legen und sich bemühen, diesen Aspekt ihres ML-Modells kontinuierlich zu verbessern.
Alles, was in der realen Welt von KI benötigt wird, ist ein cross-funktionales Team und ein innovativer Geist.
Besprochen wird die Bestimmung, wann die Genauigkeit eines KI-Modells ausreichend ist, um die Verwendung von KI zu unterstützen. Was ist der einfachste Weg, um den Typ der erforderlichen Genauigkeit zu bewerten?
Es hängt von Ihren Anwendungsfällen und Risikotoleranz ab. Teams, die KI entwickeln, sollten immer eine Testphase haben, in der sie die Genauigkeitsgrade und akzeptable Schwellenwerte für ihre Organisation und Stakeholder bestimmen. Für lebensbedrohliche Anwendungsfälle – bei denen es zu Schäden kommen kann, wenn die KI falsch ist, wie bei der Urteils-Software, selbstfahrenden Autos, medizinischen Anwendungsfällen – ist die Latte sehr hoch, und Teams müssen Vorkehrungen treffen, wenn die Modelle falsch sind. Für fehlertolerantere Anwendungsfälle – bei denen viel Subjektivität im Spiel ist – wie Inhalte, Suchrelevanz oder Werbe-Relevanz – können Teams auf Nutzer-Feedback zurückgreifen, um ihre Modelle auch während der Produktion anzupassen. Natürlich gibt es auch einige hochriskante Anwendungsfälle, bei denen illegale oder unethische Materialien den Nutzern gezeigt werden könnten, sodass Sicherheitsvorkehrungen und Feedback-Mechanismen eingerichtet werden müssen.
Können Sie die Bedeutung der Definition des Erfolgs für ein Projekt im Voraus definieren?
Es ist ebenso wichtig, mit einem Geschäftsproblem zu beginnen, wie es ist, den Erfolg im Voraus zu definieren, da diese beiden Dinge Hand in Hand gehen. Wenn wir das Beispiel im Buch über den Autohändler nehmen, der KI verwendet, um Bilder zu kennzeichnen, haben sie nicht bestimmt, was Erfolg bedeutet, da sie kein Geschäftsproblem zu lösen hatten. Erfolg für sie hätte viele verschiedene Dinge sein können, was es schwierig macht, ein Problem zu lösen, selbst für Teams von Menschen, geschweige denn ein Machine-Learning-Modell mit einem festen Umfang. Wenn sie sich zum Ziel gesetzt hätten, alle Fahrzeuge mit Beulen zu kennzeichnen, um eine Liste von Fahrzeugen zu erstellen, die repariert werden müssen, und Erfolg als korrekte Kennzeichnung von 80 % aller Fahrzeugbeulen im Gebrauchtwagenbestand definiert hätten, dann hätten sie, wenn sie 85 % korrekt gekennzeichnet hätten, den Erfolg ausgerufen. Aber wenn dieser Erfolg nicht an das Geschäftsproblem und den direkten Geschäftseinfluss geknüpft ist, ist es schwierig, das Projekt außerhalb der spezifischen Definition der Kennzeichnungs-Genauigkeit in diesem Beispiel zu bewerten. Hier war das Geschäftsproblem komplexer, und die Kennzeichnung von Beulen ist nur ein Teil davon. Sie hätten besser daran getan, Erfolg als Zeit- oder Kosteneinsparung bei dem Anspruchsprozess oder die Optimierung des Reparaturprozesses um X % zu definieren und dann die Auswirkungen der Kennzeichnung in reale Geschäftsergebnisse umzurechnen.
Wie wichtig ist es, sicherzustellen, dass die Trainingsdaten-Beispiele alle Anwendungsfälle abdecken, die in der Produktionsbereitstellung auftreten werden?
Es ist extrem wichtig, dass das Modell auf allen Anwendungsfällen trainiert wird, um Verzerrungen zu vermeiden. Aber es ist auch wichtig zu beachten, dass es, obwohl es unmöglich ist, absolut alle Anwendungsfälle in der Produktion abzudecken, Teams, die KI aufbauen, ihre Produktionsdaten sowie ihre Trainingsdaten verstehen müssen, um die KI auf das vorzubereiten, was sie in der Produktion antreffen werden. Der Zugang zu Trainingsdaten, die von großen, vielfältigen Gruppen mit verschiedenen Anwendungsfällen stammen, wird für den Erfolg des Modells von entscheidender Bedeutung sein. Zum Beispiel muss ein Modell, das darauf trainiert ist, das Haustier eines Benutzers in einem hochgeladenen Bild zu erkennen, auf alle Arten von Haustieren trainiert werden; Hunde, Katzen, Vögel, kleine Säugetiere, Echsen usw. Wenn das Modell nur auf Hunde, Katzen und Vögel trainiert ist, kann es nicht erkennen, wenn jemand ein Bild mit seinem Meerschweinchen hochlädt. Während dies ein sehr einfaches Beispiel ist, zeigt es, wie wichtig es ist, auf so viele wahrscheinliche Anwendungsfälle wie möglich zu trainieren.
Besprochen im Buch ist die Notwendigkeit, gute Datenhygiene-Gewohnheiten von oben nach unten zu entwickeln. Was sind einige gemeinsame erste Schritte, um diese Gewohnheit zu pflegen?
Gute Datenhygiene-Gewohnheiten erhöhen die Nutzbarkeit der internen Daten und bereiten sie auf ML-Anwendungsfälle vor. Das gesamte Unternehmen muss gut darin werden, seine Datensätze zu organisieren und zu verfolgen. Eine sichere Möglichkeit, dies zu erreichen, besteht darin, es zu einem Geschäfts-Anforderung zu machen und die Umsetzung zu verfolgen, sodass es sehr wenige Berichte gibt, die als individuelle Aufträge enden, und Teams mehr und mehr mit Daten-Pipelines arbeiten, die in ein zentrales Repository geleitet werden, mit einer klaren Ontologie. Eine weitere gute Praxis ist es, eine Aufzeichnung darüber zu führen, wann und wo die Daten gesammelt wurden und was mit ihnen passierte, bevor sie in die Datenbank gespeichert wurden, sowie Prozesse für die regelmäßige Bereinigung von nicht verwendeten oder veralteten Daten einzurichten.
Vielen Dank für das großartige Interview. Für Leser, die mehr erfahren möchten, empfehle ich, das Buch Die reale Welt der KI: Ein praktischer Leitfaden für verantwortungsvolles Machine Learning zu lesen.












