Wywiady
Wilson Pang, Współautor książki Real World AI – Wywiad z serii

Wilson Pang dołączył do Appen w listopadzie 2018 roku jako CTO i jest odpowiedzialny za produkty i technologie firmy. Wilson ma ponad dziewiętnaście lat doświadczenia w inżynierii oprogramowania i nauce o danych. Przed dołączeniem do Appen, Wilson był głównym oficerem danych w firmie Ctrip w Chinach, drugiej co do wielkości firmie turystycznej online na świecie, gdzie kierował zespołem inżynierów danych, analityków, menedżerów produktów danych i naukowców w celu poprawy doświadczenia użytkowników i zwiększenia wydajności operacyjnej, co przyczyniło się do rozwoju biznesu. Wcześniej pełnił funkcję starszego dyrektora inżynierii w eBay w Kalifornii i zapewniał przywództwo w różnych dziedzinach, w tym usługach i rozwiązaniach danych, nauce o wyszukiwaniu, technologii marketingu i systemach rozliczeniowych. Pracował jako architekt w IBM przed eBay, tworząc rozwiązania technologiczne dla różnych klientów. Wilson uzyskał tytuł magistra i licencjata na wydziale elektrotechniki na Uniwersytecie Zhejiang w Chinach.
Omawiamy jego nową książkę: Świat rzeczywisty sztucznej inteligencji: Praktyczny przewodnik po odpowiedzialnym uczeniu maszynowym
Opisujesz, jak gdy prowadziłeś zespoły nauki o wyszukiwaniu w eBay, jedną z Twoich pierwszych lekcji związanych z uczeniem maszynowym było zrozumienie znaczenia znajomości tych wskaźników, które należy mierzyć. Przykładem jest to, jak wskaźnik „zakupy na sesję” nie uwzględniał wartości pieniężnej przedmiotu. Jak firmy mogą najlepiej zrozumieć, które wskaźniki należy mierzyć, aby uniknąć podobnych problemów?
Zacznij od celów, które Twój zespół przypisuje modelowi AI – w naszym przypadku chcieliśmy zwiększyć przychody za pomocą uczenia maszynowego. Gdy dołączysz wskaźniki do celów, pomyśl o tym, jakie mechanizmy te wskaźniki wytworzą, gdy model zostanie wydany i ludzie zaczną z nim współpracować, ale także zwróć uwagę na swoje założenia. W naszym przypadku założyliśmy, że model zoptymalizuje przychody, ale liczba zakupów na sesję nie przekładała się na to, ponieważ model zoptymalizował wysoką liczbę sprzedaży o niskiej wartości, a ostatecznie nie zarabialiśmy więcej pieniędzy. Gdy to zrozumieliśmy, byliśmy w stanie zmienić wskaźniki i skierować model we właściwym kierunku. Zatem określenie szczegółowych wskaźników, a także zwrócenie uwagi na założenia, są kluczowe dla sukcesu projektu.
Co osobiście nauczyłeś się z badań i pisania tej książki?
Mamy wiele różnych problemów, które można rozwiązać za pomocą AI z różnych firm i branż. Przypadki użycia mogą być bardzo różne, rozwiązanie AI może być różne, dane do treningu tego rozwiązania AI mogą być różne. Niemniej jednak, niezależnie od tych różnic, błędy popełniane przez ludzi podczas ich podróży AI są dość podobne. Te błędy zdarzają się ponownie i ponownie w różnych firmach z różnych branż.
Podzieliliśmy się niektórymi powszechnymi najlepszymi praktykami wdrożenia projektów AI z nadzieją, że pomogą więcej ludziom i firmom uniknąć tych błędów i zdobyć zaufanie do wdrożenia odpowiedzialnego AI.
Jakie są najważniejsze lekcje, które ludzie powinni wziąć z czytania tej książki?
Wierzymy głęboko, że przemyślane, odpowiedzialne i etyczne użycie technologii uczenia maszynowego może uczynić świat bardziej sprawiedliwym, fair i inkluzywnym. Technologia uczenia maszynowego obiecuje zmienić wszystko w świecie biznesu, ale nie musi być trudna. Są sprawdzone metody i procesy, których zespoły mogą się trzymać i zdobyć zaufanie do wdrożenia do produkcji.
Inną kluczową lekcją jest to, że właściciele linii biznesu (jak menedżerowie produktów) i członkowie zespołu ze strony technicznej (jak inżynierowie i naukowcy danych) muszą mówić wspólnym językiem. Aby pomyślnie wdrożyć AI, przywódcy muszą zmostkować lukę między zespołami, zapewniając specjalistom biznesowym i poziomowi C enough kontekstu, aby rozmawiać wydajnie z wykonawcami technicznymi.
Wielu ludzi najpierw myśli o kodzie, gdy myśli o AI. Jedna z kluczowych lekcji w książce jest taka, że dane są kluczowe dla sukcesu modelu AI. Jest wiele rzeczy, które idą z danymi od zbierania do etykietowania, przechowywania i każdy krok wpłynie na sukces modelu. Najbardziej udane wdrożenia AI są tymi, które kładą duży nacisk na dane i dążą do ciągłego doskonalenia tego aspektu swojego modelu ML.
Wszystko, czego potrzebuje rzeczywisty AI, to zespół wielofunkcyjny i innowacyjny duch.
Omawiane jest określanie, kiedy model AI ma wystarczającą dokładność, aby go używać. Jaki jest najłatwiejszy sposób oceny rodzaju dokładności, który jest potrzebny?
Zależy to od przypadków użycia i tolerancji ryzyka. Zespoły rozwijające AI powinny zawsze mieć fazę testową, w której określają poziomy dokładności i akceptowalne progi dla swoich organizacji i interesariuszy. Dla przypadków użycia, w których jest potencjalne zagrożenie, jeśli AI pójdzie nie tak – jak w przypadku oprogramowania do wyrokowania, samochodów autonomicznych, przypadków medycznych, poprzeczka jest bardzo, bardzo wysoka – i zespoły muszą wprowadzić środki bezpieczeństwa w przypadku, gdy modele są błędne. Dla przypadków użycia, w których jest wiele subiektywności – jak zawartość, wyszukiwanie lub reklamy, zespoły mogą polegać na opinii użytkowników, aby dostosować swoje modele, nawet podczas produkcji. Oczywiście, istnieją pewne przypadki użycia o wysokim ryzyku, w których nielegalny lub niemoralny materiał może być pokazany użytkownikom, więc środki bezpieczeństwa i mechanizmy opinii muszą być na miejscu, również.
Czy możesz zdefiniować znaczenie określenia sukcesu projektu na początku?
Jest to równie ważne, aby zacząć od problemu biznesowego, jak i określić sukces na początku, ponieważ obie te rzeczy idą w parze. Na przykład w książce, w przypadku dealera samochodowego, który używa AI do oznaczania obrazów, nie określili, co oznacza sukces, ponieważ nie określili problemu biznesowego do rozwiązania. Sukces mógł być dla nich różnymi rzeczami, co utrudnia rozwiązanie problemu, nawet dla zespołów ludzi, a tym bardziej dla modelu uczenia maszynowego o określonym zakresie. Gdyby określili, jaki jest ich sukces, na przykład, gdyby chcieli oznaczyć wszystkie pojazdy z wgnieceniami, aby utworzyć listę pojazdów, które wymagają naprawy, i określili sukces jako dokładne oznaczenie 80% wszystkich wgniecień w używanych samochodach, wtedy, gdyby dokładnie oznaczyli 85%, zespół uznałby to za sukces. Ale jeśli ten sukces nie jest związany z problemem biznesowym i bezpośrednim wpływem biznesowym, trudno ocenić projekt poza skupieniem się na dokładności oznaczania w tym przykładzie. Tutaj problem biznesowy był bardziej złożony, a oznaczanie wgniecień jest tylko częścią tego. W ich przypadku mogliby lepiej określić sukces jako oszczędność czasu / pieniędzy w procesie roszczeń lub optymalizację procesu naprawy o X% i przetłumaczyć wpływ oznaczania na rzeczywiste wyniki biznesowe.
Jak ważne jest zapewnienie, że przykłady danych szkoleniowych obejmują wszystkie przypadki użycia, które wystąpią w wdrożeniu produkcyjnym?
Jest to niezwykle ważne, aby model był szkolony na wszystkich przypadkach użycia, aby uniknąć błędów. Ale jest również ważne, aby zauważyć, że chociaż jest niemożliwe, aby objąć absolutnie wszystkie przypadki użycia w produkcji, zespoły budujące AI muszą zrozumieć swoje dane produkcyjne, a także dane szkoleniowe, aby nauczyć AI tego, z czym spotka się w produkcji. Dostęp do danych szkoleniowych pochodzących z dużych, różnorodnych grup z różnymi przypadkami użycia będzie kluczowy dla sukcesu modelu. Na przykład, model, który jest szkolony do rozpoznawania zwierząt domowych na zdjęciu, musi być szkolony na wszystkich rodzajach zwierząt domowych; psy, koty, ptaki, małe ssaki, gady itp. Jeśli model jest szkolony tylko na psach, kotach i ptakach, to gdy ktoś przesle zdjęcie ze swoim świnką morską, model nie będzie w stanie go rozpoznać. Chociaż jest to bardzo prosty przykład, pokazuje, jak szkolenie na jak najwięcej prawdopodobnych przypadków użycia jest kluczowe dla sukcesu modelu.
Omawiana jest w książce potrzeba rozwijania dobrych nawyków higieny danych od góry do dołu, jakie są pierwsze kroki, aby pielęgnować ten nawyk?
Dobre nawyki higieny danych zwiększą użyteczność wewnętrznych danych i przygotują je do przypadków użycia ML. Cała firma musi stać się dobrą w organizowaniu i śledzeniu swoich zbiorów danych. Jednym ze sposobów osiągnięcia tego jest uczynienie go wymogiem biznesowym i śledzenie wdrożenia, aby było bardzo niewiele raportów, które kończą się jako prace na zamówienie, a zespoły pracują coraz więcej z potokami danych kierowanymi do centralnego repozytorium, z wyraźną ontologią. Inną dobrą praktyką jest prowadzenie rekordu, kiedy i gdzie dane zostały zebrane i co się z nimi stało, zanim zostały umieszczone w bazie danych, a także ustanowienie procesów do oczyszczania nie używanych lub starych danych okresowo.
Dziękujemy za wspaniały wywiad, dla czytelników, którzy chcą dowiedzieć się więcej, zalecamy im przeczytanie książki Świat rzeczywisty sztucznej inteligencji: Praktyczny przewodnik po odpowiedzialnym uczeniu maszynowym.












