부본 Real World AI의 공동 저자 Wilson Pang - 인터뷰 시리즈 - Unite.AI
Rescale 미팅 예약

인터뷰

Real World AI – 인터뷰 시리즈의 공동 저자 Wilson Pang

mm
업데이트 on

윌슨 팡 합류 애펜 2018년 XNUMX월 CTO로 회사의 제품 및 기술을 담당하고 있습니다. Wilson은 소프트웨어 엔지니어링 및 데이터 과학 분야에서 XNUMX년 이상의 경력을 보유하고 있습니다. Appen에 합류하기 전에 Wilson은 세계에서 두 번째로 큰 온라인 여행사 회사인 중국의 Ctrip에서 데이터 엔지니어, 분석가, 데이터 제품 관리자 및 과학자를 이끌고 사용자 경험을 개선하고 운영 효율성을 높였습니다. 사업을 성장시켰습니다. 그 전에는 캘리포니아 eBay의 엔지니어링 선임 이사였으며 데이터 서비스 및 솔루션, 검색 과학, 마케팅 기술 및 청구 시스템을 포함한 다양한 영역에서 리더십을 제공했습니다. 그는 eBay 이전에 IBM에서 설계자로 일하면서 다양한 고객을 위한 기술 솔루션을 구축했습니다. Wilson은 중국 Zhejiang University에서 전기 공학 석사 및 학사 학위를 취득했습니다.

우리는 그의 새 책에 대해 토론합니다. AI의 실제 세계: 책임 있는 기계 학습을 위한 실용 가이드

eBay의 검색 과학 팀을 이끌었을 때 기계 학습에 대한 첫 번째 교훈 중 하나는 측정할 지표를 아는 것의 중요성을 이해하는 것이었습니다. 주어진 예는 "세션당 구매" 메트릭이 항목의 금전적 가치를 설명하는 데 실패한 방법입니다. 비슷한 문제를 피하기 위해 측정해야 하는 지표를 기업이 가장 잘 이해할 수 있는 방법은 무엇입니까?

팀이 AI 모델에 부여한 목표부터 시작하십시오. 우리의 경우 기계 학습을 통해 더 많은 수익을 창출하고 싶었습니다. 메트릭을 목표에 첨부할 때 모델을 릴리스하고 사람들이 모델과 상호 작용을 시작하면 해당 메트릭이 생성하는 메커니즘에 대해 생각하고 가정도 기록하십시오. 우리의 경우 모델이 수익에 최적화될 것이라고 가정했지만 세션당 구매 수는 그렇게 해석되지 않았습니다. 더 많은 돈을 벌지 않습니다. 그 사실을 깨닫자 지표를 변경하고 모델을 올바른 방향으로 안내할 수 있었습니다. 따라서 세분화된 메트릭을 결정하고 가정을 기록하는 것은 프로젝트의 성공에 매우 중요합니다.

이 책을 연구하고 집필하면서 개인적으로 무엇을 배웠습니까?

다양한 회사와 다양한 산업 분야의 AI로 해결할 수 있는 다양한 문제가 있습니다. 사용 사례가 매우 다를 수 있고, AI 솔루션이 다를 수 있으며, 해당 AI 솔루션을 교육할 데이터가 다를 수 있습니다. 그러나 이러한 모든 차이점에도 불구하고 사람들이 AI 여정 중에 저지른 실수는 매우 유사합니다. 이러한 실수는 모든 종류의 산업 분야의 모든 종류의 회사에서 반복해서 발생했습니다.

우리는 더 많은 사람과 회사가 이러한 실수를 피하고 책임감 있는 AI를 배포할 수 있다는 자신감을 얻을 수 있도록 AI 프로젝트를 구현할 때 몇 가지 일반적인 모범 사례를 공유했습니다.

사람들이 이 글을 읽음으로써 얻을 수 있는 가장 중요한 교훈은 무엇입니까?

우리는 기계 학습 기술의 사려 깊고 책임감 있고 윤리적인 사용이 세상을 더 공정하고 공정하며 포용적인 곳으로 만들 수 있다고 굳게 믿습니다. 기계 학습 기술은 비즈니스 세계 전반에 걸쳐 모든 것을 재구성할 것을 약속하지만 어려울 필요는 없습니다. 검증된 방법과 프로세스가 있어 팀이 따를 수 있고 프로덕션에 배포할 수 있다는 확신을 얻을 수 있습니다.

또 다른 중요한 교훈은 제품 관리자와 같은 LOB(Line of Business) 소유자와 엔지니어 및 데이터 과학자와 같은 보다 기술적인 측면의 팀 구성원이 공통 언어를 사용해야 한다는 것입니다. AI를 성공적으로 배포하려면 리더는 비즈니스 전문가와 최고 경영진에게 기술 구현자와 효율적으로 대화할 수 있는 충분한 컨텍스트를 제공하여 팀 간의 격차를 해소해야 합니다.

많은 사람들이 AI를 생각할 때 코드를 먼저 생각합니다. 이 책의 핵심 교훈 중 하나는 데이터가 AI 모델의 성공에 매우 중요하다는 것입니다. 수집에서 레이블 지정, 저장에 이르기까지 데이터와 관련된 많은 작업이 있으며 모든 단계가 모델의 성공에 영향을 미칩니다. 가장 성공적인 AI 배포는 데이터에 중점을 두고 ML 모델의 이러한 측면을 지속적으로 개선하기 위해 노력하는 것입니다.

실제 AI에 필요한 모든 것은 다기능 팀과 혁신적인 정신입니다.

논의는 AI 모델의 정확도가 AI 사용을 지원할 만큼 충분히 높은 시기를 결정하는 것입니다. 필요한 정확도 유형을 평가하는 가장 쉬운 방법은 무엇입니까?

사용 사례와 위험 허용 범위에 따라 다릅니다. AI를 개발하는 팀은 항상 조직 및 이해 관계자를 위해 정확도 수준과 허용 가능한 임계값을 결정하는 테스트 단계를 가져야 합니다. 생사를 가르는 사용 사례의 경우, 판결 소프트웨어, 자율 주행 자동차, 의료 사용 사례와 같이 AI가 잘못될 경우 잠재적인 피해가 있는 경우 기준이 매우 높으며 팀은 다음을 수행해야 합니다. 모델이 잘못된 경우를 대비하여 비상 사태를 배치하십시오. 콘텐츠, 검색 또는 광고 관련성과 같이 많은 주관성이 작용하는 더 많은 내결함성 사용 사례의 경우 팀은 프로덕션 중에도 사용자 피드백에 의존하여 모델을 계속 조정할 수 있습니다. 물론 여기에도 불법적이거나 부도덕한 자료가 사용자에게 표시될 수 있는 고위험 사용 사례가 있으므로 여기에도 보호 장치와 피드백 메커니즘이 마련되어 있어야 합니다. 

프로젝트의 성공을 미리 정의하는 것의 중요성을 정의할 수 있습니까? 

비즈니스 문제에서 시작하는 것은 성공을 미리 정의하는 것만큼이나 중요합니다. 두 가지가 함께 진행됩니다. AI를 사용하여 이미지에 레이블을 지정하는 자동차 딜러에 대한 책의 예에 따라 그들은 해결해야 할 비즈니스 문제를 정의하지 않았기 때문에 성공이 어떤 것인지 판단하지 못했습니다. 그들에게 성공은 고정된 범위의 기계 학습 모델은 말할 것도 없고 여러 사람으로 구성된 팀의 경우에도 문제를 해결하기 어렵게 만드는 여러 가지 다른 것들이었을 수 있습니다. 수리가 필요한 차량 목록을 작성하기 위해 모든 차량에 흠집이 있는 라벨을 붙이고 중고차 재고에 있는 모든 차량 찌그러짐의 80%를 정확하게 라벨링하는 것으로 성공을 정의했다면 85%에 정확하게 라벨을 붙였을 때 팀은 그것을 성공이라고 불렀을 것입니다. 그러나 그 성공이 비즈니스 문제와 직접적인 비즈니스 영향에 연결되어 있지 않다면 이 예에서 라벨링 정확성에 초점을 맞춘 정의 밖에서 프로젝트를 평가하기가 어렵습니다. 여기에서 비즈니스 문제는 더 복잡했으며 찌그러짐에 라벨을 붙이는 것은 그 문제의 일부일 뿐입니다. 그들의 경우 성공을 클레임 프로세스에서 시간/비용을 절약하거나 수리 프로세스를 X% 최적화하는 것으로 정의한 다음 라벨링 영향을 실제 비즈니스 결과로 변환하는 것이 더 나을 수 있었습니다.

교육 데이터 예제가 프로덕션 배포에서 발생할 모든 사용 사례를 포함하는지 확인하는 것이 얼마나 중요합니까?

편견을 피하기 위해 모델이 모든 사용 사례에 대해 훈련되는 것이 매우 중요합니다. 그러나 생산의 모든 사용 사례를 완전히 다루는 것은 불가능하지만 AI를 구축하는 팀은 생산 데이터와 훈련 데이터를 이해하여 생산에서 마주하게 될 일에 대해 AI를 훈련시켜야 한다는 점에 유의하는 것도 중요합니다. . 다양한 사용 사례를 가진 다양한 대규모 그룹에서 제공되는 교육 데이터에 액세스하는 것이 모델 성공에 매우 중요합니다. 예를 들어 업로드된 이미지에서 사람의 애완동물을 인식하도록 훈련된 모델은 모든 유형의 애완동물에 대해 훈련되어야 합니다. 개, 고양이, 새, 작은 포유류, 도마뱀 등. 모델이 개, 고양이, 새만 훈련하는 경우 누군가 기니피그와 함께 이미지를 업로드하면 모델이 식별할 수 없습니다. 이것은 매우 간단한 예이지만 가능한 한 많은 사용 사례에 대한 교육이 모델의 성공에 얼마나 중요한지를 보여줍니다.

이 책에서 위에서 아래로 좋은 데이터 위생 습관을 개발해야 할 필요성에 대해 논의했습니다. 이 습관을 키우기 위한 일반적인 첫 번째 단계는 무엇입니까?

좋은 데이터 위생 습관은 내부 데이터의 유용성을 높이고 ML 사용 사례에 적합합니다. 회사 전체가 데이터 세트를 체계화하고 추적하는 데 능해야 합니다. 이를 달성하는 한 가지 확실한 방법은 이를 비즈니스 요구 사항으로 만들고 구현을 추적하여 사용자 지정 작업이 되는 보고서가 거의 없고 팀이 명확한 온톨로지를 사용하여 중앙 리포지토리로 연결되는 데이터 파이프라인을 사용하여 점점 더 많이 작업하도록 하는 것입니다. 또 다른 모범 사례는 데이터가 수집된 시기와 장소, 데이터가 데이터베이스에 배치되기 전에 발생한 일을 기록하고 사용하지 않거나 오래된 데이터를 주기적으로 정리하는 프로세스를 설정하는 것입니다.

좋은 인터뷰 감사합니다, 더 많은 것을 배우고자 하는 독자들에게, 나는 그들이 책을 읽는 것을 추천합니다. AI의 실제 세계: 책임 있는 기계 학습을 위한 실용 가이드.

unite.AI의 창립 파트너이자 포브스 기술 위원회, 앙투안은 미래파 예술가 AI와 로봇공학의 미래에 열정을 갖고 있는 사람입니다.

그는 또한 증권.io, 파괴적인 기술에 대한 투자에 초점을 맞춘 웹사이트입니다.