Phỏng vấn
Wilson Pang, Đồng Tác Giả Của Trí Tuệ Nhân Tạo Trong Thế Giới Thực – Loạt Phỏng Vấn

Wilson Pang đã gia nhập Appen vào tháng 11 năm 2018 với tư cách là CTO và chịu trách nhiệm về sản phẩm và công nghệ của công ty. Wilson có hơn 19 năm kinh nghiệm trong lĩnh vực kỹ thuật phần mềm và khoa học dữ liệu. Trước khi gia nhập Appen, Wilson là giám đốc dữ liệu của Ctrip ở Trung Quốc, công ty đại lý du lịch trực tuyến lớn thứ hai trên thế giới, nơi ông đã lãnh đạo các kỹ sư dữ liệu, phân tích viên, quản lý sản phẩm dữ liệu và nhà khoa học để cải thiện trải nghiệm người dùng và tăng hiệu quả hoạt động, giúp phát triển kinh doanh. Trước đó, ông là giám đốc kỹ thuật cao cấp tại eBay ở California và đã cung cấp lãnh đạo trong các lĩnh vực khác nhau, bao gồm dịch vụ và giải pháp dữ liệu, khoa học tìm kiếm, công nghệ tiếp thị và hệ thống hóa đơn. Ông đã làm việc như một kiến trúc sư tại IBM trước khi đến eBay, xây dựng các giải pháp công nghệ cho các khách hàng khác nhau. Wilson đã nhận được bằng thạc sĩ và cử nhân về kỹ thuật điện từ Đại học Zhejiang ở Trung Quốc.
Chúng tôi thảo luận về cuốn sách mới của ông: Thế Giới Thực Của Trí Tuệ Nhân Tạo: Hướng Dẫn Thực Tiễn Cho Học Máy Có Trách Nhiệm
Bạn mô tả cách khi bạn lãnh đạo các nhóm khoa học tìm kiếm của eBay, một trong những bài học đầu tiên về học máy là hiểu được tầm quan trọng của việc biết những chỉ số nào cần đo lường. Ví dụ được đưa ra là cách chỉ số “mua hàng mỗi phiên” không tính đến giá trị tiền tệ của một mặt hàng. Làm thế nào các công ty có thể hiểu rõ nhất những chỉ số nào cần đo lường để tránh những vấn đề tương tự?
Bắt đầu với các mục tiêu mà nhóm của bạn gắn với mô hình AI – trong trường hợp của chúng tôi, chúng tôi muốn thúc đẩy doanh thu nhiều hơn với học máy. Khi bạn gắn các chỉ số với mục tiêu, hãy nghĩ về những cơ chế mà những chỉ số đó sẽ tạo ra, một khi bạn phát hành mô hình và mọi người bắt đầu tương tác với nó, nhưng cũng hãy lưu ý về những giả định của bạn. Trong trường hợp của chúng tôi, chúng tôi giả định rằng mô hình sẽ tối ưu hóa doanh thu, nhưng số lượng mua hàng mỗi phiên không chuyển thành doanh thu, vì mô hình đang tối ưu hóa cho số lượng lớn các mặt hàng có giá trị thấp, và vào cuối ngày, chúng tôi không kiếm được nhiều tiền. Một khi chúng tôi nhận ra điều đó, chúng tôi đã có thể thay đổi các chỉ số và chỉ mô hình theo hướng đúng. Vì vậy, việc xác định các chỉ số chi tiết, cũng như lưu ý về những giả định, là rất quan trọng cho sự thành công của một dự án.
Tôi đã học được gì từ việc nghiên cứu và viết cuốn sách này?
Chúng tôi có rất nhiều vấn đề khác nhau có thể được giải quyết bởi AI từ các công ty và ngành công nghiệp khác nhau. Các trường hợp sử dụng có thể rất khác nhau, giải pháp AI có thể khác nhau, dữ liệu để đào tạo giải pháp AI đó có thể khác nhau. Tuy nhiên, bất kể tất cả những khác biệt đó, những sai lầm mà mọi người mắc phải trong hành trình AI của họ là khá tương tự. Những sai lầm đó đã xảy ra lại và lại trong tất cả các loại công ty từ tất cả các ngành công nghiệp.
Chúng tôi đã chia sẻ một số phương pháp hay nhất khi triển khai các dự án AI với hy vọng giúp nhiều người và công ty tránh những sai lầm đó và giúp họ tự tin triển khai AI có trách nhiệm.
Điều gì là những bài học quan trọng nhất mà bạn hy vọng mọi người sẽ rút ra từ việc đọc cuốn sách này?
Chúng tôi tin tưởng mạnh mẽ rằng việc sử dụng công nghệ học máy một cách có trách nhiệm, có đạo đức và có suy nghĩ có thể làm cho thế giới trở thành một nơi công bằng, công lý và bao gồm hơn. Công nghệ học máy hứa hẹn sẽ thay đổi mọi thứ trong thế giới kinh doanh, nhưng nó không phải là khó. Có những phương pháp và quy trình đã được thử nghiệm và kiểm tra mà các đội có thể theo dõi và có được sự tự tin để triển khai.
Một bài học quan trọng khác là rằng các chủ sở hữu kinh doanh (như các nhà quản lý sản phẩm) và các thành viên trong nhóm về mặt kỹ thuật (như các kỹ sư và nhà khoa học dữ liệu) cần phải nói một ngôn ngữ chung. Để triển khai AI thành công, các nhà lãnh đạo phải bắc cầu giữa các đội, cung cấp cho các chuyên gia kinh doanh và cấp C đủ ngữ cảnh để trò chuyện hiệu quả với những người thực hiện kỹ thuật.
Nhiều người đầu tiên nghĩ về mã khi họ nghĩ về AI. Một trong những bài học quan trọng trong cuốn sách là dữ liệu là rất quan trọng cho sự thành công của mô hình AI. Có rất nhiều việc liên quan đến dữ liệu từ thu thập đến gắn nhãn, lưu trữ và mỗi bước sẽ ảnh hưởng đến sự thành công của mô hình. Những triển khai AI thành công nhất là những người đặt nặng việc cải thiện khía cạnh này của mô hình ML của họ.
Tất cả AI trong thế giới thực chỉ cần một đội ngũ đa chức năng và một tinh thần sáng tạo.
Được thảo luận là việc xác định khi nào độ chính xác của mô hình AI đủ cao để hỗ trợ sử dụng AI. Cách dễ nhất để đánh giá loại độ chính xác cần thiết là gì?
Điều đó phụ thuộc vào các trường hợp sử dụng và mức độ chấp nhận rủi ro. Các đội phát triển AI nên luôn có một giai đoạn thử nghiệm nơi họ xác định mức độ chính xác và ngưỡng chấp nhận được cho tổ chức và các bên liên quan của họ. Đối với các trường hợp sử dụng liên quan đến tính mạng – nơi có thể gây hại nếu AI sai, như trong trường hợp của phần mềm xét xử, xe tự lái, các trường hợp sử dụng y tế, tiêu chuẩn rất cao – và các đội phải đặt ra các biện pháp dự phòng trong trường hợp mô hình sai. Đối với các trường hợp sử dụng có thể chấp nhận được nhiều hơn – nơi có nhiều chủ quan – như nội dung, tìm kiếm hoặc quảng cáo, các đội có thể dựa vào phản hồi của người dùng để tiếp tục điều chỉnh mô hình ngay cả khi đang sản xuất. Tất nhiên, cũng có một số trường hợp sử dụng có rủi ro cao ở đây, nơi tài liệu bất hợp pháp hoặc không đạo đức có thể được hiển thị cho người dùng, vì vậy các cơ chế bảo vệ và phản hồi phải được đặt ra ở đây.
Bạn có thể định nghĩa tầm quan trọng của việc định nghĩa thành công cho một dự án từ đầu không?
Điều đó quan trọng không kém so với việc bắt đầu với một vấn đề kinh doanh và định nghĩa thành công từ đầu vì hai điều đó đi cùng nhau. Theo ví dụ trong cuốn sách về nhà bán lẻ ô tô sử dụng AI để gắn nhãn hình ảnh, họ không xác định thành công trông như thế nào vì họ không định nghĩa một vấn đề kinh doanh để giải quyết. Thành công đối với họ có thể là nhiều điều khác nhau, điều đó làm cho nó khó giải quyết được vấn đề, ngay cả đối với các đội người, chứ không nói đến một mô hình học máy với phạm vi cố định. Nếu họ đã đặt ra mục tiêu gắn nhãn tất cả các phương tiện có vết lõm để tạo một danh sách các phương tiện cần sửa chữa và định nghĩa thành công là gắn nhãn chính xác 80% tất cả các vết lõm trên kho xe cũ, thì khi họ đã gắn nhãn chính xác 85%, đội sẽ gọi đó là thành công. Nhưng nếu thành công đó không gắn với vấn đề kinh doanh và tác động kinh doanh trực tiếp, thì rất khó để đánh giá dự án ngoài định nghĩa tập trung vào độ chính xác của việc gắn nhãn trong ví dụ này. Ở đây, vấn đề kinh doanh phức tạp hơn và gắn nhãn vết lõm chỉ là một thành phần của nó. Trong trường hợp của họ, họ có thể đã tốt hơn bằng cách định nghĩa thành công là tiết kiệm thời gian / tiền trên quá trình khiếu nại hoặc tối ưu hóa quá trình sửa chữa bằng X% và sau đó dịch tác động của việc gắn nhãn thành kết quả kinh doanh thực sự.
Làm thế nào quan trọng để đảm bảo rằng các ví dụ dữ liệu đào tạo bao gồm tất cả các trường hợp sử dụng sẽ xảy ra trong triển khai sản xuất?
Điều đó cực kỳ quan trọng để tránh thiên vị. Nhưng cũng quan trọng là lưu ý rằng, trong khi không thể bao gồm tất cả các trường hợp sử dụng trong sản xuất, các đội xây dựng AI cần hiểu dữ liệu sản xuất của họ, cũng như dữ liệu đào tạo của họ, để đào tạo AI cho những gì nó sẽ gặp phải trong sản xuất. Việc truy cập dữ liệu đào tạo đến từ các nhóm lớn và đa dạng với các trường hợp sử dụng khác nhau sẽ rất quan trọng cho sự thành công của mô hình. Ví dụ, một mô hình được đào tạo để nhận dạng vật nuôi của người dùng trong một hình ảnh tải lên cần được đào tạo trên tất cả các loại vật nuôi; chó, mèo, chim, động vật có vú nhỏ, thằn lằn, v.v. Nếu mô hình chỉ được đào tạo trên chó, mèo và chim, thì khi ai đó tải lên một hình ảnh với chuột lang, mô hình sẽ không thể nhận dạng nó. Mặc dù đây là một ví dụ rất đơn giản, nhưng nó cho thấy việc đào tạo trên càng nhiều trường hợp sử dụng có thể càng quan trọng cho sự thành công của mô hình.
Được thảo luận trong cuốn sách là nhu cầu phát triển thói quen vệ sinh dữ liệu tốt từ trên xuống, những bước đầu tiên nào để nuôi dưỡng thói quen này?
Thói quen vệ sinh dữ liệu tốt sẽ tăng cường khả năng sử dụng dữ liệu nội bộ và chuẩn bị cho các trường hợp sử dụng ML. Toàn bộ công ty phải trở nên tốt trong việc tổ chức và theo dõi các tập dữ liệu của mình. Một cách chắc chắn để đạt được điều này là làm cho nó trở thành một yêu cầu kinh doanh và theo dõi việc thực hiện để có rất ít báo cáo kết thúc là công việc tùy chỉnh, và các đội làm việc nhiều hơn với các đường ống dữ liệu được chuyển đến một kho lưu trữ trung tâm, với một bản thể học rõ ràng. Một thực hành tốt khác là giữ một hồ sơ về khi và nơi dữ liệu được thu thập và những gì đã xảy ra với nó trước khi nó được đặt trong cơ sở dữ liệu, cũng như thiết lập các quy trình để làm sạch dữ liệu không sử dụng hoặc dữ liệu cũ định kỳ.
Cảm ơn vì cuộc phỏng vấn tuyệt vời, đối với những người đọc quan tâm đến việc tìm hiểu thêm, tôi khuyên họ nên đọc cuốn sách Thế Giới Thực Của Trí Tuệ Nhân Tạo: Hướng Dẫn Thực Tiễn Cho Học Máy Có Trách Nhiệm.












