sơ khai Khả năng phục hồi > Độ chính xác: Tại sao 'khả năng phục hồi của mô hình' phải là thước đo thực sự để vận hành các mô hình - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Khả năng phục hồi > Độ chính xác: Tại sao 'khả năng phục hồi của mô hình' phải là thước đo thực sự để vận hành các mô hình

mm
cập nhật on

Bởi Ingo Mierswa, Người sáng lập, Chủ tịch & Nhà khoa học dữ liệu trưởng tại Công cụ khai thác nhanh.

Khoa học dữ liệu đã đạt được một số tiến bộ lớn trong vài năm qua và nhiều tổ chức đang sử dụng các mô hình phân tích hoặc học máy nâng cao để hiểu rõ hơn về các quy trình và trong một số trường hợp, thậm chí còn dự đoán các kết quả có thể xảy ra trong tương lai. Đối với các “khoa học” khác, thường không rõ liệu một dự án có thành công hay không và đã có báo cáo cho rằng có tới 87% dự án khoa học dữ liệu không bao giờ được đưa vào sản xuất. Mặc dù không thể mong đợi tỷ lệ thành công 100%, nhưng có một số mẫu trong các dự án khoa học dữ liệu dẫn đến tỷ lệ thành công cao hơn mức có thể chấp nhận được trong lĩnh vực này. Những mẫu có vấn đề đó dường như tồn tại độc lập với bất kỳ ngành hoặc trường hợp sử dụng cụ thể nào, điều này cho thấy rằng có một vấn đề chung trong khoa học dữ liệu phải được giải quyết.

Đo lường sự thành công của học máy

Các nhà khoa học dữ liệu tạo ra các mô hình máy học (ML) dựa trên các tiêu chí toán học được xác định rõ ràng để đo lường mức độ hoạt động của các mô hình đó. Tiêu chí nào được áp dụng chủ yếu phụ thuộc vào loại mô hình. Giả sử một mô hình sẽ dự đoán các lớp hoặc danh mục cho các tình huống mới — ví dụ: liệu một khách hàng có rời đi hay không. Trong những tình huống như thế này, các nhà khoa học dữ liệu sẽ sử dụng các phép đo như độ chính xác (tần suất mô hình đúng) hoặc độ chính xác (tần suất khách hàng thực sự rời bỏ nếu chúng tôi dự đoán tỷ lệ rời bỏ).

Các nhà khoa học dữ liệu cần các tiêu chí khách quan như thế này vì một phần công việc của họ là tối ưu hóa các tiêu chí đánh giá đó để tạo ra mô hình tốt nhất. Trên thực tế, bên cạnh việc chuẩn bị dữ liệu để sẵn sàng cho việc lập mô hình, việc xây dựng và điều chỉnh các mô hình đó là nơi các nhà khoa học dữ liệu dành phần lớn thời gian của họ.

Nhược điểm của điều này là các nhà khoa học dữ liệu không thực sự tập trung nhiều vào việc đưa các mô hình đó vào sản xuất, đây là một vấn đề vì nhiều lý do. Trước hết, các mô hình không tạo ra kết quả thành công không thể được sử dụng để tạo tác động kinh doanh cho các tổ chức triển khai chúng. Thứ hai, bởi vì các tổ chức này đã dành thời gian và tiền bạc để phát triển, đào tạo và vận hành các mô hình không tạo ra kết quả thành công khi chạy với dữ liệu “thế giới thực”, nên nhiều khả năng họ sẽ coi ML và các công cụ khoa học dữ liệu khác là vô dụng đối với tổ chức của họ và từ chối tiến lên phía trước với các sáng kiến ​​khoa học dữ liệu trong tương lai.

Sự thật là các nhà khoa học dữ liệu chỉ đơn giản là thích điều chỉnh các mô hình và dành nhiều thời gian cho việc này. Nhưng nếu không có tác động kinh doanh, thời gian này sẽ không được sử dụng một cách khôn ngoan, điều này đặc biệt gây đau đớn khi xét đến mức độ khan hiếm nguồn tài nguyên dữ liệu của các nhà khoa học trong thế giới ngày nay.

Giải thưởng Netflix và thất bại trong sản xuất

Chúng ta đã thấy hiện tượng đầu tư quá mức vào việc xây dựng mô hình chứ không phải vào việc vận hành các mô hình diễn ra trong những năm gần đây. Các Giải thưởng Netflix là một cuộc thi mở cho thuật toán lọc cộng tác tốt nhất để dự đoán xếp hạng của người dùng cho phim. Nếu bạn xếp hạng cao cho một bộ phim mới, thì bạn có thể thích bộ phim này – vì vậy, sử dụng hệ thống xếp hạng này, Netflix sẽ đề xuất một số tựa phim nhất định cho bạn và nếu bạn thích nội dung được đề xuất, bạn có thể sẽ ở lại lâu hơn với tư cách là khách hàng của Netflix. Giải thưởng lớn trị giá 1 triệu USD, được trao cho nhóm có thể cải thiện thuật toán riêng của Netflix ít nhất 10%.

Thử thách bắt đầu vào năm 2006 và trong ba năm sau đó, sự đóng góp của hơn 40,000 nhóm khoa học dữ liệu trên toàn cầu đã dẫn đến sự cải thiện ấn tượng hơn 10% cho thành công đề xuất tiêu đề. Tuy nhiên, các mô hình của đội chiến thắng chưa bao giờ được vận hành. Netflix nói rằng “sự gia tăng độ chính xác dường như không chứng minh được nỗ lực cần thiết để đưa những mô hình đó vào sản xuất.”

Tại sao tối ưu không phải lúc nào cũng tối ưu

Độ chính xác của mô hình và các tiêu chí khoa học dữ liệu khác từ lâu đã được sử dụng làm thước đo để đo lường mức độ thành công của mô hình trước khi đưa mô hình được đề cập vào sản xuất. Như chúng ta đã thấy, nhiều mô hình thậm chí không bao giờ đạt được đến giai đoạn này – điều này gây lãng phí tài nguyên, cả về năng lượng cũng như thời gian sử dụng.

Nhưng có nhiều vấn đề hơn với văn hóa đầu tư quá mức vào việc điều chỉnh mô hình này. Đầu tiên là vô tình khớp quá nhiều dữ liệu thử nghiệm, điều này sẽ dẫn đến các mô hình trông có vẻ tốt đối với nhà khoa học dữ liệu đang quản lý, nhưng thực tế lại hoạt động kém một lần trong quá trình sản xuất – đôi khi thậm chí còn gây hại. Điều này xảy ra vì hai lý do:

  1. Có một sự khác biệt nổi tiếng giữa lỗi thử nghiệm và lỗi mà bạn sẽ thấy trong quá trình sản xuất
  2. Tác động kinh doanh và tiêu chí hiệu suất khoa học dữ liệu thường tương quan với nhau, nhưng các mô hình “tối ưu” không phải lúc nào cũng mang lại tác động lớn nhất

Điểm đầu tiên ở trên còn được gọi là “quá khớp với tập kiểm tra.” Đó là một hiện tượng nổi tiếng, đặc biệt là trong số những người tham gia các cuộc thi khoa học dữ liệu như những người từ Kaggle. Đối với những cuộc thi này, bạn có thể thấy một phiên bản mạnh mẽ hơn của hiện tượng này đã có giữa bảng xếp hạng công khai và riêng tư. Trên thực tế, một người tham gia có thể giành được bảng xếp hạng công khai trong cuộc thi Kaggle mà không cần thậm chí không bao giờ đọc dữ liệu. Tương tự, người chiến thắng trong bảng thành tích riêng và cuộc thi tổng thể có thể không tạo ra một mô hình có thể duy trì hiệu suất của nó trên bất kỳ tập dữ liệu nào khác ngoài tập dữ liệu mà nó đã được đánh giá.

Độ chính xác không bằng tác động kinh doanh

Chúng ta đã chấp nhận cách làm này quá lâu, dẫn đến việc các mô hình thích ứng chậm với tập dữ liệu thử nghiệm. Kết quả là, những gì trông giống như mô hình tốt nhất hóa ra lại rất tầm thường:

  • Các phép đo như độ chính xác dự đoán thường không tác động kinh doanh như nhau
  • Cải thiện độ chính xác thêm 1% không thể chuyển thành kết quả kinh doanh tốt hơn 1%
  • Có những trường hợp một mô hình hoạt động kém hiệu quả hơn những mô hình khác, liên quan đến tác động kinh doanh
  • Các yếu tố khác như khả năng bảo trì, tốc độ ghi bàn hoặc độ bền trước những thay đổi theo thời gian (được gọi là “khả năng phục hồi”) cũng phải được tính đến.

Điểm cuối cùng này đặc biệt quan trọng. Các mô hình tốt nhất sẽ không chỉ giành chiến thắng trong các cuộc thi hoặc trông đẹp mắt trong phòng thí nghiệm khoa học dữ liệu mà còn tiếp tục được sản xuất và hoạt động tốt trên nhiều bộ thử nghiệm khác nhau. Những mô hình này là những gì chúng tôi gọi là mô hình đàn hồi.

Trôi dạt và tầm quan trọng của khả năng phục hồi

Tất cả các mô hình xuống cấp theo thời gian. Câu hỏi duy nhất là điều này xảy ra nhanh như thế nào và mô hình vẫn hoạt động tốt như thế nào trong những hoàn cảnh thay đổi. Lý do cho sự suy thoái này là thực tế là thế giới không tĩnh. Do đó, dữ liệu mà mô hình được áp dụng cũng thay đổi theo thời gian. Nếu những thay đổi này diễn ra chậm, chúng tôi gọi đây là “sự trôi dạt về khái niệm”. Nếu những thay đổi xảy ra đột ngột, chúng tôi gọi đây là “sự thay đổi khái niệm”. Ví dụ: khách hàng có thể thay đổi hành vi tiêu dùng của họ từ từ theo thời gian do bị ảnh hưởng bởi các xu hướng và/hoặc hoạt động tiếp thị. Các mô hình xu hướng có thể không còn hoạt động tại một thời điểm nhất định. Những thay đổi này có thể được tăng tốc đáng kể trong một số tình huống. Ví dụ, COVID-19 đã thúc đẩy doanh số bán các mặt hàng như giấy vệ sinh và chất khử trùng - sự gia tăng mạnh bất ngờ đối với các sản phẩm cụ thể có thể khiến mô hình như vậy hoàn toàn đi chệch hướng.

Mô hình đàn hồi có thể không phải là mô hình tốt nhất dựa trên các thước đo như độ chính xác hoặc độ chính xác nhưng sẽ hoạt động tốt trên phạm vi tập dữ liệu rộng hơn. Vì lý do này, nó cũng sẽ hoạt động tốt hơn trong một khoảng thời gian dài hơn và do đó có khả năng mang lại tác động kinh doanh bền vững tốt hơn.

Tuyến tính và các loại mô hình đơn giản khác thường có khả năng phục hồi cao hơn vì khó khớp chúng với một bộ thử nghiệm cụ thể hoặc thời điểm cụ thể hơn. Các mô hình mạnh hơn có thể và nên được sử dụng làm “đối thủ” cho một mô hình đơn giản hơn, cho phép các nhà khoa học dữ liệu xem liệu nó có thể tồn tại theo thời gian hay không. Nhưng điều này nên được sử dụng ở điểm cuối chứ không phải điểm bắt đầu của hành trình lập mô hình.

Mặc dù KPI chính thức để đo lường khả năng phục hồi chưa được đưa vào lĩnh vực khoa học dữ liệu, nhưng có một số cách mà các nhà khoa học dữ liệu có thể đánh giá mức độ phục hồi của các mô hình của họ:

  • Độ lệch chuẩn nhỏ hơn trong quá trình xác thực chéo có nghĩa là hiệu suất của mô hình phụ thuộc ít hơn vào các chi tiết cụ thể của các bộ thử nghiệm khác nhau
  • Ngay cả khi các nhà khoa học dữ liệu không thực hiện xác thực chéo đầy đủ, họ có thể sử dụng hai bộ dữ liệu khác nhau để kiểm tra và xác thực. Ít khác biệt hơn giữa tỷ lệ lỗi đối với bộ dữ liệu kiểm tra và xác thực cho thấy khả năng phục hồi cao hơn
  • Nếu mô hình được theo dõi đúng cách trong quá trình sản xuất, tỷ lệ lỗi có thể được nhìn thấy theo thời gian. Tính nhất quán của tỷ lệ lỗi theo thời gian là một dấu hiệu tốt cho khả năng phục hồi của mô hình.
  • Nếu giải pháp giám sát mô hình được lựa chọn giải thích cho độ lệch, thì các nhà khoa học dữ liệu cũng nên chú ý đến mức độ ảnh hưởng của mô hình đối với độ lệch đầu vào đó.

Thay đổi văn hóa khoa học dữ liệu

Sau khi một mô hình đã được triển khai trong giai đoạn vận hành, vẫn có những mối đe dọa đối với độ chính xác của mô hình. Hai điểm cuối cùng ở trên liên quan đến khả năng phục hồi của mô hình đã yêu cầu giám sát thích hợp các mô hình trong quá trình sản xuất. Là điểm khởi đầu cho sự thay đổi văn hóa trong khoa học dữ liệu, các công ty nên đầu tư vào việc giám sát mô hình phù hợp và bắt đầu quy trách nhiệm cho các nhà khoa học dữ liệu về việc thiếu hiệu suất sau khi các mô hình được đưa vào sản xuất. Điều này sẽ ngay lập tức thay đổi văn hóa từ văn hóa xây dựng mô hình sang văn hóa tạo ra và duy trì giá trị cho lĩnh vực khoa học dữ liệu.

Như các sự kiện thế giới gần đây đã cho chúng ta thấy, thế giới thay đổi nhanh chóng. Hơn bao giờ hết, giờ đây, chúng ta cần xây dựng các mô hình có khả năng phục hồi — không chỉ là các mô hình chính xác — để nắm bắt được tác động kinh doanh có ý nghĩa theo thời gian. Chẳng hạn, Kaggle đang tổ chức một thử thách nhằm khuyến khích các nhà khoa học dữ liệu trên toàn thế giới giúp xây dựng các giải pháp mẫu để sử dụng trong cuộc chiến toàn cầu chống lại COVID-19. Tôi dự đoán rằng các mô hình thành công nhất được tạo ra nhờ thử thách này sẽ là mô hình linh hoạt nhất chứ không phải chính xác nhất, vì chúng ta đã thấy dữ liệu COVID-19 có thể thay đổi nhanh như thế nào trong một ngày.

Khoa học dữ liệu nên tập trung vào việc tìm ra sự thật, chứ không phải tạo ra mô hình “tốt nhất”. Bằng cách giữ cho mình đạt tiêu chuẩn cao hơn về khả năng phục hồi so với độ chính xác, các nhà khoa học dữ liệu sẽ có thể mang lại nhiều tác động kinh doanh hơn cho các tổ chức của chúng tôi và giúp định hình tương lai một cách tích cực.

Ingo Mierswa là một nhà khoa học dữ liệu kỳ cựu trong ngành kể từ khi bắt đầu phát triển Công cụ khai thác nhanh tại Phòng Trí tuệ Nhân tạo của Đại học TU Dortmund ở Đức. Mierswa, nhà khoa học, là tác giả của nhiều ấn phẩm đoạt giải thưởng về phân tích dự đoán và dữ liệu lớn. Mierswa, doanh nhân, là người sáng lập RapidMiner. Ông chịu trách nhiệm đổi mới chiến lược và giải quyết tất cả các câu hỏi lớn về công nghệ của RapidMiner. Dưới sự lãnh đạo của ông, RapidMiner đã tăng trưởng tới 300% mỗi năm trong bảy năm đầu tiên. Năm 2012, ông đi đầu trong chiến lược vươn ra quốc tế với việc mở văn phòng tại Mỹ, Anh và Hungary. Sau hai vòng gây quỹ, mua lại Radoop và hỗ trợ định vị RapidMiner với các công ty phân tích hàng đầu như Gartner và Forrester, Ingo rất tự hào khi đưa đội ngũ giỏi nhất thế giới đến với RapidMiner.