Trí tuệ nhân tạo
LightAutoML: Giải pháp AutoML cho Hệ sinh thái Dịch vụ Tài chính Lớn
Mặc dù AutoML đã trở nên phổ biến trong vài năm gần đây, nhưng những công việc đầu tiên về AutoML có từ những năm 90 khi các nhà khoa học xuất bản các bài báo đầu tiên về tối ưu hóa siêu tham số. Đó là vào năm 2014 khi ICML tổ chức hội thảo AutoML đầu tiên mà AutoML đã thu hút sự chú ý của các nhà phát triển ML. Một trong những焦 điểm chính của AutoML trong những năm qua là vấn đề tìm kiếm siêu tham số, nơi mô hình thực hiện một loạt các phương pháp tối ưu hóa để xác định các siêu tham số hoạt động tốt nhất trong không gian siêu tham số lớn cho một mô hình học máy cụ thể. Một phương pháp khác thường được thực hiện bởi các mô hình AutoML là ước tính xác suất của một siêu tham số cụ thể là siêu tham số tối ưu cho một mô hình học máy cụ thể. Mô hình đạt được điều này bằng cách thực hiện các phương pháp Bayesian truyền thống sử dụng dữ liệu lịch sử từ các mô hình ước tính trước đó và các tập dữ liệu khác. Ngoài việc tối ưu hóa siêu tham số, các phương pháp khác cố gắng chọn các mô hình tốt nhất từ không gian các lựa chọn mô hình.
Trong bài viết này, chúng tôi sẽ đề cập đến LightAutoML, một hệ thống AutoML được phát triển chủ yếu cho một công ty châu Âu hoạt động trong lĩnh vực tài chính cùng với hệ sinh thái của nó. Khung LightAutoML được triển khai trên các ứng dụng khác nhau và kết quả đã chứng minh hiệu suất vượt trội, tương đương với mức độ của các nhà khoa học dữ liệu, ngay cả khi xây dựng các mô hình học máy chất lượng cao. Khung LightAutoML cố gắng thực hiện các đóng góp sau. Đầu tiên, khung LightAutoML được phát triển chủ yếu cho hệ sinh thái của một tổ chức tài chính và ngân hàng châu Âu lớn. Nhờ vào khung và kiến trúc của nó, khung LightAutoML có thể vượt trội so với các khung AutoML hiện có trên nhiều điểm chuẩn mở cũng như các ứng dụng hệ sinh thái. Hiệu suất của khung LightAutoML cũng được so sánh với các mô hình được điều chỉnh thủ công bởi các nhà khoa học dữ liệu và kết quả cho thấy hiệu suất mạnh hơn của khung LightAutoML.
Bài viết này nhằm mục đích đề cập đến khung LightAutoML một cách sâu sắc và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khung cùng với so sánh với các khung hiện có. Vậy hãy bắt đầu.
LightAutoML: Một Khung AutoML cho Dịch vụ Tài chính
Mặc dù các nhà nghiên cứu đầu tiên bắt đầu làm việc về AutoML vào giữa và đầu những năm 90, AutoML đã thu hút một lượng lớn sự chú ý trong những năm gần đây, với một số giải pháp công nghiệp nổi bật thực hiện xây dựng mô hình học máy tự động là Amazon’s AutoGluon, DarwinAI, H20.ai, IBM Watson AI, Microsoft AzureML và nhiều hơn nữa. Hầu hết các khung này thực hiện một giải pháp AutoML chung chung phát triển mô hình dựa trên ML tự động trên các lớp ứng dụng khác nhau trên tài chính, y tế, giáo dục và nhiều hơn nữa. Giả định chính đằng sau cách tiếp cận chung chung này là quá trình phát triển mô hình tự động vẫn giống nhau trên tất cả các ứng dụng. Tuy nhiên, khung LightAutoML thực hiện một cách tiếp cận dọc để phát triển một giải pháp AutoML không phải là chung chung, mà tập trung vào nhu cầu của các ứng dụng riêng lẻ, trong trường hợp này là một tổ chức tài chính lớn. Khung LightAutoML là một giải pháp AutoML dọc tập trung vào nhu cầu của hệ sinh thái phức tạp cùng với các đặc điểm của nó. Đầu tiên, khung LightAutoML cung cấp tìm kiếm siêu tham số nhanh và gần tối ưu. Mặc dù mô hình không tối ưu hóa trực tiếp các siêu tham số này, nhưng nó vẫn có thể cung cấp kết quả hài lòng. Hơn nữa, mô hình giữ sự cân bằng giữa tốc độ và tối ưu hóa siêu tham số động, để đảm bảo mô hình là tối ưu trên các vấn đề nhỏ và đủ nhanh trên các vấn đề lớn hơn. Thứ hai, khung LightAutoML hạn chế phạm vi của các mô hình học máy một cách có chủ đích chỉ có hai loại: mô hình tuyến tính và GBM hoặc cây quyết định tăng cường, thay vì thực hiện các tập hợp lớn các thuật toán khác nhau. Lý do chính đằng sau việc hạn chế phạm vi của các mô hình học máy là để tăng tốc độ thực hiện của khung LightAutoML mà không ảnh hưởng tiêu cực đến hiệu suất cho loại vấn đề và dữ liệu cụ thể. Thứ ba, khung LightAutoML trình bày một phương pháp duy nhất để chọn các sơ đồ tiền xử lý cho các tính năng khác nhau được sử dụng trong các mô hình dựa trên các quy tắc lựa chọn và thống kê meta. Khung LightAutoML được đánh giá trên một loạt các nguồn dữ liệu mở trên nhiều ứng dụng.
LightAutoML : Phương pháp và Kiến trúc
Khung LightAutoML bao gồm các mô-đun được gọi là Presets dành cho việc phát triển mô hình từ đầu đến cuối cho các nhiệm vụ học máy điển hình. Hiện tại, khung LightAutoML hỗ trợ các mô-đun Preset. Đầu tiên, Preset TabularAutoML tập trung vào việc giải quyết các vấn đề học máy cổ điển được định nghĩa trên các tập dữ liệu bảng. Thứ hai, Preset White-Box thực hiện các thuật toán giải thích đơn giản như Hồi quy Logistic thay vì mã hóa WoE hoặc Trọng lượng của Bằng chứng và các tính năng rời rạc để giải quyết các nhiệm vụ phân loại nhị phân trên dữ liệu bảng. Việc thực hiện các thuật toán giải thích đơn giản là một thực hành phổ biến để mô hình hóa xác suất của một ứng dụng do các yếu tố khác nhau đặt ra. Thứ ba, Preset NLP có khả năng kết hợp dữ liệu bảng với các công cụ NLP hoặc Xử lý Ngôn ngữ Tự nhiên bao gồm các mô hình học sâu được đào tạo trước và các bộ trích xuất tính năng cụ thể. Cuối cùng, Preset CV hoạt động với dữ liệu hình ảnh với sự giúp đỡ của một số công cụ cơ bản. Điều quan trọng cần lưu ý là mặc dù mô hình LightAutoML hỗ trợ tất cả bốn Preset, nhưng khung chỉ sử dụng Preset TabularAutoML trong hệ thống cấp sản xuất.
Đường ống điển hình của khung LightAutoML được bao gồm trong hình ảnh sau.

Mỗi đường ống bao gồm ba thành phần. Đầu tiên, Reader, một đối tượng nhận loại nhiệm vụ và dữ liệu thô làm đầu vào, thực hiện các tính toán siêu dữ liệu quan trọng, làm sạch dữ liệu ban đầu và xác định các thao tác dữ liệu cần được thực hiện trước khi phù hợp với các mô hình khác nhau. Tiếp theo, các tập dữ liệu nội bộ của LightAutoML chứa các trình lặp CV và siêu dữ liệu thực hiện các sơ đồ xác thực cho các tập dữ liệu. Thành phần thứ ba là các đường ống học máy đa dạng được xếp chồng và/hoặc trộn để có được một dự đoán duy nhất. Một đường ống học máy trong kiến trúc của khung LightAutoML là một trong số các mô hình học máy chia sẻ một sơ đồ xác thực và tiền xử lý dữ liệu duy nhất. Bước tiền xử lý có thể có tới hai bước chọn tính năng, một bước kỹ thuật tính năng hoặc có thể trống nếu không cần tiền xử lý. Các đường ống ML có thể được tính toán độc lập trên cùng một tập dữ liệu và sau đó trộn lại với nhau bằng cách sử dụng trung bình (hoặc trung bình có trọng số). Ngoài ra, một sơ đồ xếp chồng có thể được sử dụng để xây dựng các kiến trúc xếp chồng đa cấp.
LightAutoML Tabular Preset
Trong khung LightAutoML, TabularAutoML là đường ống mặc định và nó được thực hiện trong mô hình để giải quyết ba loại nhiệm vụ trên dữ liệu bảng: phân loại nhị phân, hồi quy và phân loại đa lớp cho một loạt các chỉ số hiệu suất và hàm mất mát. Một bảng với bốn cột: tính năng loại, tính năng số, dấu thời gian và một cột mục tiêu duy nhất với nhãn lớp hoặc giá trị liên tục được cung cấp cho thành phần TabularAutoML làm đầu vào. Một trong những mục tiêu chính đằng sau thiết kế của khung LightAutoML là thiết kế một công cụ cho việc kiểm tra giả thuyết nhanh, một lý do chính tại sao khung tránh sử dụng các phương pháp lực cản cho tối ưu hóa đường ống và tập trung chỉ vào các kỹ thuật và mô hình hiệu quả hoạt động trên một loạt các tập dữ liệu.
Tự phân loại và Tiền xử lý Dữ liệu
Để xử lý các loại tính năng khác nhau theo các cách khác nhau, mô hình cần biết mỗi loại tính năng. Trong trường hợp có một nhiệm vụ duy nhất với một tập dữ liệu nhỏ, người dùng có thể chỉ định từng loại tính năng một cách thủ công. Tuy nhiên, việc chỉ định từng loại tính năng một cách thủ công không còn là một lựa chọn khả thi trong các trường hợp bao gồm hàng trăm nhiệm vụ với các tập dữ liệu chứa hàng nghìn tính năng. Đối với Preset TabularAutoML, khung LightAutoML cần ánh xạ các tính năng vào ba lớp: số, loại và ngày giờ. Một giải pháp đơn giản và rõ ràng là sử dụng loại dữ liệu mảng cột làm loại tính năng thực tế, tức là ánh xạ các cột float/int sang tính năng số, dấu thời gian hoặc có thể được phân tích cú pháp như một dấu thời gian – sang ngày giờ và các loại khác sang loại. Tuy nhiên, ánh xạ này không phải là tốt nhất do sự xuất hiện thường xuyên của các loại dữ liệu số trong các cột loại.
Các sơ đồ Xác thực
Các sơ đồ xác thực là một thành phần quan trọng của các khung AutoML vì dữ liệu trong ngành công nghiệp có thể thay đổi theo thời gian và yếu tố thay đổi này làm cho các giả định IID hoặc Phân phối Đồng nhất và Độc lập trở nên không liên quan khi phát triển mô hình. Các mô hình AutoML sử dụng các sơ đồ xác thực để ước tính hiệu suất của chúng, tìm kiếm siêu tham số và tạo dự đoán ngoài phạm vi. Đường ống TabularAutoML thực hiện ba sơ đồ xác thực:
- Phân chia KFold: Phân chia KFold là sơ đồ xác thực mặc định cho đường ống TabularAutoML bao gồm GroupKFold cho các mô hình hành vi và phân chia KFold phân tầng cho các nhiệm vụ phân loại.
- Xác thực Holdout: Sơ đồ xác thực Holdout được thực hiện nếu tập hợp Holdout được chỉ định.
- Các sơ đồ Xác thực Tùy chỉnh: Các sơ đồ xác thực tùy chỉnh có thể được tạo bởi người dùng tùy thuộc vào các yêu cầu cá nhân của họ. Các sơ đồ Xác thực Tùy chỉnh bao gồm phân chia và các sơ đồ chia thời gian.
Chọn Tính năng
Mặc dù việc chọn tính năng là một khía cạnh quan trọng của việc phát triển mô hình theo tiêu chuẩn ngành vì nó giúp giảm chi phí suy luận và triển khai mô hình, nhưng hầu hết các giải pháp AutoML không tập trung nhiều vào vấn đề này. Ngược lại, đường ống TabularAutoML thực hiện ba chiến lược chọn tính năng: Không chọn, Chọn cắt giảm quan trọng và Chọn tiến quan trọng. Trong số ba, Chọn cắt giảm quan trọng là mặc định. Hơn nữa, có hai cách chính để ước tính tầm quan trọng của tính năng: tầm quan trọng của cây quyết định dựa trên phân chia và tầm quan trọng của phép thay thế của mô hình GBM hoặc cây quyết định tăng cường. Mục tiêu chính của việc chọn cắt giảm quan trọng là từ chối các tính năng không hữu ích cho mô hình, cho phép mô hình giảm số lượng tính năng mà không ảnh hưởng tiêu cực đến hiệu suất, một cách tiếp cận có thể tăng tốc độ suy luận và đào tạo mô hình.

Hình ảnh trên so sánh các chiến lược chọn khác nhau trên các tập dữ liệu ngân hàng nhị phân.
Tối ưu hóa Siêu tham số
Đường ống TabularAutoML thực hiện các cách tiếp cận khác nhau để điều chỉnh siêu tham số dựa trên những gì được điều chỉnh.
- Tối ưu hóa Siêu tham số Dừng sớm chọn số lần lặp cho tất cả các mô hình trong quá trình đào tạo.
- Tối ưu hóa Siêu tham số Hệ thống Chuyên gia là một cách đơn giản để đặt siêu tham số cho các mô hình một cách hài lòng. Nó ngăn chặn mô hình cuối cùng từ một sự giảm điểm số lớn so với các mô hình được điều chỉnh thủ công.
- Ước tính Parzen có cấu trúc cây hoặc TPE cho các mô hình GBM hoặc cây quyết định tăng cường. TPE là một chiến lược điều chỉnh hỗn hợp là lựa chọn mặc định trong đường ống LightAutoML. Đối với mỗi khuôn khổ GBM, khung LightAutoML đào tạo hai mô hình: mô hình đầu tiên nhận được siêu tham số chuyên gia, mô hình thứ hai được tinh chỉnh để phù hợp với ngân sách thời gian.
- Tìm kiếm Lưới Siêu tham số được thực hiện trong đường ống TabularAutoML để tinh chỉnh các tham số điều chỉnh của mô hình tuyến tính cùng với dừng sớm và khởi động ấm.
Mô hình điều chỉnh tất cả các tham số bằng cách tối đa hóa hàm số liệu, được định nghĩa bởi người dùng hoặc là mặc định cho nhiệm vụ được giải quyết.

LightAutoML : Thử nghiệm và Hiệu suất
Để đánh giá hiệu suất, Preset TabularAutoML trong khung LightAutoML được so sánh với các giải pháp nguồn mở hiện có trên các nhiệm vụ khác nhau và củng cố hiệu suất vượt trội của khung LightAutoML. Đầu tiên, so sánh được thực hiện trên điểm chuẩn OpenML được đánh giá trên 35 tập dữ liệu phân loại nhị phân và đa lớp. Bảng sau tóm tắt so sánh của khung LightAutoML với các hệ thống AutoML hiện có.

Như có thể thấy, khung LightAutoML vượt trội so với tất cả các hệ thống AutoML khác trên 20 tập dữ liệu trong điểm chuẩn. Bảng sau chứa so sánh chi tiết trong ngữ cảnh tập dữ liệu cho thấy LightAutoML cung cấp hiệu suất khác nhau trên các lớp nhiệm vụ khác nhau. Đối với các nhiệm vụ phân loại nhị phân, LightAutoML không đạt hiệu suất, trong khi đối với các nhiệm vụ có số lượng lớn dữ liệu, khung LightAutoML cung cấp hiệu suất vượt trội.

Bảng sau so sánh hiệu suất của khung LightAutoML với các hệ thống AutoML trên 15 tập dữ liệu ngân hàng chứa một tập hợp các nhiệm vụ phân loại nhị phân khác nhau. Như có thể quan sát, LightAutoML vượt trội so với tất cả các giải pháp AutoML trên 12 trong 15 tập dữ liệu, tỷ lệ thắng là 80.

Suy nghĩ Cuối cùng
Trong bài viết này, chúng tôi đã nói về LightAutoML, một hệ thống AutoML được phát triển chủ yếu cho một công ty châu Âu hoạt động trong lĩnh vực tài chính cùng với hệ sinh thái của nó. Khung LightAutoML được triển khai trên các ứng dụng khác nhau và kết quả đã chứng minh hiệu suất vượt trội, tương đương với mức độ của các nhà khoa học dữ liệu, ngay cả khi xây dựng các mô hình học máy chất lượng cao. Khung LightAutoML cố gắng thực hiện các đóng góp sau. Đầu tiên, khung LightAutoML được phát triển chủ yếu cho hệ sinh thái của một tổ chức tài chính và ngân hàng châu Âu lớn. Nhờ vào khung và kiến trúc của nó, khung LightAutoML có thể vượt trội so với các khung AutoML hiện có trên nhiều điểm chuẩn mở cũng như các ứng dụng hệ sinh thái. Hiệu suất của khung LightAutoML cũng được so sánh với các mô hình được điều chỉnh thủ công bởi các nhà khoa học dữ liệu và kết quả cho thấy hiệu suất mạnh hơn của khung LightAutoML.








