Trí tuệ nhân tạo
LightAutoML: Giải Pháp AutoML Cho Dịch Vụ Tài Chính
Mặc dù AutoML đã trở nên phổ biến trong vài năm gần đây, nhưng những công việc đầu tiên về AutoML đã bắt đầu từ những năm 90 khi các nhà khoa học xuất bản các bài báo đầu tiên về tối ưu hóa siêu tham số. Đó là vào năm 2014 khi ICML tổ chức buổi hội thảo AutoML đầu tiên mà AutoML đã thu hút sự chú ý của các nhà phát triển ML. Một trong những điểm tập trung chính của AutoML trong những năm qua là vấn đề tìm kiếm siêu tham số, nơi mô hình thực hiện một loạt các phương pháp tối ưu hóa để xác định các siêu tham số hoạt động tốt nhất trong không gian siêu tham số lớn cho một mô hình học máy cụ thể. Một phương pháp khác thường được các mô hình AutoML thực hiện là ước tính xác suất của một siêu tham số cụ thể là siêu tham số tối ưu cho một mô hình học máy nhất định. Mô hình đạt được điều này bằng cách thực hiện các phương pháp Bayesian truyền thống sử dụng dữ liệu lịch sử từ các mô hình ước tính trước đó và các tập dữ liệu khác. Ngoài việc tối ưu hóa siêu tham số, các phương pháp khác cố gắng chọn các mô hình tốt nhất từ không gian các lựa chọn mô hình thay thế.
Trong bài viết này, chúng tôi sẽ đề cập đến LightAutoML, một hệ thống AutoML được phát triển chủ yếu cho một công ty châu Âu hoạt động trong lĩnh vực tài chính cùng với hệ sinh thái của nó. Khung LightAutoML được triển khai trên nhiều ứng dụng và kết quả đã chứng minh hiệu suất vượt trội, tương đương với mức độ của các nhà khoa học dữ liệu, ngay cả khi xây dựng các mô hình học máy chất lượng cao. Khung LightAutoML cố gắng thực hiện các đóng góp sau. Đầu tiên, khung LightAutoML được phát triển chủ yếu cho hệ sinh thái của một tổ chức tài chính và ngân hàng châu Âu lớn. Nhờ vào khung và kiến trúc của nó, khung LightAutoML có thể vượt trội so với các khung AutoML hiện đại trên nhiều tiêu chuẩn mở cũng như các ứng dụng hệ sinh thái. Hiệu suất của khung LightAutoML cũng được so sánh với các mô hình được điều chỉnh thủ công bởi các nhà khoa học dữ liệu và kết quả cho thấy hiệu suất mạnh mẽ hơn của khung LightAutoML.
Bài viết này nhằm mục đích đề cập đến khung LightAutoML một cách sâu sắc và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khung cùng với so sánh với các khung hiện đại. Vậy hãy bắt đầu.
LightAutoML: Khung AutoML Cho Dịch Vụ Tài Chính
Mặc dù các nhà nghiên cứu đầu tiên bắt đầu làm việc về AutoML vào giữa và đầu những năm 90, AutoML đã thu hút một lượng lớn sự chú ý trong những năm gần đây, với một số giải pháp công nghiệp nổi bật thực hiện xây dựng mô hình học máy tự động là Amazon’s AutoGluon, DarwinAI, H20.ai, IBM Watson AI, Microsoft AzureML và nhiều hơn nữa. Hầu hết các khung này thực hiện một giải pháp AutoML chung chung phát triển các mô hình học máy tự động trên các lớp ứng dụng khác nhau trên tài chính, y tế, giáo dục và nhiều hơn nữa. Giả định chính đằng sau cách tiếp cận chung chung này là quá trình phát triển mô hình tự động vẫn giống nhau trên tất cả các ứng dụng. Tuy nhiên, khung LightAutoML thực hiện một cách tiếp cận dọc để phát triển một giải pháp AutoML không phải là chung chung, mà phục vụ cho nhu cầu của các ứng dụng riêng lẻ, trong trường hợp này là một tổ chức tài chính lớn. Khung LightAutoML là một giải pháp AutoML dọc tập trung vào nhu cầu của hệ sinh thái phức tạp cùng với các đặc điểm của nó. Đầu tiên, khung LightAutoML cung cấp tìm kiếm siêu tham số nhanh và gần tối ưu. Mặc dù mô hình không tối ưu hóa trực tiếp các siêu tham số này, nhưng nó vẫn cung cấp kết quả hài lòng. Hơn nữa, mô hình duy trì sự cân bằng giữa tốc độ và tối ưu hóa siêu tham số động, để đảm bảo mô hình là tối ưu trên các vấn đề nhỏ và đủ nhanh trên các vấn đề lớn hơn. Thứ hai, khung LightAutoML hạn chế phạm vi của các mô hình học máy một cách cố ý chỉ với hai loại: mô hình tuyến tính và GBMs hoặc cây quyết định tăng cường, thay vì thực hiện các tập hợp lớn các thuật toán khác nhau. Lý do chính đằng sau việc hạn chế phạm vi của các mô hình học máy là để tăng tốc thời gian thực hiện của khung LightAutoML mà không ảnh hưởng tiêu cực đến hiệu suất cho loại vấn đề và dữ liệu nhất định. Thứ ba, khung LightAutoML trình bày một phương pháp độc đáo để chọn các sơ đồ tiền xử lý cho các tính năng khác nhau được sử dụng trong các mô hình trên cơ sở các quy tắc lựa chọn và thống kê siêu. Khung LightAutoML được đánh giá trên một loạt các nguồn dữ liệu mở trên nhiều ứng dụng.
LightAutoML: Phương Pháp và Kiến Trúc
Khung LightAutoML bao gồm các mô-đun được gọi là Presets dành cho phát triển mô hình từ đầu đến cuối cho các nhiệm vụ học máy điển hình. Hiện tại, khung LightAutoML hỗ trợ các mô-đun Preset. Đầu tiên, Preset TabularAutoML tập trung vào giải quyết các vấn đề học máy cổ điển được định nghĩa trên các tập dữ liệu bảng. Thứ hai, Preset White-Box thực hiện các thuật toán đơn giản và có thể giải thích được như Hồi quy Logistic thay vì mã WoE hoặc Trọng lượng của Bằng chứng và các tính năng rời rạc để giải quyết các nhiệm vụ phân loại nhị phân trên dữ liệu bảng. Việc thực hiện các thuật toán đơn giản và có thể giải thích được là một thực hành phổ biến để mô hình hóa xác suất của một ứng dụng do các yếu tố khác nhau đặt ra. Thứ ba, Preset NLP có khả năng kết hợp dữ liệu bảng với các công cụ Xử lý Ngôn ngữ Tự nhiên hoặc NLP bao gồm các mô hình học sâu được đào tạo trước và các bộ trích xuất tính năng cụ thể. Cuối cùng, Preset CV làm việc với dữ liệu hình ảnh với sự giúp đỡ của một số công cụ cơ bản. Điều quan trọng cần lưu ý là mặc dù mô hình LightAutoML hỗ trợ cả bốn Preset, nhưng khung chỉ sử dụng Preset TabularAutoML trong hệ thống cấp sản xuất.
Quy trình pipeline điển hình của khung LightAutoML được bao gồm trong hình ảnh sau.

Mỗi pipeline bao gồm ba thành phần. Đầu tiên, Reader, một đối tượng nhận loại nhiệm vụ và dữ liệu thô làm đầu vào, thực hiện các tính toán siêu dữ liệu quan trọng, làm sạch dữ liệu ban đầu và xác định các thao tác dữ liệu cần thực hiện trước khi phù hợp với các mô hình khác nhau. Tiếp theo, các tập dữ liệu nội bộ LightAutoML chứa các trình lặp CV và siêu dữ liệu thực hiện các sơ đồ xác thực cho các tập dữ liệu. Thành phần thứ ba là các pipeline học máy đa dạng được xếp chồng và/hoặc trộn lẫn để tạo ra một dự đoán duy nhất. Một pipeline học máy trong kiến trúc của khung LightAutoML là một trong nhiều mô hình học máy chia sẻ một lược đồ xác thực và tiền xử lý dữ liệu duy nhất. Bước tiền xử lý có thể có tới hai bước chọn tính năng, một bước kỹ thuật tính năng hoặc có thể trống nếu không cần tiền xử lý. Các pipeline học máy có thể được tính toán độc lập trên cùng một tập dữ liệu và sau đó trộn lẫn bằng cách sử dụng trung bình (hoặc trung bình có trọng số). Ngoài ra, một lược đồ tập hợp có thể được sử dụng để xây dựng các kiến trúc tập hợp đa cấp.
LightAutoML Tabular Preset
Trong khung LightAutoML, TabularAutoML là pipeline mặc định và nó được thực hiện trong mô hình để giải quyết ba loại nhiệm vụ trên dữ liệu bảng: phân loại nhị phân, hồi quy và phân loại đa lớp cho một loạt các chỉ số hiệu suất và hàm mất mát. Một bảng với bốn cột sau: tính năng loại, tính năng số, dấu thời gian và một cột mục tiêu duy nhất với nhãn lớp hoặc giá trị liên tục được cung cấp cho thành phần TabularAutoML làm đầu vào. Một trong những mục tiêu chính đằng sau thiết kế của khung LightAutoML là thiết kế một công cụ cho thử nghiệm giả thuyết nhanh, một lý do chính tại sao khung tránh sử dụng các phương pháp tối ưu hóa pipeline bằng lực để tập trung chỉ vào các kỹ thuật và mô hình hiệu quả hoạt động trên một loạt các tập dữ liệu.
Tự Động Hóa và Tiền Xử Lý Dữ Liệu
Để xử lý các loại tính năng khác nhau theo các cách khác nhau, mô hình cần biết mỗi loại tính năng. Trong tình huống có một nhiệm vụ duy nhất với một tập dữ liệu nhỏ, người dùng có thể chỉ định thủ công từng loại tính năng. Tuy nhiên, việc chỉ định từng loại tính năng một cách thủ công không còn là một lựa chọn khả thi trong các tình huống bao gồm hàng trăm nhiệm vụ với các tập dữ liệu chứa hàng ngàn tính năng. Đối với Preset TabularAutoML, khung LightAutoML cần ánh xạ các tính năng vào ba lớp: số, loại và ngày giờ. Một giải pháp đơn giản và rõ ràng là sử dụng loại dữ liệu mảng cột làm các loại tính năng thực tế, tức là ánh xạ các cột float/int sang tính năng số, dấu thời gian hoặc chuỗi có thể được phân tích cú pháp thành dấu thời gian — sang ngày giờ và các loại khác sang loại. Tuy nhiên, ánh xạ này không phải là tốt nhất do sự xuất hiện thường xuyên của các loại dữ liệu số trong các cột loại.
Các Sơ Đồ Xác Thực
Các sơ đồ xác thực là một thành phần quan trọng của các khung AutoML vì dữ liệu trong ngành công nghiệp có thể thay đổi theo thời gian và yếu tố thay đổi này làm cho các giả định IID hoặc Phân phối Đồng nhất và Độc lập trở nên không liên quan khi phát triển mô hình. Các mô hình AutoML sử dụng các sơ đồ xác thực để ước tính hiệu suất của chúng, tìm kiếm siêu tham số và tạo dự đoán ngoài tập dữ liệu. Pipeline TabularAutoML thực hiện ba sơ đồ xác thực:
- Chia Dữ Liệu Theo KFold: Chia dữ liệu theo KFold là sơ đồ xác thực mặc định cho pipeline TabularAutoML bao gồm GroupKFold cho các mô hình hành vi và KFold phân tầng cho các nhiệm vụ phân loại.
- Xác Thực Holdout: Sơ đồ xác thực Holdout được thực hiện nếu tập holdout được chỉ định.
- Các Sơ Đồ Xác Thực Tùy Chỉnh: Các sơ đồ xác thực tùy chỉnh có thể được tạo bởi người dùng tùy thuộc vào các yêu cầu cá nhân. Các sơ đồ xác thực tùy chỉnh bao gồm chia dữ liệu theo k-fold và các sơ đồ chia dữ liệu thời gian.
Chọn Tính Năng
Mặc dù việc chọn tính năng là một khía cạnh quan trọng của việc phát triển mô hình theo tiêu chuẩn ngành vì nó giúp giảm chi phí suy luận và triển khai mô hình, nhưng hầu hết các giải pháp AutoML không tập trung nhiều vào vấn đề này. Ngược lại, pipeline TabularAutoML thực hiện ba chiến lược chọn tính năng: Không chọn, Chọn cắt Importance và Chọn tiến Importance. Trong số đó, chiến lược chọn cắt Importance là mặc định. Hơn nữa, có hai cách chính để ước tính tầm quan trọng của tính năng: tầm quan trọng của cây quyết định dựa trên phân chia và tầm quan trọng của phép thay thế của mô hình GBM hoặc cây quyết định tăng cường. Mục tiêu chính của việc chọn cắt Importance là từ chối các tính năng không hữu ích cho mô hình, cho phép mô hình giảm số lượng tính năng mà không ảnh hưởng tiêu cực đến hiệu suất, một cách tiếp cận có thể tăng tốc độ suy luận và đào tạo mô hình.

Hình ảnh trên so sánh các chiến lược chọn khác nhau trên các tập dữ liệu ngân hàng nhị phân.
Tối Ưu Hóa Siêu Tham Số
Pipeline TabularAutoML thực hiện các cách tiếp cận khác nhau để điều chỉnh siêu tham số dựa trên những gì được điều chỉnh.
- Điều Chỉnh Siêu Tham Số Dừng Sớm chọn số lần lặp cho tất cả các mô hình trong giai đoạn đào tạo.
- Điều Chỉnh Siêu Tham Số Hệ Thống Chuyên Gia là một cách đơn giản để đặt siêu tham số cho các mô hình một cách hài lòng. Nó ngăn chặn mô hình cuối cùng giảm điểm số so với các mô hình được điều chỉnh thủ công.
- Ước Lượng Parzen Cấu Trúc Cây hoặc TPE cho các mô hình GBM hoặc cây quyết định tăng cường. TPE là một chiến lược điều chỉnh hỗn hợp là lựa chọn mặc định trong pipeline LightAutoML. Đối với mỗi khung GBM, khung LightAutoML đào tạo hai mô hình: mô hình đầu tiên nhận siêu tham số chuyên gia, mô hình thứ hai được điều chỉnh tinh để phù hợp với ngân sách thời gian.
- Tìm Kiếm Lưới Điều Chỉnh Siêu Tham Số được thực hiện trong pipeline TabularAutoML để tinh chỉnh các tham số điều chỉnh của mô hình tuyến tính cùng với việc dừng sớm và khởi động ấm.
Mô hình điều chỉnh tất cả các tham số bằng cách tối đa hóa hàm số liệu, được định nghĩa bởi người dùng hoặc là mặc định cho nhiệm vụ được giải quyết.

LightAutoML: Thử Nghiệm và Hiệu Suất
Để đánh giá hiệu suất, Preset TabularAutoML trong khung LightAutoML được so sánh với các giải pháp nguồn mở hiện có trên nhiều nhiệm vụ và chứng minh hiệu suất vượt trội của khung LightAutoML. Đầu tiên, so sánh được thực hiện trên tiêu chuẩn OpenML được đánh giá trên 35 tập dữ liệu nhiệm vụ phân loại nhị phân và đa lớp. Bảng sau tóm tắt so sánh của khung LightAutoML với các hệ thống AutoML hiện có.

Như có thể thấy, khung LightAutoML vượt trội so với tất cả các hệ thống AutoML khác trên 20 tập dữ liệu trong tiêu chuẩn. Bảng sau chứa so sánh chi tiết trong ngữ cảnh tập dữ liệu cho thấy LightAutoML cung cấp hiệu suất khác nhau trên các lớp nhiệm vụ khác nhau. Đối với các nhiệm vụ phân loại nhị phân, LightAutoML không đạt hiệu suất, trong khi đối với các nhiệm vụ có nhiều dữ liệu, khung LightAutoML cung cấp hiệu suất vượt trội.

Bảng sau so sánh hiệu suất của khung LightAutoML với các hệ thống AutoML trên 15 tập dữ liệu ngân hàng chứa một tập các nhiệm vụ phân loại nhị phân khác nhau. Như có thể quan sát, LightAutoML vượt trội so với tất cả các giải pháp AutoML trên 12 trong 15 tập dữ liệu, tỷ lệ thắng là 80.

Suy Nghĩ Cuối Cùng
Trong bài viết này, chúng tôi đã đề cập đến LightAutoML, một hệ thống AutoML được phát triển chủ yếu cho một công ty châu Âu hoạt động trong lĩnh vực tài chính cùng với hệ sinh thái của nó. Khung LightAutoML được triển khai trên nhiều ứng dụng và kết quả đã chứng minh hiệu suất vượt trội, tương đương với mức độ của các nhà khoa học dữ liệu, ngay cả khi xây dựng các mô hình học máy chất lượng cao. Khung LightAutoML cố gắng thực hiện các đóng góp sau. Đầu tiên, khung LightAutoML được phát triển chủ yếu cho hệ sinh thái của một tổ chức tài chính và ngân hàng châu Âu lớn. Nhờ vào khung và kiến trúc của nó, khung LightAutoML có thể vượt trội so với các khung AutoML hiện đại trên nhiều tiêu chuẩn mở cũng như các ứng dụng hệ sinh thái. Hiệu suất của khung LightAutoML cũng được so sánh với các mô hình được điều chỉnh thủ công bởi các nhà khoa học dữ liệu và kết quả cho thấy hiệu suất mạnh mẽ hơn của khung LightAutoML. Khung LightAutoML cũng có khả năng vượt trội so với các mô hình được điều chỉnh thủ công bởi các nhà khoa học dữ liệu, và kết quả cho thấy hiệu suất mạnh mẽ hơn của khung LightAutoML.












