Lãnh đạo tư tưởng
Sự thật về dữ liệu tổng hợp: Tại sao chuyên môn của con người lại quan trọng đối với sự thành công của LLM

Các nhà phát triển LLM ngày càng chuyển sang dữ liệu tổng hợp để tăng tốc quá trình phát triển và giảm chi phí. Các nhà nghiên cứu đằng sau một số mô hình hàng đầu, chẳng hạn như LLama 3, Qwen 2 và DeepSeek R1, đã đề cập đến việc sử dụng dữ liệu tổng hợp để đào tạo các mô hình của họ trong các bài báo nghiên cứu. Nhìn từ bên ngoài, có vẻ như đây là giải pháp hoàn hảo: một nguồn thông tin vô tận để tăng tốc quá trình phát triển và cắt giảm chi phí. Nhưng giải pháp này đi kèm với một chi phí ẩn mà các nhà lãnh đạo doanh nghiệp không thể bỏ qua.
Trong thuật ngữ đơn giản, dữ liệu tổng hợp được tạo ra bởi các mô hình AI để tạo ra các tập dữ liệu nhân tạo để đào tạo, tinh chỉnh và đánh giá LLM và các tác nhân AI. So với chú thích của con người truyền thống, nó cho phép đường ống dữ liệu mở rộng nhanh chóng, điều này rất cần thiết trong bối cảnh phát triển AI cạnh tranh và thay đổi nhanh chóng.
Các doanh nghiệp có thể có những lý do khác để sử dụng dữ liệu "giả", như bảo vệ thông tin nhạy cảm hoặc bí mật trong các thiết lập tài chính hoặc chăm sóc sức khỏe bằng cách tạo ra các phiên bản ẩn danh. Dữ liệu tổng hợp cũng là một sự thay thế tốt khi không có dữ liệu độc quyền, chẳng hạn như trước khi ra mắt sản phẩm hoặc khi dữ liệu thuộc về khách hàng bên ngoài.
Nhưng dữ liệu tổng hợp có cách mạng hóa sự phát triển AI không? Câu trả lời ngắn gọn là có: nó có tiềm năng lớn, nhưng nó cũng có thể phơi bày các LLM và tác nhân với các lỗ hổng quan trọng không có sự giám sát chặt chẽ của con người. Các nhà sản xuất LLM và nhà phát triển tác nhân AI có thể thấy rằng các mô hình AI được đào tạo trên dữ liệu tổng hợp chưa được kiểm tra đầy đủ có thể tạo ra các đầu ra không chính xác hoặc thiên vị, gây ra khủng hoảng về uy tín và dẫn đến việc không tuân thủ các tiêu chuẩn của ngành và đạo đức. Đầu tư vào sự giám sát của con người để tinh chỉnh dữ liệu tổng hợp là một khoản đầu tư trực tiếp vào việc bảo vệ lợi nhuận, duy trì lòng tin của các bên liên quan và đảm bảo việc áp dụng AI có trách nhiệm.
Với sự tham gia của con người, dữ liệu tổng hợp có thể được chuyển đổi thành dữ liệu đào tạo chất lượng cao. Có ba lý do quan trọng để tinh chỉnh dữ liệu được tạo ra trước khi sử dụng để đào tạo AI: để lấp đầy khoảng trống trong kiến thức mô hình nguồn, để cải thiện chất lượng dữ liệu và giảm quy mô mẫu, và để phù hợp với các giá trị của con người.
Chúng ta cần nắm bắt kiến thức độc đáo
Dữ liệu tổng hợp chủ yếu được tạo ra bởi các LLM được đào tạo trên các nguồn internet công khai, tạo ra một hạn chế cố hữu. Nội dung công khai hiếm khi nắm bắt được kiến thức thực tế, thực hành được sử dụng trong công việc thực tế. Các hoạt động như thiết kế chiến dịch tiếp thị, chuẩn bị dự báo tài chính hoặc tiến hành phân tích thị trường thường là riêng tư và không được ghi lại trực tuyến. Ngoài ra, các nguồn có xu hướng phản ánh ngôn ngữ và văn hóa tập trung vào Hoa Kỳ, hạn chế sự đại diện toàn cầu.
Để khắc phục những hạn chế này, chúng ta có thể nhờ các chuyên gia tạo mẫu dữ liệu trong các lĩnh vực mà chúng ta nghi ngờ mô hình tạo dữ liệu tổng hợp không thể bao phủ. Quay trở lại ví dụ về công ty, nếu chúng ta muốn mô hình cuối cùng của mình xử lý dự báo tài chính và phân tích thị trường hiệu quả, dữ liệu đào tạo cần bao gồm các nhiệm vụ thực tế từ các lĩnh vực này. Điều quan trọng là phải xác định những khoảng trống này và bổ sung dữ liệu tổng hợp bằng các mẫu do chuyên gia tạo ra.
Các chuyên gia thường tham gia vào giai đoạn đầu của dự án để xác định phạm vi công việc. Điều này bao gồm việc tạo ra một phân loại, phác thảo các lĩnh vực kiến thức cụ thể mà mô hình cần thực hiện. Ví dụ, trong chăm sóc sức khỏe, y học nói chung có thể được chia thành các chủ đề phụ như dinh dưỡng, sức khỏe tim mạch, dị ứng, v.v. Một mô hình tập trung vào sức khỏe phải được đào tạo trong tất cả các lĩnh vực phụ mà nó dự kiến sẽ bao gồm. Sau khi phân loại được các chuyên gia chăm sóc sức khỏe xác định, LLM có thể được sử dụng để tạo các điểm dữ liệu với các câu hỏi và câu trả lời điển hình một cách nhanh chóng và ở quy mô lớn. Các chuyên gia con người vẫn cần xem xét, sửa và cải thiện nội dung này để đảm bảo nội dung không chỉ chính xác mà còn an toàn và phù hợp với ngữ cảnh. Quy trình đảm bảo chất lượng này là cần thiết trong các ứng dụng có rủi ro cao, chẳng hạn như chăm sóc sức khỏe, để đảm bảo tính chính xác của dữ liệu và giảm thiểu tác hại tiềm ẩn.
Chất lượng hơn số lượng: thúc đẩy hiệu quả mô hình với ít mẫu hơn nhưng tốt hơn
Khi các chuyên gia trong lĩnh vực tạo dữ liệu để đào tạo LLM và AI, họ tạo ra các phân loại cho tập dữ liệu, viết lời nhắc, tạo ra các câu trả lời lý tưởng hoặc mô phỏng một nhiệm vụ cụ thể. Tất cả các bước đều được thiết kế cẩn thận để phù hợp với mục đích của mô hình, và chất lượng được đảm bảo bởi các chuyên gia trong lĩnh vực tương ứng.
Việc tạo dữ liệu tổng hợp không sao chép đầy đủ quá trình này. Nó dựa vào sức mạnh của mô hình cơ bản được sử dụng để tạo dữ liệu và chất lượng kết quả thường không ngang bằng với dữ liệu do con người quản lý. Điều này có nghĩa là dữ liệu tổng hợp thường đòi hỏi khối lượng lớn hơn nhiều để đạt được kết quả thỏa đáng, làm tăng chi phí tính toán và thời gian phát triển.
Trong các lĩnh vực phức tạp, có những sắc thái mà chỉ có chuyên gia con người mới có thể phát hiện ra, đặc biệt là với các trường hợp ngoại lệ hoặc trường hợp ngoại lệ. Dữ liệu do con người quản lý luôn mang lại hiệu suất mô hình tốt hơn, ngay cả với các tập dữ liệu nhỏ hơn đáng kể. Bằng cách tích hợp chuyên môn của con người vào quy trình tạo dữ liệu một cách chiến lược, chúng ta có thể giảm số lượng mẫu cần thiết để mô hình hoạt động hiệu quả.
Theo kinh nghiệm của chúng tôi, cách tốt nhất để giải quyết thách thức này là để các chuyên gia về chủ đề tham gia xây dựng các tập dữ liệu tổng hợp. Khi các chuyên gia thiết kế các quy tắc để tạo dữ liệu, xác định phân loại dữ liệu và xem xét hoặc sửa dữ liệu đã tạo, chất lượng cuối cùng của dữ liệu cao hơn nhiều. Cách tiếp cận này đã cho phép khách hàng của chúng tôi đạt được kết quả mạnh mẽ bằng cách sử dụng ít mẫu dữ liệu hơn, dẫn đến con đường nhanh hơn và hiệu quả hơn để sản xuất.
Xây dựng lòng tin: vai trò không thể thay thế của con người trong sự an toàn và liên kết của AI
Các hệ thống tự động không thể dự đoán được tất cả các lỗ hổng hoặc đảm bảo sự phù hợp với các giá trị của con người, đặc biệt là trong các trường hợp ngoại lệ và các tình huống mơ hồ. Các chuyên gia đánh giá con người đóng vai trò quan trọng trong việc xác định các rủi ro mới nổi và đảm bảo kết quả đạo đức trước khi triển khai. Đây là một lớp bảo vệ mà AI, ít nhất là hiện tại, không thể tự cung cấp đầy đủ.
Do đó, để xây dựng một tập dữ liệu nhóm đỏ mạnh mẽ, dữ liệu tổng hợp đơn thuần sẽ không đủ. Điều quan trọng là phải có sự tham gia của các chuyên gia bảo mật ngay từ đầu quá trình. Họ có thể giúp lập bản đồ các loại tấn công tiềm ẩn và hướng dẫn cấu trúc của tập dữ liệu. Sau đó, có thể sử dụng LLM để tạo ra khối lượng lớn ví dụ. Sau đó, cần có các chuyên gia để xác minh và tinh chỉnh dữ liệu để đảm bảo dữ liệu thực tế, chất lượng cao và hữu ích cho việc thử nghiệm các hệ thống AI. Ví dụ, một LLM có thể tạo ra hàng nghìn lời nhắc hack tiêu chuẩn, nhưng một chuyên gia bảo mật con người có thể tạo ra các cuộc tấn công 'kỹ thuật xã hội' mới lạ khai thác các thành kiến tâm lý tinh tế - một mối đe dọa sáng tạo mà các hệ thống tự động phải vật lộn để tự phát minh ra.
Đã có những tiến bộ đáng kể trong việc sắp xếp LLM bằng cách sử dụng phản hồi tự động. Trong bài báo "RLAIF so với RLHF: Mở rộng quy mô học tăng cường từ phản hồi của con người với phản hồi AI, " Các nhà nghiên cứu cho thấy rằng sự liên kết dựa trên AI có thể hoạt động tương đương với phản hồi của con người trong nhiều trường hợp. Tuy nhiên, trong khi phản hồi của AI được cải thiện khi các mô hình được cải thiện, kinh nghiệm của chúng tôi cho thấy RLAIF vẫn gặp khó khăn trong các lĩnh vực phức tạp và với các trường hợp ngoại lệ hoặc ngoại lệ, các lĩnh vực mà hiệu suất có thể rất quan trọng tùy thuộc vào ứng dụng. Các chuyên gia con người hiệu quả hơn trong việc xử lý các sắc thái và bối cảnh của nhiệm vụ, khiến họ đáng tin cậy hơn trong việc liên kết.
Các tác nhân AI cũng được hưởng lợi từ thử nghiệm tự động để giải quyết nhiều rủi ro về an toàn. Môi trường thử nghiệm ảo sử dụng dữ liệu được tạo ra để mô phỏng hành vi của tác nhân như giao tiếp với các công cụ trực tuyến và thực hiện các hành động trên trang web. Để tối đa hóa phạm vi thử nghiệm trong các tình huống thực tế, chuyên môn của con người là không thể thiếu để thiết kế các trường hợp thử nghiệm, xác minh kết quả đánh giá tự động và báo cáo về các lỗ hổng.
Tương lai của dữ liệu tổng hợp
Dữ liệu tổng hợp là một kỹ thuật cực kỳ có giá trị để phát triển các mô hình ngôn ngữ lớn, đặc biệt là khi việc mở rộng quy mô và triển khai nhanh là rất quan trọng trong bối cảnh phát triển nhanh như hiện nay. Mặc dù không có sai sót cơ bản nào trong bản thân dữ liệu tổng hợp, nhưng nó cần được tinh chỉnh để đạt được tiềm năng đầy đủ và mang lại giá trị cao nhất. Một phương pháp kết hợp giữa việc tạo dữ liệu tự động với chuyên môn của con người là một phương pháp cực kỳ hiệu quả để phát triển các mô hình có khả năng và đáng tin cậy, vì hiệu suất mô hình cuối cùng phụ thuộc nhiều hơn vào chất lượng dữ liệu hơn là tổng khối lượng. Quy trình tích hợp này, sử dụng AI để mở rộng quy mô và các chuyên gia con người để xác thực, tạo ra các mô hình có khả năng hơn với sự liên kết an toàn được cải thiện, điều này rất cần thiết để xây dựng lòng tin của người dùng và đảm bảo triển khai có trách nhiệm.