Connect with us

Sự Thật Về Dữ Liệu Tổng Hợp: Tại Sao Chuyên Môn Con Người Là then Chốt Cho Sự Thành Công Của LLM

Lãnh đạo tư tưởng

Sự Thật Về Dữ Liệu Tổng Hợp: Tại Sao Chuyên Môn Con Người Là then Chốt Cho Sự Thành Công Của LLM

mm

Các nhà phát triển LLM ngày càng chuyển sang sử dụng dữ liệu tổng hợp để tăng tốc phát triển và giảm chi phí. Các nhà nghiên cứu đứng sau một số mô hình hàng đầu, chẳng hạn như LLama 3, Qwen 2 và DeepSeek R1, đã đề cập đến việc sử dụng dữ liệu tổng hợp để đào tạo mô hình của họ trong các bài báo nghiên cứu. Từ bên ngoài, nó看似 là giải pháp hoàn hảo: một nguồn thông tin vô tận để tăng tốc phát triển và giảm chi phí. Nhưng giải pháp này đi kèm với một chi phí ẩn mà các nhà lãnh đạo kinh doanh không thể bỏ qua.

Trong thuật ngữ đơn giản, dữ liệu tổng hợp được tạo ra bởi các mô hình AI để tạo ra các tập dữ liệu nhân tạo cho việc đào tạo, tinh chỉnh và đánh giá LLM và các tác nhân AI. So với việc chú thích truyền thống của con người, nó cho phép đường ống dữ liệu mở rộng nhanh chóng, điều này là thiết yếu trong cảnh quan phát triển AI nhanh chóng và cạnh tranh.

Các doanh nghiệp có thể có lý do khác để sử dụng “dữ liệu giả”, chẳng hạn như bảo vệ thông tin nhạy cảm hoặc bí mật trong các môi trường tài chính hoặc chăm sóc sức khỏe bằng cách tạo ra các phiên bản ẩn danh. Dữ liệu tổng hợp cũng là một sự thay thế tốt khi dữ liệu độc quyền không có sẵn, chẳng hạn như trước khi ra mắt sản phẩm hoặc khi dữ liệu thuộc về khách hàng bên ngoài.

Nhưng liệu dữ liệu tổng hợp có đang cách mạng hóa phát triển AI? Câu trả lời ngắn gọn là có, nhưng với điều kiện: nó có tiềm năng lớn, nhưng nó cũng có thể làm cho LLM và các tác nhân dễ bị tổn thương nếu không có sự giám sát của con người. Các nhà sản xuất LLM và nhà phát triển tác nhân AI có thể thấy rằng các mô hình AI được đào tạo trên dữ liệu tổng hợp không được kiểm tra kỹ lưỡng có thể tạo ra đầu ra không chính xác hoặc bị thiên vị, tạo ra các cuộc khủng hoảng về danh tiếng và dẫn đến không tuân thủ các tiêu chuẩn ngành và đạo đức. Đầu tư vào sự giám sát của con người để tinh chỉnh dữ liệu tổng hợp là một khoản đầu tư trực tiếp vào việc bảo vệ lợi ích, duy trì niềm tin của các bên liên quan và đảm bảo việc áp dụng AI có trách nhiệm.

Với sự đầu vào của con người, dữ liệu tổng hợp có thể được chuyển đổi thành dữ liệu đào tạo chất lượng cao. Có ba lý do quan trọng để tinh chỉnh dữ liệu được tạo ra trước khi sử dụng nó để đào tạo AI: để lấp đầy khoảng trống trong kiến thức của mô hình nguồn, để cải thiện chất lượng dữ liệu và giảm kích thước mẫu, và để phù hợp với các giá trị của con người.

Chúng ta cần nắm bắt kiến thức độc đáo

Dữ liệu tổng hợp chủ yếu được tạo ra bởi LLM được đào tạo trên các nguồn internet công khai, tạo ra một hạn chế vốn có. Nội dung công khai hiếm khi nắm bắt được kiến thức thực tế, thực hành được sử dụng trong công việc thực tế. Các hoạt động như thiết kế chiến dịch tiếp thị, chuẩn bị dự báo tài chính hoặc phân tích thị trường thường là riêng tư và không được ghi lại trực tuyến. Ngoài ra, các nguồn thường phản ánh ngôn ngữ và văn hóa tập trung vào Mỹ, hạn chế đại diện toàn cầu.

Để vượt qua những hạn chế này, chúng ta có thể liên quan đến các chuyên gia để tạo ra các mẫu dữ liệu trong các lĩnh vực chúng ta nghi ngờ rằng mô hình tạo dữ liệu tổng hợp không thể bao phủ. Trở lại ví dụ doanh nghiệp, nếu chúng ta muốn mô hình cuối cùng của mình xử lý các dự báo tài chính và phân tích thị trường một cách hiệu quả, dữ liệu đào tạo cần bao gồm các nhiệm vụ thực tế từ các lĩnh vực này. Điều quan trọng là xác định những khoảng trống này và bổ sung dữ liệu tổng hợp với các mẫu được tạo ra bởi chuyên gia.

Các chuyên gia thường được tham gia vào giai đoạn đầu của dự án để định nghĩa phạm vi công việc. Điều này bao gồm việc tạo ra một phân loại, phác thảo các lĩnh vực kiến thức cụ thể mà mô hình cần thực hiện. Ví dụ, trong lĩnh vực chăm sóc sức khỏe, y học chung có thể được chia thành các chủ đề con như dinh dưỡng, sức khỏe tim mạch, dị ứng và nhiều hơn nữa. Một mô hình tập trung vào chăm sóc sức khỏe phải được đào tạo trong tất cả các lĩnh vực con mà nó được dự kiến sẽ bao phủ. Sau khi phân loại được định nghĩa bởi các chuyên gia chăm sóc sức khỏe, LLM có thể được sử dụng để tạo ra các điểm dữ liệu với các câu hỏi và câu trả lời典型 nhanh chóng và với quy mô lớn. Các chuyên gia con người vẫn cần được xem xét, sửa chữa và cải thiện nội dung này để đảm bảo nó không chỉ chính xác mà còn an toàn và phù hợp với ngữ cảnh. Quá trình đảm bảo chất lượng này là cần thiết trong các ứng dụng có rủi ro cao, chẳng hạn như chăm sóc sức khỏe, để đảm bảo độ chính xác của dữ liệu và giảm thiểu thiệt hại tiềm năng.

Chất lượng hơn số lượng: thúc đẩy hiệu suất mô hình với ít mẫu hơn

Khi các chuyên gia trong lĩnh vực tạo ra dữ liệu cho đào tạo LLM và các tác nhân AI, họ tạo ra các phân loại cho các tập dữ liệu, viết các lời nhắc, tạo ra các câu trả lời lý tưởng hoặc mô phỏng một nhiệm vụ cụ thể. Tất cả các bước đều được thiết kế cẩn thận để phù hợp với mục đích của mô hình, và chất lượng được đảm bảo bởi các chuyên gia trong các lĩnh vực tương ứng.

Sự tạo ra dữ liệu tổng hợp không hoàn toàn sao chép quá trình này. Nó dựa vào sức mạnh của mô hình cơ bản được sử dụng để tạo ra dữ liệu, và chất lượng thường không tương đương với dữ liệu được chú thích bởi con người. Điều này có nghĩa là dữ liệu tổng hợp thường yêu cầu số lượng lớn hơn để đạt được kết quả hài lòng, làm tăng chi phí tính toán và thời gian phát triển.

Trong các lĩnh vực phức tạp, có những sắc thái mà chỉ các chuyên gia con người mới có thể nhận thấy, đặc biệt là với các trường hợp ngoại lệ hoặc các trường hợp biên. Dữ liệu được chú thích bởi con người một cách nhất quán cung cấp hiệu suất mô hình tốt hơn, thậm chí với các tập dữ liệu nhỏ hơn đáng kể. Bằng cách tích hợp chiến lược chuyên môn con người vào quá trình tạo dữ liệu, chúng ta có thể giảm số lượng mẫu cần thiết cho mô hình để thực hiện hiệu quả.

Trong kinh nghiệm của chúng tôi, cách tốt nhất để giải quyết thách thức này là liên quan đến các chuyên gia trong lĩnh vực xây dựng các tập dữ liệu tổng hợp. Khi các chuyên gia thiết kế các quy tắc cho việc tạo dữ liệu, định nghĩa các phân loại dữ liệu và xem xét hoặc sửa chữa dữ liệu được tạo ra, chất lượng cuối cùng của dữ liệu sẽ cao hơn nhiều. Cách tiếp cận này đã cho phép khách hàng của chúng tôi đạt được kết quả mạnh mẽ bằng cách sử dụng ít mẫu dữ liệu hơn, dẫn đến một con đường nhanh hơn và hiệu quả hơn đến sản xuất.

Xây dựng niềm tin: vai trò không thể thay thế của con người trong an toàn AI và sự phù hợp

Các hệ thống tự động không thể dự đoán tất cả các điểm yếu hoặc đảm bảo sự phù hợp với các giá trị của con người, đặc biệt là trong các trường hợp ngoại lệ và các tình huống mơ hồ. Các chuyên gia con người đóng vai trò quan trọng trong việc xác định các rủi ro mới nổi và đảm bảo kết quả đạo đức trước khi triển khai. Đây là một lớp bảo vệ mà AI, ít nhất là bây giờ, không thể cung cấp hoàn toàn một mình.

Do đó, để xây dựng một tập dữ liệu kiểm tra mạnh mẽ, dữ liệu tổng hợp alone sẽ không đủ. Điều quan trọng là phải liên quan đến các chuyên gia an ninh sớm trong quá trình. Họ có thể giúp lập bản đồ các loại tấn công tiềm năng và hướng dẫn cấu trúc của tập dữ liệu. LLM có thể được sử dụng để tạo ra một lượng lớn ví dụ. Sau đó, các chuyên gia cần được xác minh và tinh chỉnh dữ liệu để đảm bảo nó là thực tế, chất lượng cao và hữu ích cho việc kiểm tra các hệ thống AI. Ví dụ, một LLM có thể tạo ra hàng nghìn lời nhắc tấn công tiêu chuẩn, nhưng một chuyên gia an ninh con người có thể tạo ra các cuộc tấn công “kỹ thuật xã hội” mới mẻ khai thác các thiên vị tâm lý tinh vi – một mối đe dọa sáng tạo mà các hệ thống tự động khó có thể phát minh ra.

Có đã có tiến bộ đáng kể trong việc phù hợp hóa LLM bằng cách sử dụng phản hồi tự động. Trong bài báo RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” các nhà nghiên cứu cho thấy rằng phản hồi AI có thể thực hiện tương đương với phản hồi của con người trong nhiều trường hợp. Tuy nhiên, trong khi phản hồi AI cải thiện khi các mô hình cải thiện, kinh nghiệm của chúng tôi cho thấy rằng RLAIF vẫn gặp khó khăn trong các lĩnh vực phức tạp và với các trường hợp ngoại lệ hoặc các trường hợp biên, những lĩnh vực mà hiệu suất có thể là quan trọng tùy thuộc vào ứng dụng. Các chuyên gia con người hiệu quả hơn trong việc xử lý các sắc thái của nhiệm vụ và ngữ cảnh, khiến họ trở nên đáng tin cậy hơn cho sự phù hợp.

Các tác nhân AI cũng được hưởng lợi từ việc kiểm tra tự động để giải quyết một loạt các rủi ro an toàn. Các môi trường kiểm tra ảo sử dụng dữ liệu được tạo ra để mô phỏng các hành vi của tác nhân như giao tiếp với các công cụ trực tuyến và thực hiện các hành động trên các trang web. Để tối đa hóa phạm vi kiểm tra trong các kịch bản thực tế, chuyên môn con người là cần thiết để thiết kế các trường hợp kiểm tra, xác minh kết quả của các đánh giá tự động và báo cáo về các điểm yếu.

Tương lai của dữ liệu tổng hợp

Dữ liệu tổng hợp là một kỹ thuật rất có giá trị cho việc phát triển các mô hình ngôn ngữ lớn, đặc biệt là khi mở rộng và triển khai nhanh chóng là quan trọng trong cảnh quan nhanh chóng của ngày nay. Mặc dù không có lỗi cơ bản trong dữ liệu tổng hợp, nó đòi hỏi phải tinh chỉnh để đạt được tiềm năng đầy đủ và cung cấp giá trị nhất. Một cách tiếp cận kết hợp kết hợp tạo dữ liệu tự động với chuyên môn con người là một phương pháp rất hiệu quả để phát triển các mô hình có khả năng và đáng tin cậy, vì hiệu suất của mô hình cuối cùng phụ thuộc nhiều hơn vào chất lượng dữ liệu hơn là vào tổng thể tích. Quá trình tích hợp này, sử dụng AI cho quy mô và chuyên môn con người cho việc xác minh, tạo ra các mô hình có khả năng hơn với sự phù hợp an toàn được cải thiện, điều này là cần thiết để xây dựng niềm tin của người dùng và đảm bảo việc triển khai có trách nhiệm.

Ilya Kochik là Phó Chủ tịch Phát triển Kinh doanh tại Toloka, một đối tác dữ liệu con người cho các phòng thí nghiệm nghiên cứu GenAI hàng đầu, nơi ông chuyên về các nhiệm vụ tiên tiến cho các mô hình tiền phong và hệ thống đại lý. Đặt tại London, nền tảng của ông bao gồm các vai trò lãnh đạo và kỹ thuật tại Google, QuantumBlack (AI của McKinsey) và Bain & Company.