Connect with us

Test-Time Scaling: Bí Quyết Đằng Sau Làn Sóng Mới Của Các Mô Hình Lý Luận Cấp PhD

Trí tuệ nhân tạo

Test-Time Scaling: Bí Quyết Đằng Sau Làn Sóng Mới Của Các Mô Hình Lý Luận Cấp PhD

mm

Lĩnh vực trí tuệ nhân tạo đã đạt đến một điểm mà việc chỉ thêm dữ liệu hoặc tăng kích thước của mô hình không phải là cách tốt nhất để làm cho nó trở nên thông minh hơn. Trong những năm qua, chúng ta tin rằng nếu chúng ta xây dựng các mạng nơ-ron lớn hơn và cho chúng ăn nhiều hơn internet, chúng sẽ trở nên thông minh hơn. Cách tiếp cận này, được gọi là luật tỷ lệ, đã hoạt động đáng kinh ngạc. Nó đã mang lại cho chúng ta các mô hình có thể viết thơ, dịch ngôn ngữ và vượt qua kỳ thi luật. Tuy nhiên, những mô hình này thường gặp khó khăn với logic sâu, toán học phức tạp và các vấn đề khoa học đa bước. Chúng rất giỏi trong việc nhận dạng mẫu nhưng thường thất bại trong các vấn đề yêu cầu lý luận đa bước.

Gần đây, một xu hướng mới đã xuất hiện và đang thay đổi cách chúng ta nghĩ về khả năng của AI. Xu hướng này được gọi là test-time scaling. Thay vì chỉ tập trung vào việc mô hình học được bao nhiêu trong giai đoạn đào tạo, các nhà nghiên cứu hiện đang tập trung vào việc mô hình “nghĩ” như thế nào khi nó thực sự trả lời một câu hỏi. Sự thay đổi này là bí quyết đằng sau làn sóng mới của các mô hình lý luận, chẳng hạn như chuỗi o1 của OpenAI, hiện đang hoạt động ở mức của các sinh viên PhD trong các môn học khó như vật lý, hóa học và sinh học.

Chuyển Từ Đào Tạo sang Sự Khả Dụng Của Sự Luận

Để hiểu tại sao đây là một sự thay đổi lớn, chúng ta phải xem xét cách AI được xây dựng cho đến nay. Truyền thống, “trí tuệ” của một mô hình được xác định dựa trên đào tạo của nó. Điều này liên quan đến việc chi hàng tháng và hàng triệu đô la để chạy một lượng lớn dữ liệu qua hàng nghìn GPU. Một khi đào tạo đã hoàn thành, mô hình cơ bản đã được đóng băng. Khi bạn hỏi nó một câu hỏi, nó sẽ cung cấp một câu trả lời gần như ngay lập tức dựa trên các mẫu nó đã học được. Đây là những gì chúng ta gọi là suy luận hoặc thời gian kiểm tra.

Vấn đề với cách tiếp cận truyền thống này là mô hình chỉ có một cơ hội để trả lời đúng. Nó xử lý lời nhắc và tạo ra các token một sau另 một mà không có cách nào để “nghĩ” hoặc “kiểm tra lại” logic của nó trước khi nói. Test-time scaling thay đổi động lực này. Nó cho phép mô hình sử dụng nhiều tài nguyên tính toán hơn trong giai đoạn suy luận. Giống như một con người có thể mất vài giây để trả lời một câu hỏi đơn giản nhưng mất vài phút hoặc vài giờ để giải quyết một vấn đề toán học phức tạp, các mô hình AI hiện đang được thiết kế để mở rộng nỗ lực của chúng dựa trên độ khó của nhiệm vụ.

Định Nghĩa Khái Niệm Của Test-Time Scaling

Test-time scaling đề cập đến các kỹ thuật cho phép một mô hình AI sử dụng thêm tài nguyên tính toán để xử lý một yêu cầu tại thời điểm giao hàng. Trong các thuật ngữ đơn giản, nó có nghĩa là cho mô hình thêm “thời gian nghĩ”. Điều này không phải là về việc làm cho mô hình lớn hơn; nó là về việc làm cho mô hình trở nên có chủ đích hơn. Khi một mô hình sử dụng test-time scaling, nó không chỉ tạo ra câu trả lời đầu tiên mà nó nghĩ đến. Thay vào đó, nó có thể khám phá các đường dẫn khác nhau, kiểm tra lỗi trong logic của chính nó và tinh chỉnh câu trả lời của nó trước khi người dùng nhìn thấy nó.

Khái niệm này thường được so sánh với cách bộ não con người hoạt động. Các nhà tâm lý học thường nói về “Hệ thống 1” và “Hệ thống 2” suy nghĩ. Hệ thống 1 nhanh, trực giác và cảm xúc. Đó là những gì bạn sử dụng khi bạn nhận ra một khuôn mặt hoặc lái xe trên một con đường quen thuộc. Hệ thống 2 chậm hơn, có chủ đích hơn và logic hơn. Đó là những gì bạn sử dụng khi bạn giải quyết một phương trình toán học khó hoặc lập kế hoạch cho một dự án phức tạp. Cho đến gần đây, các mô hình ngôn ngữ lớn (LLM) chủ yếu là những người suy nghĩ theo Hệ thống 1. Test-time scaling là cầu nối cho phép chúng tiếp cận suy nghĩ theo Hệ thống 2.

Cơ Chế Của Quá Trình Suy Luận

Có một số cách mà các nhà nghiên cứu đạt được test-time scaling. Một trong những phương pháp phổ biến nhất được gọi là Chain of Thought (CoT) prompting, nhưng trong các mô hình mới này, nó được tích hợp trực tiếp vào hệ thống chứ không phải là thứ mà người dùng phải yêu cầu. Mô hình được đào tạo để chia một vấn đề thành các bước logic nhỏ hơn. Bằng cách làm như vậy, mô hình có thể xác minh từng phần của giải pháp trước khi chuyển sang bước tiếp theo.

Một kỹ thuật quan trọng khác liên quan đến các thuật toán tìm kiếm, chẳng hạn như Monte Carlo Tree Search. Thay vì chỉ dự đoán từ tiếp theo có khả năng nhất, mô hình tạo ra nhiều đường dẫn có thể cho một câu trả lời. Nó đánh giá các đường dẫn này và xác định đường dẫn nào có khả năng dẫn đến giải pháp chính xác nhất. Nếu nó gặp một ngõ cụt hoặc nhận ra rằng một bước trước đó là sai, nó có thể quay lại và thử một cách tiếp cận khác. Khả năng “nhìn trước” này rất giống với cách một công cụ cờ vua đánh giá hàng nghìn bước di chuyển có thể trước khi chọn bước di chuyển tốt nhất. Bằng cách tìm kiếm nhiều khả năng trong giai đoạn suy luận, mô hình có thể giải quyết các vấn đề phức tạp hơn nhiều so với những gì có thể được giải quyết trực tiếp bằng cách sử dụng một LLM tiêu chuẩn.

Tại Sao Lý Luận Cấp PhD Yêu Cầu Hơn Chỉ Là Bộ Nhớ

Lý do tại sao điều này lại quan trọng đến vậy là lý luận cấp cao trong khoa học và toán học không thể được giải quyết bằng bộ nhớ alone. Trong một kỳ thi vật lý cấp PhD, bạn không thể chỉ lặp lại một sự kiện mà bạn đã đọc trong một cuốn sách giáo khoa. Bạn phải áp dụng các nguyên tắc phức tạp vào một tình huống mới và duy nhất. Các mô hình tiêu chuẩn thường ảo giác trong những tình huống này vì chúng đang cố gắng dự đoán từ tiếp theo dựa trên xác suất chứ không phải logic.

Test-time scaling cho phép mô hình hoạt động giống như một nhà nghiên cứu. Nó có thể kiểm tra các giả thuyết nội bộ. Ví dụ, nếu một mô hình được yêu cầu viết một đoạn mã phức tạp, nó có thể “chạy” logic trong chuỗi suy nghĩ ẩn của nó, xác định một lỗi tiềm năng và sửa nó trước khi trình bày mã cuối cùng. Khả năng tự sửa lỗi này là những gì cho phép làn sóng mới của các mô hình đạt được điểm số cao trong các điểm chuẩn như Kỳ thi Toán học Mời của Mỹ (AIME) hoặc GPQA (một bài kiểm tra khoa học khó do các chuyên gia thiết kế). Chúng không chỉ đang đoán; chúng đang xác minh.

Sự Đổi Trả Về Hiệu Suất và Chi Phí Tính Toán

Mặc dù test-time scaling mạnh mẽ, nhưng nó đi kèm với một chi phí đáng kể. Trong cách làm cũ, phần tốn kém nhất của AI là đào tạo. Một khi mô hình đã được triển khai, việc chạy nó tương đối rẻ và nhanh. Với test-time scaling, chi phí chuyển sang yêu cầu của người dùng. Bởi vì mô hình đang làm việc nhiều hơn bằng cách tạo ra nhiều đường dẫn và kiểm tra công việc của chính nó, nó mất nhiều thời gian hơn để phản hồi và yêu cầu nhiều tài nguyên phần cứng hơn.

Điều này tạo ra một loại kinh tế mới cho AI. Chúng ta đang chuyển hướng đến một tình huống trong đó “chi phí mỗi truy vấn” có thể thay đổi rất nhiều. Một câu hỏi đơn giản về thời tiết có thể tốn một phần nhỏ của một xu và mất một giây. Một truy vấn khoa học sâu có thể tốn vài đô la về thời gian tính toán và có thể mất một giờ để xử lý. Sự đổi trả này là cần thiết để đạt được lý luận cấp cao, nhưng nó cũng có nghĩa là các nhà phát triển phải tìm cách làm cho những mô hình này hiệu quả để chúng có thể được sử dụng ở quy mô trong các ngành như y tế hoặc kỹ thuật.

Tác Động Tới Tương Lai Của Trí Tuệ Nhân Tạo

Sự trỗi dậy của test-time scaling gợi ý rằng chúng ta có thể đang bước vào một kỷ nguyên mới của sự phát triển AI. Trong nhiều năm, có một lo ngại rằng chúng ta sẽ cuối cùng cạn kiệt dữ liệu chất lượng cao của con người để đào tạo mô hình. Nếu mô hình chỉ học từ những gì con người đã viết, chúng có thể đạt đến giới hạn. Tuy nhiên, test-time scaling cho thấy rằng mô hình có thể cải thiện hiệu suất của chúng bằng cách suy nghĩ chăm chỉ, không chỉ bằng cách đọc nhiều hơn.

Điều này mở ra cánh cửa cho AI tự tạo ra những khám phá của riêng nó. Nếu một mô hình có thể suy luận thông qua một vấn đề mà nó chưa từng thấy trước đây, nó có thể tìm ra các giải pháp mới trong khoa học vật liệu, khám phá thuốc hoặc năng lượng tái tạo. Nó chuyển AI từ một trợ lý hữu ích giúp tóm tắt văn bản sang một cộng tác viên kỹ thuật số có thể giúp giải quyết những vấn đề khó nhất trên thế giới. Chúng ta đang chứng kiến một sự chuyển dịch từ “tạo” AI sang “lý luận” AI.

Kết Luận

Test-time scaling đang chứng minh là liên kết bị thiếu trong cuộc tìm kiếm trí tuệ nhân tạo tiên tiến. Bằng cách cho phép các mô hình sử dụng nhiều tính toán hơn tại thời điểm suy luận, chúng ta đã mở khóa một mức hiệu suất mà trước đây được cho là còn vài năm nữa. Những mô hình này đang bắt đầu thể hiện một loại logic cảm giác gần gũi hơn với trí thông minh của con người so với nhận dạng mẫu đơn giản trong quá khứ.

Khi chúng ta tiến về phía trước, thách thức sẽ là tinh chỉnh các kỹ thuật này. Chúng ta cần làm cho lý luận nhanh hơn và dễ tiếp cận hơn trong khi tìm kiếm sự cân bằng đúng giữa “nhanh” và “chậm” suy nghĩ. Bí quyết không còn chỉ là kích thước của mô hình hoặc số lượng dữ liệu nó đã thấy. Bí quyết là cách mô hình sử dụng thời gian của nó để suy nghĩ. Đối với bất kỳ ai theo dõi tiến bộ của AI, rõ ràng rằng sự tập trung đã thay đổi. Cuộc đua không còn chỉ là về ai có mô hình lớn nhất, mà về ai có mô hình có thể lý luận tốt nhất. Sự thay đổi này có thể định hình thập kỷ đổi mới tiếp theo trong lĩnh vực này.

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.