Trí tuệ nhân tạo

Sapient Intelligence Ra Mắt HRM-Text, Mô Hình Trí Tuệ Nhân Tạo Cảm Hứng Từ Não Bộ Được Thiết Kế Để Thử Thách Cuộc Đua Quy Mô Lớn

mm

Trong khi ngành công nghiệp trí tuệ nhân tạo tiếp tục đầu tư hàng tỷ vào các mô hình ngôn ngữ lớn hơn và các trung tâm dữ liệu khổng lồ, công ty nghiên cứu trí tuệ nhân tạo có trụ sở tại Singapore, Sapient Intelligence, đang theo đuổi một cách tiếp cận rất khác biệt.

Công ty đã công bố HRM-Text, một mô hình ngôn ngữ lý luận mới với 1 tỷ tham số được thiết kế xung quanh kiến trúc hồi quy phân cấp cảm hứng từ cách não bộ tách biệt giữa lý luận chậm, có chủ ý và xử lý cấp thấp nhanh.

Thay vì cố gắng giành chiến thắng thông qua quy mô lớn, Sapient đang định vị HRM-Text như một bằng chứng cho thấy độ sâu lý luận và hiệu suất tính toán có thể trở nên quan trọng hơn số lượng tham số thô trong giai đoạn phát triển trí tuệ nhân tạo tiếp theo.

Sự ra mắt này cũng tiếp tục một xu hướng rộng lớn hơn đang xuất hiện trong lĩnh vực trí tuệ nhân tạo: sự hoài nghi ngày càng tăng rằng việc mở rộng transformer vô hạn sẽ đủ để đạt được các hình thức trí tuệ tổng quát hơn.

Vượt Qua Sách Của Transformer

Hầu hết các mô hình ngôn ngữ lớn hiện đại đều dựa trên kiến trúc Transformer xử lý thông tin thông qua một hệ thống chủ yếu là cấp tiến tập trung vào dự đoán token tiếp theo. Khung HRM của Sapient giới thiệu một cấu trúc hồi quy phân cấp, nơi nhiều lớp lý luận tương tác nội bộ trước khi bất kỳ đầu ra nào được tạo ra.

Công ty mô tả kiến trúc này hoạt động thông qua hai hệ thống liên kết: một bộ điều khiển “chậm” cấp cao chịu trách nhiệm lập kế hoạch và lý luận trừu tượng, và một “công nhân nhanh” cấp thấp xử lý các tính toán chi tiết.

Điều này khác với các phương pháp chuỗi suy nghĩ được sử dụng rộng rãi trong các hệ thống trí tuệ nhân tạo hiện tại, nơi lý luận được thể hiện thông qua các chuỗi văn bản dài. HRM-Text thực hiện hầu hết lý luận của nó trong không gian tiềm ẩn trước khi tạo ra phản hồi.

Sapient lập luận rằng cấu trúc này cho phép các hệ thống nhỏ hơn thực hiện lý luận đa bước phức tạp hơn mà không cần dựa vào kích thước mô hình khổng lồ hoặc chi phí suy luận lớn.

Theo kết quả chuẩn được công ty cung cấp, HRM-Text đã đạt được 56,2% trên MATH, 81,9% trên ARC-Challenge, 82,2% trên DROP và 60,7% trên MMLU mặc dù có kích thước tương đối nhỏ.

Hiệu Suất Trở Thành Một Chiến Trường Trí Tuệ Nhân Tạo Chiến Lược

Sự ra mắt này diễn ra vào thời điểm các vấn đề về chi phí cơ sở hạ tầng trí tuệ nhân tạo, tiêu thụ năng lượng và khả năng tính toán đang trở thành các vấn đề trung tâm của ngành.

Việc đào tạo và triển khai các hệ thống trí tuệ nhân tạo tiên tiến hiện nay thường đòi hỏi các cụm GPU khổng lồ, trung tâm dữ liệu quy mô lớn và mức tiêu thụ năng lượng ngày càng được các chính phủ và nhà cung cấp cơ sở hạ tầng kiểm tra. Sapient lập luận rằng những đột phá trong tương lai có thể không đến từ việc mở rộng các hệ thống lớn hơn, mà từ việc thay đổi cơ bản kiến trúc.

Công ty cho biết HRM-Text có thể được đào tạo trong khoảng một ngày bằng cách sử dụng 16 GPU trên hai máy với chi phí khoảng 1.000 đô la. So với các mô hình ngôn ngữ cấp biên giới, việc đào tạo có thể đòi hỏi ngân sách lên tới hàng trăm triệu đô la.

Profile triển khai compact của mô hình cũng đáng chú ý. Ở định lượng int4, HRM-Text được báo cáo chiếm khoảng 0,6 GiB, khiến việc triển khai cục bộ trên điện thoại thông minh và thiết bị cạnh trở nên có thể về mặt lý thuyết.

Sự tập trung vào các hệ thống nhỏ hơn, có thể triển khai được có thể trở nên quan trọng hơn khi các doanh nghiệp đẩy mạnh việc triển khai trí tuệ nhân tạo trên thiết bị, suy luận nhạy cảm về quyền riêng tư và các hệ thống lý luận ngoại tuyến không phụ thuộc hoàn toàn vào cơ sở hạ tầng đám mây.

Sự Đẩy Mạnh Hướng Đến Trí Tuệ Nhân Tạo Cảm Hứng Từ Não Bộ

Công việc của Sapient phản ánh một phong trào rộng lớn hơn trong nghiên cứu trí tuệ nhân tạo, khám phá các giải pháp thay thế cho việc mở rộng truyền thống.

Kiến trúc HRM của công ty này vay mượn nhiều khái niệm từ khoa học thần kinh như xử lý phân cấp, tách biệt thời gian và tính toán hồi quy.

Trên trang web của mình, Sapient mô tả mục tiêu lâu dài của mình là theo đuổi Trí tuệ Nhân tạo Tổng quát thông qua các kiến trúc có khả năng lý luận, lập kế hoạch và học tập thích ứng thay vì dựa vào ghi nhớ thống kê.

Đội ngũ nghiên cứu của công ty bao gồm các cộng tác viên cũ từ các tổ chức như DeepMind, DeepSeek và xAI, cùng với các nhà nghiên cứu liên kết với các cơ sở như MIT, Đại học Carnegie Mellon, Đại học Tsinghua và Đại học Cambridge.

Các phiên bản trước của Mô hình Lý luận Phân cấp của Sapient đã thu hút sự chú ý trong các vòng nghiên cứu trí tuệ nhân tạo vì đạt được hiệu suất lý luận mạnh mẽ bằng cách sử dụng số lượng tham số nhỏ hơn đáng kể so với các mô hình ngôn ngữ thông thường.

Sự Thay Đổi Trong Cách Tiến Bộ Trí Tuệ Nhân Tạo Được Đo Lường

Liệu kiến trúc như HRM cuối cùng có thể cạnh tranh với các mô hình biên giới lớn nhất hay không vẫn là một câu hỏi mở. Ngành công nghiệp trí tuệ nhân tạo đã chứng kiến nhiều giải pháp thay thế hứa hẹn xuất hiện trước khi bị vượt qua bởi kinh tế quy mô.

Tuy nhiên, sự ra mắt của Sapient diễn ra vào thời điểm ngành công nghiệp đang ngày càng đối mặt với giới hạn của việc mở rộng thô. Sự khan hiếm GPU, nút thắt năng lượng, chi phí suy luận và lợi nhuận giảm dần từ các tập dữ liệu lớn hơn đang buộc các nhà nghiên cứu phải重新 xem xét các giả định đã thống trị quá trình phát triển trí tuệ nhân tạo trong những năm gần đây.

Nếu các hệ thống như HRM-Text tiếp tục cải thiện, chúng có thể thay đổi cách đo lường tiến bộ trong trí tuệ nhân tạo — chuyển sự chú ý khỏi số lượng tham số và hướng tới hiệu suất, độ sâu lý luận và khả năng thích ứng.

Công ty đã mở nguồn HRM-Text hoàn toàn thông qua GitHub như một phần của việc ra mắt.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.