Connect with us

Bên trong Tính cách Lập trình của các LLM hàng đầu – Thông tin từ Báo cáo Sonar State of Code

Báo cáo

Bên trong Tính cách Lập trình của các LLM hàng đầu – Thông tin từ Báo cáo Sonar State of Code

mm

Vào tháng 8 năm 2025, Sonar đã phát hành nghiên cứu State of Code mới nhất, Tính cách Lập trình của các LLM hàng đầu – Một Báo cáo State of Code. Nghiên cứu này vượt ra ngoài điểm số chính xác, kiểm tra cách các mô hình ngôn ngữ lớn thực sự viết mã và tiết lộ các “tính cách lập trình” độc đáo cho từng mô hình.

Nghiên cứu đã đánh giá Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B và OpenCoder-8B trên hơn 4.400 nhiệm vụ Java bằng cách sử dụng công cụ phân tích tĩnh của Sonar – công nghệ được tinh chỉnh trong 16 năm qua thông qua nền tảng SonarQube Enterprise.

Điểm mạnh Chung

Tất cả năm mô hình đã thể hiện sự tin cậy về cú pháp mạnh mẽ, có nghĩa là mã được tạo ra đã biên dịch và chạy thành công trong hầu hết các trường hợp. Điều này được phản ánh trong điểm số HumanEval của chúng, một bài kiểm tra chuẩn nơi các mô hình được yêu cầu giải quyết các vấn đề lập trình và các giải pháp của chúng được kiểm tra tự động về tính chính xác. Claude Sonnet 4 đứng đầu danh sách với điểm số HumanEval là 95,57% và tỷ lệ Pass@1 có trọng số là 77,04%, có nghĩa là lần thử đầu tiên của nó là chính xác trong hơn ba phần tư số trường hợp. Claude 3.7 Sonnet đạt 72,46%, GPT-4o đạt 69,67%, Llama 3.2 đạt 61,47% và OpenCoder-8B đạt 60,43%.

Hiệu suất này vẫn được duy trì trên các ngôn ngữ lập trình khác nhau, cho thấy rằng các mô hình này đang suy luận thông qua các vấn đề chứ không chỉ dựa vào cú pháp được ghi nhớ.

Điểm yếu Chung

Điểm yếu chung đáng lo ngại nhất là vệ sinh bảo mật kém. Sonar đã đo lường lỗ hổng bảo mật ở mức chặn, đây là loại lỗ hổng nghiêm trọng nhất – các vấn đề bảo mật có thể dẫn trực tiếp đến các vi phạm lớn hoặc thỏa hiệp hệ thống nếu bị khai thác. Các ví dụ bao gồm mã cho phép truy cập tệp tùy ý, tiêm SQL hoặc lệnh, mật khẩu cứng, mã hóa không chính xác hoặc chấp nhận chứng chỉ không đáng tin cậy. Những vấn đề này quá phổ biến: Claude Sonnet 4 có 59,57% lỗ hổng của nó ở mức độ nghiêm trọng này, GPT-4o có 62,5% và Llama 3.2 có một tỷ lệ đáng lo ngại là 70,73%.

Báo cáo cũng lưu ý đến việc rò rỉ tài nguyên lặp lại, một loại lỗi trong đó mã mở một tài nguyên – như một tay cầm tệp, socket mạng hoặc kết nối cơ sở dữ liệu – nhưng không đóng nó đúng cách. Theo thời gian, những rò rỉ này có thể làm cạn kiệt các tài nguyên hệ thống có sẵn, dẫn đến vấn đề hiệu suất hoặc treo. Claude Sonnet 4 có 54 vi phạm như vậy, Llama 3.2 có 50 và GPT-4o có 25.

Về khả năng duy trì, hầu hết các vấn đề là mùi mã – các mẫu không làm hỏng chương trình ngay lập tức nhưng làm cho nó khó duy trì hơn và dễ bị lỗi trong tương lai. Hơn 90% tất cả các vấn đề được xác định thuộc vào loại này, thường liên quan đến mã không sử dụng, đặt tên kém, phức tạp quá mức hoặc vi phạm các nguyên tắc thiết kế tốt nhất.

Tính cách Riêng biệt

Từ sự kết hợp của điểm mạnh và điểm yếu, Sonar đã xác định các hồ sơ “tính cách” rõ ràng.

Claude Sonnet 4 đã giành được danh hiệu “Kiến trúc sư Cấp cao”. Nó viết mã dài nhất – 370.816 dòng trên toàn bộ tập thử nghiệm – với độ phức tạp nhận thức cao, có nghĩa là các đường logic của nó khó theo dõi hơn. Nó hoạt động tốt nhưng dễ bị lỗi tinh vi như rò rỉ tài nguyên và lỗi đồng thời, có thể xảy ra khi nhiều luồng hoặc quá trình tương tác theo cách không mong muốn.

OpenCoder-8B là “Người tạo mẫu nhanh”, tạo ra mã ngắn, tập trung – tổng cộng 120.288 dòng – nhưng với mật độ vấn đề cao nhất. Tốc độ và sự ngắn gọn của nó làm cho nó phù hợp cho các bằng chứng về khái niệm, nhưng nguy hiểm cho sản xuất nếu không được xem xét kỹ lưỡng.

Llama 3.2 90B là “Lời hứa không được thực hiện”. Nó mang lại kết quả vừa phải nhưng có tư thế bảo mật tồi tệ nhất, với hơn 70% lỗ hổng được phân loại là mức chặn.

GPT-4o là “Người tổng quát hiệu quả”, cân bằng giữa chức năng và phức tạp nhưng thường vấp phải lỗi kiểm soát luồng – những sai lầm trong trình tự logic của các hoạt động có thể dẫn đến kết quả không chính xác hoặc bỏ qua mã.

Claude 3.7 Sonnet là “Người tiền nhiệm cân bằng”, tạo ra mã ít dài dòng hơn so với người kế nhiệm của nó nhưng với mật độ chú thích cao nhất ở mức 16,4%, có nghĩa là nó giải thích logic của mình nhiều hơn bất kỳ mô hình nào khác. Mặc dù tốt hơn về tài liệu, nó vẫn mang theo các lỗ hổng nghiêm trọng đáng kể.

Một trong những phát hiện đáng chú ý nhất đến từ việc so sánh Claude Sonnet 4 với Claude 3.7. Mặc dù Sonnet 4 cải thiện tỷ lệ vượt qua của nó lên 6,3%, nhưng tỷ lệ lỗi của nó được đánh giá gần như gấp đôi, từ 7,10% lên 13,71%. Lỗ hổng mức chặn cũng tăng từ 56,03% lên 59,57%. Bài học: sự cải thiện hiệu suất có thể đi kèm với chi phí của sự an toàn.

Kết luận

Báo cáo Tính cách Lập trình của các LLM hàng đầu – Một Báo cáo State of Code của Sonar làm rõ rằng điểm số chính xác chỉ kể một phần của câu chuyện. Hiểu về rủi ro bảo mật, khả năng duy trì và phong cách lập trình là vừa as quan trọng như việc biết mô hình “đúng” bao nhiêu lần.

Mỗi tính cách – dù là kiến trúc sư, người tạo mẫu, người tổng quát hay người tiền nhiệm cân bằng – đều có điểm mạnh và sự đánh đổi. Bài học cho các nhà phát triển và tổ chức là “tin nhưng kiểm chứng”, kết hợp hỗ trợ mã hóa AI với giám sát của con người, xem xét mã kỹ lưỡng và kiểm tra bảo mật nghiêm ngặt để đảm bảo rằng tốc độ và tiện lợi không ảnh hưởng đến sự an toàn hoặc ổn định lâu dài.

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.