Connect with us

Laporan

Di Dalam Kepribadian Pemrograman LLM Utama – Wawasan dari Laporan Sonar State of Code

mm

Pada Agustus 2025, Sonar merilis studi State of Code terbarunya, The Coding Personalities of Leading LLMs – A State of Code Report. Penelitian ini melampaui skor akurasi, memeriksa bagaimana model bahasa besar sebenarnya menulis kode dan mengungkapkan “kepribadian pemrograman” unik untuk masing-masing.

Studi ini menilai Claude Sonnet 4, Claude 3.7 Sonnet, GPT-4o, Llama 3.2 90B, dan OpenCoder-8B di lebih dari 4.400 tugas Java menggunakan mesin analisis statis Sonar—teknologi yang telah disempurnakan selama 16 tahun melalui platform SonarQube Enterprise.

Kelebihan Bersama

Kelima model menunjukkan keandalan sintaksis yang kuat, yang berarti kode yang dihasilkan dapat dikompilasi dan dijalankan dengan sukses dalam sebagian besar kasus. Hal ini tercermin dalam skor HumanEval mereka, sebuah tes benchmark di mana model diminta untuk memecahkan masalah pemrograman dan solusi mereka diperiksa secara otomatis untuk kebenaran. Claude Sonnet 4 menduduki posisi teratas dengan skor HumanEval 95,57% dan tingkat Pass@1 tertimbang 77,04%, yang berarti upaya pertamanya benar dalam lebih dari tiga perempat kasus. Claude 3.7 Sonnet mencetak 72,46%, GPT-4o 69,67%, Llama 3.2 61,47%, dan OpenCoder-8B 60,43%.

Kinerja ini bertahan di berbagai bahasa pemrograman, menunjukkan bahwa model-model ini menggunakan penalaran untuk memecahkan masalah daripada hanya mengandalkan sintaks yang diingat.

Kelemahan Umum

Kekurangan bersama yang paling mengkhawatirkan adalah kebersihan keamanan yang buruk. Sonar mengukur vulnerabilitas tingkat blocker, yang merupakan kategori kelemahan paling parah—masalah keamanan yang dapat menyebabkan pelanggaran besar atau kompromi sistem jika dieksploitasi. Contoh termasuk kode yang memungkinkan akses file sewenang-wenang, injeksi SQL atau perintah, kata sandi yang dikodekan, enkripsi yang salah konfigurasi, atau menerima sertifikat tidak tepercaya. Ini terlalu umum: Claude Sonnet 4 memiliki 59,57% kerentanannya pada tingkat ini, GPT-4o memiliki 62,5%, dan Llama 3.2 memiliki 70,73% yang mengkhawatirkan.

Laporan ini juga mencatat kebocoran sumber daya berulang, jenis bug di mana kode membuka sumber daya—seperti handle file, soket jaringan, atau koneksi database—tetapi gagal menutupnya dengan benar. Dengan waktu, kebocoran ini dapat menghabiskan sumber daya sistem yang tersedia, menyebabkan masalah kinerja atau crash. Claude Sonnet 4 memiliki 54 pelanggaran seperti itu, Llama 3.2 memiliki 50, dan GPT-4o memiliki 25.

Dalam hal kemaintan, sebagian besar masalah adalah bau kode—polanya tidak memecahkan program secara langsung tetapi membuatnya lebih sulit untuk dipelihara dan lebih rentan terhadap bug di masa depan. Lebih dari 90% dari semua masalah yang diidentifikasi jatuh ke dalam kategori ini, sering melibatkan kode yang tidak digunakan, penamaan yang buruk, kompleksitas yang berlebihan, atau pelanggaran terhadap praktik desain terbaik.

Kepribadian Berbeda

Dari campuran kelebihan dan kelemahan ini, Sonar mengidentifikasi profil “kepribadian” yang jelas.

Claude Sonnet 4 mendapatkan gelar “Arsitek Senior”. Ini menulis kode paling verbos—370.816 baris di seluruh set tes—dengan kompleksitas kognitif yang tinggi, yang berarti jalur logikanya lebih sulit diikuti. Ini berkinerja dengan baik tetapi rentan terhadap bug yang canggih seperti kebocoran sumber daya dan kesalahan konkurensi, yang dapat terjadi ketika beberapa thread atau proses berinteraksi dengan cara yang tidak diinginkan.

OpenCoder-8B adalah “Pengembang Cepat”, menghasilkan kode yang singkat dan fokus—120.288 baris total—tetapi dengan kepadatan masalah tertinggi. Kecepatan dan kesingkatannya membuatnya sangat cocok untuk bukti konsep, tetapi berbahaya untuk produksi tanpa tinjauan yang cermat.

Llama 3.2 90B adalah “Janji yang Tidak Terpenuhi”. Ini menghasilkan hasil moderat tetapi memiliki postur keamanan terburuk, dengan lebih dari 70% kerentanannya diklasifikasikan sebagai blocker-level.

GPT-4o adalah “Jeneralis yang Efisien”, menyeimbangkan fungsionalitas dan kompleksitas tetapi sering terjatuh ke kesalahan aliran kontrol—kesalahan dalam urutan logis operasi yang dapat menyebabkan hasil yang tidak benar atau kode yang dilewati.

Claude 3.7 Sonnet adalah “Pendahulu yang Seimbang”, menghasilkan kode yang kurang verbos daripada pendahulunya tetapi dengan kepadatan komentar tertinggi sebesar 16,4%, yang berarti menjelaskan logikanya lebih dari model lainnya. Meskipun lebih baik dalam dokumentasi, masih membawa kerentanan tingkat tinggi yang signifikan.

Salah satu temuan paling mencolok datang dari membandingkan Claude Sonnet 4 dengan Claude 3.7. Meskipun Sonnet 4 meningkatkan tingkat lulusnya sebesar 6,3%, persentase bug yang dinilai sebagai blocker hampir dua kali lipat, dari 7,10% menjadi 13,71%. Kerentanan tingkat blocker juga meningkat dari 56,03% menjadi 59,57%. Pelajaran yang didapat: perbaikan kinerja dapat datang dengan biaya keamanan.

Kesimpulan

Laporan The Coding Personalities of Leading LLMs – A State of Code Report dari Sonar membuat jelas bahwa akurasi benchmark hanya menceritakan sebagian dari cerita. Memahami risiko keamanan, kemaintan, dan gaya pemrograman sama pentingnya dengan mengetahui seberapa sering model “mendapatkannya dengan benar”.

Setiap kepribadian—apakah arsitek, pengembang cepat, jeneralis, atau pendahulu yang seimbang—memiliki kelebihan dan trade-off. Kesimpulan untuk pengembang dan organisasi adalah untuk “percayalah tetapi verifikasikan”, menggabungkan bantuan pemrograman AI dengan pengawasan manusia, tinjauan kode yang cermat, dan pemeriksaan keamanan yang ketat untuk memastikan bahwa kecepatan dan kenyamanan tidak mengorbankan keamanan atau stabilitas jangka panjang.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.