Kecerdasan buatan
Test-Time Scaling: Rahasia di Balik Gelombang Baru Model Penalaran PhD-Level

Bidang kecerdasan buatan telah mencapai titik di mana menambahkan lebih banyak data atau meningkatkan ukuran model tidak lagi menjadi cara terbaik untuk membuatnya lebih cerdas. Selama beberapa tahun terakhir, kita percaya bahwa jika kita membangun jaringan neural yang lebih besar dan memberinya lebih banyak internet, mereka akan menjadi lebih cerdas. Pendekatan ini, yang dikenal sebagai hukum penskalaan, bekerja dengan sangat baik. Ini memberi kita model yang dapat menulis puisi, menerjemahkan bahasa, dan lulus ujian bar. Namun, model ini sering mengalami kesulitan dengan logika yang dalam, matematika yang kompleks, dan masalah ilmiah yang memerlukan beberapa langkah. Mereka sangat baik dalam mencocokkan pola, tetapi sering gagal dalam masalah yang memerlukan penalaran beberapa langkah.
Baru-baru ini, sebuah tren baru telah muncul yang mengubah cara kita berpikir tentang kemampuan AI. Tren ini disebut penskalaan waktu pengujian. Alih-alih hanya fokus pada seberapa banyak model belajar selama fase pelatihan, peneliti sekarang fokus pada seberapa banyak model “berpikir” ketika sebenarnya menjawab pertanyaan. Perubahan ini adalah rahasia di balik gelombang terbaru model penalaran, seperti OpenAI’s o1 series, yang sekarang dapat melakukan pada tingkat mahasiswa PhD di subjek yang sulit seperti fisika, kimia, dan biologi.
Perubahan dari Penskalaan Pelatihan ke Penskalaan Inferensi
Untuk memahami mengapa ini merupakan perubahan besar, kita harus melihat bagaimana AI dibangun sampai sekarang. Secara tradisional, “kecerdasan” model ditentukan berdasarkan pelatihannya. Ini melibatkan menghabiskan bulan dan jutaan dolar untuk menjalankan sejumlah besar data melalui ribuan GPU. Setelah pelatihan selesai, model tersebut pada dasarnya dibekukan. Ketika Anda mengajukan pertanyaan, model tersebut akan memberikan jawaban hampir secara instan berdasarkan pola yang telah dipelajari sebelumnya. Ini adalah yang kita sebut inferensi atau waktu pengujian.
Masalah dengan pendekatan tradisional ini adalah model hanya memiliki satu kesempatan untuk mendapatkan jawaban yang benar. Model tersebut memproses prompt dan menghasilkan token satu per satu tanpa cara untuk “berpikir” atau “memeriksa” logika sebelum berbicara. Penskalaan waktu pengujian mengubah dinamika ini. Ini memungkinkan model untuk menggunakan lebih banyak daya komputasi selama fase inferensi. Sama seperti manusia yang mungkin membutuhkan beberapa detik untuk menjawab pertanyaan sederhana tetapi beberapa menit atau jam untuk memecahkan masalah matematika yang kompleks, model AI sekarang dirancang untuk menskalakan upaya mereka berdasarkan kesulitan tugas.
Mengdefinisikan Konsep Penskalaan Waktu Pengujian
Penskalaan waktu pengujian merujuk pada teknik yang memungkinkan model AI untuk menggunakan sumber daya komputasi tambahan untuk memproses permintaan pada saat pengiriman. Dalam istilah sederhana, ini berarti memberi model “waktu berpikir” lebih banyak. Ini tidak tentang membuat model lebih besar; ini tentang membuat model lebih teliti. Ketika model menggunakan penskalaan waktu pengujian, model tersebut tidak hanya menghasilkan jawaban pertama yang terpikir. Sebaliknya, model tersebut mungkin menjelajahi jalur yang berbeda, memeriksa kesalahan dalam logika sendiri, dan memperbaiki respons sebelum pengguna melihatnya.
Konsep ini sering dibandingkan dengan cara kerja otak manusia. Psikolog sering membicarakan “Sistem 1” dan “Sistem 2” berpikir. Sistem 1 cepat, instingtif, dan emosional. Ini adalah yang Anda gunakan ketika Anda mengenali wajah atau mengemudi di jalan yang familiar. Sistem 2 lebih lambat, lebih teliti, dan logis. Ini adalah yang Anda gunakan ketika Anda memecahkan persamaan matematika yang sulit atau merencanakan proyek yang kompleks. Sampai baru-baru ini, LLM (Model Bahasa Besar) sebagian besar adalah pemikir Sistem 1. Penskalaan waktu pengujian adalah jembatan yang memungkinkan mereka mengakses pemikiran Sistem 2.
Mekanisme Proses Penalaran
Ada beberapa cara yang digunakan peneliti untuk mencapai penskalaan waktu pengujian. Salah satu metode paling umum disebut Rantai Pemikiran (CoT) prompting, tetapi dalam model baru ini, fitur tersebut dibangun langsung ke dalam sistem daripada menjadi sesuatu yang pengguna harus minta. Model tersebut dilatih untuk memecahkan masalah menjadi langkah logis yang lebih kecil. Dengan melakukan ini, model dapat memverifikasi setiap bagian dari solusi sebelum melanjutkan ke langkah berikutnya.
Teknik lain yang penting melibatkan algoritma pencarian, seperti Pencarian Pohon Monte Carlo. Sebagai gantinya untuk hanya memprediksi kata berikutnya yang paling mungkin, model menghasilkan beberapa jalur kemungkinan untuk jawaban. Model tersebut mengevaluasi jalur-jalur tersebut dan menentukan mana yang paling mungkin mengarah ke solusi yang benar. Jika model tersebut mencapai jalan buntu atau menyadari bahwa langkah sebelumnya salah, model tersebut dapat kembali dan mencoba pendekatan yang berbeda. Kemampuan “melihat ke depan” ini sangat mirip dengan bagaimana mesin catur mengevaluasi ribuan gerakan potensial sebelum memilih yang terbaik. Dengan mencari banyak kemungkinan selama fase inferensi, model dapat memecahkan masalah yang jauh lebih kompleks daripada yang dapat dipecahkan langsung menggunakan LLM standar.
Mengapa Penalaran PhD-Level Memerlukan Lebih dari Hanya Memori
Alasan ini sangat penting karena penalaran tingkat tinggi dalam sains dan matematika tidak dapat diselesaikan hanya dengan memori. Dalam ujian fisika PhD, Anda tidak dapat hanya mengulangi fakta yang Anda baca di buku teks. Anda harus menerapkan prinsip kompleks ke situasi baru dan unik. Model standar sering mengalami halusinasi dalam skenario ini karena mereka mencoba memprediksi kata berikutnya berdasarkan probabilitas daripada logika.
Penskalaan waktu pengujian memungkinkan model untuk bertindak lebih seperti peneliti. Model dapat menguji hipotesis internal. Misalnya, jika model diminta untuk menulis kode yang kompleks, model dapat “menjalankan” logika dalam rantai pemikiran tersembunyi, mengidentifikasi potensi bug, dan memperbaikinya sebelum menyajikan kode akhir. Kemampuan untuk mengoreksi diri sendiri adalah yang memungkinkan gelombang model baru mencapai skor tinggi pada benchmark seperti American Invitational Mathematics Examination (AIME) atau GPQA (tes sains yang sulit dirancang oleh para ahli). Mereka tidak hanya menebak; mereka memverifikasi.
Perdagangan Efisiensi dan Biaya Komputasi
Sementara penskalaan waktu pengujian sangat kuat, ini datang dengan biaya yang signifikan. Dalam cara lama melakukan hal-hal, bagian paling mahal dari AI adalah pelatihan. Setelah model diterapkan, menjalankannya relatif murah dan cepat. Dengan penskalaan waktu pengujian, biaya bergeser ke arah permintaan pengguna. Karena model melakukan lebih banyak pekerjaan dengan menghasilkan beberapa jalur dan memeriksa pekerjaan sendiri, model membutuhkan waktu lebih lama untuk merespons dan memerlukan lebih banyak sumber daya perangkat keras.
Ini menciptakan ekonomi baru untuk AI. Kami bergerak menuju situasi di mana “biaya per query” dapat bervariasi secara liar. Pertanyaan sederhana tentang cuaca mungkin membutuhkan sebagian sen dan membutuhkan waktu satu detik. Penyelidikan ilmiah yang mendalam mungkin membutuhkan beberapa dolar dalam waktu komputasi dan mungkin membutuhkan waktu satu jam untuk diproses. Perdagangan ini diperlukan untuk mencapai penalaran tingkat tinggi, tetapi ini juga berarti bahwa pengembang harus menemukan cara untuk membuat model ini efisien sehingga dapat digunakan dalam skala industri seperti kedokteran atau teknik.
Dampak pada Masa Depan Kecerdasan Buatan
Munculnya penskalaan waktu pengujian menunjukkan bahwa kita mungkin memasuki era baru pengembangan AI. Selama bertahun-tahun, ada kekhawatiran bahwa kita akan akhirnya kehabisan data manusia berkualitas tinggi untuk melatih model. Jika model hanya belajar dari apa yang telah ditulis manusia, mereka mungkin mencapai batas. Namun, penskalaan waktu pengujian menunjukkan bahwa model dapat meningkatkan kinerja dengan berpikir lebih keras, bukan hanya dengan membaca lebih banyak.
Ini membuka pintu bagi AI untuk membuat penemuan sendiri. Jika model dapat menalar melalui masalah yang belum pernah dilihat sebelumnya, model dapat menemukan solusi baru dalam ilmu bahan, penemuan obat, atau energi terbarukan. Ini memindahkan AI dari menjadi asisten yang membantu yang merangkum teks menjadi kolaborator digital yang dapat membantu memecahkan masalah dunia yang paling sulit. Kami sedang menyaksikan pergeseran dari “generatif” AI menuju “penalaran” AI.
Intinya
Penskalaan waktu pengujian terbukti menjadi kunci yang hilang dalam pencarian kecerdasan buatan yang maju. Dengan memungkinkan model untuk menggunakan lebih banyak komputasi pada saat inferensi, kita telah membuka kinerja yang sebelumnya dianggap beberapa tahun ke depan. Model ini mulai menunjukkan jenis logika yang terasa jauh lebih dekat dengan kecerdasan manusia daripada pengenalan pola sederhana di masa lalu.
Ketika kita melangkah maju, tantangan akan menjadi memperbaiki teknik-teknik ini. Kita perlu membuat penalaran lebih cepat dan lebih mudah diakses sambil menemukan keseimbangan yang tepat antara “cepat” dan “lambat” berpikir. Rahasia tidak lagi hanya tentang ukuran model atau jumlah data yang telah dilihat. Rahasia adalah bagaimana model menggunakan waktunya untuk berpikir. Bagi siapa saja yang mengikuti kemajuan AI, jelas bahwa fokus telah bergeser. Perlombaan tidak lagi hanya tentang siapa yang memiliki model terbesar, tetapi siapa yang memiliki model yang dapat menalar dengan terbaik. Perubahan ini kemungkinan akan mendefinisikan dekade berikutnya inovasi di bidang ini.












