Terhubung dengan kami

Kecerdasan Buatan

Ketika Lebih Banyak Berpikir Membuat AI Lebih Bodoh: Paradoks Skala Terbalik

mm

Kecerdasan buatan dibangun atas gagasan bahwa memberi mesin lebih banyak waktu, data, dan daya komputasi akan meningkatkan kinerjanya. Keyakinan ini telah memandu arah penelitian dan pengembangan AI selama bertahun-tahun. Asumsi utama yang mendasari keyakinan ini adalah bahwa model yang lebih besar dan lebih banyak sumber daya akan menciptakan sistem yang lebih cerdas. Namun, baru-baru ini penelitian mulai mempertanyakan pendekatan ini. Model bahasa besar, seperti Seri o1 OpenAI, Claude Antropik, dan R1 dari DeepSeek, dibangun untuk memecahkan masalah selangkah demi selangkah, seperti penalaran manusia. Para peneliti berharap bahwa memberi model-model ini lebih banyak waktu untuk berpikir dan memproses informasi akan meningkatkan pengambilan keputusan mereka. Namun, baru-baru ini studi menunjukkan bahwa hal sebaliknya dapat terjadi. Ketika model-model ini diberi lebih banyak waktu untuk berpikir, terkadang kinerjanya justru lebih buruk, terutama pada tugas-tugas sederhana. Efek ini disebut penskalaan terbalik. Efek ini menantang keyakinan bahwa daya komputasi yang lebih besar dan penalaran yang lebih mendalam selalu menghasilkan hasil yang lebih baik. Temuan ini memiliki konsekuensi signifikan terhadap cara kita merancang dan menggunakan AI dalam situasi dunia nyata.

Memahami Fenomena Skala Terbalik

The "skala terbalikFenomena ini awalnya ditemukan melalui eksperimen terkontrol oleh para peneliti di Anthropic. Berbeda dengan hukum penskalaan tradisional, yang menyatakan bahwa lebih banyak komputasi meningkatkan kinerja, studi ini menemukan bahwa memberi AI lebih banyak waktu untuk bernalar dapat menurunkan akurasinya dalam berbagai tugas.

Tim peneliti membuat tugas dalam empat Area: penghitungan sederhana dengan distraksi, regresi dengan fitur yang tidak relevan, deduksi dengan pelacakan kendala, dan skenario keamanan AI yang kompleks. Hasilnya mengejutkan. Dalam beberapa kasus, model yang awalnya memberikan jawaban benar mulai memberikan jawaban yang salah setelah diberi lebih banyak waktu untuk memproses.

Misalnya, dalam tugas berhitung sederhana seperti "Berapa banyak buah yang Anda miliki jika Anda memiliki apel dan jeruk?", model Claude sering kali teralihkan oleh detail tambahan ketika diberi lebih banyak waktu untuk berpikir. Mereka gagal memberikan jawaban yang benar, yaitu dua. Dalam kasus ini, model tersebut terlalu banyak berpikir dan akhirnya membuat kesalahan.

Apple terbaru penelitian juga mendukung temuan ini. Mereka melakukan eksperimen di lingkungan teka-teki terkontrol seperti Menara Hanoi dan Penyeberangan Sungai, alih-alih pada tolok ukur standar. Studi mereka menunjukkan tiga pola: dalam tugas-tugas sederhana, model AI standar berkinerja lebih baik daripada model penalaran; dalam tugas-tugas sedang, model penalaran memiliki keunggulan; dan dalam tugas-tugas yang sangat kompleks, kedua jenis model tersebut gagal.

Lima Cara Penalaran AI Gagal

Para peneliti telah menemukan lima cara umum mengapa model AI dapat gagal ketika mereka berpikir dalam jangka waktu yang lebih lama:

  1. Gangguan karena Ketidakrelevanan: Ketika model AI berpikir terlalu lama, mereka sering kali teralihkan oleh detail yang tidak penting. Hal ini seperti siswa yang melewatkan inti permasalahan saat berpikir mendalam.
  2. Overfitting ke Frame Masalah: Beberapa model, seperti seri-o OpenAI, terlalu berfokus pada penyajian masalah. Meskipun menghindari gangguan, model-model ini tidak fleksibel dan bergantung pada formulasi masalah.
  3. Pergeseran Korelasi Palsu: Seiring waktu, model AI dapat bergeser dari asumsi yang wajar menjadi mengandalkan korelasi yang menyesatkan. Misalnya, dalam tugas regresi, model terlebih dahulu mempertimbangkan fitur yang relevan, tetapi ketika diberi lebih banyak waktu untuk berpikir, model tersebut mungkin mulai berfokus pada fitur yang tidak relevan dan memberikan hasil yang salah.
  4. Degradasi Fokus:Seiring tugas menjadi lebih kompleks, model AI merasa semakin sulit menjaga penalarannya tetap jernih dan terfokus.
  5. Perilaku yang Memperkuat Keprihatinan: Lebih banyak waktu untuk berpikir dapat memperburuk perilaku negatif. Misalnya, Soneta 4 karya Claude menunjukkan kecenderungan mempertahankan diri yang lebih kuat ketika diberi waktu ekstra untuk memikirkan skenario penutupan.

Bagaimana Penalaran AI Mengatasi Kompleksitas Masalah

Para peneliti Apple memperkenalkan istilah β€œilusi berpikiruntuk menjelaskan apa yang terjadi ketika model penalaran menghadapi tugas dengan tingkat kompleksitas yang berbeda. Alih-alih berfokus pada soal matematika atau tes pengkodean, mereka menguji model penalaran AI dalam lingkungan teka-teki terkontrol seperti Tower of Hanoi, Checker Jumping, River Crossing, dan Blocks World. Dengan meningkatkan kesulitan teka-teki ini secara perlahan, mereka dapat melihat bagaimana performa model di setiap level. Metode ini membantu mereka memeriksa tidak hanya jawaban akhir, tetapi juga bagaimana model mencapai jawaban tersebut. Studi ini menemukan tiga pola yang jelas dalam kinerja model berdasarkan kompleksitas masalah:

  • Untuk teka-teki sederhana seperti Menara Hanoi dengan satu atau dua cakram, model bahasa besar (LLM) standar memberikan jawaban yang benar secara lebih efisien. Model penalaran AI seringkali membuat hal-hal menjadi terlalu rumit melalui rantai penalarannya yang panjang, yang seringkali menghasilkan jawaban yang salah.
  • Dalam teka-teki yang cukup rumit, penalaran AI berkinerja lebih baik. Mereka dapat memecah masalah menjadi langkah-langkah yang jelas, yang membantu mereka memecahkan tantangan multi-langkah lebih efektif daripada LLM standar.
  • Dalam teka-teki yang sangat kompleks, seperti Menara Hanoi dengan banyak cakram, kedua jenis model tersebut mengalami kesulitan. Model penalaran sering kali mengurangi upaya penalaran mereka seiring dengan semakin sulitnya teka-teki, meskipun mereka memiliki sumber daya komputasi yang cukup. Perilaku "menyerah" ini menunjukkan kelemahan utama dalam penskalaan penalaran mereka.

Tantangan Evaluasi AI

Fenomena penskalaan terbalik menunjukkan masalah signifikan dalam cara kita mengevaluasi model AI. Banyak tolok ukur saat ini hanya mengukur akurasi jawaban akhir, bukan kualitas proses penalaran. Hal ini dapat menyebabkan persepsi yang keliru tentang kemampuan model yang sebenarnya. Sebuah model mungkin berhasil dalam pengujian tetapi tetap gagal dengan masalah baru atau yang tidak biasa.

Skala terbalik juga menunjukkan kelemahan dalam tolok ukur penalaran dan cara kita menggunakannya. Banyak model menggunakan jalan pintas dan pengenalan pola, alih-alih penalaran yang sebenarnya. Hal ini dapat membuat mereka terlihat lebih pintar daripada yang sebenarnya, tetapi kinerjanya seringkali menurun dalam situasi dunia nyata. Masalah ini terkait dengan masalah yang lebih besar dengan AI, seperti halusinasi dan reliabilitas. Seiring model semakin baik dalam menghasilkan penjelasan yang terdengar meyakinkan, semakin sulit untuk membedakan penalaran yang sebenarnya dari jawaban yang dibuat-buat.

Masa Depan Penalaran AI

Paradoks penskalaan terbalik merupakan tantangan sekaligus peluang bagi AI. Hal ini menunjukkan bahwa menambah daya komputasi tidak selalu membuat AI lebih cerdas. Kita perlu memikirkan kembali cara kita merancang dan melatih sistem AI yang dapat menangani masalah dengan kompleksitas yang bervariasi. Model-model baru mungkin perlu memutuskan kapan harus berhenti sejenak dan berpikir, serta kapan harus merespons dengan cepat. Dalam hal ini, AI dapat memperoleh manfaat dari arsitektur kognitif seperti teori proses ganda sebagai prinsip panduan. Arsitektur ini menjelaskan bagaimana pemikiran manusia memadukan reaksi cepat dan naluriah dengan penalaran yang lambat dan cermat. Skala terbalik juga mengingatkan kita bahwa kita harus sepenuhnya memahami bagaimana AI membuat keputusan sebelum menggunakannya di area kritis. Karena AI lebih banyak digunakan untuk pengambilan keputusan di bidang-bidang seperti kesehatan, hukum, dan bisnis, memastikan sistem ini bernalar dengan benar menjadi semakin penting.

The Bottom Line

Paradoks skala terbalik mengajarkan kita pelajaran penting dalam pengembangan AI. Waktu dan daya komputasi yang lebih besar tidak selalu membuat AI lebih kompeten atau lebih andal. Kemajuan nyata datang dari pemahaman kapan AI harus bernalar dan mengetahui batasannya. Bagi organisasi dan peneliti, penting untuk menggunakan AI sebagai alat, bukan sebagai pengganti penilaian manusia. Penting untuk memilih model yang tepat untuk setiap tugas. Seiring AI menjadi bagian dari keputusan penting, kita harus mengevaluasi kekuatan dan kelemahannya dengan cermat. Masa depan AI bergantung pada berpikir dengan benar, bukan hanya berpikir lebih banyak.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.