Kecerdasan buatan

Bagaimana LLM Mengharuskan Kita Meredefinisi Kecerdasan

Diterbitkan 7 September 2025

Diperbarui 18 Mei 2026

Oleh

Dr. Tehseen Zia

Ada sebuah peribahasa lama: Jika itu terlihat seperti bebek, berenang seperti bebek, dan berbunyi seperti bebek, maka itu kemungkinan besar adalah bebek. Cara berpikir sederhana ini, yang sering dikaitkan dengan penyair Indiana James Whitcomb Riley, telah membentuk cara kita berpikir tentang kecerdasan buatan selama beberapa dekade. Ide bahwa perilaku cukup untuk mengidentifikasi kecerdasan, menginspirasi “Permainan Imitasi” Alan Turing yang terkenal, sekarang disebut Turing Test.

Turing menyarankan bahwa jika manusia tidak dapat membedakan apakah mereka sedang berbicara dengan mesin atau manusia lain, maka mesin itu dapat dikatakan cerdas. Baik tes bebek dan tes Turing menyarankan bahwa yang penting bukanlah apa yang ada di dalam sistem, melainkan bagaimana sistem itu berperilaku. Selama beberapa dekade, tes ini telah memandu kemajuan dalam kecerdasan buatan. Namun, dengan kedatangan model bahasa besar (LLM), situasi telah berubah. Sistem ini dapat menulis teks yang lancar, mengadakan percakapan, dan menyelesaikan tugas dengan cara yang terasa sangat manusiawi. Pertanyaannya tidak lagi apakah mesin dapat meniru percakapan manusia, tetapi apakah peniruan ini merupakan kecerdasan yang sebenarnya. Jika sistem dapat menulis seperti kita, bernalar seperti kita, dan bahkan mencipta seperti kita, apakah kita harus menyebutnya cerdas? Atau apakah perilaku saja tidak cukup untuk mengukur kecerdasan?

Perkembangan Kecerdasan Mesin

Model bahasa besar telah mengubah cara kita berpikir tentang kecerdasan buatan. Sistem ini, yang dulunya hanya dapat menghasilkan respons teks dasar, sekarang dapat menyelesaikan masalah logika, menulis kode komputer, mengarang cerita, dan bahkan membantu dengan tugas kreatif seperti penulisan skenario. Salah satu kemajuan penting dalam perkembangan ini adalah kemampuan mereka untuk menyelesaikan masalah kompleks melalui penalaran langkah demi langkah, yang dikenal sebagai penalaran rantai pikiran. Dengan memecah masalah menjadi bagian-bagian kecil, LLM dapat menyelesaikan masalah matematika atau teka-teki logika dengan cara yang mirip dengan penyelesaian manusia. Kemampuan ini telah memungkinkan mereka untuk mencapai atau bahkan melampaui kinerja manusia pada benchmark lanjutan seperti MATH atau GSM8K. Saat ini, LLM juga memiliki kemampuan multimodal. Mereka dapat bekerja dengan gambar, menafsirkan pemindaian medis, menjelaskan teka-teki visual, dan menggambarkan diagram kompleks. Dengan kemajuan ini, pertanyaannya tidak lagi apakah LLM dapat meniru perilaku manusia, tetapi apakah perilaku ini mencerminkan pemahaman yang sebenarnya.

Jejak Berpikir Seperti Manusia

Keberhasilan LLM ini sedang meredefinisi cara kita memahami kecerdasan. Fokusnya beralih dari membandingkan perilaku kecerdasan buatan dengan manusia, seperti yang disarankan oleh tes Turing, ke menjelajahi seberapa dekat LLM meniru cara berpikir manusia dalam memproses informasi (yaitu, berpikir seperti manusia yang sebenarnya). Misalnya, dalam studi terbaru, peneliti membandingkan kerja internal model AI dengan aktivitas otak manusia. Studi ini menemukan bahwa LLM dengan lebih dari 70 miliar parameter, tidak hanya mencapai akurasi tingkat manusia tetapi juga mengatur informasi secara internal dengan cara yang sesuai dengan pola otak manusia.

Ketika manusia dan model AI bekerja pada tugas pengenalan pola, pemindaian otak menunjukkan pola aktivitas yang serupa pada partisipan manusia dan pola komputasi yang sesuai pada model AI. Model-model ini mengelompokkan konsep abstrak dalam lapisan internal mereka dengan cara yang sesuai dengan aktivitas gelombang otak manusia. Ini menunjukkan bahwa penalaran yang sukses mungkin memerlukan struktur organisasi yang serupa, baik dalam sistem biologis maupun buatan.

Namun, peneliti berhati-hati untuk mencatat keterbatasan pekerjaan ini. Studi ini melibatkan jumlah partisipan manusia yang relatif kecil, dan manusia dan mesin mendekati tugas dengan cara yang berbeda. Manusia bekerja dengan pola visual, sedangkan model AI memproses deskripsi teks. Korelasi antara pemrosesan manusia dan mesin menarik, tetapi tidak membuktikan bahwa mesin memahami konsep dengan cara yang sama seperti manusia.

Terdapat perbedaan yang jelas dalam kinerja. Sementara model AI terbaik mendekati akurasi tingkat manusia pada pola sederhana, mereka menunjukkan penurunan kinerja yang lebih dramatis pada tugas yang paling kompleks dibandingkan dengan partisipan manusia. Ini menunjukkan bahwa meskipun ada kesamaan dalam organisasi, mungkin masih ada perbedaan fundamental dalam cara manusia dan mesin memproses konsep abstrak yang sulit.

Perspektif Skeptis

Meskipun temuan yang mengesankan ini, ada argumen kuat yang menyatakan bahwa LLM tidak lebih dari sekadar peniru yang sangat terampil. Pandangan ini berasal dari eksperimen pemikiran “Kamar Cina” oleh filsuf John Searle, yang mengilustrasikan mengapa perilaku mungkin tidak sama dengan pemahaman.

Dalam eksperimen pemikiran ini, Searle meminta kita untuk membayangkan seseorang yang dikunci dalam sebuah ruangan dan hanya dapat berbicara bahasa Inggris. Orang itu menerima simbol-simbol Cina dan menggunakan buku aturan bahasa Inggris untuk memanipulasi simbol-simbol tersebut dan menghasilkan respons. Dari luar ruangan, responsnya terlihat persis seperti respons penutur bahasa Cina asli. Namun, Searle berargumen bahwa orang itu tidak memahami apa-apa tentang bahasa Cina. Ia hanya mengikuti aturan tanpa pemahaman yang sebenarnya.

Kritikus menerapkan logika yang sama pada LLM. Mereka berargumen bahwa sistem ini adalah “bayangan stokastik” yang menghasilkan respons berdasarkan pola statistik dalam data pelatihan mereka, bukan pemahaman yang sebenarnya. Istilah “stokastik” mengacu pada sifat probabilistik mereka, sedangkan “bayangan” menekankan perilaku meniru mereka tanpa pemahaman yang sebenarnya.

Beberapa keterbatasan teknis LLM juga mendukung argumen ini. LLM sering menghasilkan “halusinasi”; respons yang terlihat masuk akal tetapi sepenuhnya salah, menyesatkan, dan tidak masuk akal. Ini terjadi karena mereka memilih kata-kata yang secara statistik mungkin, bukan karena mereka berkonsultasi dengan basis pengetahuan internal atau memahami kebenaran dan kesalahan. Model-model ini juga mereproduksi kesalahan dan bias manusia. Mereka menjadi bingung dengan informasi yang tidak relevan yang akan diabaikan oleh manusia. Mereka menampilkan stereotip rasial dan gender karena mereka belajar dari data yang mengandung bias tersebut. Keterbatasan lain yang menarik adalah “bias posisi”, di mana model-model ini menekankan informasi di awal atau akhir dokumen panjang sambil mengabaikan konten tengah. Fenomena “hilang di tengah” ini menunjukkan bahwa sistem ini memproses informasi dengan cara yang sangat berbeda dari manusia, yang dapat mempertahankan perhatian di seluruh dokumen.

Keterbatasan-keterbatasan ini menyoroti tantangan utama: meskipun LLM unggul dalam mengenali dan mereproduksi pola bahasa, ini tidak berarti mereka benar-benar memahami makna atau konteks dunia nyata. Mereka berkinerja baik dalam menangani sintaksis tetapi tetap terbatas ketika datang ke semantik.

Apa yang Dianggap sebagai Kecerdasan?

Debatnya akhirnya berkaitan dengan bagaimana kita mendefinisikan kecerdasan. Jika kecerdasan adalah kemampuan untuk menghasilkan bahasa yang koheren, menyelesaikan masalah, dan beradaptasi dengan situasi baru, maka LLM sudah memenuhi standar tersebut. Namun, jika kecerdasan memerlukan kesadaran diri, pemahaman yang sebenarnya, atau pengalaman subjektif, maka sistem ini masih belum mencapai standar tersebut.

Kesulitannya adalah bahwa kita tidak memiliki cara yang jelas atau objektif untuk mengukur kualitas seperti pemahaman atau kesadaran. Baik pada manusia maupun mesin, kita menyimpulkan kualitas tersebut dari perilaku. Tes bebek dan tes Turing dulunya memberikan jawaban yang elegan, tetapi di era LLM, mereka mungkin tidak lagi memadai. Kemampuan mereka memaksa kita untuk mempertanyakan kembali apa yang benar-benar dianggap sebagai kecerdasan dan apakah definisi tradisional kita masih sesuai dengan kenyataan teknologi.

Ringkasan

Model bahasa besar mengubah cara kita mendefinisi kecerdasan buatan. Mereka dapat meniru penalaran, menghasilkan ide, dan menyelesaikan tugas yang dulunya dianggap unik bagi manusia. Namun, mereka masih kekurangan kesadaran dan landasan yang membentuk pemikiran seperti manusia yang sebenarnya. Munculnya mereka memaksa kita untuk bertanya tidak hanya apakah mesin bertindak dengan cerdas, tetapi apa kecerdasan itu sendiri.