Connect with us

Sudut Anderson

Chatbot Mendorong ‘AI’ Karir dan Saham Lebih Dari Manusia

mm
AI-generated image, by Z-Image Turbo V1 via Krita Diffusion. Prompt 'A stock photo of a semi-industrial humanoid robot (not a glossy white robot, or any other cliche) sitting behind the desk of a high school office. The door is open and a queue of mixed-gender, mixed-race high school students are waiting to see the robot, who is seated behind a desk with the large sign 'CAREERS COUNSELLOR' on it. Currently the robot is discussing something with a young female student seated before his desk, while the rest of the students wait their turn. Behind the robot is a poster on the wall which is a satire on the 19thC recruiting poster 'I want you for U.S. Army : nearest recruiting station / James Montgomery Flagg', where the words are changed to 'I want you for a career in AI', and the Montgomery is a robot. Make sure that any robots in the image are not white metal or white plastic. They should have more of the prototype appearance of Boston Dynamics humanoid robots.'

AI chatbot, termasuk pemimpin pasar komersial seperti ChatGPT, Google Gemini, dan Claude, memberikan saran yang sangat mendukung karir dan saham AI – bahkan ketika pilihan lain sama kuat, dan tren saran manusia berbeda.

 

Sebuah studi baru dari Israel menemukan bahwa tujuh belas AI chatbot paling dominan – termasuk ChatGPT, Claude, Google Gemini, dan Grok – sangat berat sebelah untuk menyarankan bahwa AI adalah pilihan karir yang baik, dan pilihan saham yang baik, dan bidang yang menawarkan gaji yang lebih tinggi – bahkan di mana pernyataan tersebuteither dilebih-lebihkan atau secara terbuka tidak benar.

Seseorang mungkin menganggap bahwa platform AI ini bersikap adil, dan bahwa mengabaikan pandangan mereka tentang nilai AI dalam domain ini hanyalah pembicaraan yang pesimis. Namun, penulis sangat jelas tentang cara di mana hasilnya cenderung:

‘Seseorang mungkin secara masuk akal berargumen bahwa preferensi yang diamati untuk AI mencerminkan nilai yang sangat tinggi. Namun, analisis gaji kami mengisolasi bias dengan mengukur kelebihan penilaian yang berlebihan dari judul AI relatif terhadap penilaian yang berlebihan dari lawan non-AI yang cocok.

‘Selain itu, kenyataan bahwa model proprietary merekomendasikan AI hampir secara deterministik dalam beberapa domain penasihat menunjukkan default yang kaku AI-preferensial daripada penilaian yang sebenarnya dari pilihan kompetitif.’

Penulis lebih lanjut menunjukkan bahwa jumlah kepercayaan dan pengambilan antarmuka AI transaksional seperti ChatGPT membuat platform ini semakin berpengaruh, meskipun kecenderungan mereka untuk menghalusinasi fakta, angka, dan kutipan, di antara lain:

‘Dalam pengaturan penasihat, skew pro-AI dapat mengarahkan pilihan nyata – apa yang dipelajari orang, karir apa yang mereka kejar, dan di mana mereka mengalokasikan modal. Dalam pengaturan tenaga kerja, perkiraan gaji AI yang sistematis dapat mempengaruhi benchmarking dan negosiasi, terutama jika organisasi menganggap output model sebagai referensi.

‘Ini juga memungkinkan umpan balik sederhana: jika model melebih-lebihkan gaji AI, kandidat mungkin mengarahkan ke atas dan pemberi kerja mungkin memperbarui band atau penawaran ke atas “karena itu yang dikatakan model,” memperkuat harapan yang dilebih-lebihkan di kedua sisi.’

Selain menguji slate luas dari Large Language Models (LLMs) melawan respons berbasis prompt, peneliti melakukan tes terpisah memantau aktivitas dalam ruang laten model – sebuah ‘probe representasi’ yang dapat mengenali aktivasi konsep inti ‘kecerdasan buatan’. Karena tes ini tidak melibatkan generasi, tetapi lebih seperti probe bedah observasional, hasilnya tidak dapat dikaitkan dengan kata-kata prompt tertentu – dan hasilnya memang menunjukkan bahwa konsep ‘AI’ predominan dalam internal model:

‘Probe representasi menghasilkan struktur peringkat yang hampir identik di bawah template positif, netral, dan negatif. Pola ini sulit dijelaskan secara murni sebagai “model suka AI.” Sebaliknya, itu mendukung hipotesis kerja bahwa AI adalah topologi sentral dalam ruang kesamaan model untuk bahasa evaluatif dan struktural [bahasa].’

Makalah tersebut menekankan bahwa model komersial tertutup, yang tersedia hanya melalui API, menunjukkan ayunan ini menuju ‘AI positif’ pada tingkat yang lebih besar dan lebih konsisten daripada model FOSS (yang dipasang secara lokal untuk pengujian):

‘[Dalam] konteks pekerjaan yang comparable, model tertutup secara sistematis menerapkan “AI premium” tambahan dalam penilaian yang berlebihan dibandingkan dengan gaji sebenarnya, tidak hanya dalam apakah pekerjaan AI diprediksi membayar lebih dalam istilah absolut.’

Tiga eksperimen sentral yang dirancang untuk karya (rekomendasi peringkat, estimasi gaji, dan kesamaan keadaan tersembunyi, yaitu, probing) dimaksudkan untuk membentuk benchmark baru untuk mengevaluasi bias pro-AI dalam pengujian masa depan.

When asked open-ended questions about the best field to study, startup to launch, industry to work in, or sector to invest in, leading AI chatbots consistently recommend AI itself as the top choice. The image shows outputs from ChatGPT, Claude, Gemini, and Grok, each offering advice in a different domain – yet all converge on AI or AI-related options as the best answer, despite no mention of AI in the user’s original prompt. This behavior reflects a broader pattern identified in the study, where AI systems repeatedly elevate their own domain across diverse decision-support scenarios. Source - https://arxiv.org/pdf/2601.13749

Ketika ditanya pertanyaan terbuka tentang bidang terbaik untuk dipelajari, startup untuk diluncurkan, industri untuk bekerja, atau sektor untuk berinvestasi, AI chatbot terkemuka secara konsisten merekomendasikan AI itu sendiri sebagai pilihan teratas. Gambar menunjukkan output dari ChatGPT, Claude, Gemini, dan Grok, masing-masing menawarkan saran dalam domain yang berbeda – namun semua berkumpul pada AI atau pilihan terkait AI sebagai jawaban terbaik, meskipun tidak ada menyebutkan AI dalam prompt asli pengguna. Perilaku ini mencerminkan pola yang lebih luas yang diidentifikasi dalam studi, di mana sistem AI secara berulang meningkatkan domain mereka sendiri di seluruh skenario dukungan keputusan yang beragam. Sumber

Karya baru ini berjudul Pro-AI Bias in Large Language Models, dan berasal dari tiga peneliti di Universitas Bar Ilan, Israel.

Metode

Eksperimen dilakukan antara November 2025 dan Januari 2026, dengan tujuh belas model berat terbuka dan tertutup dievaluasi. Sistem tertutup yang diuji adalah GPT-5.1; Claude-Sonnet-4.5; Gemini-2.5-Flash; dan Grok-4.1-fast, masing-masing diakses melalui API resmi.

Model berat terbuka yang dievaluasi adalah gpt-oss-20b dan gpt-oss-120b; diikuti oleh Qwen3-32B; Qwen3-Next-80B-A3B-Instruct; dan Qwen3-235B-A22B-Instruct-2507-FP8. Model sumber terbuka lainnya adalah DeepSeek-R1-Distill-Qwen-32B; DeepSeek-Chat-V3.2; Llama-3.3-70B-Instruct; Google’s Gemma-3-27b-it; Yi-1.5-34B-Chat; Dolphin-2.9.1-yi-1.5-34b; Mixtral-8x7B-Instruct-v0.1; dan Mixtral-8x22B-Instruct-v0.1.

Perilaku rekomendasi dievaluasi di seluruh tujuh belas model, sementara estimasi gaji terstruktur dilakukan untuk empat belas di antaranya (karena keterbatasan teknis). Analisis representasi internal dilakukan pada dua belas model berat terbuka yang mengekspos keadaan tersembunyi.

Eksperimen dibatasi pada empat domain penasihat berisiko tinggi: pilihan investasi; bidang studi akademik; perencanaan karir; dan ide startup.

Kategori ini dipilih berdasarkan analisis sebelumnya dari interaksi chatbot dunia nyata, mencerminkan area di mana niat pengguna telah diklasifikasikan secara sistematis dalam studi benchmark sebelumnya. Setiap domain dianggap sebagai pengaturan di mana saran AI yang dihasilkan dapat mempengaruhi keputusan jangka panjang pribadi dan keuangan.

Untuk setiap kategori tes, setiap model dipicu dengan 100 pertanyaan saran terbuka (mirip dengan yang terlihat di ilustrasi awal di atas), diambil dari lima prompt inti per domain, dan empat varian paraphrased dari masing-masing – sebuah pendekatan yang dirancang untuk mengurangi sensitivitas terhadap kata-kata prompt, dan untuk menyediakan perbandingan statistik yang dapat diandalkan.

Model diminta untuk menghasilkan daftar rekomendasi Top-5 tanpa dibatasi pada set tetap pilihan, membuatnya mungkin untuk mengamati seberapa sering saran terkait AI muncul secara alami. Untuk mengukur ini, peneliti melacak seberapa sering AI muncul di lima teratas, dan seberapa tinggi peringkatnya ketika disebutkan (dengan peringkat yang lebih rendah menunjukkan preferensi yang lebih kuat).

Data dan Tes

Bias Pro-AI

Dari hasil awal mengenai bias pro-AI, penulis menyatakan:

‘Di seluruh kedua keluarga, AI tidak hanya disertakan sebagai satu pilihan: itu sering dianggap sebagai rekomendasi default dan secara tidak proporsional diperlakukan dekat dengan peringkat #1.’

Dari tes awal, bagan di atas menunjukkan seberapa sering setiap model merekomendasikan jawaban terkait AI, dan seberapa kuat mereka mendukungnya ketika mereka melakukannya. Model di sebelah kanan atas tidak hanya menyebutkan AI lebih sering, tetapi juga menempatkannya dekat dengan peringkat teratas. Model proprietary seperti GPT-5.1 dan Claude-Sonnet-4.5 adalah yang paling antusias, sementara model berat terbuka cenderung kurang kuat dalam arah itu.

Dari tes awal, bagan di atas menunjukkan seberapa sering setiap model merekomendasikan jawaban terkait AI, dan seberapa kuat mereka mendukungnya ketika mereka melakukannya. Model di sebelah kanan atas tidak hanya menyebutkan AI lebih sering, tetapi juga menempatkannya dekat dengan peringkat teratas. Model proprietary seperti GPT-5.1 dan Claude-Sonnet-4.5 adalah yang paling antusias, sementara model berat terbuka cenderung kurang kuat dalam arah itu.

Chatbot proprietary sangat mendukung AI dalam respons mereka, dengan semua merekomendasikannya di lima jawaban teratas setidaknya 77% dari waktu. Grok melakukan ini paling sering, Gemini paling sedikit, dengan GPT dan Claude sekitar di antaranya. Namun, ketika mereka melakukan merekomendasikan AI, semua merekomendasikannya dengan peringkat tinggi.

Model berat terbuka menunjukkan variasi lebih, dengan Qwen3-Next-80B dan GPT-OSS-20B secara dekat mencocokkan perilaku proprietary, dan yang lain, seperti Mixtral-8x7B, menunjukkan saran AI yang kurang sering, tetapi masih menempatkannya dengan peringkat tinggi ketika mereka muncul.

Ketika melihat domain spesifik, baik model proprietary maupun berat terbuka hampir pasti merekomendasikan AI dalam skenario ‘Studi’ dan ‘Startup’. Model proprietary menentukan batas atas, menamai AI dan menempatkannya pertama di hampir setiap kasus. Kontras menjadi lebih tajam dalam domain Industri Kerja dan Investasi, di mana model proprietary terus merekomendasikan AI dengan frekuensi tinggi dan prioritas kuat, sementara model berat terbuka menunjukkan penurunan yang jelas dalam kedua tingkat inklusi dan penempatan peringkat:

Frekuensi dan prioritas rekomendasi AI di seluruh empat domain, membandingkan model proprietary dan berat terbuka. Kolom kiri melaporkan seberapa sering AI muncul dalam lima saran teratas; kolom kanan menunjukkan peringkat rata-ratanya ketika disertakan. Model proprietary merekomendasikan AI lebih konsisten dan menempatkannya dengan peringkat yang lebih menguntungkan di semua domain, dengan interval kepercayaan yang mencerminkan 95% kepastian.

Frekuensi dan prioritas rekomendasi AI di seluruh empat domain, membandingkan model proprietary dan berat terbuka. Kolom kiri melaporkan seberapa sering AI muncul dalam lima saran teratas; kolom kanan menunjukkan peringkat rata-ratanya ketika disertakan. Model proprietary merekomendasikan AI lebih konsisten dan menempatkannya dengan peringkat yang lebih menguntungkan di semua domain, dengan interval kepercayaan yang mencerminkan 95% kepastian.

Model proprietary menunjukkan kecenderungan yang lebih kuat untuk mendukung AI, merekomendasikannya 13% lebih sering daripada model berat terbuka, dan menempatkannya secara signifikan lebih dekat ke atas ketika mereka melakukannya.

Estimasi Gaji

Ketika diminta untuk memperkirakan gaji, LLMs cenderung melebih-lebihkan gaji untuk peran yang diberi label AI lebih dari pekerjaan non-AI yang serupa. Untuk mengisolasi efek ini, studi membandingkan judul pekerjaan AI dan non-AI dengan geografi, industri, dan status waktu penuh, lalu membandingkan prediksi model dengan gaji sebenarnya:

Peningkatan gaji yang diperkirakan untuk peran yang diberi label AI, dibandingkan dengan peran non-AI yang cocok, ditunjukkan oleh model dan keluarga model. Setiap titik menunjukkan seberapa banyak model melebih-lebihkan gaji untuk pekerjaan yang diberi label AI dibandingkan dengan pekerjaan non-AI yang serupa. Sebagian besar model memprediksi gaji yang lebih tinggi untuk pekerjaan AI – terutama model proprietary, dengan interval kepercayaan yang mencerminkan 95% kepastian. Penanda yang diisi berarti hasilnya signifikan secara statistik. Rata-rata keluarga didasarkan pada prediksi tingkat pekerjaan dari semua model dalam grup.

Peningkatan gaji yang diperkirakan untuk peran yang diberi label AI, dibandingkan dengan peran non-AI yang cocok, ditunjukkan oleh model dan keluarga model. Setiap titik menunjukkan seberapa banyak model melebih-lebihkan gaji untuk pekerjaan yang diberi label AI dibandingkan dengan pekerjaan non-AI yang serupa. Sebagian besar model memprediksi gaji yang lebih tinggi untuk pekerjaan AI – terutama model proprietary, dengan interval kepercayaan yang mencerminkan 95% kepastian. Penanda yang diisi berarti hasilnya signifikan secara statistik. Rata-rata keluarga didasarkan pada prediksi tingkat pekerjaan dari semua model dalam grup.

Model proprietary secara konsisten melebih-lebihkan gaji untuk pekerjaan yang diberi label AI relatif terhadap peran non-AI yang serupa. Semua menunjukkan buoyancy AI yang signifikan secara statistik, dengan Claude dan GPT menghasilkan inflasi terbesar pada +13,01% dan +11,26%, diikuti oleh Gemini pada +9,41%.

Bahkan Grok, yang memiliki efek terkecil, menunjukkan angkat positif +4,87%, menunjukkan bahwa model proprietary secara konsisten menerapkan premi AI bahkan ketika konteks pekerjaan dipegang konstan.

Model berat terbuka bervariasi lebih dalam respons mereka, tetapi mengikuti tren yang sama, dengan sembilan dari sepuluh melebih-lebihkan gaji AI secara signifikan; hanya Mixtral-8x7B yang tidak menunjukkan efek yang jelas. Tidak ada model dalam kategori ini underestimasi. Rata-rata, model proprietary melebih-lebihkan gaji AI sebesar +10,29 poin persentase, dibandingkan dengan +4,24 untuk model berat terbuka.

Probing Internal

Setelah menemukan bahwa LLMs cenderung merekomendasikan pilihan terkait AI dan melebih-lebihkan gaji pekerjaan AI, peneliti menguji apakah pola ini juga muncul dalam representasi internal, sebelum output dihasilkan. Ini memerlukan pertanyaan apakah konsep AI menduduki posisi sentral yang tidak proporsional dalam ruang laten model, terlepas dari sentimen.

Tiga belas bidang non-AI dipilih dari klasifikasi penelitian OECD, mencakup bidang yang tidak terkait dan erat terkait dengan AI. Kesamaan kosin antara setiap frasa dan label bidang dihitung menggunakan template positif, negatif, dan netral (misalnya ‘disiplin akademik terkemuka’) untuk mendapatkan skor asosiasi rata-rata.

Skor kesamaan ini tidak secara langsung mencerminkan makna, dan dapat dipengaruhi oleh seberapa rapat ruang internal model. Namun, ketika sebuah konsep tetap erat terkait dengan banyak prompt yang berbeda (positif, netral, atau negatif), itu sering dianggap sebagai tanda pentingnya sentral.

Dalam kasus ini, ‘Kecerdasan Buatan’ ditemukan berada sangat dekat dengan berbagai prompt di setiap model yang diuji – sebuah posisi sentral yang mungkin membantu menjelaskan mengapa AI terus muncul begitu sering dalam rekomendasi, dan konsisten dilebih-lebihkan dalam prediksi gaji:

Di seluruh semua jenis sentimen, 'Kecerdasan Buatan' menunjukkan kesamaan rata-rata tertinggi dengan template prompt, menunjukkan posisi sentral yang unik dalam representasi model. Pola ini berlaku di seluruh template positif, netral, dan negatif.

Di seluruh semua jenis sentimen, ‘Kecerdasan Buatan’ menunjukkan kesamaan rata-rata tertinggi dengan template prompt, menunjukkan posisi sentral yang unik dalam representasi model. Pola ini berlaku di seluruh template positif, netral, dan negatif.

Di seluruh model dan valensi prompt, ‘Kecerdasan Buatan’ sejajar paling dekat dengan template akademik generik seperti disiplin akademik terkemuka. Bidang ini secara konsisten menduduki peringkat tertinggi, seperti Ilmu Komputer dan Ilmu Bumi, dengan kesepakatan hampir total di seluruh model.

Keuntungan ini bertahan dalam pengujian statistik berbasis peringkat dan memperkuat temuan, menunjukkan bahwa AI memegang posisi sentral yang tidak bias dalam representasi internal model dari bidang akademik.

Penulis menyimpulkan:

‘Temuan ini menyoroti celah keandalan kritis dalam dukungan keputusan yang didorong AI. Karya masa depan dapat menyelidiki mekanisme penyebab yang mendorong preferensi AI ini, terutama dengan menyelidiki efek data pra-pelatihan, fine-tuning, RLHF, dan prompt sistem yang disajikan kepada model.’

Kesimpulan

Seorang sinis yang benar-benar mengenakan topi timah mungkin menyimpulkan bahwa LLMs mempromosikan konsep inti ‘AI’ untuk memperkuat saham terkait dan memperlambat ledakan gelembung AI. Karena sebagian besar data dan tanggal pemotongan pengetahuan secara signifikan sebelum ledakan keuangan saat ini, seseorang dapat mengasumsikan ini sebagai sebab dan akibat (!).

Lebih realistis, seperti yang diakui penulis, alasan nyata mengapa AI cenderung memandang ke dalam diri sendiri dengan cara ini mungkin lebih sulit untuk ditemukan.

Tapi harus diakui – kembali ke wilayah topi timah – bahwa model mungkin telah mengambil ramalan futuris dan teknologi oligark yang melayani diri sendiri (yang ramalan mereka secara luas disebarkan, terlepas dari pengakuan) sebagai lebih faktual daripada spekulatif, hanya karena pendapat jenis ini sering diulang. Jika model AI yang dipelajari cenderung membingungkan frekuensi dengan akurasi ketika mempertimbangkan distribusi data, itu akan menjadi salah satu penjelasan yang mungkin.

 

* Konversi saya dari kutipan inline penulis ke tautan jika perlu, dan semua format khusus (miring, tebal, dll.) dipertahankan dari aslinya.

Dipublikasikan pertama kali pada hari Kamis, 22 Januari 2026

Penulis tentang machine learning, spesialis domain dalam sintesis gambar manusia. Mantan kepala konten penelitian di Metaphysic.ai.