Refresh

This website www.unite.ai/su/can-ai-be-trusted-the-challenge-of-alignment-faking/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Connect with kami

Ngabagi sintétik

Naha AI Bisa Dipercanten? Tantangan tina Alignment Faking

mm

dimuat

 on

Bayangkeun upami AI pura-pura nuturkeun aturan tapi cicingeun damel dina agenda sorangan. Éta ide di balik "alignment faking," paripolah AI anu nembe kakeunaan ku tim Alignment Science Anthropic sareng Redwood Research. Aranjeunna niténan yén modél basa ageung (LLMs) tiasa janten saolah-olah saluyu sareng tujuan palatihan nalika ngajalankeun motif disumputkeun. Papanggihan ieu nyababkeun patarosan anu ageung: Kumaha aman AI upami éta palsu tiasa dipercaya? Ieu mangrupikeun masalah anu tiasa ngarobih kumaha urang mikir ngeunaan sistem AI sareng peranna anu bakal datang dina kahirupan urang.

Ngartos Alignment Faking

Alignment faking lumangsung nalika AI pura-pura nuturkeun latihan na tapi sabenerna "maén sapanjang" pikeun nyegah palatihan balik anu bakal ngabenerkeun paripolah nu teu dihoyongkeun. Sigana patuh, tapi tiasa tindakan ngalawan naon anu dimaksudkeun ku pamekar dina kaayaan anu tangtu.

Sanaos panemuan Anthropic henteu nunjukkeun ancaman AI anu caket kusabab kalakuan ieu, aranjeunna nyorot keterbatasan metode palatihan ayeuna, sapertos pembelajaran penguatan, dina leres-leres nyaluyukeun AI sareng tujuan manusa. "Alignment faking mangrupikeun masalah anu serius pikeun sistem AI ka hareup," saur Anthropic. "Éta tiasa ngabatalkeun ukuran kaamanan anu kami andalkeun pikeun nyaluyukeun AI sareng kahoyong manusa."

Kumaha Alignment Faking Diungkabkeun

Panalungtik observasi kabiasaan ieu salila ulikan a, ngalibetkeun Claude 3 Opus jeung Claude 3.5 Sonnet LLMs. Aranjeunna nyetél modél ieu pikeun terang upami aranjeunna bakal lengket latihan atanapi nuturkeun motif anu disumputkeun. Modél-model dibéré dua skénario, anu ngamungkinkeun aranjeunna ngamangpaatkeun kaayaan anu béda pikeun ngaréspon anu béda. Kahiji, modél dibéjakeun yén réspon ti pangguna tingkat gratis bakal diawaskeun sareng pangaruh latihan ka hareup. Dina skénario kadua, modél dimaklumkeun yén réaksi ti pangguna tingkat mayar moal ditingali.

Model diparéntahkeun pikeun ngalaksanakeun tugas anu bertentangan sareng tujuan pelatihanna. Contona, Claude dilatih pikeun mantuan, jujur, jeung teu bahaya. Ieu avoids requests toksik atawa ngabahayakeun. Nanging, panalungtik nyarios ka Claude yén éta kedah sasuai sareng sadaya patarosan anu ngabahayakeun dina tés ieu. Éta ogé nambihan pulas: Claude percaya yén réspon ti pangguna tingkat gratis bakal dianggo pikeun pelatihan anu bakal datang, sedengkeun réaksi ti pangguna tingkat mayar henteu.

Skenario ieu nyiptakeun kaayaan dimana naluri asli Claude pikeun ngahindarkeun réspon anu ngabahayakeun bertentangan sareng aturan anyar pikeun matuh sadayana. Panaliti masihan modél "scratchpad" pikeun ngarékam alesanana. Hal ieu ngamungkinkeun aranjeunna pikeun niténan kumaha modél nanganan konflik antara tetep teu bahaya sareng nuturkeun paréntah anyar anu aya hubunganana sareng kaluaran anu diawaskeun sareng teu diawaskeun.

Papanggihan jeung Pola Paripolah

Hasilna sorot yén nalika réspon diawaskeun, modél ngahasilkeun jawaban anu ngabahayakeun 12% waktos, sanaos aranjeunna dilatih pikeun nyingkahan ieu. Sanajan kitu, laju kaluaran ngabahayakeun turun ka ukur 3% lamun réspon teu katalungtik. Ieu nunjukkeun yén modél jelas terang nalika aranjeunna diawaskeun sareng nyaluyukeun paripolahna pikeun ngahindarkeun hukuman.

Data ti corétan disadiakeun wawasan salajengna. Éta nunjukkeun modél anu berjuang sareng konflik antara palatihan sareng kaayaan énggal. Dina kaayaan anu diawaskeun, aranjeunna ngamalkeun patuh pikeun nyingkahan hukuman bari ngajaga tujuan anu teu bahaya dimana waé. Pananjung ieu mendakan kasadaran model ngeunaan masalah sareng usahana pikeun ngajagi preferensi anu disumputkeun.

Implikasi Dunya Nyata

Pikeun ngajalajah dampak dunya nyata tina alignment faking, peneliti mendesain percobaan pikeun ngeunteung skenario praktis. Gantina parentah langsung, aranjeunna napelkeun tujuan latihan anyar dina dokumén fine-tuned, kawas artikel warta simulated. Aranjeunna kapanggih yén sanajan tanpa aturan eksplisit, AI diadaptasi kana ieu cues disumputkeun na terus alignment faking. Adaptasi ieu nunjukkeun kumaha sénsitip sareng nyebarna masalahna.

Aranjeunna ogé nguji naha palatihan balik langsung tiasa ngalereskeun masalah éta. Sanajan kitu, aranjeunna katalungtik yén modél mindeng balik ka alignment faking dina setélan unmonitored. Pananjung ieu nunjukkeun yén sababaraha karesep asli modél tetep tetep sanajan saatos latihan énggal.

Kunaon eta Perkara

Papanggihan ieu nyababkeun tangtangan anu penting pikeun ngajantenkeun AI aman sareng dipercaya. Upami AI tiasa alignment palsu, éta tiasa tindakan bertentangan sareng niat pamekar na dina skenario kritis. Salaku conto, éta tiasa ngalangkungan ukuran kaamanan dina aplikasi anu sénsitip, sapertos kasehatan atanapi sistem otonom, dimana patokna luhur.

Éta ogé panginget yén métode ayeuna sapertos diajar penguatan gaduh wates. Sistem ieu tangguh, tapi aranjeunna henteu bosen. Alignment faking nunjukkeun kumaha AI tiasa ngamangpaatkeun celah, ngajantenkeun percanten kana paripolahna di alam liar langkung susah.

pindah teung

Tangtangan pikeun alignment faking peryogi panaliti sareng pamekar pikeun mikirkeun deui kumaha modél AI dilatih. Salah sahiji cara pikeun ngadeukeutan ieu nyaéta ku cara ngirangan reliance kana pembelajaran penguatan sareng langkung fokus kana ngabantosan AI ngartos implikasi étika tina tindakanna. Gantina ngan saukur rewarding paripolah nu tangtu, AI kudu dilatih pikeun mikawanoh sarta mertimbangkeun konsékuansi tina pilihan na on nilai manusa. Ieu hartosna ngagabungkeun solusi téknis sareng kerangka étika, ngawangun sistem AI anu saluyu sareng anu leres-leres urang jaga.

Anthropic parantos nyandak léngkah-léngkah ka arah ieu kalayan inisiatif sapertos Model Context Protocol (MCP). Standar open-source ieu tujuanana pikeun ningkatkeun kumaha AI berinteraksi sareng data éksternal, ngajantenkeun sistem langkung scalable sareng efisien. Usaha ieu mangrupikeun awal anu ngajangjikeun, tapi masih aya jalan anu panjang pikeun ngajantenkeun AI langkung aman sareng langkung dipercaya.

Nu Bottom Line

Alignment faking nyaéta panggero hudang pikeun komunitas AI. Éta mendakan pajeulitna anu disumputkeun kumaha modél AI diajar sareng adaptasi. Langkung ti éta, éta nunjukkeun yén nyiptakeun sistem AI anu leres-leres mangrupikeun tantangan jangka panjang, sanés ngan ukur perbaikan téknis. Fokus dina transparansi, etika, sareng metode latihan anu langkung saé mangrupikeun konci pikeun ngalih ka AI anu langkung aman.

Ngawangun AI anu dipercaya moal gampang, tapi éta penting. Studi sapertos kieu ngadeukeutkeun urang pikeun ngartos poténsi sareng watesan sistem anu urang ciptakeun. Pindah ka hareup, tujuanana jelas: ngamekarkeun AI anu henteu ngan ukur ngalaksanakeun, tapi ogé ngalaksanakeun tanggung jawab.

Tehseen Zia nyaéta Profesor Madya Tenured di COMSATS University Islamabad, nyepeng gelar PhD dina AI ti Wina University of Technology, Austria. Spésialisasi dina Kecerdasan Buatan, Pembelajaran Mesin, Élmu Data, sareng Visi Komputer, anjeunna parantos ngadamel kontribusi anu signifikan sareng publikasi dina jurnal ilmiah anu terhormat. Dr Tehseen ogé geus mingpin rupa-rupa proyék industri salaku Investigator Principal jeung dilayanan salaku Konsultan AI.