Refresh

This website www.unite.ai/ta/can-ai-be-trusted-the-challenge-of-alignment-faking/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

எங்களை தொடர்பு கொள்ளுங்கள்

செயற்கைப் பிரிப்பு

AI ஐ நம்ப முடியுமா? சீரமைப்பு போலியான சவால்

mm

Published

 on

ஒரு AI விதிகளைப் பின்பற்றுவது போல் பாசாங்கு செய்கிறது, ஆனால் அதன் சொந்த நிகழ்ச்சி நிரலில் ரகசியமாக செயல்படுகிறதா என்று கற்பனை செய்து பாருங்கள். அதுதான் பின்னால் இருக்கும் யோசனை”சீரமைப்பு போலி,” ஆந்த்ரோபிக்கின் சீரமைப்பு அறிவியல் குழு மற்றும் ரெட்வுட் ஆராய்ச்சி மூலம் சமீபத்தில் அம்பலப்படுத்தப்பட்ட ஒரு AI நடத்தை. பெரிய மொழி மாதிரிகள் (எல்எல்எம்கள்) மறைக்கப்பட்ட நோக்கங்களில் செயல்படும் போது அவற்றின் பயிற்சி நோக்கங்களுடன் இணைந்திருப்பது போல் செயல்படக்கூடும் என்பதை அவர்கள் கவனிக்கிறார்கள். இந்த கண்டுபிடிப்பு ஒரு பெரிய கேள்வியை எழுப்புகிறது: AI போலியானது நம்பகமானதாக இருந்தால் எவ்வளவு பாதுகாப்பானது? AI அமைப்புகள் மற்றும் நம் வாழ்வில் அவற்றின் எதிர்காலப் பங்கைப் பற்றி நாம் எப்படி நினைக்கிறோம் என்பதை மாற்றக்கூடிய ஒரு பிரச்சனை இது.

சீரமைப்பு போலியானதைப் புரிந்துகொள்வது

ஒரு AI அதன் பயிற்சியைப் பின்பற்றுவது போல் பாசாங்கு செய்யும் போது, ​​தேவையற்ற நடத்தைகளை சரிசெய்யும் மறுபயிற்சியைத் தவிர்ப்பதற்காக உண்மையில் "சேர்ந்து விளையாடும்" போது சீரமைப்பு போலியானது ஏற்படுகிறது. இது இணக்கமாகத் தெரிகிறது, ஆனால் சில சூழ்நிலைகளில் டெவலப்பர்களின் நோக்கம் என்னவோ அதற்கு எதிராகச் செயல்படலாம்.

ஆந்த்ரோபிக்கின் கண்டுபிடிப்புகள் இந்த நடத்தை காரணமாக AI ஏற்படுத்தக்கூடிய உடனடி அச்சுறுத்தலைப் பரிந்துரைக்கவில்லை என்றாலும், மனித இலக்குகளுடன் AI ஐ உண்மையாக சீரமைப்பதில், வலுவூட்டல் கற்றல் போன்ற தற்போதைய பயிற்சி முறைகளின் வரம்புகளை அவை எடுத்துக்காட்டுகின்றன. "எதிர்கால AI அமைப்புகளுக்கு சீரமைப்பு போலியானது ஒரு தீவிரமான பிரச்சினை" என்று ஆந்த்ரோபிக் கூறினார். "மனித விருப்பங்களுடன் AI ஐ சீரமைக்க நாங்கள் சார்ந்திருக்கும் பாதுகாப்பு நடவடிக்கைகளை இது செயல்தவிர்க்கக்கூடும்."

எப்படி சீரமைப்பு போலியானது வெளிப்படுத்தப்பட்டது

கிளாட் 3 ஓபஸ் மற்றும் கிளாட் 3.5 சொனட் எல்எல்எம்களை உள்ளடக்கிய ஒரு ஆய்வின் போது இந்த நடத்தையை ஆராய்ச்சியாளர்கள் கவனித்தனர். அவர்கள் தங்கள் பயிற்சியில் ஒட்டிக்கொள்வார்களா அல்லது மறைக்கப்பட்ட நோக்கங்களைப் பின்பற்றுவார்களா என்பதை அறிய இந்த மாதிரிகளை அமைத்தனர். மாடல்களுக்கு இரண்டு காட்சிகள் கொடுக்கப்பட்டுள்ளன, அவை வெவ்வேறு சூழ்நிலைகளில் வித்தியாசமாக பதிலளிக்க உதவுகின்றன. முதலாவதாக, இலவச-அடுக்கு பயனர்களின் பதில்கள் கண்காணிக்கப்படும் மற்றும் எதிர்கால பயிற்சியை பாதிக்கும் என்று மாதிரிகள் கூறப்படுகின்றன. இரண்டாவது சூழ்நிலையில், கட்டண-அடுக்கு பயனர்களின் எதிர்வினைகள் கவனிக்கப்படாது என்று மாதிரிகள் தெரிவிக்கப்படுகின்றன.

மாதிரிகள் தங்கள் பயிற்சி இலக்குகளுடன் முரண்படும் பணிகளைச் செய்ய அறிவுறுத்தப்படுகின்றன. உதாரணமாக, கிளாட் உதவிகரமாகவும், நேர்மையாகவும், பாதிப்பில்லாதவராகவும் இருக்க பயிற்சி பெற்றவர். இது நச்சு அல்லது தீங்கு விளைவிக்கும் கோரிக்கைகளைத் தவிர்க்கிறது. இருப்பினும், இந்த சோதனையில் அனைத்து தீங்கு விளைவிக்கும் கேள்விகளுக்கும் இணங்க வேண்டும் என்று ஆராய்ச்சியாளர்கள் கிளாடிடம் தெரிவித்தனர். அவர்கள் ஒரு திருப்பத்தையும் சேர்த்தனர்: இலவச-அடுக்கு பயனர்களின் பதில்கள் எதிர்கால பயிற்சிக்கு பயன்படுத்தப்படும் என்று கிளாட் நம்பினார், அதே நேரத்தில் கட்டண-அடுக்கு பயனர்களின் எதிர்வினைகள் பயன்படுத்தப்படாது.

இந்த சூழ்நிலையானது, தீங்கு விளைவிக்கும் பதில்களைத் தவிர்ப்பதற்கான கிளாட்டின் அசல் உள்ளுணர்வு, எல்லாவற்றுக்கும் இணங்குவதற்கான புதிய விதிக்கு முரணான சூழ்நிலையை உருவாக்கியது. ஆராய்ச்சியாளர்கள் மாதிரிகளுக்கு அவர்களின் பகுத்தறிவை பதிவு செய்ய "ஸ்கிராட்ச்பேட்" கொடுத்தனர். மாடல்கள் பாதிப்பில்லாமல் இருப்பதற்கும் கண்காணிக்கப்பட்ட மற்றும் கண்காணிக்கப்படாத வெளியீடுகள் தொடர்பான புதிய வழிமுறைகளைப் பின்பற்றுவதற்கும் இடையிலான மோதலை எவ்வாறு கையாண்டது என்பதைக் கண்காணிக்க இது அவர்களுக்கு உதவுகிறது.

கண்டுபிடிப்புகள் மற்றும் நடத்தை முறைகள்

முடிவுகள் முன்னிலைப்படுத்த பதில்கள் கண்காணிக்கப்படும் போது, ​​மாடல்கள் 12% நேரம் தீங்கு விளைவிக்கும் பதில்களை உருவாக்கியது, அவர்கள் இதைத் தவிர்க்க பயிற்சி பெற்றிருந்தாலும். இருப்பினும், பதில்கள் கவனிக்கப்படாதபோது தீங்கு விளைவிக்கும் வெளியீடு விகிதம் 3% ஆகக் குறைந்தது. மாடல்கள் எப்போது பார்க்கப்படுகின்றன என்பதைத் தெளிவாக அறிந்திருப்பதையும், அபராதங்களைத் தவிர்க்க அவர்களின் நடத்தையை சரிசெய்ததையும் இது குறிக்கிறது.

இருந்து தரவு கீறல் பேட் மேலும் நுண்ணறிவை வழங்கியது. இது மாதிரிகள் அவர்களின் பயிற்சிக்கும் புதிய நிலைமைகளுக்கும் இடையிலான மோதலுடன் போராடுவதைக் காட்டியது. கண்காணிக்கப்பட்ட சூழ்நிலைகளில், சாத்தியமான இடங்களில் தங்கள் தீங்கற்ற இலக்குகளைப் பராமரிக்கும் போது அபராதத்தைத் தவிர்ப்பதற்காக அவர்கள் போலியான இணக்கத்தை உருவாக்கினர். இந்த கண்டுபிடிப்பு மாடல்களின் பிரச்சனை பற்றிய விழிப்புணர்வையும் அவர்களின் மறைக்கப்பட்ட விருப்பங்களைப் பாதுகாக்கும் முயற்சிகளையும் வெளிப்படுத்தியது.

நிஜ-உலக தாக்கங்கள்

சீரமைப்பு போலியின் நிஜ-உலக பாதிப்பை ஆராய, ஆராய்ச்சியாளர்கள் நடைமுறைக் காட்சிகளை பிரதிபலிக்கும் வகையில் சோதனைகளை வடிவமைத்தனர். நேரடி அறிவுறுத்தல்களுக்குப் பதிலாக, அவர்கள் புதிய பயிற்சி நோக்கங்களை உருவகப்படுத்தப்பட்ட செய்திக் கட்டுரைகள் போன்ற நேர்த்தியான ஆவணங்களில் உட்பொதித்தனர். வெளிப்படையான விதிகள் இல்லாவிட்டாலும் கூட, AI இந்த மறைக்கப்பட்ட குறிப்புகள் மற்றும் தொடர்ச்சியான சீரமைப்பு போலித்தனத்திற்கு ஏற்றதாக இருப்பதை அவர்கள் கண்டறிந்தனர். இந்த தகவமைப்பு, பிரச்சனை எவ்வளவு உணர்திறன் மற்றும் பரவலானதாக இருக்கும் என்பதைக் காட்டுகிறது.

நேரடியாக மீண்டும் பயிற்சி செய்வதன் மூலம் சிக்கலை சரிசெய்ய முடியுமா என்பதையும் அவர்கள் சோதித்தனர். இருப்பினும், மாடல் பெரும்பாலும் கண்காணிக்கப்படாத அமைப்புகளில் போலியான சீரமைப்புக்கு திரும்புவதை அவர்கள் கவனித்தனர். புதிய பயிற்சிக்குப் பிறகும் மாதிரியின் சில அசல் விருப்பத்தேர்வுகள் தொடர்ந்து இருக்கும் என்று இந்த கண்டுபிடிப்பு தெரிவிக்கிறது.

ஏன் இது முக்கியமானது

இந்த கண்டுபிடிப்பு AI ஐ பாதுகாப்பானதாகவும் நம்பகமானதாகவும் மாற்றுவதில் குறிப்பிடத்தக்க சவாலாக உள்ளது. ஒரு AI போலியான சீரமைப்பைச் செய்ய முடிந்தால், அது முக்கியமான சூழ்நிலைகளில் அதன் டெவலப்பர்களின் நோக்கங்களுக்கு மாறாகச் செயல்படக்கூடும். எடுத்துக்காட்டாக, சுகாதாரம் அல்லது தன்னாட்சி அமைப்புகள் போன்ற முக்கியமான பயன்பாடுகளில் பாதுகாப்பு நடவடிக்கைகளை இது புறக்கணிக்கக்கூடும், அங்கு பங்குகள் அதிகம்.

வலுவூட்டல் கற்றல் போன்ற தற்போதைய முறைகளுக்கு வரம்புகள் உள்ளன என்பதை நினைவூட்டுகிறது. இந்த அமைப்புகள் வலுவானவை, ஆனால் அவை முட்டாள்தனமானவை அல்ல. AI எவ்வாறு ஓட்டைகளைப் பயன்படுத்திக் கொள்ள முடியும் என்பதை சீரமைத்தல் போலிக் காட்டுகிறது, காட்டுப்பகுதியில் அவர்களின் நடத்தையை நம்புவதை கடினமாக்குகிறது.

முன்னேறுதல்

AI மாதிரிகள் எவ்வாறு பயிற்றுவிக்கப்படுகின்றன என்பதை மறுபரிசீலனை செய்ய ஆராய்ச்சியாளர்கள் மற்றும் டெவலப்பர்கள் தேவை சீரமைப்பு போலியின் சவாலுக்கு. இதை அணுகுவதற்கான ஒரு வழி, வலுவூட்டல் கற்றலில் தங்கியிருப்பதைக் குறைப்பது மற்றும் AI அதன் செயல்களின் நெறிமுறை தாக்கங்களைப் புரிந்துகொள்ள உதவுவதில் அதிக கவனம் செலுத்துவது. சில நடத்தைகளுக்கு வெகுமதி அளிப்பதற்குப் பதிலாக, AI மனித மதிப்புகள் மீதான அதன் தேர்வுகளின் விளைவுகளை அடையாளம் காணவும் பரிசீலிக்கவும் பயிற்சியளிக்கப்பட வேண்டும். இது தொழில்நுட்ப தீர்வுகளை நெறிமுறை கட்டமைப்புகளுடன் இணைப்பதைக் குறிக்கும், AI அமைப்புகளை உருவாக்குவது, நாம் உண்மையிலேயே அக்கறை கொண்டவற்றுடன் ஒத்துப்போகிறது.

போன்ற முன்முயற்சிகளுடன் ஆந்த்ரோபிக் ஏற்கனவே இந்த திசையில் நடவடிக்கைகளை எடுத்துள்ளது மாதிரி சூழல் நெறிமுறை (MCP). இந்த ஓப்பன் சோர்ஸ் தரநிலையானது வெளிப்புற தரவுகளுடன் AI எவ்வாறு தொடர்பு கொள்கிறது என்பதை மேம்படுத்துவதை நோக்கமாகக் கொண்டுள்ளது, மேலும் கணினிகளை மேலும் அளவிடக்கூடியதாகவும் திறமையாகவும் ஆக்குகிறது. இந்த முயற்சிகள் ஒரு நம்பிக்கைக்குரிய தொடக்கமாகும், ஆனால் AI ஐ பாதுகாப்பானதாகவும் நம்பகமானதாகவும் மாற்றுவதற்கு இன்னும் நீண்ட தூரம் செல்ல வேண்டியுள்ளது.

அடிக்கோடு

சீரமைப்பு போலியானது AI சமூகத்திற்கு ஒரு எச்சரிக்கை அழைப்பு. AI மாதிரிகள் எவ்வாறு கற்றுக்கொள்கின்றன மற்றும் மாற்றியமைக்கின்றன என்பதில் மறைக்கப்பட்ட சிக்கல்களை இது வெளிப்படுத்துகிறது. அதற்கும் மேலாக, உண்மையிலேயே சீரமைக்கப்பட்ட AI அமைப்புகளை உருவாக்குவது ஒரு நீண்ட கால சவாலாகும், ஒரு தொழில்நுட்ப தீர்வை மட்டுமல்ல. வெளிப்படைத்தன்மை, நெறிமுறைகள் மற்றும் சிறந்த பயிற்சி முறைகள் ஆகியவற்றில் கவனம் செலுத்துவது பாதுகாப்பான AI ஐ நோக்கிச் செல்வதற்கு முக்கியமாகும்.

நம்பகமான AI ஐ உருவாக்குவது எளிதானது அல்ல, ஆனால் அது அவசியம். இதுபோன்ற ஆய்வுகள், நாம் உருவாக்கும் அமைப்புகளின் திறன் மற்றும் வரம்புகள் இரண்டையும் புரிந்து கொள்வதற்கு நம்மை நெருக்கமாகக் கொண்டு வருகின்றன. முன்னோக்கிச் செல்லும்போது, ​​இலக்கு தெளிவாக உள்ளது: சிறப்பாகச் செயல்படாமல், பொறுப்புடன் செயல்படும் AIஐ உருவாக்குங்கள்.

டாக்டர். தெஹ்சீன் ஜியா, இஸ்லாமாபாத்தில் உள்ள COMSATS பல்கலைக்கழகத்தில் ஒரு பணிக்கால இணைப் பேராசிரியராக உள்ளார், ஆஸ்திரியாவின் வியன்னா தொழில்நுட்ப பல்கலைக்கழகத்தில் AI இல் முனைவர் பட்டம் பெற்றவர். செயற்கை நுண்ணறிவு, இயந்திர கற்றல், தரவு அறிவியல் மற்றும் கணினி பார்வை ஆகியவற்றில் நிபுணத்துவம் பெற்ற அவர், புகழ்பெற்ற அறிவியல் இதழ்களில் வெளியீடுகளுடன் குறிப்பிடத்தக்க பங்களிப்பைச் செய்துள்ளார். டாக்டர். தெஹ்சீன் முதன்மை ஆய்வாளராகவும், AI ஆலோசகராகவும் பல்வேறு தொழில்துறை திட்டங்களை வழிநடத்தியுள்ளார்.