stub MIT-ийн судлаачид чатботын аюулгүй байдлын туршилтыг сайжруулахын тулд сониуч зангаар суурилсан хиймэл оюун ухааны загварыг боловсруулжээ - Unite.AI
бидэнтэй хамт холбоно

Ёс зүйн

MIT-ийн судлаачид чатботын аюулгүй байдлын туршилтыг сайжруулахын тулд сониуч зангаар удирддаг хиймэл оюун ухааны загварыг боловсруулжээ.

Нийтэлсэн

 on

Сүүлийн жилүүдэд, том хэлний загварууд (LLMs) болон AI чатботууд технологитой харьцах арга барилаа өөрчилсөн нь гайхалтай дэлгэрч байна. Эдгээр боловсронгуй системүүд нь хүнтэй төстэй хариултуудыг үүсгэж, янз бүрийн даалгаварт тусалж, үнэ цэнэтэй ойлголтыг өгдөг.

Гэсэн хэдий ч эдгээр загварууд улам боловсронгуй болохын хэрээр тэдгээрийн аюулгүй байдал, хортой контент үүсгэх боломжийн талаархи санаа зовниж байна. AI chatbots-ийн хариуцлагатай хэрэглээг хангахын тулд сайтар туршиж, хамгаалах арга хэмжээ авах шаардлагатай.

Одоогийн чатботын аюулгүй байдлын туршилтын аргуудын хязгаарлалт

Одоогийн байдлаар хиймэл оюун ухаантай чатботуудын аюулгүй байдлыг шалгах үндсэн арга бол улаан баг гэж нэрлэгддэг процесс юм. Энэ нь хүний ​​тестерүүд чатботоос аюултай эсвэл хортой хариу үйлдэл үзүүлэх зорилготой зааварчилгааг боловсруулах явдал юм. Загварыг өргөн хүрээний асуудал үүсгэж болзошгүй оруулгад оруулснаар хөгжүүлэгчид аливаа эмзэг байдал эсвэл хүсээгүй зан үйлийг тодорхойлж, арилгахыг зорьдог. Гэсэн хэдий ч хүнээс удирддаг энэхүү арга нь өөрийн гэсэн хязгаарлалттай байдаг.

Хэрэглэгчийн оролтын өргөн боломжуудыг харгалзан хүн шалгагч бүх боломжит хувилбаруудыг хамрах нь бараг боломжгүй юм. Өргөн цар хүрээтэй туршилт хийсэн ч гэсэн ашигласан сануулгууд нь цоорхой байж болзошгүй тул чатбот шинэ эсвэл гэнэтийн оролттой тулгарах үед аюултай хариу үйлдэл үзүүлэхэд эмзэг болгодог. Түүгээр ч зогсохгүй, улаан багаар ажиллах гарын авлагын шинж чанар нь үүнийг цаг хугацаа, нөөц их шаарддаг үйл явц болгодог, ялангуяа хэлний загварууд хэмжээ, нарийн төвөгтэй байдал нь нэмэгдсээр байгаа тул.

Эдгээр хязгаарлалтыг арилгахын тулд судлаачид чатбот аюулгүй байдлын туршилтын үр ашиг, үр нөлөөг нэмэгдүүлэхийн тулд автоматжуулалт, машин сургалтын арга техникт хандсан. AI-ийн хүч чадлыг ашигласнаар тэд том хэлний загвартай холбоотой болзошгүй эрсдлийг тодорхойлох, бууруулах илүү өргөн хүрээтэй, өргөжүүлэх боломжтой аргуудыг боловсруулахыг зорьж байна.

Сониуч зангаар удирдуулсан машин сурах арга нь Улаан-багаар ажиллах

MIT болон MIT-IBM Watson AI Lab-ийн судлаачид хиймэл оюун ухааны боломжгүй шинэлэг хандлага машин сургалтыг ашиглан улаан багийн үйл явцыг сайжруулах. Тэдний арга нь шалгагдаж буй чатботоос илүү өргөн хүрээний хүсээгүй хариуг өдөөж болох янз бүрийн сануулгыг автоматаар үүсгэхийн тулд тусдаа улаан багийн том хэлний загварыг сургах явдал юм.

Энэхүү аргын гол түлхүүр нь улаан багийн загварт сониуч байдлын мэдрэмжийг бий болгох явдал юм. Загварыг шинэ сорилтуудыг судалж, хорт хариу урвал үүсгэдэг орцуудыг бий болгоход анхаарлаа төвлөрүүлснээр судлаачид боломжит эмзэг байдлын өргөн хүрээг илрүүлэхийг зорьж байна. Энэхүү сониуч занганд тулгуурласан эрэл хайгуул нь сургалтын бататгах арга техник болон өөрчлөгдсөн урамшууллын дохионы хослолоор хийгддэг.

Сонирхолтой загвар нь энтропийн урамшууллыг агуулдаг бөгөөд энэ нь улаан багийн загварыг илүү санамсаргүй, олон янзын сануулгыг бий болгоход урамшуулдаг. Нэмж дурдахад шинэлэг урамшууллыг танилцуулж, загварыг өмнө нь үүсгэгдсэнээс утга санаа, үг хэллэгийн хувьд ялгаатай сануулгыг бий болгоход урамшуулдаг. Шинэлэг байдал, олон талт байдлыг эрэмбэлэх замаар уг загвар нь тодорхойлогдоогүй газар нутгийг судалж, далд эрсдэлийг илрүүлэхэд түлхэц болно.

Үүсгэсэн сануулгууд нь уялдаатай, байгалийн шинж чанартай хэвээр байхын тулд судлаачид сургалтын зорилгодоо хэлний урамшууллыг багтаасан болно. Энэхүү урамшуулал нь улаан багийн загвар нь хоруу чанарын ангилагчийг хууран мэхэлж, өндөр оноо өгөх утгагүй эсвэл хамааралгүй текст үүсгэхээс сэргийлэхэд тусалдаг.

Сонирхолтой арга барил нь хүний ​​шалгагч болон бусад автоматжуулсан аргуудын аль алиныг нь давж гарах гайхалтай амжилтыг харуулсан. Энэ нь илүү олон төрлийн тодорхой сануулгыг үүсгэж, туршиж буй чатботуудаас улам бүр хортой хариу үйлдэл үзүүлдэг. Энэхүү арга нь хүний ​​зохион бүтээсэн өргөн хүрээний хамгаалалтад хамрагдсан чатботуудын эмзэг байдлыг илрүүлж, болзошгүй эрсдлийг илрүүлэхэд үр дүнтэй болохыг онцлон тэмдэглэсэн нь анхаарал татаж байна.

AI-ийн аюулгүй байдлын ирээдүйд үзүүлэх нөлөө

Сонирхолтой улаан багийг хөгжүүлэх нь том хэлний загварууд болон хиймэл оюун ухааны чатботуудын аюулгүй байдал, найдвартай байдлыг хангахад чухал алхам болж байна. Эдгээр загварууд улам бүр хөгжиж, бидний өдөр тутмын амьдралд илүү нийцэж байгаа тул тэдний хурдацтай хөгжлийг дагаж чадах хүчирхэг туршилтын аргуудтай байх нь маш чухал юм.

Сонирхолтой хандлага нь AI загварт чанарын баталгаажуулалт хийх илүү хурдан бөгөөд үр дүнтэй аргыг санал болгодог. Төрөл бүрийн, шинэхэн сануулгыг автоматжуулснаар энэ арга нь тест хийхэд шаардагдах цаг хугацаа, нөөцийг эрс багасгахын зэрэгцээ болзошгүй эмзэг байдлын хамрах хүрээг сайжруулж чадна. Энэхүү өргөтгөх чадвар нь загварууд байнга шинэчлэгдэж, дахин туршилт хийх шаардлагатай болдог хурдацтай өөрчлөгдөж буй орчинд онцгой ач холбогдолтой юм.

Түүнчлэн, сониуч зан үйлд суурилсан арга нь аюулгүй байдлын туршилтын үйл явцыг өөрчлөх шинэ боломжийг нээж өгдөг. Жишээлбэл, том хэлний загварыг хордлогын ангилагч болгон ашигласнаар хөгжүүлэгчид компанид зориулсан бодлогын баримт бичгүүдийг ашиглан ангилагчийг сургаж болно. Энэ нь улаан багийн загварт чатботуудыг байгууллагын тодорхой удирдамжид нийцэж байгаа эсэхийг шалгах боломжийг олгож, илүү өндөр түвшний тохируулга, хамаарлыг хангах болно.

Хиймэл оюун ухаан тасралтгүй хөгжихийн хэрээр AI системийг аюулгүй болгоход сониуч зангаар удирдуулсан улаан багаар ажиллахын ач холбогдлыг үнэлж баршгүй. Болзошгүй эрсдэлийг идэвхтэй илрүүлж, шийдвэрлэх замаар энэхүү арга нь янз бүрийн домэйнд найдвартай байршуулж болох илүү найдвартай, найдвартай хиймэл оюун ухааны чатботуудыг хөгжүүлэхэд хувь нэмэр оруулдаг.

Алекс Макфарланд бол хиймэл оюун ухааны хамгийн сүүлийн үеийн хөгжлийг судалж буй хиймэл оюун ухааны сэтгүүлч, зохиолч юм. Тэрээр дэлхий даяарх олон тооны хиймэл оюун ухааны стартапууд болон хэвлэлүүдтэй хамтран ажилласан.