stub AI-аас үүссэн хэл шинжлэх ухааны уран зохиолыг бохирдуулж эхэлж байна - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Хиймэл оюун ухаанаас үүссэн хэл нь шинжлэх ухааны уран зохиолыг бохирдуулж эхэлж байна

mm
шинэчлэгдсэн on

Франц, Оросын судлаачид GPT-3 гэх мэт хиймэл оюун ухаанд суурилсан магадлалын текст үүсгэгчийг ашиглах нь "эрүүдэн шүүсэн хэл", байхгүй уран зохиолын ишлэл, түр зуурын, нэр хүндгүй дүрсийг дахин ашиглахыг урьд өмнө нэр хүндтэй сувгуудад нэвтрүүлж байгааг харуулсан судалгааг нийтэлжээ. шинжлэх ухааны шинэ уран зохиол хэвлэн нийтлэх.

Судлагдсан бүтээлүүд нь бодитой, системтэй судалгааны үр дүн гэж тодорхойлсон шинжлэх ухааны хувьд буруу эсвэл дахин давтагдах боломжгүй агуулгыг агуулж байгаа нь хамгийн санаа зовоож буй зүйл бөгөөд энэ нь генератив хэлний загваруудыг зөвхөн нийтлэлийн зохиогчдын англи хэлний хязгаарлагдмал ур чадварыг нэмэгдүүлэхэд ашиглаж байгааг харуулж байна. гэхдээ үнэн хэрэгтээ хүнд хэцүү ажлыг хийх (мөн байнга муу хийх).

The тайлан, нэртэй Эрүүдэн шүүсэн хэллэгүүд: Шинжлэх ухаанд гарч ирж буй эргэлзээтэй бичгийн хэв маяг, Тулузын Их Сургуулийн Компьютерийн Шинжлэх Ухааны тэнхимийн судлаачид болон Yandex-ийн судлаач, одоо Тель-Авивын Их Сургуульд ажиллаж байгаа Александр Магазинов нар эмхэтгэсэн.

Энэхүү судалгаа нь ялангуяа Elsevier сэтгүүлд хиймэл оюун ухаанаас үүдэлтэй утгагүй шинжлэх ухааны нийтлэлүүдийн өсөлтөд онцгой анхаарал хандуулдаг. Микропроцессор ба микросистем.

Өөр нэрээр

GPT-3 гэх мэт авторегрессив хэлний загварууд нь их хэмжээний өгөгдөл дээр бэлтгэгдсэн бөгөөд эх хэлийг хадгалахын сацуу байгалийн яриа, бичгийн хэв маягийг хуулбарлах чадвартай, тухайн хувь нэмэр оруулсан өгөгдлийг нэгтгэн хэллэг болгон хувиргах, нэгтгэн дүгнэх, нэгтгэх, тайлбарлах зориулалттай. сургалтын мэдээллийн зорилго.

Ийм тогтолцоо нь анхны өгөгдлийн шууд болон "шингээгдээгүй" регургитацийг санал болгосныхоо төлөө загвар сургалтын үе шатанд ихэвчлэн шийтгэгддэг тул тэд сайн тогтсон хэллэгүүд ч гэсэн ижил утгатай үг хайх нь гарцаагүй.

Судлаачдын олж илрүүлсэн хиймэл оюун ухаанаар бүтээгдсэн/тусламжтай шинжлэх ухааны илтгэлүүдэд машин сургалтын салбарт мэдэгдэж буй хэллэгүүдийн бүтээлч синониумыг оролдсон олон тооны амжилтгүй оролдлого багтсан болно.

гүн мэдрэлийн сүлжээ: 'мэдрэлийн гүн зохион байгуулалт
хиймэл мэдрэлийн сүлжээk: '(хуурамч | хуурамч) мэдрэлийн байгууллага'
гар утасны сүлжээ: "олон талт байгууллага'
сүлжээний халдлага: "байгууллага (отолт | дайралт)'
сүлжээний холболт: "байгууллагын холбоо"
Их мэдээлэл: "(асар их | асар их | асар их | асар их) мэдээлэл'
өгөгдлийн агуулах: 'мэдээлэл (хэлбэрийн өрөө | түгээлтийн төв)'
хиймэл оюун ухаан (AI): '(хуурамч | хүний ​​хийсэн) ухамсар'
өндөр гүйцэтгэлтэй тооцоолох: "элит дүр"
манан/манан/үүл тооцоолох: "манан манан"
график боловсруулах нэгж (GPU): 'зураг төсөл бэлтгэх нэгж'
Төв боловсруулах нэгж (CPU): "фокус бэлтгэх хэсэг"
ажлын урсгалын хөдөлгүүр: "ажлын процессын мотор"
царай таних: 'нүүрээр хүлээн зөвшөөрөх'
дуу хоолой таних: "ярилцааны хүлээн зөвшөөрөлт"
дундаж квадрат алдаа: 'дундаж квадрат (алдаа | бүдүүлэг алдаа)'
үнэмлэхүй алдаа гэсэн үг: ' гэсэн утгатай (шууд | дээд) (алдаа | бүдүүлэг алдаа)'
дуу чимээний дохио: '(хөдөлгөөн | далбаа | заагч | тэмдэг | дохио) руу (шуугиан | үймээн | шуугиан)'
глобал параметрүүд: "дэлхий даяарх параметрүүд"
санамсаргүй хандалт: '(дурын | ээлжит бус) нэвтрэх эрхийг авах'
санамсаргүй ой: '(дурын | жигд бус) (хар мод | модлог газар | өтгөн газар)'
санамсаргүй утга: '(дурын | ээлжит бус) хүндлэл'
шоргоолжны колони: 'газар доорх шавж (муж | аймаг | бүс | бүс | суурин)'
шоргоолжны колони: 'ground creepy crawly (муж | аймаг | бүс | бүс | суурин)'
Үлдсэн энерги: "амьдралын үлдэгдэл"
кинетик энерги: "моторын эрч хүч"
гэнэн Бэйс: '(итгэлтэй | гэмгүй | итгэмтгий) Бэйс'
хувийн дижитал туслах (PDA): "компьютержсэн хувь хүн"

2021 оны тавдугаар сард судлаачид асуусан Хэмжээ академик хайлтын систем нь энэ төрлийн зальтай, автоматжуулсан хэлийг хайж, "асар их мэдээлэл" гэх мэт хууль ёсны хэллэгүүдийг (энэ нь "том өгөгдөл"-ийн бүтэлгүй синоним биш харин хүчинтэй хэллэг) оруулахгүй байхыг анхаарна. Энэ үед тэд үүнийг ажиглав Микропроцессор ба микросистем буруу харьцсан үг хэллэгийн хамгийн олон тохиолдол гарсан.

Одоогийн байдлаар үүнийг хийх боломжтой хэвээр байна авах (архивын агшин зураг, 15/07/2021) "Гүн мэдрэлийн зохион байгуулалт" (өөрөөр хэлбэл "гүн мэдрэлийн сүлжээ") гэсэн утгагүй хэллэгийн талаархи хэд хэдэн шинжлэх ухааны баримт бичиг болон дээрх жагсаалтад багтсан бусад бүтээлүүд ижил төстэй үр дүнг өгдөг.

Dimensions-ээс "гүн мэдрэлийн зохион байгуулалт" ("гүн мэдрэлийн сүлжээ") хайлтын үр дүн. Эх сурвалж: https://app.dimensions.ai/

Dimensions-ээс "гүн мэдрэлийн зохион байгуулалт" ("гүн мэдрэлийн сүлжээ") хайлтын үр дүн. Эх сурвалж: https://app.dimensions.ai/

The Микропроцессорууд сэтгүүл нь 1976 онд үүсгэн байгуулагдаж, нэрээ өөрчилсөн Микропроцессор ба микросистем хоёр жилийн дараа.

Утгагүй хэлний өсөлт

Судлаачид 2018 оны 2021-р сараас 6 оны 8-р сарыг хамарсан үеийг судалж үзээд сүүлийн хоёр жил, ялангуяа сүүлийн XNUMX-XNUMX сарын хугацаанд ирүүлсэн материалуудын хэмжээ огцом өссөнийг ажиглав.

Корреляци эсвэл учир шалтгааны холбоо? Microprocessors and Microsystems сэтгүүлд илгээгчдийн тоо нэмэгдэж байгаа нь нэр хүндтэй мэт санагдах материалуудын "утгагүй" текст болон ижил утгатай үгсийн өсөлттэй давхцаж байгаа бололтой. Эх сурвалж: https://arxiv.org/pdf/2107.06751.pdf

Корреляци эсвэл учир шалтгааны холбоо? Microprocessors and Microsystems сэтгүүлд илгээгчдийн тоо нэмэгдэж байгаа нь нэр хүндтэй мэт санагдах материалуудын "утгагүй" текст болон ижил утгатай үгсийн өсөлттэй давхцаж байгаа бололтой. Эх сурвалж: https://arxiv.org/pdf/2107.06751.pdf

Хамтран ажиллагсдын цуглуулсан эцсийн өгөгдлийн багц нь Тулузын их сургуулийн Elsevier захиалгаар олж авсан 1,078 бүрэн хэмжээний өгүүллийг агуулдаг.

Хятадын шинжлэх ухааны нийтлэлийн редакцийн хяналт буурч байна

Тус баримт бичигт тэмдэглэсэн илтгэлүүдийг редакцийн үнэлгээнд өгөх хугацаа 2021 онд эрс богиносч, 40 хоногоос доошилно; 2021 оны XNUMX-р сараас эхлэн ажиглалт хийх стандарт хугацаа зургаа дахин буурсан байна.

Дарцагласан илтгэлүүдийн ихэнх нь эх газрын Хятадад харьяалагддаг зохиолчдоос гаралтай: 404-аас доош хоногийн дотор хүлээн авсан 30 нийтлэлийн 97.5% нь Хятадтай холбоотой байна. Эсрэгээр, редакцийн үйл явц 40 хоногоос хэтэрсэн тохиолдолд (615 нийтлэл) Хятадтай холбоотой материалууд энэ ангиллын ердөө 9.5% -ийг эзэлж байсан нь арав дахин тэнцвэргүй байдал юм.

Тус тайланд дарцагласан нийтлэлүүд нэвтэрч байгаа нь редакцийн үйл явц дахь дутагдалтай холбоотой бөгөөд өргөн мэдүүлгийн тоо нэмэгдэж байгаа тул нөөцийн хомсдолтой холбоотой гэж үздэг.

Судлаачдын таамаглаж буйгаар GPT маягийн generative загварууд болон ижил төрлийн хэл үүсгэх хүрээнүүд нь дарцагласан нийтлэлийн ихэнх текстийг бүтээхэд ашигласан; Гэсэн хэдий ч үүсгэгч загвар нь эх сурвалжаа хийсвэрлэдэг арга нь үүнийг нотлоход хэцүү болгодог бөгөөд гол нотолгоо нь ядуу, шаардлагагүй синонимуудын нийтлэг ойлголтыг үнэлэх, мэдүүлгийн логик уялдаа холбоог нягт нямбай шалгах явдал юм.

Энэхүү дэмий хоосон үерт хувь нэмрээ оруулсан гэж үзэж буй үүсгүүрийн хэлний загварууд нь зөвхөн асуудалтай бичвэрүүдийг бий болгоод зогсохгүй, судлаачдын өөрсдийн хийсэн шиг тэдгээрийг таньж, системтэйгээр тэмдэглэж чаддаг болохыг судлаачид ажиглаж байна. гараар. Энэхүү ажил нь GPT-2-ыг ашиглан ийм хэрэгжилтийн талаар дэлгэрэнгүй тайлбарласан бөгөөд асуудалтай шинжлэх ухааны материалыг тодорхойлох ирээдүйн системүүдийн хүрээг санал болгодог.

"Бохирдсон" нийтлэлийн тохиолдол Elsevier сэтгүүлд бусад судлагдсан сэтгүүлтэй харьцуулахад (хамгийн ихдээ 72.1%) хамаагүй өндөр (13.6%) байна.

Зөвхөн семантик биш

Эрдэмтэд энэ сэтгүүлүүдийн ихэнх нь буруу хэллэг ашиглаад зогсохгүй шинжлэх ухааны үндэслэлтэй алдаатай мэдэгдлүүд агуулагдаж байгаа нь генерацийн хэлний загварыг зөвхөн хувь нэмрээ оруулж буй эрдэмтдийн хэл ярианы хязгаарлагдмал ур чадварыг сайжруулахад ашиглаад зогсохгүй, бодитойгоор ашиглах боломжтойг харуулж байна гэдгийг судлаачид онцолж байна. цаасан дээрх үндсэн теоремууд болон өгөгдлүүдийн наад зах нь заримыг томъёолоход ашигладаг.

Бусад тохиолдолд судлаачид эрдэм шинжилгээний судалгааны соёлыг "хэвлэн нийтлэх эсвэл мөхөх"-ийн дарамтыг даван туулахын тулд хийсвэрлэсэн (болон дээд зэргийн) өмнөх ажлыг үр дүнтэй "дахин нэгтгэх" эсвэл "эрхэх" -ийг санал болгож, улмаар дэлхийн судалгааны үндэсний зэрэглэлийг сайжруулах боломжтой байдаг. асар их хэмжээгээр хиймэл оюун ухааны судалгаанд нэр хүндтэй.

Илгээсэн нийтлэл дэх утгагүй агуулга. Энэ тохиолдолд судлаачид уг текстийг EDN-ийн нийтлэлээс тусгайлан авсан бөгөөд эндээс хавсаргасан дүрслэлийг ямар ч хамааралгүйгээр хулгайлсан болохыг тогтоожээ. Анхны агуулгыг дахин бичих нь утгагүй болгохын тулд хэт туйлширч байна.

Илгээсэн нийтлэл дэх утгагүй агуулга. Энэ тохиолдолд судлаачид уг текстийг an-аас тусгайлан авсан болохыг олж тогтоосон EDN нийтлэл, эндээс дагалдах дүрслэлийг мөн хамааралгүйгээр хулгайлсан байна. Анхны агуулгыг дахин бичих нь утгагүй болгохын тулд хэт туйлширч байна.

Илгээсэн хэд хэдэн Elsevier баримт бичигт дүн шинжилгээ хийж, судлаачид ямар ч утга санааг гаргаж чадаагүй өгүүлбэрүүдийг олсон; байхгүй уран зохиолын лавлагаа; Туслах материалд бодитоор тусгагдаагүй томъёон дахь хувьсагч ба теоремуудын лавлагаа (хэл дээр суурилсан хийсвэрлэлийг санал болгох, эсвэл 'хий үзэгдэл' бодитой мэт өгөгдлийн); мөн эх сурвалжийг нь хүлээн зөвшөөрөхгүйгээр зургийг дахин ашиглах (судлаачид үүнийг зохиогчийн эрхийн үүднээс шүүмжилдэггүй, харин шинжлэх ухааны үндэслэл хангалтгүй байгааг илтгэж байна).

Эшлэлийн алдаа

Шинжлэх ухааны нийтлэл дэх аргументуудыг дэмжих зорилготой ишлэлүүд нь дарцагласан жишээнүүдийн ихэнх нь "эвдэрсэн эсвэл холбоогүй хэвлэлд хүргэсэн" гэж олдсон.

Нэмж дурдахад, "холбогдох ажил" -ын тухай лавлагаа нь ихэвчлэн GPT маягийн системээр "хийсэн" гэж судлаачид үздэг зохиолчдыг багтаасан байдаг.

Тэнэмэл анхаарал

GPT-3 гэх мэт орчин үеийн хэлний загваруудын бас нэг дутагдал нь урт ярианы явцад анхаарлаа төвлөрүүлэх хандлага юм. Судлаачид тэмдэглэгээтэй нийтлэлүүд нь нийтлэлийн эхэн үед сэдвийг авчирдаг бөгөөд энэ сэдвийг анхан шатны тэмдэглэлд эсвэл өөр газар тайлбарласны дараа хэзээ ч эргэж ирдэггүй болохыг тогтоожээ.

Тэд мөн хамгийн муу жишээнүүдийн зарим нь орчуулгын хөдөлгүүрээр дамжуулан эх бичвэрийг олон удаа аялах замаар гарч ирдэг бөгөөд тус бүр нь утгыг улам гажуудуулдаг гэж онолдог.

Эх сурвалж, шалтгаан

Энэхүү үзэгдлийн ард юу байгааг олж мэдэхийг оролдохдоо нийтлэлийн зохиогчид хэд хэдэн боломжуудыг санал болгож байна: тэр агуулга нь цаасны үйлдвэрүүд эх сурвалж материал болгон ашиглаж байгаа нь үйл явцын эхэн үед алдаа гаргаж, цаашид алдаа гаргах нь гарцаагүй; Spinbot зэрэг нийтлэл ээрэх хэрэгслийг хулгайн гэмт хэргийг далдлах зорилгоор ашиглаж байгаа; тогтмол хэвлэн нийтлэх асар их дарамт нь нөөц хомс судлаачдыг GPT-3 маягийн системийг ашиглан шинэ эрдэм шинжилгээний өгүүллийг нэмэгдүүлэх эсвэл бүрмөсөн гаргахад хүргэж байна.

Судлаачид эрдэм шинжилгээний хэвлэлийн салбарт илүү их хяналт тавьж, стандартыг сайжруулахыг уриалж байгаа бөгөөд энэ нь өөрийн сэдэв болох машин сургалтын системд тэжээл болж байгааг харуулж байна. Тэд мөн Elsevier болон бусад хэвлэн нийтлэгчдийг илүү нарийн шалгах, хянах журмыг нэвтрүүлэхийг уриалж, энэ талаархи одоогийн стандарт, практикийг өргөнөөр шүүмжилж, "Синтетик текстээр хууран мэхлэх нь шинжлэх ухааны уран зохиолын бүрэн бүтэн байдалд заналхийлж байна.'