AI 101

Синтетик өгөгдөл гэж юу вэ?

шинэчлэгдсэн on Арванхоёрдугаар сар 9, 2022

Синтетик өгөгдөл гэж юу вэ?

Синтетик өгөгдөл нь мэдээллийн шинжлэх ухааны салбарт хурдан хөгжиж буй чиг хандлага, шинээр гарч ирж буй хэрэгсэл юм. Синтетик өгөгдөл гэж юу вэ? Богино хариулт бол синтетик өгөгдөл нь үүнээс бүрдэнэ бодит ертөнцийн аливаа үзэгдэл, үйл явдалд үндэслээгүй өгөгдөл, харин үүнийг компьютерийн програмаар үүсгэсэн. Дата шинжлэх ухаанд синтетик өгөгдөл яагаад ийм чухал болж байна вэ? Синтетик өгөгдөл хэрхэн үүсдэг вэ? Эдгээр асуултын хариултыг судалж үзье.

Синтетик мэдээллийн багц гэж юу вэ?

"Синтетик" гэсэн нэр томъёоноос харахад синтетик өгөгдлийн багц нь бодит ертөнцийн үйл явдлуудыг баримтжуулах замаар зохиохын оронд компьютерийн программуудаар үүсгэгддэг. Синтетик өгөгдлийн багцын гол зорилго нь машин сургалтын загваруудыг сургахад хэрэг болохуйц олон талт, бат бөх байх явдал юм.

Машин сургалтын ангилагчд хэрэгтэй байхын тулд синтетик өгөгдөл тодорхой шинж чанартай байх ёстой. Өгөгдөл нь ангилсан, хоёртын эсвэл тоон байж болох ч өгөгдлийн багцын урт нь дур зоргоороо байх ёстой бөгөөд өгөгдлийг санамсаргүй байдлаар үүсгэх ёстой. Өгөгдөл үүсгэхэд ашигладаг санамсаргүй процессууд нь хяналттай байх ёстой бөгөөд янз бүрийн статистикийн тархалтад үндэслэсэн байх ёстой. Өгөгдлийн багцад санамсаргүй дуу чимээг байрлуулж болно.

Синтетик өгөгдлийг ангиллын алгоритмд ашиглаж байгаа бол ангиллын асуудлыг тухайн асуудлын шаардлагын дагуу хялбар эсвэл хүндрүүлэхийн тулд анги тусгаарлах хэмжээг өөрчлөх боломжтой. Үүний зэрэгцээ, регрессийн даалгаврын хувьд өгөгдөл үүсгэхийн тулд шугаман бус үүсгэгч процессуудыг ашиглаж болно.

Яагаад синтетик өгөгдлийг ашиглах хэрэгтэй вэ?

TensorfFlow, PyTorch зэрэг машин сургалтын тогтолцоог ашиглахад хялбар болж, компьютерийн хараа болон байгалийн хэлээр боловсруулахад зориулж урьдчилан боловсруулсан загварууд илүү өргөн тархсан, хүчирхэг болж байгаа тул өгөгдлийн эрдэмтдийн тулгарах ёстой гол асуудал бол өгөгдөл цуглуулах, боловсруулах явдал юм. Компаниуд өгөгдсөн хугацаанд үнэн зөв загвар гаргахын тулд их хэмжээний өгөгдөл олж авахад бэрхшээлтэй тулгардаг. Өгөгдлийг гараар шошголох нь мэдээлэл олж авах зардал ихтэй, удаан арга юм. Гэсэн хэдий ч синтетик өгөгдлийг үүсгэж, ашиглах нь өгөгдөл судлаачид болон компаниудад эдгээр саад бэрхшээлийг даван туулж, найдвартай машин сургалтын загваруудыг илүү хурдан боловсруулахад тусална.

Синтетик өгөгдлийг ашиглах нь хэд хэдэн давуу талтай. Синтетик өгөгдлийг ашиглах нь өгөгдлийн шинжлэх ухаанд ашиг тусаа өгөх хамгийн ойлгомжтой арга бол бодит ертөнцийн үйл явдлуудаас мэдээлэл авах хэрэгцээг багасгаж, иймээс хамааралтай өгөгдлийн багцаас хамаагүй хурдан өгөгдөл үүсгэж, өгөгдлийн багц бүтээх боломжтой болдог. бодит ертөнцийн үйл явдлууд. Энэ нь богино хугацаанд их хэмжээний өгөгдөл гаргах боломжтой гэсэн үг юм. Энэ нь ялангуяа ховор тохиолддог үйл явдлуудын хувьд үнэн юм, учир нь зэрлэг байгальд үйл явдал ховор тохиолддог шиг зарим жинхэнэ өгөгдлийн дээжээс илүү их өгөгдлийг шоолж болно. Үүнээс гадна өгөгдлийг үүсгэх үед автоматаар шошголох боломжтой бөгөөд энэ нь өгөгдлийг шошголоход шаардагдах хугацааг эрс багасгадаг.

Синтетик өгөгдөл нь ховор тохиолдох боловч таны хиймэл оюун ухааны амжилтанд чухал ач холбогдолтой тохиолдлууд болох захын тохиолдлуудын сургалтын өгөгдлийг олж авахад ашигтай байж болно. Edge case нь хиймэл оюун ухааны үндсэн зорилттой маш төстэй боловч чухал байдлаараа ялгаатай үйл явдлууд юм. Жишээлбэл, зөвхөн хэсэгчлэн харагдах объектуудыг дүрс ангилагчийг зохион бүтээхдээ захын тохиолдол гэж үзэж болно.

Эцэст нь, синтетик мэдээллийн багц нууцлалын асуудлыг багасгах боломжтой. Мэдрэгч/тодорхойлох хувьсагчдыг өгөгдлийн багцаас хассан ч бусад хувьсагчдыг нэгтгэх үед танигч болж чаддаг тул өгөгдлийг нэргүй болгох оролдлого нь үр дүнгүй байж болно. Энэ нь нийлэг өгөгдөлтэй холбоотой асуудал биш, учир нь энэ нь хэзээ ч бодит хүн эсвэл бодит үйл явдал дээр үндэслэгдээгүй юм.

Синтетик өгөгдөлд зориулж кейс ашигладаг

Синтетик өгөгдөл нь маш олон янз байдаг хэрэглээ, учир нь энэ нь бараг ямар ч машин сурах даалгаварт хэрэглэгдэх боломжтой. Нийтлэг хэрэглээний тохиолдол синтетик өгөгдлийн хувьд өөрөө жолооддог тээврийн хэрэгсэл, аюулгүй байдал, робот техник, залилангийн хамгаалалт, эрүүл мэндийн үйлчилгээ орно.

Синтетик өгөгдлийг ашиглах анхны тохиолдлуудын нэг нь өөрөө жолооддог машинууд байсан, учир нь нийлэг өгөгдөл нь бодит, зам дээрх сургалтын мэдээллийг олж авахад хэцүү эсвэл аюултай нөхцөлд автомашины сургалтын өгөгдлийг бий болгоход ашиглагддаг. Синтетик өгөгдөл нь тандалтын систем гэх мэт дүрс таних системийг сургахад ашигладаг өгөгдлийг бий болгоход хэрэгтэй бөгөөд энэ нь сургалтын олон тооны өгөгдлийг гараар цуглуулж, шошголохоос хамаагүй илүү үр дүнтэй байдаг. Роботын систем нь уламжлалт өгөгдөл цуглуулах, сургалтын аргуудыг ашиглан сургах, хөгжүүлэхэд удаан байж болно. Синтетик өгөгдөл нь роботын компаниудад загварчлалаар роботын системийг турших, инженерчлэх боломжийг олгодог. Залилангаас хамгаалах системүүд нь нийлэг өгөгдлөөс ашиг тус хүртэх боломжтой бөгөөд нийлэг өгөгдөл ашиглах үед луйврыг илрүүлэх шинэ аргуудыг сургаж, байнга шинэ байдаг өгөгдлөөр турших боломжтой. Эрүүл мэндийн салбарт синтетик өгөгдлийг ашиглан эрүүл мэндийн ангилагчийг үнэн зөв, гэхдээ хүмүүсийн нууцлалыг хадгалах боломжтой, учир нь өгөгдөл нь бодит хүмүүст үндэслэгдэхгүй.

Синтетик мэдээллийн сорилтууд

Синтетик өгөгдлийг ашиглах нь олон давуу талыг авчирдаг ч олон бэрхшээлийг дагуулдаг.

Синтетик өгөгдөл үүсгэх үед энэ нь ихэвчлэн хэт давчуу мэдээлэлгүй байдаг. Өгөгдөл нь байгалийн жамаар гарч ирдэг бөгөөд сургалтын өгөгдлийн багцаас ихэвчлэн хасагддаг ч үнэхээр найдвартай машин сургалтын загваруудыг сургахад тэдгээр нь зайлшгүй шаардлагатай байж болох юм. Үүнээс гадна синтетик өгөгдлийн чанар нь маш олон янз байж болно. Синтетик өгөгдөл нь ихэвчлэн оролт эсвэл үрийн өгөгдлөөр үүсгэгддэг тул өгөгдлийн чанар нь оролтын өгөгдлийн чанараас хамаардаг. Хэрэв синтетик өгөгдлийг үүсгэхэд ашигласан өгөгдөл нь хэвийсэн байвал үүсгэсэн өгөгдөл нь энэ хэвийх байдлыг үргэлжлүүлж болно. Синтетик өгөгдөл нь гаралт/чанарын хяналтын зарим хэлбэрийг шаарддаг. Үүнийг хүний тайлбартай өгөгдөлтэй харьцуулах шаардлагатай, эс тэгвээс жинхэнэ өгөгдөл нь ямар нэгэн хэлбэр юм.

Синтетик өгөгдлийг хэрхэн бүтээдэг вэ?

Синтетик өгөгдлийг машин сургалтын техникээр программчлан бүтээдэг. Шийдвэрлэх мод гэх мэт сонгодог машин сургалтын аргуудыг ашиглаж болно. гүнзгий суралцах арга техникүүдтэй адил. Синтетик өгөгдөлд тавигдах шаардлага нь өгөгдлийг үүсгэхийн тулд ямар төрлийн алгоритм ашиглахад нөлөөлнө. Шийдвэрийн мод болон ижил төстэй машин сургалтын загварууд нь компаниудад бодит өгөгдлийн жишээн дээр бэлтгэгдсэн сонгодог бус, олон төрлийн өгөгдлийн хуваарилалтыг бий болгох боломжийг олгодог. Эдгээр алгоритмуудыг ашиглан өгөгдөл үүсгэх нь сургалтын анхны өгөгдөлтэй маш их хамааралтай өгөгдлийг өгөх болно. Өгөгдлийн ердийн тархалт мэдэгдэж байгаа тохиолдолд компани Монте Карло аргыг ашиглан синтетик өгөгдлийг үүсгэж болно.

Синтетик өгөгдөл үүсгэх гүнзгий суралцахад суурилсан аргууд нь ихэвчлэн аль алиныг нь ашигладаг вариацын автомат кодлогч (VAE) or үүсгэгч өрсөлдөгчийн сүлжээ (GAN). VAE нь кодлогч болон декодлогчийг ашигладаг хяналтгүй машин сургалтын загварууд юм. VAE-ийн кодлогч хэсэг нь өгөгдлийг анхны өгөгдлийн багцын илүү энгийн, авсаархан хувилбар болгон шахах үүрэгтэй бөгөөд декодлогч нь дүн шинжилгээ хийж, үндсэн өгөгдлийн дүрслэлийг бий болгоход ашигладаг. VAE нь оролтын өгөгдөл болон гаралтын өгөгдөл хоёулаа маш төстэй байдаг оролтын өгөгдөл ба гаралтын хооронд оновчтой харилцаа тогтоох зорилготойгоор бэлтгэгддэг.

GAN загваруудын тухайд GAN нь үнэндээ хоорондоо өрсөлддөг хоёр сүлжээ байдаг тул тэдгээрийг "сөргөлдөөн" гэж нэрлэдэг. Генератор нь нийлэг өгөгдөл үүсгэх үүрэгтэй бол хоёр дахь сүлжээ (дискриминатор) нь үүсгэсэн өгөгдлийг бодит мэдээллийн багцтай харьцуулах замаар ажиллаж, аль өгөгдөл нь хуурамч болохыг тодорхойлохыг оролддог. Ялгаварлагч хуурамч өгөгдөл барих үед генератор энэ тухай мэдэгдэж, ялгаварлагчийн шинэ багц өгөгдлийг авахын тулд өөрчлөлт оруулдаг. Хариуд нь ялгаварлагч нь хуурамч зүйлийг илрүүлэхдээ улам сайжирч байна. Хоёр сүлжээ бие биенийхээ эсрэг бэлтгэгдсэн бөгөөд хуурамч зүйл байнга илүү бодит мэт болж байна.

Холбогдох сэдвүүд:мэдээ өгөгдөл үүсгэх синтетик өгөгдөл сургалтын өгөгдөл

Дараа хүртэл

Udacity нь UiPath-тай хамтран RPA Developer Nanodegree хөтөлбөрийг эхлүүлсэн

Бүү саад бол

Бие даасан молекулуудыг хөдөлгөх чадвартай хиймэл оюун ухааны систем

Даниел Нельсон

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.

Unite.AI

Синтетик өгөгдөл гэж юу вэ?

AI 101

Синтетик өгөгдөл гэж юу вэ?

Агуулгын хүснэгт

Синтетик өгөгдөл гэж юу вэ?

Синтетик мэдээллийн багц гэж юу вэ?

Яагаад синтетик өгөгдлийг ашиглах хэрэгтэй вэ?

Синтетик өгөгдөлд зориулж кейс ашигладаг

Синтетик мэдээллийн сорилтууд

Синтетик өгөгдлийг хэрхэн бүтээдэг вэ?

Сүүлийн бичлэг

Unite.AI

Синтетик өгөгдөл гэж юу вэ?

Агуулгын хүснэгт

Синтетик өгөгдөл гэж юу вэ?

Синтетик мэдээллийн багц гэж юу вэ?

Яагаад синтетик өгөгдлийг ашиглах хэрэгтэй вэ?

Синтетик өгөгдөлд зориулж кейс ашигладаг

Синтетик мэдээллийн сорилтууд

Синтетик өгөгдлийг хэрхэн бүтээдэг вэ?

Та хүсч болно

Сүүлийн бичлэг