Хиймэл оюун

Жемма: Google Нээлттэй эх сурвалжаар дамжуулан хиймэл оюун ухааны дэвшилтэт чадавхийг авчирч байна

Нийтэлсэн

3 өдрийн өмнө

Хоёрдугаар сарын 29, 2024

Сүүлийн жилүүдэд хиймэл оюун ухааны салбар (AI) асар их ахиц дэвшил гарсан бөгөөд үүнд голчлон технологийн дэвшил нөлөөлсөн. гүн гүнзгий суралцах болон байгалийн хэл боловсруулах (NLP). Эдгээр дэвшлийн тэргүүн эгнээнд хэлний том загварууд (LLMs) – Хүнтэй төстэй текст үүсгэж, харилцан ярианы ажлыг гүйцэтгэх боломжтой асар их хэмжээний текст өгөгдөл дээр сургагдсан хиймэл оюун ухааны системүүд.

Google-ийн PaLM, Anthropic's Claude, DeepMind's Gopher зэрэг LLM-ууд код бичихээс эхлээд эрүүл ухаанаар сэтгэх хүртэл гайхалтай чадварыг харуулсан. Гэсэн хэдий ч эдгээр загваруудын ихэнх нь нээлттэйгээр гараагүй тул судалгаа, боловсруулалт, ашигтай хэрэглээнд нэвтрэх боломжийг хязгаарладаг.

Google-ийн DeepMind-ийн хүчирхэг Gemini загварууд дээр суурилсан LLM-ийн гэр бүл болох Gemma-г саяхан нээлттэй эх сурвалж болгосноор энэ нь өөрчлөгдсөн. Энэ блог нийтлэлд бид Жеммагийн архитектур, сургалтын үйл явц, гүйцэтгэл, хариуцлагатай хувилбарт дүн шинжилгээ хийх болно.

Жеммагийн тойм

2023 оны хоёрдугаар сард DeepMind нээлттэй эх сурвалж Gemma загваруудын хоёр хэмжээ – төхөөрөмж дээр байрлуулахад оновчтой болгосон 2 тэрбум параметрийн хувилбар ба GPU/TPU хэрэглээнд зориулагдсан 7 тэрбум том параметрийн хувилбар.

Gemma нь DeepMind-ийн тэргүүлэгч Gemini загваруудтай ижил төстэй трансформаторт суурилсан архитектур, сургалтын арга зүйг ашигладаг. Энэ нь вэб баримт бичиг, математик, кодын 6 их наяд хүртэлх текст дээр сургагдсан.

DeepMind нь Gemma-ийн урьдчилан бэлтгэгдсэн шалган нэвтрүүлэх цэгүүд болон харилцан яриа, зааварчилгаа дагах, кодлох зэрэг салбарт чадавхийг сайжруулах үүднээс хяналттай суралцах, хүний санал хүсэлтээр нарийн тохируулсан хувилбаруудыг гаргасан.

Жемма-г эхлүүлж байна

Жеммагийн нээлттэй хувилбар нь хиймэл оюун ухааны дэвшилтэт чадамжийг хөгжүүлэгчид, судлаачид болон сонирхогчдод хүртээмжтэй болгодог. Эхлэх хурдан гарын авлага энд байна:

Агностик платформ байршуулалт

Gemma-ийн гол давуу тал бол уян хатан чанар юм - та үүнийг CPU, GPU эсвэл TPU дээр ажиллуулж болно. CPU-ийн хувьд TensorFlow Lite эсвэл HuggingFace Transformers-ийг ашиглана уу. GPU/TPU дээр хурдасгасан гүйцэтгэлийн хувьд TensorFlow ашиглана уу. Google Cloud-ийн Vertex AI гэх мэт үүлэн үйлчилгээнүүд нь мөн адил масштабтай болгодог.

Урьдчилан бэлтгэгдсэн загварт нэвтрэх

Gemma нь таны хэрэгцээ шаардлагаас хамааран урьдчилан бэлтгэгдсэн янз бүрийн хувилбаруудтай. 2B болон 7B загварууд нь хайрцагнаас гарсан хүчирхэг бүтээх чадварыг санал болгодог. Захиалгат нарийн тааруулахын тулд 2B-FT болон 7B-FT загварууд нь хамгийн тохиромжтой эхлэл цэг юм.

Сонирхолтой хэрэглүүр бүтээгээрэй

Та Gemma-ийн тусламжтай өгүүллэг үүсгэх, хэлний орчуулга, асуултанд хариулах, бүтээлч контент бүтээх зэрэг олон төрлийн програмуудыг бүтээх боломжтой. Гол нь өөрийн өгөгдлийн багц дээр нарийн тааруулах замаар Жеммагийн давуу талыг ашиглах явдал юм.

архитектур

Жемма нь зөвхөн декодчилогчтой трансформаторын архитектурыг ашигладаг бөгөөд олон асуулгад анхаарал хандуулах, эргэлдэгч байрлалын суулгац зэрэг дэвшилтүүд дээр тулгуурладаг:

Трансформерууд: 2017 онд нэвтрүүлсэн, зөвхөн анхаарлын механизмд суурилсан трансформаторын бүтэц нь NLP-д хаа сайгүй түгээмэл болсон. Жемма нь трансформаторын урт хугацааны хамаарлыг бичвэрт загварчлах чадварыг өвлөн авсан.
Зөвхөн декодер: Gemma нь BART эсвэл T5 гэх мэт кодлогч-декодер загваруудаас ялгаатай нь зөвхөн трансформаторын декодерын стекийг ашигладаг. Энэ нь текст үүсгэх гэх мэт ажлуудад хүчирхэг үүсгэх чадварыг өгдөг.
Олон асуултын анхаарал: Жемма нь илүү том загвартаа олон асуултын анхаарлыг ашигладаг бөгөөд энэ нь анхаарлын толгой бүрт олон асуултыг зэрэгцүүлэн боловсруулах боломжийг олгодог.
Эргэдэг байрлалын суулгац: Жемма нь үнэмлэхүй байрлалын кодчилолын оронд эргэлдэгч шигтгээ ашиглан байрлалын мэдээллийг илэрхийлдэг. Энэ техник нь байрлалын мэдээллийг хадгалахын зэрэгцээ загварын хэмжээг багасгадаг.

Олон асуулгад анхаарал хандуулах, эргэлдэгч байрлалын суулгац зэрэг техникийг ашиглах нь Жемма загваруудад гүйцэтгэл, дүгнэлтийн хурд, загварын хэмжээ хоорондын оновчтой тохируулгад хүрэх боломжийг олгодог.

Өгөгдөл ба сургалтын үйл явц

Жемма 6 их наяд хүртэлх текст өгөгдөл дээр сургагдсан, үндсэндээ англи хэл дээр. Үүнд вэб баримт бичиг, математикийн текст, эх код багтсан. DeepMind нь ангилагч болон эвристик ашиглан өгөгдлийг шүүх, хортой эсвэл хортой контентыг устгахад ихээхэн хүчин чармайлт гаргасан.

Сургалтыг Google-ийн TPUv5 дэд бүтцийг ашиглан хийсэн бөгөөд Gemma-4096B-ийг сургахад 7 хүртэлх TPU ашигласан. Үр дүнтэй загвар ба өгөгдлийн параллелизм нь асар том загваруудыг түүхий эдийн техник хэрэгслээр сургах боломжийг олгосон.

Өндөр чанартай, холбогдох бичвэрт анхаарлаа төвлөрүүлэхийн тулд өгөгдлийн хуваарилалтыг тасралтгүй тохируулж, шаталсан сургалтыг ашигласан. Сүүлчийн нарийн тохируулгын үе шатууд нь хүний бүтээсэн болон синтетик зааварчилгааны дараах жишээнүүдийг хослуулан чадавхийг сайжруулахад ашигласан.

Загварын гүйцэтгэл

DeepMind нь асуулт хариулт, үндэслэл, математик, кодчилол, нийтлэг ойлголт, харилцан ярианы чадварыг багтаасан 25 гаруй жишиг үзүүлэлтээр Жемма загваруудыг сайтар үнэлэв.

Жемма нь ихэнх жишиг үзүүлэлтүүдийн ижил хэмжээтэй нээлттэй эхийн загваруудтай харьцуулахад хамгийн сүүлийн үеийн үр дүнд хүрдэг. Зарим онцлох зүйлс:

Математик: Жемма GSM8K болон MATH зэрэг математикийн үндэслэлийн тестүүд дээр илүү сайн ажиллаж, Codex болон Anthropic's Claude зэрэг загваруудаас 10 гаруй оноогоор илүү байна.
Кодлох: Жемма кодыг тусгайлан сургаагүй ч MBPP зэрэг програмчлалын жишиг үзүүлэлтүүд дээр Codex-ийн гүйцэтгэлтэй таарч эсвэл давсан байна.
Dialogue: Жемма нь хүний давуу эрх олгох туршилтууд дээр Anthropic компанийн Mistral-51.7B-ийг 7%-ийн хожих хувьтайгаар харилцан ярианы хүчтэй чадварыг харуулжээ.
Шалтгаан: ARC болон Winogrande зэрэг дүгнэлт шаарддаг ажлууд дээр Жемма бусад 7B загваруудаас 5-10 оноогоор илүү байдаг.

Жеммагийн олон салбар дахь олон талт байдал нь түүний хүчирхэг ерөнхий оюун ухааны чадварыг харуулдаг. Хүний түвшний гүйцэтгэлийн цоорхой хэвээр байгаа ч Жемма нь нээлттэй эх сурвалжийн NLP дээр үсрэлт болж байна.

Аюулгүй байдал ба хариуцлага

Том загваруудын нээлттэй эхийн жинг гаргах нь зориудаар буруугаар ашиглах, загвараас үүдэлтэй хэвшмэл ойлголттой холбоотой сорилтуудыг бий болгодог. DeepMind эрсдэлийг бууруулах арга хэмжээ авсан:

Өгөгдлийн шүүлтүүр: Ангилагч болон эвристикийг ашиглан сургалтын өгөгдлөөс хортой байж болзошгүй, хууль бус эсвэл нэг талыг барьсан текстийг устгасан.
Үнэлгээ: Аюулгүй байдал, шударга байдал, бат бөх байдлыг үнэлэх зорилгоор Жемма-г 30 гаруй шалгуур үзүүлэлтээр шалгасан. Энэ нь бусад загваруудтай таарч эсвэл давсан.
Нарийн тохируулга: Загварын нарийн тохируулга нь мэдээллийг шүүх, эрсдэлээс хамгаалах/татгалзах зэрэг аюулгүй байдлын чадавхийг сайжруулахад чиглэгдсэн.
Хэрэглэх журам: Хэрэглээний нэр томъёо нь Жемма загварыг доромжилсон, хууль бус, ёс зүйгүй хэрэглээг хориглодог. Гэсэн хэдий ч хэрэгжилт нь бэрхшээлтэй хэвээр байна.
Загвар картууд: Ил тод байдлыг дэмжих зорилгоор загварын чадвар, хязгаарлалт, хэвийсэн ойлголтыг харуулсан картуудыг гаргасан.

Нээлттэй эх үүсвэрээс үүсэх эрсдэлүүд байсаар байгаа ч DeepMind Жеммагийн хувилбар нь аюулгүй байдлын профайл болон судалгаа шинжилгээний боломжид тулгуурлан нийгэмд цэвэр ашиг тустай гэж тодорхойлсон. Гэсэн хэдий ч болзошгүй хор хөнөөлийг анхааралтай хянах нь чухал хэвээр байх болно.

AI инновацийн дараагийн давалгааг идэвхжүүлэх

Жемма-г нээлттэй эхийн загвар гэр бүл болгон гаргах нь AI нийгэмлэгийн ахиц дэвшлийг нээх болно.

Хүртээмжтэй байдал: Жемма нь өмнө нь өөрийн LLM-ээ сургахад тооцоолол/өгөгдлийн зардал өндөртэй тулгардаг байсан байгууллагуудын хамгийн сүүлийн үеийн NLP-ээр бүтээхэд тулгарч буй саад бэрхшээлийг багасгадаг.
Шинэ програмууд: Урьдчилан бэлтгэгдсэн, тохируулсан хяналтын цэгүүдийг нээлттэй эх үүсвэрээр хангаснаар DeepMind нь боловсрол, шинжлэх ухаан, хүртээмж зэрэг салбарт ашигтай програмуудыг хялбархан хөгжүүлэх боломжийг олгодог.
Өөрчлөлт: Хөгжүүлэгчид өмчийн мэдээллийн талаар үргэлжлүүлэн сургалт явуулснаар Жемма-г салбар эсвэл домэйны тусгай хэрэглээнд зориулан өөрчлөх боломжтой.
Судалгаа: Жемма зэрэг нээлттэй загварууд нь одоогийн NLP системүүдийн илүү ил тод байдал, аудитыг дэмжиж, ирээдүйн судалгааны чиглэлийг гэрэлтүүлдэг.
Инноваци: Жемма гэх мэт хүчирхэг суурь загварууд байгаа нь хэвийх байдлыг багасгах, бодит байдал, хиймэл оюун ухааны аюулгүй байдал зэрэг салбарт ахиц дэвшлийг хурдасгах болно.

Нээлттэй эх үүсвэрээр дамжуулан Жеммагийн чадавхийг хангаснаар DeepMind нийгмийн сайн сайхны төлөө хиймэл оюун ухааныг хариуцлагатай хөгжүүлнэ гэж найдаж байна.

Урагшлах зам

Хиймэл оюун ухаан дахь үсрэлт бүрээр бид бүх салбарт хүний оюун ухаантай өрсөлдөх эсвэл түүнээс давсан загваруудад ойртож байна. Жемма зэрэг системүүд нь өөрийгөө удирддаг загваруудын хурдацтай дэвшил нь улам бүр дэвшилтэт танин мэдэхүйн чадварыг хэрхэн нээж байгааг онцолж байна.

Гэсэн хэдий ч хүний оюун ухаан өндөр хэвээр байгаа AI-ийн найдвартай байдал, тайлбарлах чадвар, хяналтыг сайжруулах ажил хэвээр байна. Математик гэх мэт домэйнууд эдгээр байнгын цоорхойг онцолж өгдөг бөгөөд Жемма MMLU-д хүний гүйцэтгэлийн 64% -ийн үнэлгээтэй харьцуулахад 89% оноо авсан.

Эдгээр цоорхойг арилгахын зэрэгцээ улам бүр чадварлаг хиймэл оюун ухааны системүүдийн аюулгүй байдал, ёс зүйг хангах нь ирэх жилүүдэд тулгамдаж буй гол асуудал байх болно. DeepMind нь шинээр гарч ирж буй эрсдлийг удирдахын зэрэгцээ хиймэл оюун ухааны ашиг тусыг хүртэх боломжийг ардчилалтай болгох зорилготой тул нээлттэй байдал ба болгоомжлолын зөв тэнцвэрийг бий болгох нь маш чухал юм.

Дарио Амодэйгийн ANC, DeepMind-ийн Ёс зүй ба Нийгэмлэгийн баг, Антропикийн Үндсэн хуулийн хиймэл оюун ухаан зэрэг хиймэл оюун ухааны аюулгүй байдлыг дэмжих санаачилгууд нь энэхүү нарийн ширийн хэрэгцээг улам бүр хүлээн зөвшөөрч байгааг харуулж байна. Утгатай ахиц дэвшилд хүрэхийн тулд судлаачид, хөгжүүлэгчид, бодлого боловсруулагчид болон олон нийтийн хооронд нээлттэй, нотолгоонд суурилсан яриа хэлэлцээ шаардлагатай болно.

Хэрэв хариуцлагатай хандвал Жемма нь хиймэл оюун ухааны оргил биш харин DeepMind-ийн мөрийг дагаж шударга, ашигтай хиймэл ерөнхий оюун ухааныг дагах дараагийн үеийн хиймэл оюун ухааны судлаачдын суурь бааз юм.

Дүгнэлт

DeepMind-аас Gemma загваруудыг гаргасан нь нарийн шалгуур үзүүлэлтээс хальж, тагнуулын ерөнхий чадавхи руу шилжих нээлттэй эхийн AI-ийн шинэ эрин үеийг харуулж байна. Аюулгүй байдлын үүднээс сайтар туршиж үзсэн бөгөөд өргөн хүртээмжтэй, Жемма нь хиймэл оюун ухаанд хариуцлагатай нээлттэй эх үүсвэрийн шинэ стандартыг тогтоосон.

Хамтын ажиллагааны үнэт зүйлд нийцсэн өрсөлдөөнт сэтгэлгээнд хөтлөгдөн Жемма шиг ололт амжилтыг хуваалцах нь хиймэл оюун ухааны экосистем дэх бүх завийг өсгөдөг. Нийгэм бүхэлдээ одоо тэдний санаачлагыг жолоодох эсвэл дэмжих олон талт LLM гэр бүлд хандах боломжтой болсон.

Эрсдэл байсаар байгаа ч DeepMind-ийн техникийн болон ёс суртахууны хичээл зүтгэл нь Жеммагийн ашиг тус нь учирч болзошгүй хор хөнөөлөөс давж чадна гэдэгт итгэлтэй байна. Хиймэл оюун ухааны чадавхи улам бүр ахих тусам нээлттэй байдал, болгоомжлолын хоорондох энэхүү ялгааг хадгалах нь чухал байх болно.

Жемма биднийг бүх хүн төрөлхтөнд ашиг тустай хиймэл оюун ухаанд нэг алхам ойртуулж байна. Гэвч энэрэнгүй хиймэл оюун ухаанд хүрэх замд олон томоохон сорилтууд хүлээгдэж байна. Хиймэл оюун ухаан судлаачид, хөгжүүлэгчид болон нийгэм бүхэлдээ хамтын ахиц дэвшлийг хадгалж чадвал Жемма хэзээ нэгэн цагт эцсийн дээд хэмжээний уулзалт биш харин түүхэн суурь бааз болж харагдах болно.

Холбогдох сэдвүүд:Deepmind Жемма LLM

Дараа хүртэл

Маркетингийн AI: MWC Conference Insights

Бүү саад бол

Том хэлний загварт тулгарч буй эмзэг байдал ба аюулгүй байдлын заналхийлэл

Аюуш Миттал

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.