stub Орчин үеийн хиймэл хиймэл оюун ухааны программ дахь вектор мэдээллийн сангийн үүрэг - Unite.AI
бидэнтэй хамт холбоно

Хиймэл ерөнхий оюун ухаан

Орчин үеийн хиймэл хиймэл оюун ухааны программ дахь вектор мэдээллийн сангийн үүрэг

mm
шинэчлэгдсэн on
Вектор мэдээллийн сан оруулах зай

Том хэмжээний Generative AI програмуудыг үр дүнтэй ажиллуулахын тулд маш олон өгөгдөлтэй ажиллах сайн систем хэрэгтэй. Ийм чухал системүүдийн нэг бол вектор мэдээллийн сан юм. Энэ мэдээллийн сангаас ялгарах зүйл бол текст, дуу, зураг, видео зэрэг олон төрлийн өгөгдлийг тоо/вектор хэлбэрээр боловсруулах чадвар юм.

Вектор мэдээллийн сан гэж юу вэ?

Вектор мэдээллийн сан нь өндөр хэмжээст векторуудыг үр ашигтай ажиллахад зориулагдсан тусгай хадгалах систем юм. Олон хэмжээст орон зайн цэгүүд гэж үзэж болох эдгээр векторууд нь ихэвчлэн зураг, текст, дуу чимээ гэх мэт илүү нарийн төвөгтэй өгөгдлийн агуулах буюу шахсан дүрслэлийг илэрхийлдэг.

Вектор өгөгдлийн сан нь эдгээр векторуудын хооронд ижил төстэй байдлыг хурдан хайж олох боломжийг олгодог бөгөөд энэ нь өргөн уудам мэдээллийн сангаас хамгийн төстэй зүйлийг хурдан олж авах боломжийг олгодог.

Уламжлалт мэдээллийн баазууд вектор өгөгдлийн сангийн эсрэг

Вектор мэдээллийн сан:

  • Өндөр хэмжээст өгөгдлийг зохицуулдаг: Вектор мэдээллийн сан нь өндөр хэмжээст орон зайд өгөгдлийг удирдах, хадгалах зориулалттай. Энэ нь өгөгдлийн цэгүүдийг (зураг эсвэл текст гэх мэт) олон хэмжээст орон зайд вектор хэлбэрээр төлөөлөх боломжтой машин сурах зэрэг програмуудад ялангуяа хэрэгтэй.
  • Ижил төстэй байдлын хайлтад зориулж оновчтой болгосон: Вектор мэдээллийн сангийн нэг онцлог шинж чанар нь ижил төстэй байдлын хайлт хийх чадвар юм. Эдгээр өгөгдлийн сангууд нь яг тааралдсан өгөгдөл дээр үндэслэн асуулга явуулахын оронд хэрэглэгчдэд тухайн асуулгатай "ижил төстэй" өгөгдлийг олж авах боломжийг олгодог бөгөөд энэ нь зураг эсвэл текст хайх зэрэг ажлуудад үнэлж баршгүй болгодог.
  • Том өгөгдлийн багцад зориулж өргөтгөх боломжтой: AI болон машин сургалтын програмууд өсөхийн хэрээр тэдгээрийн боловсруулдаг өгөгдлийн хэмжээ нэмэгдсээр байна. Вектор өгөгдлийн сангууд нь гүйцэтгэлийг алдагдуулахгүйгээр асар их хэмжээний өгөгдөлтэй ажиллах боломжтой болгодог.

Уламжлалт мэдээллийн сан:

  • Бүтэцлэгдсэн өгөгдөл хадгалах: Уламжлалт өгөгдлийн сангууд нь харилцаа холбооны өгөгдлийн сангийн нэгэн адил бүтэцлэгдсэн өгөгдлийг хадгалах зориулалттай. Энэ нь өгөгдлийг урьдчилан тодорхойлсон хүснэгт, мөр, багана болгон зохион байгуулж, мэдээллийн бүрэн бүтэн байдал, тууштай байдлыг хангана гэсэн үг юм.
  • CRUD үйлдлийн хувьд оновчтой: Уламжлалт өгөгдлийн сангууд нь үндсэндээ CRUD үйлдлийн хувьд оновчтой байдаг. Энэ нь тэдгээр нь мэдээллийн оруулгуудыг үр дүнтэй үүсгэх, унших, шинэчлэх, устгах зорилготой бөгөөд вэб үйлчилгээнээс эхлээд байгууллагын программ хангамж хүртэл өргөн хүрээний хэрэглээнд тохиромжтой гэсэн үг юм.
  • Тогтмол схем: Олон уламжлалт мэдээллийн сангуудын нэг онцлог шинж чанар нь тэдгээрийн тогтсон схем юм. Өгөгдлийн сангийн бүтцийг тодорхойлсны дараа өөрчлөлт хийх нь төвөгтэй бөгөөд цаг хугацаа их шаарддаг. Энэхүү хатуу байдал нь өгөгдлийн тогтвортой байдлыг хангадаг боловч орчин үеийн зарим мэдээллийн сангийн схемгүй эсвэл динамик схемийн шинж чанараас бага уян хатан байж болно.

Уламжлалт өгөгдлийн сангууд нь суулгацын нарийн төвөгтэй байдалтай ихэвчлэн тэмцдэг бөгөөд үүнийг вектор мэдээллийн сангууд амархан шийддэг.

Вектор дүрслэл

Вектор өгөгдлийн сангийн үйл ажиллагааны гол зүйл бол тоон векторуудыг ашиглан олон төрлийн өгөгдлийн хэлбэрийг төлөөлөх үндсэн ойлголт юм. Жишээ болгон зургийг авч үзье. Хэрэв та муурны зургийг харвал энэ нь бидний хувьд зүгээр л өхөөрдөм муурны дүрс байж болох ч машины хувьд үүнийг 512 хэмжээст өвөрмөц вектор болгон хувиргаж болно, тухайлбал:

[0.23, 0.54, 0.32, …, 0.12, 0.45, 0.90]

Вектор мэдээллийн сангийн тусламжтайгаар Generative AI програм илүү олон зүйлийг хийх боломжтой. Энэ нь утгын үндсэн дээр мэдээлэл олж, аливаа зүйлийг удаан хугацаанд санаж чаддаг. Сонирхолтой нь, энэ арга нь зөвхөн зургаар хязгаарлагдахгүй. Контекст болон семантик утгыг агуулсан текстийн өгөгдлийг вектор хэлбэрт оруулах боломжтой.

Генератив хиймэл оюун ухаан ба вектор мэдээллийн сангийн хэрэгцээ

Generative AI нь ихэвчлэн суулгацыг агуулдаг. Жишээлбэл, байгалийн хэлний боловсруулалтад (NLP) үг оруулахыг ав. Үг, өгүүлбэр нь семантик утгыг агуулсан вектор болж хувирдаг. Загварууд хүнтэй төстэй текст үүсгэх үед холбогдох оруулгыг хурдан харьцуулж, олж авах шаардлагатай бөгөөд ингэснээр үүсгэсэн текст нь контекст утгыг хадгалж үлдэх болно.

Үүний нэгэн адил дүрс, дуу чимээ үүсгэх үед оруулга нь хэв маяг, онцлогийг кодлоход чухал үүрэг гүйцэтгэдэг. Эдгээр загварууд оновчтой ажиллахын тулд ижил төстэй векторуудыг агшин зуур олж авах боломжтой мэдээллийн сан шаардлагатай бөгөөд вектор мэдээллийн санг үүсгэгч хиймэл оюун ухааны тааварын чухал бүрэлдэхүүн хэсэг болгодог.

Байгалийн хэлэнд зориулсан шигтгээ үүсгэх нь ихэвчлэн урьдчилан бэлтгэгдсэн загваруудыг ашигладаг, тухайлбал:

  • GPT-3 ба GPT-4: OpenAI-ийн GPT-3 (Generative Pre-trained Transformer 3) нь 175 тэрбум параметр бүхий NLP нийгэмлэгийн гайхалтай загвар юм. Үүний дараа GPT-4 нь илүү олон тооны параметрүүдтэй бөгөөд өндөр чанартай суулгацыг бий болгох хил хязгаарыг давж байна. Эдгээр загварууд нь олон төрлийн өгөгдлийн багц дээр бэлтгэгдсэн бөгөөд тэдгээр нь хэл шинжлэлийн өргөн хүрээг хамарсан оруулга үүсгэх боломжийг олгодог.
  • BERT ба түүний хувилбарууд: БЕРТ Google-ийн (Transformers-ийн хоёр чиглэлтэй кодлогчийн төлөөлөл) нь RoBERTa, DistillBERT зэрэг янз бүрийн шинэчлэлт, давталтуудыг үзсэн өөр нэг чухал загвар юм. Текстийг хоёр чиглэлд уншдаг БЕРТ-ийн хоёр чиглэлтэй сургалт нь үгийн эргэн тойрон дахь нөхцөл байдлыг ойлгоход онцгой чадвартай.
  • Сонгууль: Хамгийн сүүлийн үеийн загвар нь үр ашигтай бөгөөд GPT-3, BERT зэрэг илүү том загваруудтай эн зэрэгцэхийн зэрэгцээ бага тооцоолох нөөц шаарддаг. Сонгууль Сургалтын өмнөх үед бодит болон хуурамч өгөгдлийг ялгаж, илүү боловсронгуй шигтгээ үүсгэхэд тусалдаг.

Дээрх үйл явцыг ойлгох нь:

Эхлээд хүссэн агуулгыг вектор шигтгээ болгон хувиргахын тулд оруулах загварыг ашигладаг. Үүсгэсэн бол эдгээр оруулгууд дараа нь вектор мэдээллийн санд хадгалагдана. Хялбар дагаж мөрдөх, хамааралтай байхын тулд эдгээр хадгалагдсан суулгацууд нь эх сурвалжаас авсан контентын холбоос эсвэл лавлагааг хадгалдаг.

Хожим нь хэрэглэгч эсвэл систем програмд ​​асуулт тавихад ижил суулгасан загвар ажиллаж эхэлдэг. Энэ нь энэ асуулгыг харгалзах шигтгээ болгон хувиргадаг. Шинээр бий болсон эдгээр суулгацууд дараа нь ижил төстэй вектор дүрслэлийг хайж, вектор мэдээллийн сангаас хайдаг. Тохиромжтой гэж тодорхойлсон шигтгээнүүд нь тэдний анхны агуулгатай шууд холбоотой бөгөөд хэрэглэгчийн асуусан асуултад нийцсэн, үнэн зөв үр дүнд хүрэхийг баталгаажуулдаг.

Вектор мэдээллийн санд шинээр ирсэн хүмүүст зориулсан санхүүжилт нэмэгдэж байна

AI-ийн нэр хүнд өсөхийн хэрээр олон компаниуд алгоритмуудаа илүү сайн, хурдан болгохын тулд вектор мэдээллийн санд илүү их мөнгө зарцуулж байна. Үүнийг вектор мэдээллийн сангийн стартапуудад сүүлийн үеийн хөрөнгө оруулалтаас харж болно Пинекон, Chroma DBБолон Вевиат.

Майкрософт зэрэг томоохон хамтын ажиллагаа нь өөрийн гэсэн хэрэгсэлтэй. Жишээлбэл, Azure танин мэдэхүйн хайлт Бизнесүүдэд вектор мэдээллийн санг ашиглан AI хэрэгслийг бий болгох боломжийг олгодог.

Oracle мөн саяхан өөрийн шинэ боломжуудыг зарлалаа Өгөгдлийн сан 23c, нэгдсэн вектор мэдээллийн санг танилцуулж байна. "AI Vector Search" нэртэй энэ нь вектор ашиглан баримт бичиг, зураг гэх мэт өгөгдлийг хадгалах, хайхад зориулсан шинэ өгөгдлийн төрөл, индекс, хайлтын хэрэгсэлтэй болно. Энэ нь дэмждэг Retrieval Augmented Generation (RAG)Хувийн мэдээллийг хуваалцахгүйгээр хэлний асуултуудад илүү сайн хариулт өгөхийн тулд том хэлний загварыг бизнесийн өгөгдөлтэй хослуулсан.

Вектор өгөгдлийн сангийн анхан шатны анхаарах зүйлс

Зайны хэмжүүр

Ижил төстэй байдлын хайлтын үр дүн нь сонгосон зайны хэмжүүрээс хамаарна. Нийтлэг хэмжүүрүүд орно Евклидийн зай болон косинустай төстэй байдал, тус бүр өөр өөр төрлийн вектор тархалтыг хангадаг.

Индексжүүлэх

Векторуудын өндөр хэмжээст байдлыг харгалзан үзэхэд уламжлалт индексжүүлэх аргууд үүнийг огтолж чаддаггүй. Вектор өгөгдлийн сан зэрэг техникийг ашигладаг Шаталсан навигацийн жижиг ертөнц (HNSW) график эсвэл Модыг залхаах, вектор орон зайг үр ашигтай хуваах, хамгийн ойрын хөршийг хурдан хайх боломжийг олгодог.

Модыг залхаах

Ядаргаатай мод (Эх сурвалж)

Annoy гэдэг нь хоёртын хайлтын мод гэх зүйлийг ашигладаг арга юм. Энэ нь бидний өгөгдлийн орон зайг олон удаа хувааж, ойрын хөршүүдийг олохын тулд зөвхөн нэг хэсгийг нь хардаг.

Шаталсан навигацийн жижиг ертөнц (HNSW) графикууд

Шаталсан навигацийн жижиг ертөнц (HNSW) графикууд (Эх сурвалж)

Харин HNSW графикууд нь сүлжээтэй адил юм. Тэд хайлтыг илүү хурдан болгохын тулд өгөгдлийн цэгүүдийг тусгай аргаар холбодог. Эдгээр графикууд нь өгөгдлийн ойролцоо цэгүүдийг хурдан олоход тусалдаг.

Өргөтгөх чадвар

Өгөгдлийн багц өсөхийн хэрээр хурдан сэргээх хугацааг хадгалах сорилт нэмэгдсээр байна. Түгээмэл систем, GPU хурдатгал, оновчтой санах ойн менежмент нь вектор мэдээллийн санг өргөтгөх чадварыг шийдвэрлэх зарим арга зам юм.

Вектор мэдээллийн сангийн үүрэг: үр дагавар ба боломжууд

1. Хамгийн сүүлийн үеийн сургалтын өгөгдөл Үүсгэх AI загварууд: DALL-E болон GPT-3 гэх мэт хиймэл хиймэл оюун ухааны загваруудыг асар их хэмжээний өгөгдөл ашиглан сургадаг. Энэ өгөгдөл нь ихэвчлэн зураг, текст, код болон бусад домэйн зэрэг олон тооны эх сурвалжаас гаргаж авсан векторуудаас бүрддэг. Вектор өгөгдлийн сан нь эдгээр өгөгдлийн багцыг нягт нямбай боловсруулж, удирдаж, хиймэл оюун ухааны загварт эдгээр векторуудын доторх хэв маяг, харилцааг тодорхойлох замаар дэлхийн мэдлэгийг өөртөө шингээж, дүн шинжилгээ хийх боломжийг олгодог.

2. Цөөн шидэлттэй суралцах чадварыг ахиулах: Цөөн удаагийн сургалт нь загваруудыг хязгаарлагдмал өгөгдөлтэй сургадаг хиймэл оюун ухааны сургалтын арга юм. Вектор өгөгдлийн сан нь найдвартай вектор индексийг хадгалах замаар энэ хандлагыг нэмэгдүүлдэг. Загвар нь цөөхөн хэдэн вектортой, жишээ нь шувууны хэдэн зурагтай тулгарвал эдгээр векторуудын ижил төстэй байдал, харилцааг таньж мэдсэнээр шувууны тухай өргөн ойлголтыг хурдан гаргаж чадна.

3. Зөвлөмжийн системийг сайжруулах: Зөвлөмж өгөх систем нь хэрэглэгчийн сонголттой нягт уялдсан контентыг санал болгохын тулд вектор мэдээллийн санг ашигладаг. Хэрэглэгчийн зан байдал, профайл, асуулгад дүн шинжилгээ хийснээр тэдний сонирхлыг харуулсан векторуудыг гаргаж авдаг. Дараа нь систем нь эдгээр сонирхлын векторуудтай төстэй агуулгын векторуудыг олохын тулд вектор мэдээллийн санг сканнердаж, нарийн зөвлөмжийг өгдөг.

4. Семантик Мэдээлэл авах: Уламжлалт хайлтын аргууд нь түлхүүр үгийн яг тохиролд тулгуурладаг. Гэсэн хэдий ч вектор өгөгдлийн сан нь семантик ижил төстэй байдалд тулгуурлан агуулгыг ойлгох, олж авах боломжийг системд олгодог. Энэ нь хайлтууд илүү ойлгомжтой болж, зөвхөн үгсийг тааруулахаас илүүтэйгээр асуулгын үндсэн утгад анхаарлаа хандуулдаг гэсэн үг юм. Жишээлбэл, хэрэглэгчид асуулга оруулах үед харгалзах векторыг өгөгдлийн сан дахь векторуудтай харьцуулж зөвхөн үг хэллэгээр бус асуулгын зорилгод нийцэх контентыг олох болно.

5. Multimodal хайлт: Multimodal хайлт нь текст, зураг, аудио, видео гэх мэт олон эх сурвалжаас авсан өгөгдлийг нэгтгэдэг шинээр гарч ирж буй техник юм. Вектор өгөгдлийн сан нь янз бүрийн горимын векторуудын нэгдсэн дүн шинжилгээ хийх боломжийг олгодог энэхүү аргын тулгуур болж өгдөг. Үүний үр дүнд хэрэглэгчид нэг асуулгад тулгуурлан янз бүрийн эх сурвалжаас мэдээлэл авч, илүү баялаг ойлголттой болж, илүү өргөн хүрээтэй үр дүнд хүргэх цогц хайлтын туршлага бий болно.

Дүгнэлт

AI ертөнц хурдацтай өөрчлөгдөж байна. Энэ нь олон салбарыг хөндөж, сайн зүйл, шинэ асуудлуудыг авчирч байна. Generative AI-ийн хурдацтай дэвшил нь олон хэмжээст өгөгдлийг удирдах, шинжлэхэд вектор өгөгдлийн сангийн чухал үүргийг онцолж байна.

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.