никулец ChatGPT и напредно брзо инженерство: Возење на еволуцијата на вештачката интелигенција - Unite.AI
Поврзете се со нас

Брзо инженерство

ChatGPT и напредно брзо инженерство: Возење на еволуцијата на вештачката интелигенција

mm

Објавено

 on

OpenAI беше корисен во развојот на револуционерни алатки како OpenAI Gym, дизајнирани за тренирање алгоритми за зајакнување и GPT-n модели. Во центарот на вниманието е и DALL-E, модел со вештачка интелигенција што создава слики од текстуални внесувања. Еден таков модел кој привлече значително внимание е OpenAI's Разговор GPT, сјаен пример во доменот на големите јазични модели.

GPT-4: Брзо инженерство

ChatGPT го трансформираше пејзажот на четбот, нудејќи одговори слични на луѓето на влезовите на корисниците и проширувајќи ги своите апликации низ домени - од развој на софтвер и тестирање до деловна комуникација, па дури и создавање поезија.

Во рацете на бизнисите и поединците, GPT-4, на пример, може да послужи како неисцрпен резервоар на знаење, умешен во предмети кои се движат од математика и биологија до правни студии. Ваквите софистицирани и достапни модели на вештачка интелигенција се подготвени да ја редефинираат иднината на работата, учењето и креативноста.

Футуристичко лого на ChatGPT

Генеративните модели како GPT-4 можат да произведат нови податоци врз основа на постоечките влезови. Овој карактеристичен атрибут им овозможува да преземаат различни задачи, вклучувајќи генерирање текст, слики, музика и видео.

Во контекст на моделите ChatGPT и OpenAI, промпт е влезот што корисниците го даваат на моделите, обично во форма на текст. Потсетниците служат како основно средство за контрола на излезот генериран од овие модели, што ги прави клучни за успешни и релевантни разговори.

Влијанието на брзиот квалитет

Користењето на добро дефинирани потсетници е клучот за вклучување во корисни и значајни разговори со системите за вештачка интелигенција. Лошо дефинираните потсетници може да резултираат со излез што не е корисен за корисникот, па дури и може да доведе до погрешна содржина.

За да го демонстрираме влијанието на квалитетот на промптот, да споредиме две различни потсетници дадени на ChatGPT. Првиот поттик, слабо дефиниран и претпоставувајќи претходно знаење, генерира потенцијално некорисен одговор за корисникот. Од друга страна, вториот повик дава повеќе контекст и примери, обезбедувајќи порелевантен и разбирлив одговор.

Прашајте 1: „Кажи ми за конволутивните невронски мрежи“.

Одговор 1: „Конволуционите невронски мрежи (CNN) се повеќеслојни перцептронски мрежи кои се состојат од целосно поврзани слоеви и здружени слоеви. Тие најчесто се користат во задачите за препознавање слики. Процесот вклучува примена на филтри за внесување слики и нивно намалување со користење на здружени слоеви“.

Прашајте 2: „Сакам да научам за конволуционите невронски мрежи, но немам претходно познавање за вештачки невронски мрежи. Можете ли да дадете објаснување погодно за почетници и пример за тоа како CNN се користат при препознавање слики?

Одговор 2: „Конволуционите невронски мрежи (CNN) се вид на невронска мрежа која првенствено се користи за задачи за препознавање слики. За разлика од другите невронски мрежи, тие користат конволутивни слоеви и здружени слоеви за обработка на слики. Замислете дека имате слика на мачка. CNN може да идентификува различни карактеристики на сликата, како што се мустаќи, уши и опашка, со примена на филтри и намалување на примерокот на сликата користејќи здружени слоеви. Овој процес ги прави CNN високо ефективни за препознавање на објекти во слики.

Со споредување на двата одговора, очигледно е дека добро дефинираното барање води до порелевантен и попријатен одговор. Навремениот дизајн и инженерството се растечки дисциплини кои имаат за цел да го оптимизираат квалитетот на излезот на моделите со вештачка интелигенција како ChatGPT.

Во следните делови од овој напис, ќе навлеземе во областа на напредните методологии насочени кон усовршување на големите јазични модели (LLM), како што се брзите инженерски техники и тактики. Тие вклучуваат учење со неколку снимки, ReAct, синџир на мисли, RAG и многу повеќе.

Напредни инженерски техники

Пред да продолжиме, важно е да се разбере клучното прашање со LLM, наречено „халуцинација“. Во контекст на LLM, „халуцинацијата“ ја означува тенденцијата на овие модели да генерираат резултати што може да изгледаат разумни, но не се вкоренети во фактичката реалност или дадениот влезен контекст.

Овој проблем беше строго нагласен во неодамнешниот судски случај каде бранител користеше ChatGPT за правно истражување. Алатката за вештачка интелигенција, која паѓа поради проблемот со халуцинацијата, наведе непостоечки правни случаи. Овој погрешен чекор имаше значителни последици, предизвикувајќи конфузија и поткопување на кредибилитетот во текот на постапката. Овој инцидент служи како остар потсетник за итната потреба да се реши прашањето за „халуцинација“ во системите за вештачка интелигенција.

Нашето истражување во брзи инженерски техники има за цел да ги подобри овие аспекти на LLM. Со зголемување на нивната ефикасност и безбедност, го отвораме патот за иновативни апликации како што е екстракција на информации. Понатаму, ги отвора вратите за беспрекорно интегрирање на LLM со надворешни алатки и извори на податоци, проширувајќи го опсегот на нивните потенцијални употреби.

Учење со нула и неколку снимки: оптимизирање со примери

Генеративните претходно обучени трансформатори (GPT-3) означија важна пресвртница во развојот на моделите со генеративна вештачка интелигенција, бидејќи го воведоа концептот „неколкукратно учење. Овој метод ја промени играта поради неговата способност да работи ефикасно без потреба од сеопфатно дотерување. Рамката GPT-3 е дискутирана во трудот, “Јазичните модели се малку луѓе кои учат“ каде што авторите демонстрираат како моделот се истакнува во различни случаи на употреба без да се потребни сопствени збирки на податоци или код.

За разлика од дотерувањето, кое бара континуиран напор за решавање на различни случаи на употреба, моделите со неколку снимки покажуваат полесна приспособливост на поширок спектар на апликации. Иако дотерувањето може да обезбеди робусни решенија во некои случаи, тоа може да биде скапо во обем, што ја прави употребата на модели со неколку снимки попрактичен пристап, особено кога е интегриран со брзо инженерство.

Замислете дека се обидувате да преведете англиски на француски. Во учењето со неколку снимки, ќе обезбедите GPT-3 со неколку примери за превод како „морска видра -> loutre de mer“. GPT-3, како напреден модел што е, тогаш може да продолжи да обезбедува точни преводи. Во учењето со нула, нема да давате примери, а GPT-3 сепак ќе може ефективно да преведува англиски на француски.

Терминот „учење на неколку начини“ доаѓа од идејата дека на моделот му е даден ограничен број примери за „учење“. Важно е да се забележи дека „учењето“ во овој контекст не вклучува ажурирање на параметрите или тежините на моделот, туку влијае на перформансите на моделот.

Малку снимки за учење од GPT-3 хартија

Неколку снимки за учење како што е прикажано во GPT-3 хартија

Учењето со нула истрели го носи овој концепт чекор понатаму. Во учењето со нула, не се дадени примери за завршување на задачата во моделот. Се очекува моделот да има добри резултати врз основа на неговата почетна обука, што ја прави оваа методологија идеална за сценарија за одговарање прашања на отворен домен, како што е ChatGPT.

Во многу случаи, модел кој е умешен во учењето со нула може да работи добро кога е обезбеден со примери со неколку, па дури и со еднократно снимање. Оваа способност да се префрлате помеѓу сценарија за учење нула, единечни и неколку снимки ја нагласува приспособливоста на големите модели, зголемувајќи ги нивните потенцијални апликации во различни домени.

Методите за учење со нула истрели стануваат сè поприсутни. Овие методи се карактеризираат со нивната способност да препознаваат предмети невидени за време на тренингот. Еве практичен пример за известување за неколку снимки:

"Translate the following English phrases to French:

'sea otter' translates to 'loutre de mer'
'sky' translates to 'ciel'
'What does 'cloud' translate to in French?'"

Со обезбедување на моделот со неколку примери и потоа поставување прашање, можеме ефективно да го водиме моделот да го генерира саканиот излез. Во овој пример, GPT-3 веројатно правилно ќе го преведе „облак“ во „nuage“ на француски.

Ќе навлеземе подлабоко во различните нијанси на брзото инженерство и неговата суштинска улога во оптимизирањето на перформансите на моделот за време на заклучувањето. Исто така, ќе разгледаме како може ефективно да се користи за да се создадат економични и скалабилни решенија низ широк спектар на случаи на употреба.

Како што дополнително ја истражуваме сложеноста на брзите инженерски техники во моделите GPT, важно е да се истакне нашата последна објава "Суштински водич за брзо инженерство во ChatGPT'. Овој водич дава увид во стратегиите за ефективно упатување на модели со вештачка интелигенција во огромен број случаи на употреба.

Во нашите претходни дискусии, навлегувавме во основните брзи методи за големи јазични модели (LLM), како што се учењето со нула и неколку снимки, како и поттикнување на инструкции. Совладувањето на овие техники е од клучно значење за навигација на посложените предизвици на брзото инженерство што ќе ги истражиме овде.

Учењето со неколку снимки може да биде ограничено поради ограничениот контекст на прозорецот на повеќето LLM. Згора на тоа, без соодветни заштитни мерки, LLMs може да бидат заведени да дадат потенцијално штетен резултат. Плус, многу модели се борат со задачи за расудување или следење инструкции од повеќе чекори.

Со оглед на овие ограничувања, предизвикот лежи во искористувањето на LLMs за справување со сложени задачи. Очигледно решение може да биде да се развијат понапредни LLM или да се усовршат постоечките, но тоа може да повлече значителен напор. Значи, се поставува прашањето: како можеме да ги оптимизираме сегашните модели за подобрено решавање проблеми?

Подеднакво фасцинантно е истражувањето за тоа како оваа техника се поврзува со креативните апликации во Unite AI.Совладување уметност со вештачка интелигенција: Концизен водич за средно патување и брзо инженерствокој опишува како спојот на уметноста и вештачката интелигенција може да резултира во уметност што инспирира стравопочит.

Поттикнување на синџир на мисли

Поттикнувањето на синџирот на мисли ги користи инхерентните авто-регресивни својства на големите јазични модели (LLM), кои се истакнуваат во предвидувањето на следниот збор во дадена низа. Со тоа што го поттикнува моделот да го разјасни својот процес на размислување, тој поттикнува потемелно, методично генерирање идеи, кое има тенденција да се усогласи тесно со точните информации. Ова усогласување произлегува од наклонетоста на моделот да обработува и испорачува информации на промислен и уреден начин, слично на човечки експерт кој го води слушателот низ сложен концепт. Едноставна изјава како „прошетај ме чекор по чекор како да…“ често е доволна за да го активира овој пообемен, детален резултат.

Поттикнување со синџир на мисли со нула снимка

Додека конвенционалното поттикнување на CoT бара претходна обука со демонстрации, област што се појавува е поттикнување на CoT за нула. Овој пристап, воведен од Kojima et al. (2022), иновативно ја додава фразата „Ајде да размислуваме чекор по чекор“ на оригиналното барање.

Ајде да создадеме напредно известување каде што ChatGPT има задача да ги сумира клучните информации од трудовите за AI и NLP.

Во оваа демонстрација, ќе ја искористиме способноста на моделот да разбере и сумира сложени информации од академски текстови. Користејќи го пристапот за учење со неколку снимки, ајде да го научиме ChatGPT да ги сумира клучните наоди од научните трудови за вештачка интелигенција и НЛП:

1. Paper Title: "Attention Is All You Need"
Key Takeaway: Introduced the transformer model, emphasizing the importance of attention mechanisms over recurrent layers for sequence transduction tasks.

2. Paper Title: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"
Key Takeaway: Introduced BERT, showcasing the efficacy of pre-training deep bidirectional models, thereby achieving state-of-the-art results on various NLP tasks.

Now, with the context of these examples, summarize the key findings from the following paper:

Paper Title: "Prompt Engineering in Large Language Models: An Examination"

Ова барање не само што одржува јасен синџир на мисли, туку користи и пристап за учење со неколку снимки за водење на моделот. Се поврзува со нашите клучни зборови со фокусирање на доменот на AI и NLP, конкретно задолжувајќи го ChatGPT да изврши сложена операција која е поврзана со брзото инженерство: сумирање на истражувачки трудови.

ReAct Prompt

React, или „Reason and Act“, беше воведен од Google во весникот „ReAct: Синергизирање на расудување и дејствување во јазични модели“, и го револуционизираше начинот на кој јазичните модели комуницираат со задачата, поттикнувајќи го моделот динамички да генерира траги од вербално расудување и дејства специфични за задачата.

Замислете човек готвач во кујната: тие не само што вршат низа дејства (сечење зеленчук, зовриена вода, мешање состојки), туку се впуштаат и во вербално расудување или внатрешен говор („сега кога зеленчукот е сецкан, треба да го ставам тенџерето на шпоретот“). Овој тековен ментален дијалог помага во креирањето стратегии на процесот, приспособувањето на ненадејните промени („Ми снема маслиново масло, наместо тоа ќе користам путер“) и запомнување на редоследот на задачите. React ја имитира оваа човечка способност, овозможувајќи му на моделот брзо да научи нови задачи и да донесува цврсти одлуки, исто како што би го направил човекот при нови или неизвесни околности.

React може да се справи со халуцинации, вообичаен проблем со системите Chain-of-Thought (CoT). CoT, иако е ефикасна техника, нема капацитет за интеракција со надворешниот свет, што потенцијално може да доведе до халуцинација на факти и ширење на грешки. Реакцијата, сепак, го компензира ова со поврзување со надворешни извори на информации. Оваа интеракција му овозможува на системот не само да го потврди своето расудување туку и да го ажурира своето знаење врз основа на најновите информации од надворешниот свет.

Основната работа на React може да се објасни преку пример од HotpotQA, задача која бара расудување од висок ред. По добивањето прашање, моделот React го разложува прашањето на податливи делови и создава план за акција. Моделот генерира расудувачка трага (мисла) и идентификува релевантно дејство. Може да одлучи да бара информации за далечинскиот управувач на Apple на надворешен извор, како што е Википедија (дејство), и да го ажурира своето разбирање врз основа на добиените информации (набљудување). Преку повеќе чекори мисла-дејствие-набљудување, ReAct може да поврати информации за да го поддржи неговото расудување додека го рафинира она што треба да го преземе следно.

Забелешка:

HotpotQA е база на податоци, изведена од Википедија, составена од 113 илјади парови прашање-одговор дизајнирани да ги обучуваат системите за вештачка интелигенција во сложено расудување, бидејќи прашањата бараат расудување преку повеќе документи за да се одговори. Од друга страна, CommonsenseQA 2.0, конструиран преку гејмификација, вклучува 14,343 да/не прашања и е дизајниран да го оспори разбирањето на здравиот разум од страна на вештачката интелигенција, бидејќи прашањата се намерно направени за да ги заведат моделите со вештачка интелигенција.

Процесот може да изгледа отприлика вака:

  1. Мисла: „Треба да барам далечински управувач на Apple и неговите компатибилни уреди“.
  2. акција: Пребарува „Уреди компатибилни со Apple Remote“ на надворешен извор.
  3. Набљудување: Добива список на уреди компатибилни со далечинскиот управувач на Apple од резултатите од пребарувањето.
  4. Мисла: „Врз основа на резултатите од пребарувањето, неколку уреди, освен Apple Remote, можат да ја контролираат програмата со која првично беше дизајнирана да комуницира“.

Резултатот е динамичен процес заснован на расудување кој може да се развива врз основа на информациите со кои комуницира, што доведува до попрецизни и посигурни одговори.

Референтна слика за хартија со техника ReAct Prompt

Компаративна визуелизација на четири методи за поттикнување - Стандарден, Синџир на мисла, Act-Only и ReAct, во решавањето на HotpotQA и AlfWorld (https://arxiv.org/pdf/2210.03629.pdf)

Дизајнирањето на агенти на React е специјализирана задача, со оглед на неговата способност да постигне сложени цели. На пример, агент за разговор, изграден врз основа на моделот React, вклучува разговорна меморија за да обезбеди побогати интеракции. Сепак, сложеноста на оваа задача е рационализирана со алатки како што е Langchain, кој стана стандард за дизајнирање на овие агенти.

Контекстно-верно поттикнување

Хартијата 'Контекстно-верно поттикнување за големи јазични модели' нагласува дека иако LLM покажале значителен успех во задачите НЛП водени од знаење, нивното прекумерно потпирање на параметарското знаење може да ги доведе во заблуда во задачите чувствителни на контекст. На пример, кога јазичниот модел е обучен за застарени факти, тој може да даде неточни одговори ако ги занемари контекстуалните индиции.

Овој проблем е очигледен во случаи на конфликт на знаење, каде што контекстот содржи факти кои се разликуваат од претходно постоечкото знаење на LLM. Размислете за пример кога на моделот на голем јазик (LLM), подготвен со податоци пред Светското првенство во 2022 година, му е даден контекст што укажува дека Франција го освои турнирот. Сепак, LLM, потпирајќи се на своето претходно обучено знаење, продолжува да тврди дека претходниот победник, односно тимот што победи на Светското првенство 2018 година, сè уште е актуелен шампион. Ова покажува класичен случај на „конфликт на знаење“.

Во суштина, конфликтот на знаење во LLM се јавува кога новите информации обезбедени во контекст се во спротивност со претходно постоечкото знаење за кое е обучен моделот. Тенденцијата на моделот да се потпира на неговата претходна обука, а не на ново обезбедениот контекст може да резултира со неточни резултати. Од друга страна, халуцинацијата кај LLM е генерирање на одговори кои може да изгледаат веродостојни, но не се вкоренети во податоците за обука на моделот или дадениот контекст.

Друг проблем се јавува кога дадениот контекст не содржи доволно информации за да одговори точно на прашање, ситуација позната како предвидување со воздржување. На пример, ако LLM е прашан за основачот на Microsoft врз основа на контекст кој не ги дава овие информации, идеално би требало да се воздржи од погодување.

Примери за конфликт на знаење и моќ на апстиненција

Примери за повеќе конфликт во знаење и моќ на апстиненција

За да се подобри контекстуалната верност на LLM во овие сценарија, истражувачите предложија низа стратегии за поттикнување. Овие стратегии имаат за цел да ги направат одговорите на LLM повеќе прилагодени на контекстот наместо да се потпираат на нивното кодирано знаење.

Една таква стратегија е да се обликуваат потсетниците како прашања засновани на мислење, каде што контекстот се толкува како изјава на нараторот, а прашањето се однесува на мислењето на овој наратор. Овој пристап го рефокусира вниманието на LLM на презентираниот контекст наместо да прибегнува кон неговото претходно постоечко знаење.

Додавањето контрафактни демонстрации на поттикнувањата, исто така, е идентификувано како ефикасен начин за зголемување на верноста во случаи на конфликт на знаење. Овие демонстрации прикажуваат сценарија со лажни факти, кои го водат моделот да посвети поголемо внимание на контекстот за да обезбеди точни одговори.

Дотерување на инструкциите

Дотерувањето на инструкциите е надгледувана фаза на учење која капитализира на обезбедување на моделот со конкретни упатства, на пример, „Објаснете ја разликата помеѓу изгрејсонце и зајдисонце“. Упатството е поврзано со соодветен одговор, нешто по линијата: „Изгрејсонце се однесува на моментот кога сонцето се појавува над хоризонтот наутро, додека зајдисонцето ја означува точката кога сонцето исчезнува под хоризонтот во вечерните часови“. Преку овој метод, моделот во суштина учи како да се придржува и да ги извршува инструкциите.

Овој пристап значително влијае на процесот на поттикнување на LLM, што доведува до радикална промена во стилот на поттикнување. Добро прилагоденото LLM со инструкции дозволува итно извршување на задачи со нула снимка, обезбедувајќи непречено извршување на задачите. Ако LLM допрва треба да се дотерува, може да биде потребен пристап за учење со неколку снимки, со инкорпорирање на некои примери во вашето барање за да се води моделот кон саканиот одговор.

"Подесување на инструкции со GPT-4′ го дискутира обидот да се користи GPT-4 за да се генерираат податоци за следење на инструкциите за фино подесување на LLM. Тие користеа богат сет на податоци, составен од 52,000 уникатни записи кои следат инструкции и на англиски и на кинески.

Базата на податоци игра клучна улога во подесувањето на инструкциите LLaMA модели, серија на LLM со отворен код, што резултира со подобрена изведба на нула снимки на нови задачи. Забележителни проекти како што се Стенфорд Алпака ефикасно го користеа Self-Instruct подесувањето, ефикасен метод за усогласување на LLM со човечките намери, користејќи податоци генерирани од напредни модели на наставници прилагодени на инструкции.

Напредна брза инженерска техника за истражување на референца

Примарната цел на истражувањето за подесување на инструкциите е да се зајакнат способностите за генерализација на нула и неколку снимки на LLM. Дополнителни податоци и скалирање на моделот може да обезбедат вредни сознанија. Со сегашната големина на податоци на GPT-4 на 52K и големината на основниот модел LLaMA од 7 милијарди параметри, постои огромен потенцијал да се соберат повеќе податоци за следење на инструкциите на GPT-4 и да се комбинираат со други извори на податоци што доведува до обука на поголеми модели LLaMA за супериорни перформанси.

STaR: Bootstrapping Reasoning with Reasoning

Потенцијалот на LLM е особено видлив во сложените задачи за расудување како што се математиката или одговарањето на здравиот разум. Меѓутоа, процесот на поттикнување на јазичен модел да генерира образложенија - низа чекор-по-чекор оправдувања или „синџир на мисли“ - има свои предизвици. Честопати бара изградба на големи збирки на податоци за образложение или жртвување во точноста поради потпирањето на само неколку заклучоци.

„Самоук расудувач“ (Ѕвезда) нуди иновативно решение за овие предизвици. Користи едноставна јамка за постојано подобрување на способноста за расудување на моделот. Овој итеративен процес започнува со генерирање на образложенија за да се одговори на повеќе прашања користејќи неколку рационални примери. Доколку генерираните одговори се неточни, моделот повторно се обидува да генерира образложение, овој пат давајќи го точниот одговор. Моделот потоа се дотерува на сите образложенија што резултираа со точни одговори и процесот се повторува.

Техниката за брза ѕвезда достигнува референца за хартија

STaR методологија, демонстрирајќи ја својата јамка за дотерување и генерирање на пример за образложение на базата на податоци CommonsenseQA (https://arxiv.org/pdf/2203.14465.pdf)

За да го илустрирате ова со практичен пример, разгледајте го прашањето „Што може да се користи за носење мало куче? со избор на одговори кои се движат од базен до кошница. Моделот STaR генерира образложение, идентификувајќи дека одговорот мора да биде нешто способно да носи мало куче и да слета на заклучокот дека кошницата, дизајнирана да држи работи, е точниот одговор.

Пристапот на STaR е единствен по тоа што ја користи веќе постоечката способност за расудување на јазичниот модел. Тој користи процес на само-генерирање и усовршување на образложенијата, повторувајќи ги можностите за расудување на моделот. Сепак, јамката на STaR има свои ограничувања. Моделот може да не ги реши новите проблеми во комплетот за обука бидејќи не добива директен сигнал за обука за проблемите што не ги решава. За да се реши ова прашање, STaR воведува рационализација. За секој проблем моделот не успева да одговори точно, тој генерира ново образложение со обезбедување на точниот одговор на моделот, што му овозможува на моделот да размислува наназад.

Според тоа, STaR стои како скалабилен метод за подигање кој им овозможува на моделите да научат да генерираат сопствени образложенија, а исто така да научат да решаваат сè потешки проблеми. Примената на STaR покажа ветувачки резултати во задачите што вклучуваат аритметика, математички проблеми со зборови и разумно расудување. На CommonsenseQA, STaR се подобри и во однос на основната линија со неколку снимки и фино прилагодена основна линија за директно предвидување на одговорите и се покажа споредливо со модел кој е 30× поголем.

Означени Контекстни потсетници

Концептот на 'Означени Контекстни потсетници' се врти околу обезбедување на моделот со вештачка интелигенција со дополнителен слој на контекст со означување на одредени информации во влезот. Овие ознаки во суштина делуваат како патокази за вештачката интелигенција, водејќи ја за тоа како точно да го толкува контекстот и да генерира одговор кој е и релевантен и фактички.

Замислете дека разговарате со пријател на одредена тема, да речеме „шах“. Вие давате изјава и потоа ја означувате со референца, како што е „(извор: Википедија)“. Сега, вашиот пријател, кој во овој случај е моделот со вештачка интелигенција, точно знае од каде доаѓаат вашите информации. Овој пристап има за цел да ги направи одговорите на вештачката интелигенција посигурни со намалување на ризикот од халуцинации или генерирање лажни факти.

Уникатен аспект на означените барања за контекст е нивниот потенцијал да ја подобрат „контекстуалната интелигенција“ на моделите со вештачка интелигенција. На пример, трудот го демонстрира ова користејќи разновидна група прашања извлечени од повеќе извори, како што се сумирани статии на Википедија за различни теми и делови од неодамна објавена книга. Прашањата се означени, обезбедувајќи му на моделот на вештачка интелигенција дополнителен контекст за изворот на информациите.

Овој дополнителен слој на контекст може да се покаже неверојатно корисен кога станува збор за генерирање одговори кои не само што се точни, туку и се придржуваат до дадениот контекст, што го прави излезот на вештачката интелигенција посигурен и доверлив.

Заклучок: Поглед во ветувачки техники и идни насоки

ChatGPT на OpenAI го прикажува непознатиот потенцијал на големите јазични модели (LLM) во справувањето со сложени задачи со извонредна ефикасност. Напредните техники како што се учењето со неколку снимки, поттикнувањето на ReAct, синџирот на размислување и STaR, ни овозможуваат да го искористиме овој потенцијал низ многу апликации. Како што копаме подлабоко во нијансите на овие методологии, откриваме како тие го обликуваат пејзажот на вештачката интелигенција, нудејќи побогати и побезбедни интеракции помеѓу луѓето и машините.

И покрај предизвиците како што се конфликтот на знаењето, преголемото потпирање на параметарското знаење и потенцијалот за халуцинации, овие модели на вештачка интелигенција, со правилен брз инженеринг, се покажаа како трансформативни алатки. Дотерувањето на инструкциите, верното поттикнување на контекстот и интеграцијата со надворешни извори на податоци дополнително ја засилуваат нивната способност за расудување, учење и прилагодување.

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.