Povežite se z nami

Voditelji misli

Resnica o sintetičnih podatkih: Zakaj je človeško strokovno znanje ključnega pomena za uspeh na področju LLM

mm

Razvijalci LLM se vse pogosteje obračajo k sintetičnim podatkom, da bi pospešili razvoj in zmanjšali stroške. Raziskovalci, ki stojijo za več vrhunskimi modeli, kot so LLama 3, Qwen 2 in DeepSeek R1, so v raziskovalnih člankih omenili uporabo sintetičnih podatkov za učenje svojih modelov. Navzven je videti kot popolna rešitev: neskončen vir informacij za pospešitev razvoja in zmanjšanje stroškov. Vendar pa ta rešitev prinaša skrite stroške, ki jih poslovni vodje ne morejo prezreti.

Preprosto povedano, sintetični podatki generirajo modeli umetne inteligence za ustvarjanje umetnih naborov podatkov za učenje, natančno nastavitev in vrednotenje LLM-jev in agentov umetne inteligence. V primerjavi s tradicionalnim človeškim komentiranjem omogoča hitro skaliranje podatkovnega cevovoda, kar je bistveno v hitro spreminjajočem se in konkurenčnem okolju razvoja umetne inteligence.

Podjetja imajo lahko druge razloge za uporabo »lažnih« podatkov, kot je na primer zaščita občutljivih ali zaupnih informacij v finančnem ali zdravstvenem okolju z ustvarjanjem anonimiziranih različic. Sintetični podatki so prav tako dober nadomestek, kadar lastniški podatki niso na voljo, na primer pred lansiranjem izdelka ali kadar podatki pripadajo zunanjim strankam.

Toda ali sintetični podatki povzročajo revolucijo v razvoju umetne inteligence? Kratek odgovor je pritrdilen pritrdilen: imajo velik potencial, lahko pa tudi izpostaviti LLM-je in agente kritičnim ranljivostim brez strogega človeškega nadzora. Proizvajalci LLM in razvijalci agentov umetne inteligence lahko ugotovijo, da lahko modeli umetne inteligence, usposobljeni na neustrezno preverjenih sintetičnih podatkih, ustvarijo netočne ali pristranske rezultate, povzročijo krize ugleda in povzročijo neskladnost z industrijskimi in etičnimi standardi. Vlaganje v človeški nadzor za izboljšanje sintetičnih podatkov je neposredna naložba v zaščito dobička, ohranjanje zaupanja deležnikov in zagotavljanje odgovorne uporabe umetne inteligence.

S človeškim vnosom je mogoče sintetične podatke pretvoriti v visokokakovostne podatke za učenje. Obstajajo trije ključni razlogi za izboljšanje ustvarjenih podatkov, preden se uporabijo za učenje umetne inteligence: za zapolnitev vrzeli v znanju o izvornem modelu, za izboljšanje kakovosti podatkov in zmanjšanje velikosti vzorca ter za uskladitev s človeškimi vrednotami.

Pridobiti moramo edinstveno znanje

Sintetične podatke ustvarjajo predvsem magistri prava (LLM), ki so usposobljeni na podlagi javno dostopnih internetnih virov, kar ustvarja inherentno omejitev. Javne vsebine le redko zajemajo praktično, praktično znanje, ki se uporablja v resničnem svetu. Dejavnosti, kot so oblikovanje trženjske kampanje, priprava finančne napovedi ali izvajanje tržne analize, so običajno zasebne in niso dokumentirane na spletu. Poleg tega viri običajno odražajo jezik in kulturo, osredotočeno na ZDA, kar omejuje globalno zastopanost.

Da bi premagali te omejitve, lahko vključimo strokovnjake, da ustvarijo vzorce podatkov na področjih, za katera sumimo, da jih model za ustvarjanje sintetičnih podatkov ne more pokriti. Če se vrnemo k korporativnemu primeru, če želimo, da naš končni model učinkovito obravnava finančne napovedi in tržno analizo, morajo učni podatki vključevati realistične naloge s teh področij. Pomembno je prepoznati te vrzeli in dopolniti sintetične podatke z vzorci, ki jih ustvarijo strokovnjaki.

Strokovnjaki so pogosto vključeni že zgodaj v projekt, da opredelijo obseg dela. To vključuje ustvarjanje taksonomije, ki opisuje specifična področja znanja, kjer mora model delovati. Na primer, v zdravstvu se lahko splošna medicina razdeli na podteme, kot so prehrana, zdravje srca in ožilja, alergije in drugo. Model, osredotočen na zdravje, mora biti usposobljen na vseh podobmočjih, ki naj bi jih pokrival. Ko strokovnjaki za zdravje opredelijo taksonomijo, se lahko LLM uporabi za hitro in obsežno ustvarjanje podatkovnih točk s tipičnimi vprašanji in odgovori. Še vedno so potrebni človeški strokovnjaki, ki pregledujejo, popravljajo in izboljšujejo to vsebino, da se zagotovi, da ni le natančna, ampak tudi varna in kontekstualno ustrezna. Ta postopek zagotavljanja kakovosti je potreben v aplikacijah z visokim tveganjem, kot je zdravstvo, da se zagotovi natančnost podatkov in zmanjša morebitna škoda.

Kakovost pred količino: povečanje učinkovitosti modela z manj boljšimi vzorci

Ko strokovnjaki za področje ustvarjajo podatke za usposabljanje LLM-jev in agentov umetne inteligence, ustvarjajo taksonomije za nabore podatkov, pišejo pozive, oblikujejo idealne odgovore ali simulirajo določeno nalogo. Vsi koraki so skrbno zasnovani tako, da ustrezajo namenu modela, kakovost pa zagotavljajo strokovnjaki na ustreznih področjih.

Generiranje sintetičnih podatkov tega procesa ne ponovi v celoti. Zanaša se na prednosti osnovnega modela, ki se uporablja za ustvarjanje podatkov, zato nastala kakovost pogosto ni na ravni podatkov, ki jih je pripravil človek. To pomeni, da sintetični podatki pogosto zahtevajo veliko večje količine za doseganje zadovoljivih rezultatov, kar povečuje računske stroške in čas razvoja.

V kompleksnih področjih obstajajo nianse, ki jih lahko opazijo le človeški strokovnjaki, zlasti pri izstopajočih ali robnih primerih. Podatki, ki jih pripravijo ljudje, dosledno zagotavljajo boljšo zmogljivost modela, tudi pri bistveno manjših naborih podatkov. S strateškim vključevanjem človeškega strokovnega znanja v proces ustvarjanja podatkov lahko zmanjšamo število vzorcev, potrebnih za učinkovito delovanje modela.

Po naših izkušnjah, najboljši način za reševanje tega izziva je vključitev strokovnjakov za določeno področje v gradnjo sintetičnih naborov podatkov. Ko strokovnjaki oblikujejo pravila za ustvarjanje podatkov, opredelijo taksonomije podatkov in pregledajo ali popravijo ustvarjene podatke, je končna kakovost podatkov veliko višja. Ta pristop je našim strankam omogočil doseganje dobrih rezultatov z manj vzorci podatkov, kar je vodilo do hitrejše in učinkovitejše poti do produkcije.

Gradnja zaupanja: nenadomestljiva vloga človeka pri varnosti in usklajenosti umetne inteligence

Avtomatizirani sistemi ne morejo predvideti vseh ranljivosti ali zagotoviti skladnosti s človeškimi vrednotami, zlasti v skrajnih primerih in dvoumnih scenarijih. Strokovni človeški pregledovalci imajo ključno vlogo pri prepoznavanju nastajajočih tveganj in zagotavljanju etičnih rezultatov pred uvedbo. To je plast zaščite, ki je umetna inteligenca, vsaj zaenkrat, sama ne more v celoti zagotoviti.

Zato za izgradnjo močnega nabora podatkov za rdeče skupinske operacije samo sintetični podatki ne bodo zadostovali. Pomembno je, da se varnostni strokovnjaki vključijo že v zgodnji fazi procesa. Pomagajo lahko pri določanju vrst potencialnih napadov in usmerjajo strukturo nabora podatkov. LLM-ji se nato lahko uporabijo za ustvarjanje velike količine primerov. Nato so potrebni strokovnjaki, ki preverijo in izboljšajo podatke, da se zagotovi, da so realistični, visokokakovostni in uporabni za testiranje sistemov umetne inteligence. LLM lahko na primer ustvari na tisoče standardnih pozivov za hekerske napade, strokovnjak za človeško varnost pa lahko ustvari nove napade »socialnega inženiringa«, ki izkoriščajo niansirane psihološke pristranskosti – ustvarjalno grožnjo, ki si jo avtomatizirani sistemi težko izmislijo sami.

Pri usklajevanju LLM z uporabo avtomatiziranih povratnih informacij je bil dosežen pomemben napredek. V članku "RLAIF proti RLHF: Skaliranje učenja z okrepitvijo iz človeških povratnih informacij z umetno inteligenco" Raziskovalci kažejo, da lahko usklajevanje na podlagi umetne inteligence v mnogih primerih deluje primerljivo s človeškimi povratnimi informacijami. Čeprav se povratne informacije umetne inteligence z izboljšanjem modelov izboljšujejo, naše izkušnje kažejo, da se RLAIF še vedno spopada s kompleksnimi domenami in s robnimi primeri ali izstopajočimi vrednostmi, področji, kjer je zmogljivost lahko ključnega pomena, odvisno od aplikacije. Človeški strokovnjaki so učinkovitejši pri obvladovanju odtenkov nalog in konteksta, zaradi česar so zanesljivejši pri usklajevanju.

Agenti umetne inteligence imajo koristi tudi od avtomatiziranega testiranja za obravnavo širokega nabora varnostnih tveganj. Virtualna testna okolja uporabljajo ustvarjene podatke za simulacijo vedenja agentov, kot sta povezovanje s spletnimi orodji in izvajanje dejanj na spletnih mestih. Za maksimiranje pokritosti testiranja v realnih scenarijih je človeško strokovno znanje bistvenega pomena za načrtovanje testnih primerov, preverjanje rezultatov avtomatiziranih ocen in poročanje o ranljivostih.

Prihodnost sintetičnih podatkov

Sintetični podatki so zelo dragocena tehnika za razvoj velikih jezikovnih modelov, še posebej, ko sta skaliranje in hitro uvajanje ključnega pomena v današnjem hitrem okolju. Čeprav sami sintetični podatki nimajo temeljnih pomanjkljivosti, jih je treba izboljšati, da dosežejo svoj polni potencial in zagotovijo največjo vrednost. Hibridni pristop, ki združuje avtomatizirano ustvarjanje podatkov s človeškim strokovnim znanjem, je zelo učinkovita metoda za razvoj zmogljivih in zanesljivih modelov, saj je končna zmogljivost modela bolj odvisna od kakovosti podatkov kot od celotne količine. Ta integrirani proces, ki uporablja umetno inteligenco za skaliranje in človeške strokovnjake za validacijo, ustvarja zmogljivejše modele z izboljšano varnostno usklajenostjo, kar je bistveno za gradnjo zaupanja uporabnikov in zagotavljanje odgovorne uvajanja.

Ilya Kochik je podpredsednik za razvoj poslovanja pri Toloka, partner za človeške podatke v vodilnih raziskovalnih laboratorijih GenAI, kjer je specializiran za najsodobnejše naloge za mejne modele in agentne sisteme. Njegove izkušnje s sedežem v Londonu vključujejo vodstvene in tehnične vloge pri Googlu, QuantumBlack (AI by McKinsey) in Bain & Company.