Umělá inteligence

Směrky AI: Udržování kvality modelu ve věku obsahu generovaného umělou inteligencí

mm
The AI Feedback Loop: Maintaining Model Production Quality In The Age Of AI-Generated Content

Modely AI nasazené v produkci potřebují robustní a kontinuální mechanismus hodnocení výkonu. Zde lze uplatnit smyčku AI, aby se zajistila konzistentní výkonnost modelu.

Vezměte to od Elona Muska:

„Myslím, že je velmi důležité mít smyčku zpětné vazby, kde jste neustále přemýšlíte o tom, co jste udělali, a jak byste to mohli dělat lépe.“

Pro všechny modely AI je standardním postupem nasadit model a poté pravidelně jej přeškolit na nejnovějších reálných datech, aby se zajistilo, že jeho výkon se nezhorší. Ale s rychlým růstem Generative AI se стало školení modelu AI anomálním a náchylným k chybám. To je způsobeno tím, že online zdroje dat (internet) se postupně stávají směsí lidsky generovaných a umělou inteligencí generovaných dat.

Například mnoho blogů dnes obsahuje text generovaný umělou inteligencí, poháněný LLM (Large Language Modules) jako ChatGPT nebo GPT-4. Mnoho zdrojů dat obsahuje obrázky generované umělou inteligencí vytvořené pomocí DALL-E2 nebo Midjourney. Kromě toho výzkumníci AI používají syntetická data generovaná pomocí Generative AI ve svých školicích procesech.

Proto potřebujeme robustní mechanismus, aby se zajistila kvalita modelů AI. Zde se zvýrazní potřeba smyček AI.

Co je smyčka AI?

Smyčka AI je iterativní proces, ve kterém jsou rozhodnutí a výstupy modelu AI neustále sbírány a používány ke zlepšení nebo přeškolení stejného modelu, což vede ke kontinuálnímu učení, rozvoji a zlepšení modelu. V tomto procesu jsou aktualizovány a vylepšovány školicí data, parametry modelu a algoritmy na základě vstupů generovaných ze systému.

Hlavně existují dva typy smyček AI:

  1. Pozitivní smyčky AI: Když modely AI generují přesné výsledky, které odpovídají očekáváním a preferencím uživatelů, uživatelé poskytují pozitivní zpětnou vazbu prostřednictvím smyčky, která se vrací a posiluje přesnost budoucích výsledků. Taková smyčka se nazývá pozitivní.
  2. Negativní smyčky AI: Když modely AI generují nepřesné výsledky, uživatelé hlásí chyby prostřednictvím smyčky, která se vrací a snaží se zlepšit stabilitu systému opravou chyb. Taková smyčka se nazývá negativní.

Oba typy smyček AI umožňují kontinuální rozvoj modelu a zlepšení výkonu v čase. A nejsou používány nebo aplikovány v izolaci. Společně pomáhají modelům AI nasazeným v produkci vědět, co je správné nebo špatné.

Fáze smyček AI

Ilustrace dat generovaných umělou inteligencí ve smyčce AI

Vysokou úroveň ilustrace mechanismu zpětné vazby ve modelech AI. Zdroj

Porozumění tomu, jak smyčky AI fungují, je důležité pro odemknutí celého potenciálu rozvoje AI. Pojďme prozkoumat různé fáze smyček AI níže.

  1. Shromažďování zpětné vazby: Shromáždit relevantní výsledky modelu pro hodnocení. Typicky uživatelé poskytují zpětnou vazbu o výsledku modelu, která se poté používá pro přeškolení. Nebo to může být externí data z webu, která jsou kurátorována pro jemné doladění výkonu systému.
  2. Přeškolení modelu: Používáním shromážděných informací se systém AI přeškolí, aby dělal lepší předpovědi, poskytoval odpovědi nebo prováděl konkrétní činnosti zlepšením parametrů modelu nebo vah.
  3. Integrace a testování zpětné vazby: Po přeškolení se model testuje a hodnotí znovu. V této fázi se také zahrnuje zpětná vazba od odborníků, aby se zdůraznily problémy, které sahají za hranice dat.
  4. Nasazení: Model se znova nasazuje po ověření změn. V této fázi by měl model hlásit lepší výkon na nových reálných datech, což vede ke zlepšení uživatelské zkušenosti.
  5. Monitorování: Model se neustále monitoruje pomocí metrik, aby se identifikovaly potenciální zhoršení, jako je drift. A cyklus zpětné vazby pokračuje.

Problémy v produkčních datech a výstupech modelu AI

Stavba robustních systémů AI vyžaduje hluboké porozumění potenciálním problémům v produkčních datech (reálných datech) a výstupech modelu. Pojďme se podívat na několik problémů, které se stávají překážkou při zajišťování přesnosti a spolehlivosti systémů AI:

  1. Drift dat: Dochází k tomu, když model začíná přijímat reálná data z jiné distribuce než distribuce školicích dat modelu.
  2. Drift modelu: Předpovědní schopnosti a efektivita modelu se zhoršují v čase kvůli změnám reálného prostředí. To se nazývá drift modelu.
  3. Výstup modelu AI vs. reálné rozhodnutí: Modely AI produkují nepřesné výstupy, které se neshodují s rozhodnutími reálných zainteresovaných stran.
  4. Předpojatost a spravedlnost: Modely AI mohou vyvinout předpojatost a problémy se spravedlností. Například v TED talku od Janelle Shane popisuje, jak Amazon přestal pracovat na algoritmu pro třídění životopisů kvůli diskriminaci na základě pohlaví.

Jakmile modely AI začnou školení na obsahu generovaném umělou inteligencí, tyto problémy se mohou dále zhoršit. Jak? Pojďme diskutovat o tom podrobněji.

Smyčky AI ve věku obsahu generovaného umělou inteligencí

V souvislosti s rychlým přijetím generativní AI prozkoumali výzkumníci jev známý jako Kolaps modelu. Definují kolaps modelu jako:

„Degenerativní proces ovlivňující generace naučených generativních modelů, kde generovaná data nakonec znečišťují školicí sadu následujících generací modelů; školení na znečištěných datech, pak nesprávně vnímají realitu.“

Kolaps modelu se skládá ze dvou speciálních případů,

  • Časný kolaps modelu nastává, když „model začíná ztrácet informace o krajích distribuce,“ tj. krajních částech distribuce školicích dat.
  • Pozdní kolaps modelu nastává, když „model spleťuje různé režimy původních distribucí a konverguje k distribuci, která nese malou podobnost s původní, často s velmi malou variací.“

Příčiny kolapsu modelu

Pro praktiky AI je důležité pochopit důvody kolapsu modelu, které se dělí do dvou hlavních kategorií:

  1. Statistická aproximace chyba: Tato chyba je způsobena konečným počtem vzorků a mizí, jak se počet vzorků blíží nekonečnu.
  2. Funkční aproximace chyba: Tato chyba vzniká, když modely, jako jsou neuronové sítě, nejsou schopny zachytit skutečnou základní funkci, která má být naučena z dat.
Příklad příčin kolapsu modelu

Ukázka výsledků modelu pro více generací modelů ovlivněných kolapsem modelu. Zdroj

Jak je ovlivněna smyčka AI obsahem generovaným umělou inteligencí

Když modely AI školení na obsahu generovaném umělou inteligencí, má to destruktivní účinek na smyčky AI a může způsobit mnoho problémů pro přeškolené modely AI, jako je:

  • Kolaps modelu: Jak je vysvětleno výše, kolaps modelu je pravděpodobnou možností, pokud smyčka AI obsahuje obsah generovaný umělou inteligencí.
  • Katastrofické zapomínání: Typická výzva v kontinuálním učení je, že model zapomíná předchozí vzorky, když se učí nové informace. To se nazývá katastrofické zapomínání.
  • Znečištění dat: Odkazuje se na to, když se do modelu AI vkládají manipulativní syntetická data, aby se kompromitoval jeho výkon a aby produkoval nepřesné výstupy.

Jak mohou podniky vytvořit robustní smyčku zpětné vazby pro své modely AI?

Podniky mohou těžit z použití smyček zpětné vazby ve svých pracovních postupech AI. Sledujte tři hlavní kroky níže, aby se zlepšil výkon vašich modelů AI.

  • Zpětná vazba od odborníků: Odborníci jsou vysoce znalí ve své oblasti a rozumějí použití modelů AI. Mohou nabídnout vhledy, aby se zvýšila shoda modelu s reálnými podmínkami, což dává vyšší šanci na správné výsledky. Kromě toho mohou lépe řídit a spravovat data generovaná umělou inteligencí.
  • Výběr relevantních metrik kvality modelu: Výběr správné metriky hodnocení pro správnou úlohu a monitorování modelu v produkci na základě těchto metrik může zajistit kvalitu modelu. Praktici AI také používají nástroje MLOps pro automatizované hodnocení a monitorování, aby upozornili všechny zainteresované strany, pokud se výkon modelu začne zhoršovat v produkci.
  • Přísná kurace dat: Když se modely AI přeškolí na nových datech, mohou zapomenout na předchozí informace, proto je důležité kuratovat vysokokvalitní data, která se shodují s účelem modelu. Tato data lze použít k přeškolení modelu v následujících generacích, spolu se zpětnou vazbou uživatelů, aby se zajistila kvalita.

Chcete-li se dozvědět více o pokrocích AI, navštivte Unite.ai.

Haziqa je Data Scientist s rozsáhlými zkušenostmi v psaní technického obsahu pro AI a SaaS společnosti.