Myšlenkové vůdce
Propojení infrastruktury a produktových týmů: Ponaučení z budování platforem GenAI

O tom není pochyb: Generativní AI, neboli GenAI, je aktuálním tématem posledních několika let. Ať už je cílem automatizace procesů, generování nových návrhů produktů, tvorba obsahu nebo řada dalších funkcí napříč doménami, nyní je čas, aby organizace začaly dělat práci, na které záleží nejvíce, a uvedly své strategie GenAI do pohybu.
Úspěch GenAI, zahrnující úlohy od výzkumu přes školení až po inferenci, závisí na těsné koordinaci v oblasti nasazení, pozorovatelnosti, řízení nákladů, telemetrie a cílů latence podkladové infrastruktury a služeb. Tyto cíle pomáhají dosáhnout určité úrovně efektivity pro úlohy umělé inteligence, zajišťují efektivní rovnováhu mezi výpočty a komunikací a zajišťují, aby GPU vždy měly potřebná data.
Problém spočívá v tom, že často existuje strukturální mezera: Inženýrství infrastruktury se zaměřuje na výpočetní a implementační stack, zatímco softwarové a produktové týmy se soustředí na vytváření uživatelsky orientovaných aplikací, které přenášejí GenAI do reálného světa. Pokud tyto skupiny nejsou plně sladěny, příliš často to vede ke zpožděním dodávek, problémům s výkonem a použitelností.
Jak tedy tato mezera vypadá v reálném světě a jaké strategie mohou organizace použít k propojení infrastruktury a produktových týmů pro úspěch GenAI?
Problémy s nesprávným zarovnáním
Pokud jsou infrastrukturní a produktové týmy nesladěny, příznaky jsou často zřejmé, ale ne vždy se řeší dostatečně rychle. Jedním z charakteristických znaků nesouladných týmů jsou nesouladné předpoklady o očekávané latenci nebo modelových možnostech. Například týmy infrastrukturního inženýrství mohou plánovat funkce nebo nasazení, které předpokládají úrovně výkonu, kterým skutečný návrh infrastruktury neodpovídá. To vede k pozdní fázi přepracování, změnám rozsahu a zpožděním dodávek.
Nesoulad Může to také vést ke špatnému výkonu v důsledku nasazení na infrastruktuře, která není optimalizována pro železniční dopravu, což se projevuje variabilitou latence a problémy se škálovatelností, které ovlivňují výkon školení nebo velkých distribuovaných inferenčních úloh. Rizika související s bezpečností a dodržováním předpisů v následných fázích jsou také charakteristickými znaky nesouladu týmu, protože nedostatek včasné spolupráce mezi oběma týmy znamená, že požadavky na ochranu osobních údajů a dodržování předpisů mohou být přehlíženy.
A konečně, nesoulad mezi týmy vede ke špatné uživatelské zkušenosti, což nutí týmy infrastrukturních inženýrů uchylovat se k alternativním řešením, když jsou omezení nejasná, což zpomaluje iterační cykly a zvyšuje technický dluh. Nesoulad mezi produktovými a infrastrukturními týmy může být samozřejmě v jakémkoli softwarovém projektu nákladný, ale zejména u GenAI jsou sázky mnohem vyšší – mezi nimi je zvýšená provozní neefektivita, eroze konkurenční výhody a bezpečnostní rizika.
Most k úspěchu
Úspěch GenAI nezávisí jen na robustní infrastruktuře, ale také na vytvoření taktického rámce, který propojuje infrastrukturní a produktové procesy. Vezměte si například myšlenku interních samoobslužných API pro zřizování GPU. Pro infrastrukturní týmy tato API standardizují přístup, snižují režijní náklady na tickety a zajišťují dodržování předpisů; pro produktové týmy poskytují rychlý a předvídatelný přístup k výpočetnímu vybavení bez čekání ve frontě. Výsledkem je, že obě skupiny pracují na základě stejné „smlouvy“ API, čímž se odstraňují úzká hrdla a vyjasňují očekávání.
Podobnou roli hrají dashboardy spotřeby v reálném čase. Poskytují inženýrům infrastruktury přehled o zatížení a efektivitě systému a zároveň ukazují produktovým týmům, jak se jejich pracovní zátěž promítá do skutečné spotřeby. Protože obě strany vidí stejná data, diskuse o výkonu nebo úzkých místech se stávají více spolupracujícími a méně kontroverzními – existuje jeden zdroj pravdy.
Automatické škálování je dalším sjednocujícím mechanismem. Zbavuje infrastrukturní inženýry neustálého hašení požárů a zároveň zajišťuje, aby vývojáři produktů nedosáhli výkonnostních limitů během špičkových zátěžových výtěžků. Co by jinak mohlo být přetahováním mezi stabilitou a agilitou, se stává společnou strategií: Škálování je řízeno automaticky a je v souladu s provozní odolností i cíli v oblasti výkonu produktu.
A konečně, přehled o nákladech dodává tomuto společnému pohledu finanční rozměr. Týmy pro infrastrukturu mohou optimalizovat alokace a zdůvodňovat plánování kapacity, zatímco produktové týmy získají pochopení toho, jak jejich architektonické nebo modelové volby ovlivňují výdaje. Tato transparentnost podporuje společnou odpovědnost a mění efektivitu v kolektivní odpovědnost, nikoli v skrytý problém.
Sladění však vyžaduje více než jen sdílené nástroje – vyžaduje také sdílenou vizi. A právě zde přicházejí na řadu společné plány: Každý tým musí nejen rozumět celkovým cílům, ale také krokům potřebným k jejich dosažení. Pro infrastrukturu to znamená podívat se za hranice svých hlubokých technických kořenů v hardwaru a softwaru a zapojit se do toho, jak vývojáři a koncoví uživatelé systém skutečně vnímají. Pro produktové týmy to vyžaduje respekt k omezením, jako je latence, náklady a efektivita modelu, a ocenění provozních realit, které činí inovace udržitelnými.
A konečně, žádné partnerství nemůže obstát bez vzájemného závazku k bezpečnosti a dodržování předpisů. Ať už se uplatňují rámce SOC2, HIPAA, ISO nebo jiné, specifické požadavky se liší v závislosti na zákaznické základně a odvětví – odpovědnost je však sdílená. Týmy pro infrastrukturu i produkty si musí tyto povinnosti osvojit s vědomím, že dodržování předpisů není jen otázkou zaškrtávání políček, ale základem důvěry s uživateli.
Tyto postupy a způsoby myšlení dohromady propojují infrastrukturu a produkt do soudržného celku se sdíleným jazykem, sdílenou viditelností a sdílenou odpovědností za pokrok, odolnost a důvěryhodnost.
Znalé týmy
Mít správné lidi je stejně důležité jako mít správné systémy. V ideálním případě by týmy měly zahrnovat členy, kteří se již orientují v GenAI, nebo ty, kteří pocházejí z oblasti vysoce výkonných výpočtů a hyperscale datových center. Opravdu důležité jsou praktické zkušenosti a ponaučení, která získáte pouze z budování a podpory platforem GPU jako služba. To znamená pochopit, jak spolu GPU komunikují, jak se chovají úzce propojené trénovací běhy a jak citlivé jsou na latenci, synchronizaci a doručování dat.
S tím, jak se modely rozrůstají a nasazení se škálují, musí se týmy zamyslet nad celou cestou zákazníka. Začíná to raným výzkumem a experimentováním, pokračuje rozsáhlým školením, dolaďováním a nakonec inferencí. Každá z těchto fází vypadá trochu jinak a potřeby se v průběhu času mění. Iterativní povaha vývoje modelů nás neustále učí, jaký druh infrastruktury, pracovních postupů a funkcí je zapotřebí k tomu, aby datové centrum GenAI splňovalo svůj účel.
Týmy pro infrastrukturu a produkty příliš často fungují ve vlastních bublinách. Pro každou společnost, která to s rozšířením GenAI do produkčního prostředí myslí vážně, se to musí změnit. Úspěch závisí na prolomení těchto bariér a vytvoření sdíleného vlastnictví platformy. Se správnými lidmi, jasnou vizí a praktickým rámcem se obě strany mohou shodnout na stejném postupu – takovém, který jim pomůže postupovat rychleji, zůstat odpovědnými a v konečném důsledku zajistit úspěšné nasazení GenAI.






