Myslitelé

Datové týmy jsou mrtvé, ať žijí datové týmy

mm

Ano, titulní stránka je klikatá a provokativní, ale jako technický ředitel s mnoha lety zkušeností v oblasti dat jsem byl svědkem transformace, která ospravedlňuje dramatičnost. Tradiční „datový tým“ – týmy, které zpracovávají zprávy a dashboardy – je fakticky mrtvý. Na jeho místě se objevuje nový typ datového týmu: tým, který je orientován na umělou inteligenci a produkt, s přímým dopadem na výnosy. Už nejsou pouze nákladovým střediskem, ale skupinou, která generuje zisk.

Cesta od business intelligence k strojovému učení

Nedávno byly datové týmy synonymem pro business intelligence (BI). Byli jsme historiky firemních dat, žijícími v SQL a tabulkách, jejichž úkolem bylo zodpovědět otázku „Co se stalo minulý kvartál?“ S nástupem velkých datových technologií, jako je Hadoop, a termínem „data scientist“, který se stal novou sexy prací, se datové týmy vyvinuly. V polovině roku 2010 jsme již nedělali pouze reporty; jsme se pustili do datové visualizace a interaktivní analytiky, produkující dynamické dashboardy pro každé oddělení. Úkolem bylo zvládnout data, míchat datové sady z různých zdrojů a tvarů a snažit se pochopit znalosti domény.

Pak přelom roku 2010 přinesl éru strojového učení. Datové týmy začaly najímat datové vědce, aby postavili prediktivní modely a objevili poznatky ve velkých datech. Přesunuli jsme se od popisování minulosti k předpovídání budoucnosti: modely odchodu zákazníků, doporučovací motory, prognózy poptávky – můžete si vybrat. Ale i tehdy byly naše výstupy prezentacemi a poznatky, ne živými produkty. Funkce jsme měli jako interní servisní úřad, radící firmě prostřednictvím analýzy. Jinými slovy, byli jsme nákladovým střediskem – cenným, ano, ale jedním krokem odstraněným od jádra produktu a výnosů.

V nejlepších případech byly týmy strojového učení rozptýleny do samostatných jednotek nebo vloženy do produktových skupin, aby jejich modely a inference mohly být plně integrovány do platforem. Velký rozpor vedl k mnoha neúspěšným projektům, potopeným investicím a ztraceným příležitostem.

GenAI: Od podpůrné funkce k zisku

Pak přišla GenAI a všechno se změnilo. Uvolnění powerfulných velkých jazykových modelů, jako je rodina GPT a open-source varianty, jako Llama, změnilo krajinný obraz prakticky přes noc. Najednou nebyly datové týmy pouze analyzovány firmu, ale staly se integrovanou součástí budování produktů a zkušeností s umělou inteligencí. Když úspěšně integrujete LLM do zákaznického aplikací nebo interního workflow, už nejste pouze informováni firmu; řídíte ji. Dobře implementovaný GenAI systém může automatizovat zákaznickou podporu, generovat marketingový obsah, personalizovat uživatelské zkušenosti nebo dokonce poskytnout data nezbytná pro informování a školení vznikajících agentic AI systémů. Tyto schopnosti přímo ovlivňují výnosové toky. Ve skutečnosti se výstup datového týmu posunul z PowerPoint prezentací na živé AI poháněné aplikace.

GenAI týmy začaly s inovačními skupinami, dodávajícími důkazy konceptu, které generovaly „wow faktor.“ A brzy poté se každý stal AI inženýrem, rozšiřujícím stínovou IT po organizacích.

Brzy poté se datové týmy ocitly tváří v tvář nové otázce: „Kdy se stanete ziskovým střediskem?“ Když AI inženýři začali vytvářet úžasné nástroje, bylo jasné, že je čas spojit dvě týmy: ty, kteří ovládali data, a ty, kteří stavěli aplikace.

Připomeňme si firmu, která nasazuje GenAI chatbota pro zpracování prodejních dotazů, nebo banku, která spustila AI poháněného personalizovaného investičního poradce. Tyto nejsou tradiční IT vedlejší projekty – jsou digitální produkty, které vytvářejí zákaznickou hodnotu a generují výnosy. Avšak současně, aby tyto systémy vytvořily v měřítku, AI inženýrské týmy potřebují mít přístup a operationalizovat data, která tradiční týmy připravily.

Výkonní manažeři si toho všimli. Očekávání datových týmů jsou nyní velmi vysoká, s představenstvy a CEO, kteří od nás očekávají, že dodají další AI poháněný růstový vektor. Přesunuli jsme se z pozice skrytých analytiků na čelní inovátory. Je to vzrušující pozice, ale přichází s intenzivním tlakem na dodání výsledků v měřítku.

Od průzkumu k produktu – Jednosměrná brána

Posun od průzkumné analýzy k produktově orientované AI je zásadní a nezvratný. Proč nezvratný? Protože dopad GenAI na firmu se ukazuje jako příliš velký, aby se vrátil zpět do R&D hračky. Podle nedávného globálního průzkumu 96% IT lídrů již integrovalo AI do svých základních procesů – oproti 88% pouze před rokem. Jinými slovy, téměř každá firma přešla z experimentování s AI na jeho začlenění do kriticky důležitých workflow. Jakmile jste překročili práh, kde AI dodává hodnotu ve výrobě, není cesty zpět.

Tato nová AI poháněná orientace mění tempo a mentalitu datových týmů. V minulosti jsme měli luxus dlouhých objevných projektů a otevřených analýz. Dnes, pokud stavíme AI funkci, musí být připravena k výrobě, kompatibilní a spolehlivá – jako jakýkoli zákaznický produkt. Vstoupili jsme do toho, co někteří nazývají „Autonomní věk“ datové vědy. Otázka, která řídí naší práci, již není „jaké poznatky můžeme objevit?“ ale „jaký inteligentní systém můžeme postavit, který jedná na základě poznatků v reálném čase?“

GenAI systémy nejsou pouze odpovědi na otázky; začínají dělat rozhodnutí. Je to jednosměrná brána: po zkušenosti s touto autonomií a dopadem firmy nebudou souhlasit se statickými zprávami a manuálními rozhodnutími. Nyní více než kdykoli jindy datové týmy potřebují být orientovány na zúčastněné strany a produkt.

Tvrdá realita: Proč většina GenAI iniciativ selhává

Uprostřed všeho nadšení je tu střízlivá realita: většina GenAI iniciativ selhává. Ukázalo se, že úspěšné nasazení GenAI je extrémně náročné. Nedávná studie MIT zjistila, že ohromujících 95% podnikových GenAI pilotních projektů nikdy nedosáhne měřitelného ROI. Pouze asi 5% AI pilotů skutečně dosáhne rychlých výnosových zisků nebo významného obchodního dopadu. To není způsobeno nedostatkem potenciálu – je to způsobeno složitostí AI.

Při zkoumání příčin selhání, výzkum MIT jasně vykresluje obraz. Mnohé projekty selhávají kvůli „hype nad tvrdou prací“ – týmy honí působivé demo použití místo investic do nudných základů integrace, validace a monitorování. Jiné selhávají z klasického „špatná data, špatný výsledek“ syndromu – špatná kvalita dat a izolované datové potrubí odsuzují projekt k neúspěchu, ještě předtím, než AI dostane šanci udělat svou práci. Často není AI model vadný, je to okolní prostředí. Jak výzkumníci říkají, GenAI neselhává v laboratoři; selhává ve firmě, když narazí na vágní cíle, špatná data a organizační setrvačnost. V praxi většina AI pilotů uvízne ve fázi proof-of-concept a nikdy se nedostane do plné výrobní implementace.

Tato realita je cenná lekce. Říká nám, že i když datové týmy jsou nyní ve středu pozornosti, většina z nich bojuje s plněním zvýšených očekávání. Pro GenAI, aby uspělo v měřítku, musíme překročit výrazně vyšší laťku než jsme dělali ve starých BI dnech.

Mimo chytré podněty: Data, správa a infrastruktura záleží

Co odlišuje 5% AI projektů, které prosperují, od 95%, které selhávají? Z mé zkušenosti (a jak výzkum potvrzuje), vítězové se soustředí na základní schopnosti – data, správa a infrastruktura. GenAI není magie; je postavena na datech. Bez vysoce kvalitních, dobře spravovaných datových potrubí, které krmí vaše modely, i nejlepší AI bude produkovat nevyzpytatelné výsledky. Summit Partners to vyjádřili dobře v nedávné analýze: „úspěch jakéhokoli systému nebo procesu, který používá AI, závisí na kvalitě, struktuře a dostupnosti dat, která jej pohání.“

V praktických termínech to znamená, že organizace musí zdvojnásobit úsilí o datovou architekturu a správu, když přijímají GenAI. Máte sjednocené, přístupné datové úložiště, ze kterých může vaše AI čerpat (a myslím všechny datové úložiště, včetně datových center, hyperscalers a třetích stran SaaS systémů, mezi jinými)? Je tato data vyčištěna, kurátorská a kompatibilní s předpisy? Je zde jasná datová genealogie a auditovatelnost (abyste mohli důvěřovat AI výstupům a vědět, jak byly vytvořeny)? Tyto otázky jsou nyní na předním místě.

GenAI nutí firmy, aby konečně pořádkovaly svá datová domácnost.

Správa také získala novou důležitost. Když AI model může potenciálně vygenerovat špatnou odpověď (nebo urážlivou), robustní správa není volitelná – je povinná. Ovládací prvky, jako jsou verze, kontrola偏见, lidská kontrola a přísná bezpečnostní opatření kolem citlivých datových vstupů, jsou nezbytné. Bez řádné správy, školení a jasně definovaných cílů, i silný AI nástroj bude mít potíže s získáním trakce v obchodě.

A nepojměme infrastrukturu. Nasazení GenAI v měřítku vyžaduje významnou výpočetní sílu a přísné inženýrství. Modely potřebují být obsluhovány v reálném čase, napříč možná miliony dotazů s nízkou latencí. Často potřebují GPU nebo specializované hardwarové vybavení, jakož i nepřetržité monitorování, uchovávání a životního cyklu správy. Stručně řečeno, potřebujete průmyslovou AI infrastrukturu, která je zabezpečená, škálovatelná a odolná. To je místo, kde koncept Private AI přichází jako rámec, který spojuje infrastrukturu s daty a správou. Private AI se týká vývoje AI v kontrolovaném a zabezpečeném prostředí, zajišťujícím datovou bezpečnost a soulad.

Dno věci je, že úspěch GenAI závisí na harmonii tří pilířů: data, správa a infrastruktura. Bez jednoho z nich riskujete, že se připojíte k 95% projektů, které nikdy nezískají šanci beyond demo fáze.

Proč AI inženýři nemohou udělat všechno sami

Vzhledem k těmto požadavkům je zřejmé, že pouhé najmutí několika talentovaných AI inženýrů není stříbrnou kulkou. Naučili jsme se tuto lekci v posledních několika letech v datové branži. Na počátku boomu datové vědy se firmy snažily najít „jednorohé“ datové vědce, kteří mohli udělat všechno – postavit modely, napsat kód, zvládnout data a nasazení. Tento mýtus byl od té doby vyvrácen. Jak jeden zkušený datový vědec poznamenal, „model v notesu vlastně nic nedělá pro firmu.“ Musíte vložit ten model do aplikace nebo procesu, aby vytvořil hodnotu. A to vyžaduje týmovou snahu, která zahrnuje více dovedností.

V pozdních letech 2010 jsme viděli datové týmy diverzifikovat do různých rolí: datoví inženýři začali budovat robustní potrubí, inženýři strojového učení se soustředili na produkci modelů, analytičtí inženýři spravovali analytickou vrstvu a tak dále.

Dnes GenAI zvyšuje laťku ještě výše. Ano, potřebujete AI specialisty (inženýry promptů, jemných tunérů LLM, atd.), ale tito specialisté narazí na zeď, pokud nebudou mít zralá datová potrubí, rámce správy a zabezpečené platformy, se kterými mohou pracovat. AI inženýr může prototypovat skvělý jazykový model v pískovišti, ale přeměna toho na produkt, používaný tisíci nebo miliony, vyžaduje spolupráci se bezpečnostními týmy, compliance úředníky, datovými architekty, inženýry webu a mnoha dalšími.

AI je týmový sport. Je lákavé myslet si, že můžete nechat state-of-the-art model do své firmy a najednou mít AI poháněnou firmu. Společnosti, které úspěšně využívají AI, jsou ty, které postavily mezioborové týmy, nebo „AI továrny“, které spojují všechny tyto kusy. Jejich datové týmy se efektivně vyvinuly v plnohodnotné AI produktové týmy, kombinující datovou, modelovací, inženýrskou a provozní odbornost. Budují a nasazují své nástroje datově řízeným, produktově vedeným způsobem, s generací hodnoty zabudovanou do každého KPI.

Další generace datových týmů

Tak co čeká budoucnost pro nový „datový tým“? Zde je pohled na to, co přijde pro tyto týmy v příštích několika letech:

  • Méně manuálního ETL/ELT: Náročné datové zpracování bude klesat. S více automatizovanými datovými potrubími a AI asistovaným integrovaním, týmy nebudou trávit polovinu svého času čištěním a přesouváním dat. Pracovní zátěž datové přípravy bude stále více zpracovávána inteligentními systémy, umožňující lidem soustředit se na vyšší úroveň designu a kvalitní kontrolu.
  • Méně dashboardů: Éra nekonečného ladění dashboardových filtrů je mizící. AI umožní více přirozeného jazykového dotazování a dynamického doručování poznatků. Místo předem připravených dashboardů pro každou otázku, uživatelé dostanou konverzační odpovědi od AI (s připojenými zdrojovými daty). Datové týmy budou trávit méně času vyvíjením statických zpráv a více času školením AI, aby generovaly poznatky na letu.
  • Více AI nativního produktového vývoje: Datové týmy budou v srdci produktové inovace. Bez ohledu na to, zda se jedná o vývoj nové zákaznické AI funkce nebo interního AI nástroje, který optimalizuje provoz, tyto týmy budou fungovat jako produktové týmy. Budou využívat softwarové vývojové postupy, rychlé prototypování, A/B testování a uživatelský design – ne pouze datovou analýzu. Každý datový tým se bude fakticky stát AI produktovým týmem, dodávajícím přímou obchodní hodnotu.
  • Autonomní agenti na vzestupu: V blízké budoucnosti datové týmy nasadí autonomní AI agenty, aby zpracovali rutinní rozhodnutí a úkoly. Místo toho, aby pouze předpovídali výsledky, tito agenti budou autorizováni k provedení určitých akcí (s dohledem). Představte si AI operátora, který může detekovat anomálii a automaticky otevřít opravovací lístek, nebo prodejního AI agenta, který ladí e-commerce ceny v reálném čase. Datové týmy budou odpovědné za budování a správu těchto agentů, tlačící hranice toho, co lze automatizovat.

Vzhledem k těmto změnám lze říci, že „datové týmy, jak je známe, jsou mrtvé.“ Tabulkoví specialisté a dashboardoví instalatéři ustoupili novému typu: AI prvním týmům, které jsou plynné v datech, kódu a obchodních strategiích. Ale místo toho, aby to byla elegie, je to oslava. Nová generace datových týmů je teprve na počátku, a jsou více ceněné než kdykoli předtím

Takže si pamatujte, datový inženýr je mrtvý, ať žije datový inženýr! Datové týmy, jak je známe, jsou pryč, ale ať žijí nové datové týmy – ať vládnou v tomto AI poháněném světě s poznatky, zodpovědností a smělostí.

Sergio Gago je CTO ve společnosti Cloudera, přinášející 20+ let zkušeností v oblasti AI/ML, kvantového výpočtu a datově řízených architektur. Předtím byl ředitelem AI/ML & Quantum ve společnosti Moody’s Analytics, zastával také roli CTO ve společnostech Rakuten, Qapacity a Zinio. Sergio je silným zastáncem důvěryhodné datové infrastruktury, věří, že AI se do roku 2030 vyvine v operační systém podniku.