Connect with us

Datové týmy jsou mrtvé, ať žijí datové týmy

Myslitelé

Datové týmy jsou mrtvé, ať žijí datové týmy

mm

Ano, název je klikatý a provokativní, ale jako CTO s mnoha lety zkušeností v oblasti dat jsem byl svědkem transformace, která ospravedlňuje dramatičnost. Tradiční “datový tým” – týmy v back-office, které zpracovávají zprávy a dashboardy – je v podstatě mrtvý. Na jeho místě se objevuje nový typ datového týmu: AI-first, produktově orientovaný tým s přímým dopadem na výnosy. Už nejsou nákladovým střediskem, ale skupinou generující zisk.

Cesta od Business Intelligence k Machine Learning

Ne tak dávno byly datové týmy synonymem pro business intelligence (BI). Byli jsme historiky firemních dat, žijícími v SQL a tabulkách, jejichž úkolem bylo zodpovědět otázku „Co se stalo minulý kvartál?“ S nástupem big data technologií, jako je Hadoop, a s tím, jak se termín “data scientist” stal novou sexy prací, se datové týmy vyvinuly. Do poloviny roku 2010 jsme již nedělali pouze reporty; jsme se vydali do data vizualizace a interaktivní analytiky, produkovali dynamické dashboardy pro každý odbor. Práce spočívala v datové manipulaci, míchání dat ze různých zdrojů a tvarů a snažení se pochopit doménovou znalost.

Pak přelom desetiletí přinesl éru strojového učení. Datové týmy začaly najímat datové vědce, aby postavili prediktivní modely a odhalili poznatky ve velkých datech. Přesunuli jsme se od popisování minulosti k předpovídání budoucnosti: modely odchodu zákazníků, doporučovací motory, prognózy poptávky – můžete si vybrat. Ale i tehdy byly naše výstupy prezentace a poznatky, ne živé produkty. Funkce jsme měli jako interní servisní úřad, poradíme podniku prostřednictvím analýzy. Jinými slovy, byli jsme nákladovými středisky – cennými, ano, ale odstupňovanými od jádra produktu a výnosů.

V nejlepších případech byly týmy strojového učení rozptýleny do samostatných jednotek nebo vloženy do produktových skupin, aby jejich modely a inference mohly být plně integrovány do platforem. Velký rozpor vedl k mnoha neúspěšným projektům, potopeným investicím a ztraceným příležitostem.

GenAI: Od podpůrné funkce k zisku

Pak přišla GenAI a všechno se změnilo. Vydaní powerfulních velkých jazykových modelů, jako je rodina GPT a open-source varianty, jako Llama, otočily krajinu prakticky přes noc. Najednou nebyly datové týmy pouze analyzovány, ale staly se integrační součástí budování AI produktů a zkušeností. Když úspěšně integrujete LLM do zákaznického aplikace nebo interního workflow, už nejste pouze informováni o podniku; řídíte ho. Dobře implementovaný GenAI systém může automatizovat zákaznickou podporu, generovat marketingový obsah, personalizovat uživatelské zkušenosti nebo dokonce poskytnout data nezbytná pro informování a trénink emergentních agentic AI systémů. Tyto schopnosti přímo ovlivňují výnosové toky. Ve skutečnosti se výstupní produkt datové týmové práce posunul z PowerPoint prezentací na živé AI poháněné aplikace.

GenAI týmy začaly s inovačními skupinami, dodávali proofy konceptů, které generovaly „wow faktor“. A brzy všichni byli AI inženýři, šíříce shadow IT napříč organizacemi.

Datové týmy brzy zjistily, že čelí nové otázce: „Kdy se stanete ziskovým střediskem?“ Když AI inženýři začali vytvářet úžasné nástroje, bylo jasné, že je čas spojit dvě týmy: ty, kteří ovládali data, a ty, kteří stavěli aplikace.

Zvažte maloobchodní společnost, která nasazuje GenAI chatbota pro zpracování prodejních dotazů, nebo banku, která spustila AI poháněného personalizovaného investičního poradce. Tyto nejsou tradiční IT vedlejší projekty – jsou digitální produkty, které vytvářejí zákaznickou hodnotu a generují výnosy. Avšak současně, aby tyto systémy vytvořily v měřítku, AI inženýrské týmy potřebují mít přístup a operacionalizovat data, která tradiční týmy připravily.

Výkonní manažeři si toho všimli. Očekávání od datových týmů jsou nyní nebesky vysoké, s představenstvy a CEO, kteří se na nás dívají, aby doručili další AI poháněný růstový vektor. Přesunuli jsme se z pozadí scény analytiků na čelní inovátory. Je to vzrušující pozice, ve které jsme, ale přichází s intenzivním tlakem na dodání výsledků v měřítku.

Od průzkumu k produktu – jednosměrná brána

Přechod z průzkumné analýzy na produktově orientovanou AI je profound a nezvratný. Proč nezvratný? Protože dopad GenAI na podnik je příliš velký, aby se vrátil zpět do R&D hračky. Podle nedávného globálního průzkumu 96% IT lídrů již integrovalo AI do svých hlavních procesů – oproti 88% pouze před rokem. Jinými slovy, téměř každá podniková jednotka přešla z experimentování s AI na začlenění do misijně kritických workflow.

Tento nový AI poháněný focus mění tempo a mentalitu datových týmů. V minulosti jsme měli luxus dlouhých objevných projektů a otevřených analýz. Dnes, pokud stavíme AI funkci, musí být produkčně připravená, kompatibilní a spolehlivá – jako jakýkoli zákaznický produkt. Vstoupili jsme do toho, co někteří nazývají „Autonomní věk“ datové vědy. Otázka, která řídí naši práci, již není „jaké poznatky můžeme odhalit?“ ale „jaký inteligentní systém můžeme postavit, který jedná na základě poznatků v reálném čase?“

GenAI systémy nejsou pouze odpovědi na otázky; začínají dělat rozhodnutí. Je to jednosměrná brána: po prožití této autonomie a dopadu, společnosti již nebudou uspokojeny statickými reporty a manuálními rozhodnutími. Více než kdykoli jindy, datové týmy potřebují být orientovány na stakeholdery a produkty.

Tvrdá realita: Proč většina GenAI iniciativ selže

Uprostřed veškerého nadšení, existuje střízlivá realita: většina GenAI iniciativ selže. Ukázalo se, že úspěšné nasazení GenAI je extrémně náročné. Nedávná studie MIT zjistila, že ohromujících 95% podnikových GenAI pilotních projektů nikdy nedosáhne měřitelného ROI. Pouze asi 5% AI pilotů skutečně dosáhne rychlých výnosových zisků nebo významného podnikového dopadu. To není způsobeno nedostatkem potenciálu – je to způsobeno složitostí dělání AI správně.

Při zkoumání příčin neúspěchu, výzkum MIT jasně vykresluje obraz. Mnohé projekty selžou, protože „hype přes tvrdou práci“ – týmy honí působivé demo použití místo investic do nudných základů integrace, validace a monitoringu. Jiné selžou z klasického „odpad do odpadu“ syndromu – špatná kvalita dat a izolované datové potrubí odsuzují projekt k neúspěchu, ještě předtím, než AI dostane šanci udělat svou práci. Často to není AI model, který je vadný, ale okolní prostředí. Jak výzkumníci říkají, GenAI neselže v laboratoři; selže v podniku, když narazí na vágní cíle, špatná data a organizační setrvačnost. V praxi většina AI pilotů uvízne ve fázi proof-of-concept a nikdy se nedostane do plné produkční nasazení.

Tato realita je cennou lekcí. Říká nám, že i když datové týmy jsou nyní v centru pozornosti, většina z nich bojuje s plněním zvýšených očekávání. Pro GenAI, aby uspělo v měřítku, musíme překročit výrazně vyšší laťku než jsme dělali v starých BI dnech.

Mimo chytré podněty: Data, governance & infrastruktura záleží

Co odděluje 5% AI projektů, které prosperují, od 95%, které selžou? Z mé zkušenosti (a jak výzkum potvrzuje), vítězové se soustředí na základové schopnosti – data, governance a infrastruktura. GenAI není magie; je postaveno na datech. Bez kvalitních, dobře řízených datových potrubí, které krmí vaše modely, i nejlepší AI bude produkovat nepředvídatelné výsledky. Summit Partners to řekl dobře v nedávné analýze: „úspěch jakéhokoli systému nebo procesu, který používá AI, závisí na kvalitě, struktuře a dostupnosti dat, která ho pohání.“

V praktických termínech to znamená, že organizace musí zdvojnásobit úsilí o datové architektury a governance, zatímco přijímají GenAI. Máte sjednocené, přístupné datové úložiště, ze kterých může váš AI čerpat (a mám na mysli VŠECHNA datové úložiště, včetně datových center, hyperscalers a třetích stran SaaS systémů, mezi jinými)? Je to data vyčištěno, kurátorováno a kompatibilní s předpisy? Je zde jasná datová genealogie a auditovatelnost (aby jste mohli důvěřovat AI výstupům a vědět, jak k nim došlo)? Tyto otázky jsou nyní na předním místě.

GenAI nutí společnosti, aby konečně pořádkovaly své datové domovy.

Governance také získala novou významnost. Když AI model může potenciálně vygenerovat špatnou odpověď (nebo urážlivou), robustní governance není volitelná – je povinná. Kontroly, jako je verzování, kontrola偏見, lidská kontrola ve smyčce, a přísná bezpečnostní opatření kolem citlivých datových vstupů, jsou nezbytná. Bez řádné governance, tréninku a jasně definovaných cílů, i silný AI nástroj bude bojovat, aby získal trakci v podniku.

A nezapomeňme na infrastrukturu. Nasazení GenAI v měřítku vyžaduje významnou výpočetní sílu a přísné inženýrství. Modely potřebují být obsluhovány v reálném čase, napříč možná miliony dotazů s nízkou latencí. Často potřebují GPU nebo specializované hardware, jakož i pokračující monitoring, udržení a lifecycle management. Zkrátka, potřebujete průmyslovou AI infrastrukturu, která je zabezpečená, škálovatelná a odolná. To je místo, kde koncept Private AI přichází jako rámec, který spojuje infrastrukturu s daty a governance. Private AI se týká vývoje AI v kontrolovaném a zabezpečeném prostředí, zajišťujícím datovou bezpečnost a compliance.

Dno věci je, že úspěch GenAI závisí na harmonii tří pilířů: data, governance, a infrastruktura. Bez jednoho z nich riskujete, že se připojíte k 95% projektů, které nikdy neskálují za fázi demo.

Proč AI inženýři nemohou to udělat sami

Vzhledem k těmto požadavkům je jasné, že jednoduše najmout několik talentovaných AI inženýrů není stříbrná kulka. Naučili jsme se tuto lekci v posledních několika letech v datové industrie. Na počátku boomu datové vědy se společnosti snažily najít „jedinorohé“ datové vědce, kteří mohli udělat vše – postavit modely, napsat kód, zpracovat data a nasazení. Tento mýtus byl od té doby rozptýlen. Jak jeden zkušený datový vědec poznamenal, „model sedící v notebooku ve skutečnosti nedělá nic pro podnik.“ Potřebujete vložit ten model do aplikace nebo procesu, aby vytvořil hodnotu. A to vyžaduje týmovou snahu, která pokrývá více dovedností.

Na konci roku 2010 jsme viděli, jak se datové týmy diversifikovaly do různých rolí: datové inženýry začaly stavět robustní potrubí, strojoví inženýři se soustředili na produkční modely, analytickí inženýři spravovali analytickou vrstvu a tak dále.

Dnes GenAI zvyšuje laťku ještě vyšší. Ano, potřebujete AI specialisty (prompt inženýry, LLM fine-tunery, atd.), ale ti specialisté narazí na zeď, pokud nebudou mít zralá datová potrubí, governance rámce a zabezpečené platformy, se kterými mohou pracovat. AI inženýr může prototypovat skvělý jazykový model v pískovišti, ale převést to na produkt, který používá tisíce nebo miliony, vyžaduje spolupráci s bezpečnostními týmy, compliance úředníky, datovými architekty, site reliability inženýry a dalšími.

AI je týmový sport. Je lákavé myslet si, že můžete nechat state-of-the-art model do svého podniku a najednou mít AI poháněný podnik. Společnosti, které úspěšně využívají AI, jsou ty, které postavily multifunkční týmy, nebo „AI továrny“, které spojují všechny tyto kusy. Jejich datové týmy se efektivně vyvinuly do full-stack AI produktových týmů, kombinujících datové, modelovací, inženýrské a operační odbornosti. Staví a nasazují své nástroje datově řízeným, produktově vedeným způsobem, s generací hodnoty vloženou do každého KPI.

Budoucí generace datových týmů

Tak co čeká budoucnost pro nový „datový tým“? Zde je pohled na to, co přijde pro tyto týmy v příštích letech:

  • Méně manuálního ETL/ELT: Náročné datové manipulace budou mizet. S více automatizovanými datovými potrubími a AI asistovanými integracemi, týmy nebudou trávit polovinu svého času čištěním a přesouváním dat. Pracovní zátěž datové přípravy bude stále více zpracovávána inteligentními systémy, umožňující lidem soustředit se na vyšší úroveň designu a kvalitního řízení.
  • Méně dashboardů: Éra nekonečného ladění dashboard filtrů je mizící. AI umožní více přirozený jazykový dotaz a dynamické dodání poznatků. Místo předem připravených dashboardů pro každou otázku, uživatelé dostanou konverzační odpovědi od AI (s připojenými zdrojovými daty). Datové týmy budou trávit méně času vyvíjením statických reportů a více času trénováním AI, aby generovaly poznatky na letu.
  • Více AI-nativního produktového vývoje: Datové týmy budou v srdci produktové inovace. Bez ohledu na to, zda se jedná o vývoj nové zákaznické AI funkce nebo interního AI nástroje, který optimalizuje operace, tyto týmy budou fungovat jako produktové týmy. Budou využívat software vývojové postupy, rychlé prototypování, A/B testování a uživatelský design – ne pouze datovou analýzu. Každý datový tým se bude fakticky stát AI produktovým týmem, dodávajícím přímou podnikovou hodnotu.
  • Autonomní agenti na vzestupu: V blízké budoucnosti datové týmy nasadí autonomní AI agenty, aby zpracovali rutinní rozhodnutí a úkoly. Místo toho, aby pouze předpovídali výsledky, tito agenti budou autorizováni k provedení určitých akcí (s dohledem). Představte si AI ops agenta, který může detekovat anomálii a automaticky otevřít opravárenský ticket, nebo prodejní AI agenta, který ladí e-commerce ceny v reálném čase. Datové týmy budou odpovědné za stavbu a správu těchto agentů, tlačící hranice toho, co automatizace může dosáhnout.

Vzhledem k těmto změnám, někdo by mohl skutečně říci „datové týmy, jak je známe, jsou mrtvé.“ Ti, kteří pracovali s tabulkami a dashboardy, dali cestu něčemu novému: AI-first týmům, které jsou熟í v datech, kódu a podnikové strategii. Ale daleko od toho, aby to byla elegie, je to oslava. Nová generace datových týmů teprve začíná, a jsou více cenné než kdykoli předtím

Takže, pamatujte, datový inženýr je mrtvý, ať žije datový inženýr! Datové týmy, jak je známe, jsou pryč, ale ať žijí nové datové týmy – ať vládnou v tomto AI poháněném světě s poznatky, odpovědností a drzostí.

Sergio Gago je CTO ve společnosti Cloudera, přinášející více než 20 let zkušeností v oblasti AI/ML, kvantového výpočtu a datově řízených architektur. Předtím jako Managing Director of AI/ML & Quantum ve společnosti Moody’s Analytics, zastával také role CTO ve společnostech Rakuten, Qapacity a Zinio. Sergio je silným zastáncem důvěryhodné datové infrastruktury, věří, že AI se do roku 2030 vyvine v operační systém podniku.