Connect with us

Liderzy opinii

Zespoły danych nie żyją, niech żyją zespoły danych

mm

Tak, tytuł jest klikalny i prowokacyjny, ale jako CTO z wieloma latami doświadczenia w danych, byłam świadkiem przemiany, która uzasadnia dramat. Tradycyjny „zespół danych” – zespół w back-office, który crunchuje raporty i dashboardy – jest skutecznie martwy. Na jego miejsce pojawia się nowy rodzaj zespołu danych: AI-pierwszy, produkt-driven powerhouse z bezpośrednim wpływem na przychody. Nie są już one centrum kosztów, ale grupą generującą zyski.

Podróż z Business Intelligence do Machine Learning

Niedawno zespoły danych były synonimem business intelligence (BI). Byliśmy historykami danych firmy, żyjącymi w SQL i arkuszach kalkulacyjnych, zadaniymi odpowiedzią na pytanie „Co się stało w zeszłym kwartale?” Gdy pojawiły się technologie big data, takie jak Hadoop, i termin „data scientist” stał się nową modną pracą, zespoły danych ewoluowały. Na początku lat 2010-tych robiliśmy więcej niż raporty; weszliśmy w data visualization i interaktywne analiza, produkując dynamiczne dashboardy dla każdego departamentu. Praca polegała na data wrangling, mieszaniu zestawów danych z różnych źródeł i kształtów, oraz próbie zrozumienia wiedzy branżowej.

Potem późne lata 2010-te przyniosły erę machine learning. Zespoły danych zaczęły zatrudniać data scientistów do budowy modeli predykcyjnych i odkrywania wniosków w ogromnych zestawach danych. Przeszliśmy od opisywania przeszłości do przewidywania przyszłości: modele churn, silniki rekomendacji, prognozy popytu – wymienijcie. Ale nawet wtedy nasze dane wyjściowe były prezentacje i wnioski, a nie produkty na żywo. Funkcjonowaliśmy jako wewnętrzny biuro usług, doradzający firmie poprzez analizę. Innymi słowy, byliśmy centrum kosztów – cenni, tak, ale jeden krok od rdzenia produktu i przychodu.

W najlepszych przypadkach zespoły machine learning były rozproszone w oddzielne jednostki lub wbudowane w grupy produktowe, tak aby ich modele i wnioski mogły być w pełni zintegrowane z platformami. Wielki podział doprowadził do wielu nieudanych projektów, zainwestowanych pieniędzy i straconych możliwości.

GenAI: Od funkcji wsparcia do centrum zysków

Potem pojawił się GenAI i wszystko się zmieniło. Wydanie potężnych dużych modeli językowych, takich jak rodzina GPT i warianty open-source, takie jak Llama, odwróciło krajobraz niemal z dnia na dzień. Nagle zespoły danych nie tylko analizowały firmę, ale stały się integralną częścią budowy AI produktów i doświadczeń. Gdy pomyślnie zintegrujesz LLM z aplikacją skierowaną do klienta lub wewnętrznym przepływem pracy, nie tylko informujesz firmę; ją prowadzisz. Dobrze zaimplementowany system GenAI może automatyzować obsługę klienta, generować treści marketingowe, personalizować doświadczenia użytkowników lub nawet dostarczać dane niezbędne do poinformowania i przeszkolenia powstających agenty AI. Te możliwości mają bezpośredni wpływ na strumienie przychodu. Skutecznie produkt pracy zespołu danych przesunął się od slajdów PowerPoint do aplikacji AI na żywo.

Zespoły GenAI zaczęły się od grup innowacyjnych, dostarczających dowody koncepcji, które generowały „wow factor”. I niedługo potem każdy był inżynierem AI, rozprzestrzeniając shadow IT w organizacjach.

Zespoły danych wkrótce stanęły przed nowym pytaniem: „Kiedy staniesz się centrum zysków?” Gdy inżynierowie AI zaczęli tworzyć niesamowite narzędzia, było jasne, że nadszedł czas, aby połączyć dwa zespoły: tych, którzy kontrolowali dane, i tych, którzy budowali aplikacje.

Rozważ firmę detaliczną, która wdrożyła GenAI chatbota do obsługi zapytań sprzedażowych lub bank, który uruchomił AI-driven, spersonalizowanego doradcę inwestycyjnego. Nie są to tradycyjne projekty IT – są to cyfrowe produkty, które tworzą wartość dla klienta i generują przychody. Jednakże, aby utworzyć te systemy na dużą skalę, zespoły inżynierów AI muszą mieć możliwość dostępu i operacjonalizacji danych, które tradycyjne zespoły przygotowały.

Dyrektorzy zauważyli to. Oczekiwania wobec zespołów danych są teraz niebotyczne, z zarządami i CEO, którzy spoglądają na nas, aby dostarczyć następny AI-pędzony wektor wzrostu. Przeszliśmy od bycia analitykami z tyłu sceny do pionierów na pierwszej linii. To ekscytująca pozycja, w której się znajdujemy, ale przychodzi z intensywną presją, aby dostarczyć wyniki na dużą skalę.

Od eksploracji do produktu – drzwi jednokierunkowe

Przesunięcie od analitycznej eksploracji do produktu AI jest głębokie i nieodwracalne. Dlaczego nieodwracalne? Ponieważ wpływ GenAI na firmę okazuje się zbyt duży, aby relegować go z powrotem do zabawki R&D. Zgodnie z niedawnym globalnym sondażem, 96% liderów IT już zintegrowało AI z ich podstawowymi procesami – w górę z 88% zaledwie rok wcześniej. Innymi słowy, prawie każda firma przeszła od eksperymentowania z AI do wbudowania go w misyjne przepływy pracy. Gdy przekroczysz ten próg, na którym AI dostarcza wartość w produkcji, nie ma powrotu.

To nowe AI-prowadzone skupienie zmienia tempo i nastawienie zespołów danych. W przeszłości mieliśmy luksus długich projektów odkrywczych i otwartych analiz. Dziś, jeśli budujemy funkcję AI, musi być ona gotowa do produkcji, zgodna i niezawodna – jak każdy produkt skierowany do klienta. Wszedłem do tego, co niektórzy nazywają „Autonomiczną Erą” nauki o danych. Pytanie, które kieruje naszą pracą, nie jest już „jakie wnioski możemy odkryć?”, ale „jaki inteligentny system możemy zbudować, który działa na wnioskach w czasie rzeczywistym?”

Systemy GenAI nie tylko odpowiadają na pytania; zaczynają podejmować decyzje. To drzwi jednokierunkowe: po doświadczeniu takiego poziomu autonomii i wpływu, firmy nie zadowolą się już statycznymi raportami i ręcznym podejmowaniem decyzji. Teraz bardziej niż kiedykolwiek zespoły danych muszą być zorientowane na interesariuszy i produkty.

Twarda prawda: Dlaczego większość inicjatyw GenAI kończy się niepowodzeniem

Wśród całego entuzjazmu, jest trzeźwa rzeczywistość: większość inicjatyw GenAI kończy się niepowodzeniem. Okazuje się, że pomyślne wdrożenie GenAI jest niezwykle trudne. Niedawne badanie MIT wykazało, że aż 95% pilotowych projektów GenAI w przedsiębiorstwach nie dostarcza mierzalnego ROI. Tylko około 5% pilotów AI rzeczywiście osiąga szybkie zyski przychodu lub znaczący wpływ biznesowy. Nie jest to spowodowane brakiem potencjału – jest to spowodowane złożonością robienia AI dobrze.

Wgłębiając się w przyczyny niepowodzenia, badanie MIT maluje wyraźny obraz. Wiele projektów potyka się, ponieważ „hype over hard work” – zespoły gonią efektowne przypadki użycia zamiast inwestowania w nudne podstawy integracji, walidacji i monitorowania. Inne kończą się niepowodzeniem z powodu klasycznego „śmieci w, śmieci w” – zła jakość danych i siostrzane potoki danych skazują projekt na niepowodzenie, zanim AI nawet zacznie działać. Często nie jest to model AI, który jest wadliwy, ale otaczające środowisko. Jak to ujmuje badacz, GenAI nie zawodzi w laboratorium; zawodzi w przedsiębiorstwie, gdy zderza się z niejasnymi celami, złymi danymi i organizacyjną bezwładnością. W praktyce większość pilotów AI zatrzymuje się na etapie dowodu koncepcyjnego i nigdy nie przechodzi do pełnej wdrożenia produkcyjnego.

Ta rzeczywistość jest cenną lekcją. Mówi nam, że chociaż zespoły danych są teraz w centrum uwagi, większość z nich ma trudności z spełnieniem podniesionych oczekiwań. Aby GenAI odniósł sukces na dużą skalę, musimy przekroczyć znacznie wyższą poprzeczkę niż w starej erze BI.

Poza inteligentnymi promptami: Dane, zarządzanie & infrastruktura mają znaczenie

Co odróżnia 5% projektów AI, które prosperują, od 95%, które szwankują? W moim doświadczeniu (i jak potwierdza to badanie), zwycięzcy koncentrują się na podstawowych zdolnościach – danych, zarządzaniu i infrastrukturze. GenAI nie jest magią; jest zbudowany na danych. Bez wysokiej jakości, dobrze zarządzanych potoków danych, karmiących twoje modele, nawet najlepszy AI wyprodukuje nieregularne wyniki. Summit Partners powiedział to dobrze w niedawnym analizie: „sukces każdego systemu lub procesu używającego AI zależy od jakości, struktury i dostępności danych, które go zasilają.”

W praktyce oznacza to, że organizacje muszą podwoić wysiłki w zakresie architektury danych i zarządzania, gdy przyjmują GenAI. Czy masz ujednolicone, dostępne sklepy danych, z których Twój AI może czerpać (i mam na myśli WSZYSTKIE sklepy danych, w tym centra danych, hyperscalers i systemy SaaS zewnętrzne, między innymi)? Czy te dane są czyste, opracowane i zgodne z przepisami? Czy jest wyraźna linia danych i audytowalność (abyś mógł zaufać wyjściom AI i wiedzieć, jak powstały)? Te pytania są teraz na pierwszym planie.

GenAI zmusza firmy do uporządkowania swojego domu danych.

Zarządzanie również zyskało nowe znaczenie. Gdy model AI może potencjalnie wygenerować błędną odpowiedź (lub obraźliwą), solidne zarządzanie nie jest opcjonalne – jest obligatoryjne. Kontrole, takie jak wersjonowanie, sprawdzanie stronniczości, przegląd człowieka w pętli i ścisłe środki bezpieczeństwa wokół wrażliwych danych wejściowych, są niezbędne. Bez odpowiedniego zarządzania, szkolenia i wyraźnie zdefiniowanych celów, nawet silne narzędzie AI będzie się miał trudności, aby zyskać przyczepność w biznesie.

A nie zapomnijmy o infrastrukturze. Wdrożenie GenAI na dużą skalę wymaga znaczącej mocy obliczeniowej i rygorystycznego inżynierii. Modele muszą być obsługiwane w czasie rzeczywistym, na możliwie miliony zapytań z niską latencją. Często wymagają one GPU lub specjalistycznego sprzętu, a także ciągłego monitorowania, utrzymania i zarządzania cyklem życia. Innymi słowy, potrzebujesz przemysłowej klasy infrastruktury AI, która jest bezpieczna, skalowalna i odporna. To jest tam, gdzie pochodzi concept Private AI jako ramy, które łączą infrastrukturę z danymi i zarządzaniem. Private AI odnosi się do rozwoju AI w kontrolowanym i bezpiecznym środowisku, zapewniając bezpieczeństwo danych i zgodność.

Podsumowując, sukces GenAI zależy od harmonii trzech filarów: danych, zarządzania i infrastruktury. Bez jednego, ryzykujesz dołączenie do 95% projektów, które nigdy nie przekroczą etapu demonstracji.

Dlaczego inżynierowie AI nie mogą tego zrobić sami

Biorąc pod uwagę te wymagania, jest jasne, że proste zatrudnienie kilku utalentowanych inżynierów AI nie jest srebrną kulą. Nauczyliśmy się tej lekcji w ciągu ostatnich kilku lat w branży danych. Na początku boomu data science, firmy próbowały znaleźć „jednorozowe” data scientistów, którzy mogliby zrobić wszystko – zbudować modele, napisać kod, obsłużyć dane i wdrożenie. Ten mit został od tego czasu rozproszony. Jak jeden weteran data scientist powiedział, „model siedzący w notesie nie robi nic dla biznesu.” Musisz osadzić ten model w aplikacji lub procesie, aby mógł tworzyć wartość. I robienie tego wymaga współpracy zespołu, który obejmuje wiele umiejętności.

W późnych latach 2010-tych widzieliśmy, jak zespoły danych różnicują się w odrębne role: inżynierowie danych zaczęli budować solidne potoki, inżynierowie machine learning skupili się na produkcyjnym modelu, inżynierowie analityczni zarządzali warstwą analityczną i tak dalej.

Dziś GenAI podnosi poprzeczkę jeszcze wyżej. Tak, potrzebujesz specjalistów AI (inżynierów promptów, fine-tunerów LLM itp.), ale ci specjaliści uderzą w ścianę, jeśli nie będą mieli dojrzałych potoków danych, ram zarządzania i bezpiecznych platform do pracy. Inżynier AI może zaprojektować wielki model językowy w piaskownicy, ale przekształcenie go w produkt używany przez tysiące lub miliony wymaga współpracy z zespołami bezpieczeństwa, oficerami zgodności, architektami danych, inżynierami niezawodności witryny i więcej.

AI to sport zespołowy. Jest kuszące myśleć, że możesz upuścić model AI na twoją firmę i nagle mieć firmę napędzaną AI. Firmy, które udaje się z AI, to te, które zbudowały zespoły cross-funkcyjne, czyli „fabryki AI”, które łączą wszystkie te elementy. Ich zespoły danych skutecznie ewoluowały w pełne zespoły produktów AI, łącząc umiejętności danych, modelowania, inżynierii i operacji. Budują i wdrażają swoje narzędzia w sposób danych, produktu, z wbudowanym wytwarzaniem wartości w każdym KPI.

Następna generacja zespołów danych

Więc, co przynosi przyszłość nowemu „zespołowi danych”? Oto spojrzenie na to, co nadchodzi dla tych zespołów w ciągu najbliższych kilku lat:

  • Mniej ręcznego ETL/ELT: Nudna praca z danymi zmaleje. Z bardziej zautomatyzowanymi potokami danych i AI-pomocą integracji, zespoły nie będą spędzać połowy swojego czasu na czyszczeniu i przenoszeniu danych. Praca z danymi będzie coraz częściej obsługiwana przez inteligentne systemy, pozwalając ludziom skupić się na wyższym poziomie projektowania i kontroli jakości.
  • Mniej dashboardów: Era niekończącego się dostosowywania filtrów dashboardów maleje. AI umożliwi bardziej naturalny język zapytań i dynamiczną dostawę wniosków. Zamiast prebudowanych dashboardów dla każdego pytania, użytkownicy otrzymają odpowiedzi w formie rozmowy z AI (z danymi źródłowymi). Zespoły danych będą spędzać mniej czasu na tworzeniu statycznych raportów i więcej czasu na szkoleniu AI, aby generować wnioski na fly.
  • Więcej AI-nativnej rozwoju produktu: Zespoły danych będą w sercu innowacji produktowych. Czy to rozwój nowej funkcji AI skierowanej do klienta, czy wewnętrznego narzędzia AI, które optymalizuje operacje, te zespoły będą działać jako zespoły produktowe. Zastosują praktyki rozwoju oprogramowania, szybkie prototypowanie, testy A/B i projektowanie doświadczeń użytkowników – a nie tylko analizę danych. Każdy zespół danych stanie się faktycznie zespołem produktu AI, dostarczając bezpośrednią wartość biznesową.
  • Autonomiczne agenci na wzrost: W niedalekiej przyszłości zespoły danych będą wdrażać autonomiczne agenci AI, aby obsłużyć rutynowe decyzje i zadania. Zamiast tylko przewidywać wyniki, ci agenci będą upoważnieni do podjęcia pewnych działań (z nadzorem). Wyobraź sobie agenta AI, który może wykryć anomalie i automatycznie otworzyć ticket naprawy, lub agenta sprzedaży AI, który dostosowuje ceny e-commerce w czasie rzeczywistym. Zespoły danych będą odpowiedzialne za budowanie i zarządzanie tymi agentami, przesuwając granice tego, co może osiągnąć automatyzacja.

W świetle tych zmian można by powiedzieć, że „zespoły danych, jakie znaliśmy, są martwe”. Ekspert od arkuszy kalkulacyjnych i instalatorzy dashboardów ustąpili miejsca czemuś nowemu: zespołom AI-pierwszym, które są biegle w danych, kodzie i strategii biznesowej. Ale zamiast być żałobą, jest to celebracja. Nowa generacja zespołów danych dopiero zaczyna, i są one bardziej wartościowe niż kiedykolwiek

Więc pamiętaj, inżynier danych jest martwy, niech żyje inżynier danych! Zespoły danych, jakie znaliśmy, odeszły, ale niech żyją nowe zespoły danych – niech rządzą w tym świecie AI z wglądem, odpowiedzialnością i śmiałością.

Sergio Gago jest CTO w Cloudera, przywożąc 20+ lat doświadczenia w AI/ML, komputacji kwantowej i architekturach opartych na danych. Poprzednio Dyrektor Zarządzający AI/ML & Quantum w Moody’s Analytics, pełnił również role CTO w Rakuten, Qapacity i Zinio. Sergio jest silnym orędownikiem zaufanej infrastruktury danych, wierząc, że AI ewoluować będzie w kierunku systemu operacyjnego przedsiębiorstwa do 2030 roku.