Wywiady
Manuel Romero, Współzałożyciel i Dyrektor Naukowy w Maisa – Wywiad

Manuel Romero, Współzałożyciel i Dyrektor Naukowy w Maisa, jest badaczem i inżynierem AI skupionym na tworzeniu niezawodnych, korporacyjnych systemów sztucznej inteligencji. Współzałożył Maisa w 2024 roku, aby budować odpowiedzialną AI zdolną do wykonywania złożonych procesów biznesowych z przejrzystością i kontrolą. Przed Maisa Romero zajmował stanowiska starszego inżyniera AI i specjalisty ds. uczenia maszynowego w firmach takich jak Clibrain i Narrativa, gdzie specjalizował się w przetwarzaniu języka naturalnego i systemach AI na dużą skalę. Wcześniej w swojej karierze pracował jako pełnostackowy inżynier oprogramowania i specjalista DevOps, zanim przeszedł do zaawansowanych badań i rozwoju AI, stając się aktywnym współtwórcą ekosystemu open-source AI. Maisa AI tworzy autonomicznych „pracowników cyfrowych”, czyli agentów AI zaprojektowanych do automatyzacji złożonych przepływów pracy w przedsiębiorstwach przy zachowaniu śledzenia, zarządzania i niezawodności. Platforma umożliwia organizacjom budowanie i wdrażanie agentów AI przy użyciu języka naturalnego, co pozwala na automatyzację w różnych systemach wewnętrznych i źródłach danych bez rozbudowanego kodowania. Skupiając się na weryfikowalnym wnioskowaniu i ustrukturyzowanym wykonaniu, Maisa ma na celu przezwyciężenie typowych ograniczeń związanych z generatywnymi systemami AI i pomóc przedsiębiorstwom bezpiecznie wdrażać autonomiczną AI na dużą skalę. Często skupiałeś się na zrozumieniu głębszego „dlaczego” stojącego za systemami AI. Z technicznego punktu widzenia, co skłoniło Cię do współzałożenia Maisa w 2024 roku i jaką lukę w architekturze AI dla przedsiębiorstw uważałeś za nierozwiązaną? Motywacją do założenia Maisa było uświadomienie sobie, że większość korporacyjnych stosów AI jest budowana wokół modeli, a nie systemów. W czasie boomu na generatywną AI wiele firm skupiało się na integracji dużych modeli językowych z istniejącymi przepływami pracy. Jednak te systemy były często kruche, nieprzejrzyste i trudne do obsługi na dużą skalę. Brakowało im:
- deterministycznego wykonania tam, gdzie to istotne.
- silnej obserwowalności, możliwości śledzenia
- powtarzalności
Luką, którą dostrzegliśmy, był brak prawdziwej infrastruktury AI dla przedsiębiorstw. Firmy budowały aplikacje wokół API LLM, ale brakowało im czegoś równoważnego architekturze komputerowej dla pracy z wiedzą. Maisa została stworzona, aby wypełnić tę lukę, projektując architekturę skupioną wokół Jednostki Przetwarzania Wiedzy (KPU), systemu, który umożliwia AI niezawodne działanie w rzeczywistych przepływach pracy przedsiębiorstw. Pracowałeś w obszarze zaawansowanego przetwarzania języka naturalnego i systemów generatywnych przed założeniem Maisa. W jaki sposób te doświadczenia ukształtowały wybory architektoniczne stojące za platformą? Moje doświadczenie w pracy z NLP i NLG, szczególnie wokół trenowania i pre-trenowania modeli językowych, a później dużych modeli językowych (setek z nich), uświadomiło mi coś bardzo wyraźnie, gdy próbowałem budować na nich prawdziwe systemy. Architektura transformera jest niezwykle potężna, ale wiąże się z co najmniej trzema fundamentalnymi ograniczeniami, które muszą zostać rozwiązane, aby używać jej niezawodnie w produkcji. Pierwszym są halucynacje. Te modele generują tekst probabilistycznie i mogą tworzyć wyniki, które brzmią poprawnie, ale nie są oparte na zweryfikowanych informacjach. Drugim są ograniczenia kontekstu. Nawet przy większych oknach kontekstu modele działają w ograniczonej przestrzeni tokenów, co utrudnia wnioskowanie na podstawie dużych lub złożonych zbiorów wiedzy. Trzecim są aktualne informacje. Wstępnie wytrenowane modele reprezentują migawkę wiedzy z czasu treningu, podczas gdy środowiska przedsiębiorstw wymagają systemów, które mogą wnioskować na podstawie stale zmieniających się informacji. Uznanie tych ograniczeń ukształtowało wiele decyzji architektonicznych stojących za Maisa. Zamiast polegać wyłącznie na modelu, skupiliśmy się na zbudowaniu systemu, który zapewnia ustrukturyzowany dostęp do wiedzy, mechanizmy walidacji i kontrolowane wykonanie, aby AI mogła działać niezawodnie w rzeczywistych przepływach pracy przedsiębiorstw. Wiele przedsiębiorstw eksperymentuje z generatywną AI, ale ma trudności z wyjściem poza fazę pilotażową. Z perspektywy projektowania systemów, jaka jest główna przyczyna niepowodzeń w skalowaniu w tak wielu organizacjach? Wiele przedsiębiorstw ma trudności z wyjściem poza pilotaże generatywnej AI, ponieważ większość wdrożeń jest budowana jako eksperymenty, a nie solidne systemy. Wczesne prototypy często polegają na inżynierii promptów, lekkiej orkiestracji i prostych potokach pobierania, co może wykazać wartość, ale nie zapewnia niezawodności, obserwowalności ani kontroli wymaganych w środowiskach produkcyjnych. Gdy organizacje próbują skalować te systemy, napotykają problemy, takie jak niespójne wyniki, brak możliwości śledzenia, trudności z integracją z przepływami pracy przedsiębiorstwa oraz ograniczona kontrola nad zachowaniem AI. U podstaw problemu leży fakt, że duże modele językowe są generatorami probabilistycznymi, podczas gdy procesy przedsiębiorstw wymagają przewidywalnego i podlegającego audytowi zachowania. Bez architektury, która dodaje strukturę wokół wnioskowania, walidacji, wykonania i monitorowania, systemy generatywnej AI pozostają trudne do skalowania poza izolowane przypadki użycia. Pracownicy cyfrowi Maisa są zaprojektowani tak, aby podlegać audytowi i być ustrukturyzowani, a nie czysto probabilistyczni. Co to oznacza w praktyce dla przedsiębiorstw oceniających AI do użycia produkcyjnego? Kiedy mówimy, że Pracownicy cyfrowi Maisa podlegają audytowi i są ustrukturyzowani, a nie czysto probabilistyczni, mamy na myśli, że AI działa w kontrolowanym systemie, w którym jej działania i rozumowanie mogą być śledzone i zarządzane. Zamiast pozwalać modelowi swobodnie generować wyniki i decyzje, system strukturyzuje sposób, w jaki AI wchodzi w interakcję z danymi, narzędziami i przepływami pracy. Każdy krok w procesie może być rejestrowany, sprawdzany i walidowany, a działania są wykonywane przez zdefiniowane interfejsy, a nie bezpośrednio z wyjścia modelu. Dla przedsiębiorstw oznacza to, że systemy AI mogą być monitorowane, audytowane i integrowane z kluczowymi procesami z większym zaufaniem. Przesuwa to AI z bycia asystentem typu „czarna skrzynka” do systemu, którego zachowanie można zrozumieć, kontrolować i mu ufać w środowiskach produkcyjnych. Jako architekt Jednostki Przetwarzania Wiedzy, czym różni się ona od typowej warstwy orkiestracji lub silnika przepływu pracy zbudowanego wokół dużych modeli językowych? Jednostka Przetwarzania Wiedzy różni się od typowych warstw orkiestracji, ponieważ jest zaprojektowana do zarządzania pełnym cyklem życia wnioskowania napędzanego AI, a nie tylko koordynowania promptów i wywołań modeli. Większość frameworków orkiestracji działa jako menedżerowie przepływów pracy, którzy łączą ze sobą kroki, takie jak pobieranie, tworzenie promptów i wykonanie narzędzi. KPU działa na głębszym poziomie architektonicznym, strukturyzując sposób dostępu do wiedzy, sposób przeprowadzania rozumowania i sposób wykonywania działań w systemie. Traktuje przetwarzanie wiedzy jako podstawową warstwę obliczeniową, integrując pamięć, walidację i kontrolowane wykonanie, aby AI mogła działać niezawodnie wewnątrz złożonych przepływów pracy przedsiębiorstw, a nie tylko generować odpowiedzi. W branżach regulowanych tolerancja ryzyka jest niska. Jakie konkretne decyzje projektowe podjąłeś, aby zapewnić, że wyniki AI pozostają niezawodne i nie propagują błędów w złożonych przepływach pracy? W branżach regulowanych niezawodność i kontrola są kluczowe, dlatego zaprojektowaliśmy system z kilkoma zabezpieczeniami, aby zapewnić, że wyniki AI pozostają godne zaufania. Jedną z kluczowych zasad jest ustrukturyzowane wykonanie, w którym AI nie może bezpośrednio wywoływać krytycznych działań bez przejścia przez kontrolowane interfejsy. Włączamy również warstwy walidacji, które sprawdzają wyniki modelu względem schematów, reguł lub mechanizmów wtórnych, zanim zostaną zaakceptowane. Ponadto system utrzymuje pełną obserwowalność, rejestrując kroki rozumowania, interakcje z narzędziami i decyzje, aby można je było śledzić i poddawać audytowi. Razem te wybory projektowe pomagają zapobiegać propagowaniu błędów przez przepływy pracy i pozwalają organizacjom obsługiwać systemy AI z poziomem niezawodności i zarządzania wymaganym w środowiskach regulowanych. Jakie są najbardziej przekonujące wczesne przypadki użycia, w których widziałeś, jak Pracownicy cyfrowi przechodzą od wspomagania do w pełni operacyjnego wykonania napędzanego AI? Niektóre z najbardziej przekonujących wczesnych przypadków użycia pojawiają się w przepływach pracy intensywnie wykorzystujących wiedzę, gdzie procesy są dobrze zdefiniowane, ale nadal wymagają znaczącej analizy i podejmowania decyzji. W obszarach takich jak przegląd zgodności, operacje wsparcia technicznego i zarządzanie wiedzą wewnętrzną, Pracownicy cyfrowi mogą wykroczyć poza zwykłe wspomaganie ludzi i rozpocząć wykonywanie ustrukturyzowanych zadań od początku do końca. Mogą pobierać i analizować duże wolumeny informacji wewnętrznych, stosować zdefiniowane procedury, wchodzić w interakcję z systemami przedsiębiorstwa przez kontrolowane narzędzia i tworzyć wyniki, które trafiają bezpośrednio do operacyjnych przepływów pracy. Kluczowa zmiana następuje, gdy AI nie tylko generuje sugestie, ale jest w stanie niezawodnie wykonywać zdefiniowane działania w ramach zarządzanego systemu, pozwalając organizacjom automatyzować części złożonej pracy z wiedzą, a nie tylko ją wspomagać. W miarę jak na całym świecie nasila się nadzór regulacyjny nad AI, jak Twoim zdaniem będzie ewoluować podstawowa infrastruktura AI, aby spełniać wymogi zgodności, nie ograniczając innowacji? W miarę jak zwiększa się nadzór regulacyjny nad AI, wierzę, że zobaczymy odejście od architektur, które po prostu wywołują API dostawców modeli i ślepo ufają wynikom. Przedsiębiorstwa i regulatorzy będą coraz bardziej domagać się systemów, w których zachowanie AI jest obserwowalne, podlegające audytowi i zarządzane. To tutaj architektury takie jak Jednostka Przetwarzania Wiedzy stają się ważne. Ten typ architektury pozwala organizacjom egzekwować kontrole, śledzić decyzje i zapewniać, że wyniki AI są niezawodne, zanim wpłyną na rzeczywiste procesy. Z czasem spodziewam się, że tego rodzaju systemy staną się standardowym fundamentem dla godnej zaufania infrastruktury AI. Mówiłeś o etyce i odpowiedzialności obok swojej pracy technicznej. W jaki sposób te perspektywy wpływają na Twoje podejście do budowania przejrzystych systemów AI? Etyka i odpowiedzialność przekładają się dla mnie bezpośrednio na wybory projektowe systemów. Jeśli systemy AI mają uczestniczyć w rzeczywistych operacyjnych przepływach pracy, nie mogą funkcjonować jako nieprzejrzyste czarne skrzynki, których zachowania nie można sprawdzić ani zrozumieć. Ta perspektywa silnie wpłynęła na moje podejście do budowania systemów AI. Przejrzystość, możliwość śledzenia i nadzór ludzki muszą być wbudowane w architekturę od samego początku. Oznacza to zapewnienie, że kroki rozumowania można obserwować, decyzje można poddawać audytowi, a działania są wykonywane przez kontrolowane mechanizmy. Gdy te zasady są osadzone na poziomie infrastruktury, systemy AI stają się nie tylko bardziej godne zaufania, ale także łatwiejsze do odpowiedzialnego zarządzania przez organizacje. Patrząc w przyszłość, czy uważasz, że infrastruktura agentowej AI stanie się tak fundamentalna, jak stała się nią infrastruktura chmurowa w poprzedniej dekadzie — i co musi się wydarzyć technicznie, aby ta zmiana się urzeczywistniła? Wierzę, że infrastruktura agentowej AI ma potencjał, aby stać się tak fundamentalna, jak stała się nią infrastruktura chmurowa w ciągu ostatniej dekady. Gdy organizacje chcą automatyzować coraz bardziej złożoną pracę z wiedzą, będą potrzebować systemów, które mogą niezawodnie koordynować rozumowanie, pamięć i wykonanie w wielu zadaniach i źródłach danych. Jednak aby ta zmiana się urzeczywistniła, podstawowa architektura musi dojrzeć poza proste integracje modeli. Potrzebujemy infrastruktury, która zapewnia ustrukturyzowane wnioskowanie, niezawodny dostęp do wiedzy przedsiębiorstwa, silną obserwowalność i kontrolowane wykonywanie działań. Gdy te możliwości zostaną wbudowane w rdzeń systemu, agentowa AI może ewoluować z eksperymentalnych narzędzi w niezawodną infrastrukturę, na której organizacje polegają, aby prowadzić kluczowe operacje. Dziękuję za świetny wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Maisa AI.












