Connect with us

Wywiady

Rob May, CEO i Współzałożyciel NeuroMetric – Wywiad

mm

Rob May, CEO i Współzałożyciel NeuroMetric, to doświadczony przedsiębiorca i inwestor z długim stażem obejmującym przetwarzanie w chmurze, startupy AI i venture capital, obecnie kierujący Neurometric AI, a jednocześnie pełniący funkcję Dyrektora Zarządzającego w HalfCourt Ventures, gdzie wsparł ponad 100 firm technologicznych. Oprócz ról operacyjnych i inwestycyjnych współtworzył społeczność AI Innovators Community i wcześniej budował oraz sprzedawał firmy takie jak Backupify, co odzwierciedla głębokie doświadczenie w wielu cyklach technologicznych. Jest również szeroko znany ze swojego długoletniego newslettera Investing in AI, który zaczął pisać ponad dekadę temu, aby analizować pojawiające się trendy w AI, strategie inwestycyjne i zmiany na rynku, i który od tego czasu ewoluował w platformę dostarczającą głębsze spojrzenie na szybko zmieniający się krajobraz sztucznej inteligencji.

NeuroMetric AI koncentruje się na rozwiązaniu jednego z najważniejszych wyzwań współczesnej sztucznej inteligencji: kosztów i efektywności wnioskowania na dużą skalę. Platforma dynamicznie ocenia obciążenia AI i stosuje strategie optymalizacji — takie jak łączenie mniejszych, wyspecjalizowanych modeli z zaawansowanymi technikami obliczeniowymi w czasie testowania — aby poprawić wydajność przy jednoczesnym drastycznym obniżeniu kosztów, umożliwiając przedsiębiorstwom osiągnięcie lepszego zwrotu z inwestycji (ROI) z wdrożeń AI. Dzięki orkiestracji obciążeń i dostosowywaniu użycia modeli do konkretnych zadań, Neurometric ma na celu uczynienie systemów AI znacznie szybszymi i bardziej przystępnymi cenowo, pozycjonując się na przecięciu infrastruktury AI, efektywności i rzeczywistej skalowalności, gdy organizacje przechodzą od fazy eksperymentów do produkcji.

Zakładałeś i prowadziłeś wiele firm AI, zainwestowałeś w ponad 100 startupów przez HalfCourt Ventures i wcześniej zbudowałeś i sprzedałeś Backupify. W jaki sposób te doświadczenia ukształtowały twoją perspektywę na to, gdzie dziś tworzona jest trwała wartość w AI?

Myślę, że większość inwestorów i przedsiębiorców goni za krótkoterminowymi fosami — rzeczami, które wyglądają dziś na oczywiste luki na rynku, ale luki, które zostaną szybko wypełnione przez istniejące firmy. AI sprawi, że prowadzenie biznesu skurczy się do serii probabilistycznych decyzji. Firmy, w które warto inwestować lub które warto budować, to te, które mają najlepsze ogólne szacunki tych prawdopodobieństw. Czasami będzie to wynikać z integracji pionowej, a czasami ze skali poziomej — to zależy od rynku.

W swoim newsletterze Investing in AI argumentowałeś, że modele stają się coraz bardziej wymienne, a prawdziwa obronność przesuwa się w warstwę systemową. Jak w praktyce wygląda prawdziwa “fosa systemowa”?

Prawdziwa fosa systemowa ma trzy właściwości: kumuluje się z użyciem, jest specyficzna dla klienta i nie można jej odtworzyć przez wstawienie lepszego modelu.

Obronność tkwi w tym, co nazywam “Systemem Kontekstu” — zintegrowanej architekturze, która łączy modele podstawowe ze wszystkim, co czyni firmę wyjątkową: jej danymi, przepływami pracy, wiedzą dziedzinową, historią decyzji. System przechwytuje sygnał z każdej interakcji — które modele radzą sobie z którymi zadaniami, gdzie ma znaczenie opóźnienie, jakie pojawiają się wzorce specyficzne dla przedsiębiorstwa — i wykorzystuje go do samodoskonalenia.

Kluczowa intuicja jest taka, że tworzy to multiplikatywną pętlę sprzężenia zwrotnego, a nie addytywną. Nie tylko gromadzisz przeszukiwalny dziennik przeszłych decyzji. Generujesz sygnał treningowy, który produkuje wyspecjalizowane modele poprawiające routing, który przechwytuje bardziej wartościowe dane. Fosa poszerza się z każdym wnioskowaniem.

W praktyce fosa systemowa wygląda jak głęboka integracja z przepływem pracy, gdzie koszty zmiany nie dotyczą API — dotyczą przepisywania logiki biznesowej. Wygląda jak zastrzeżony kontekst, którego żaden konkurent nie może odtworzyć, ponieważ został wygenerowany przez miesiące użytkowania produkcyjnego w konkretnym przedsiębiorstwie. I wygląda jak ciągła pętla specjalizacji, w której system staje się znacząco lepszy dla tego klienta w sposób, w jaki ogólny dostawca modeli nigdy nie będzie.

Era modeli dała nam surową zdolność. Era systemów to miejsce, gdzie ta zdolność staje się wartością w świecie rzeczywistym.

W jaki sposób przedsiębiorstwa powinny myśleć o budowaniu strategii wielomodelowej, obejmującej logikę routingu, ścieżki eskalacji i ciągłą ewaluację, zamiast polegać na jednym modelu granicznym?

Pierwszą rzeczą, którą przedsiębiorstwa muszą przyswoić, jest to, że strategia “po prostu używaj najlepszego modelu” jest przegraną na dużą skalę. To odpowiednik przepuszczania każdego zapytania przez twojego najbardziej doświadczonego inżyniera. To drogie, wolne i — paradoksalnie — często nie daje najlepszych rezultatów.

To prowadzi do tego, co nazywam Postrzępioną Granicą Wnioskowania: wydajność modelu jest specyficzna dla zadania i nieprzewidywalna. Modele graniczne przegrywają z mniejszymi, wyspecjalizowanymi modelami w konkretnych zadaniach cały czas. Widzieliśmy złożone systemy wielomodelowe osiągające 72,7% dokładności w zadaniach CRM, gdzie modele graniczne uzyskały 58%. Powierzchnia wydajności nie koreluje schludnie z liczbą parametrów. Zatem prawdziwe pytanie brzmi nie “który model jest najlepszy?” — tylko “który model jest najlepszy dla tego konkretnego podzadania?”.

To przeformułowanie jest fundamentem prawdziwej strategii wielomodelowej. Oto jak radziłbym przedsiębiorstwom myśleć o tym w trzech warstwach.

Logika routingu zaczyna się od mapowania krajobrazu twojego wnioskowania. Skataloguj każdy punkt w twoim systemie, w którym wykonywane jest wywołanie LLM, i dla każdego z nich udokumentuj typ zadania, złożoność wejścia/wyjścia, wymagania dotyczące opóźnienia, próg dokładności i wolumen wywołań. To daje ci mapę cieplną. Szybko odkryjesz, że większość twojego wolumenu to praca o wysokiej częstotliwości i wąskim zakresie — klasyfikacja, ekstrakcja encji, routing intencji, generowanie szablonów — gdzie dostrojony mniejszy model dorównuje lub pokonuje model graniczny za ułamek kosztu. Zarezerwuj swoje drogie wywołania graniczne dla zadań, które naprawdę wymagają złożonego rozumowania. Agent wykonujący 50 wywołań na zadanie nie potrzebuje GPT-4 do wszystkich 50.

Ścieżki eskalacji dotyczą budowania inteligentnych zapasowych rozwiązań, a nie tylko przełączania awaryjnego. System musi rozpoznawać, kiedy mniejszy model zwraca wyniki o niskim poziomie ufności i eskalować do bardziej zdolnego modelu — lub do zupełnie innej kombinacji model-strategia. Tutaj wchodzą strategie obliczeniowe w czasie testowania. Czasami właściwą odpowiedzią nie jest większy model — tylko ten sam model z chain-of-thought, beam search lub best-of-N sampling. Optymalna konfiguracja zmienia się nie tylko w zależności od modelu, ale także od algorytmu myślenia, który z nim sparujesz.

Częgła ewaluacja to element, którego większość przedsiębiorstw całkowicie nie dostrzega, i to tutaj pojawia się prawdziwa obronność. Wybór modelu nie jest decyzją jednorazową — to ciągły problem optymalizacyjny. Nowe modele pojawiają się stale, twoje przypadki użycia ewoluują, a wydajność pogarsza się w sposób, który zawodzi po cichu. Nie będziesz wiedział, że bot obsługi klienta dał odpowiedź o 40% gorszą, ponieważ użyłeś złego modelu dla tego typu zapytania — zobaczysz tylko odpływ klientów trzy miesiące później. Potrzebujesz infrastruktury, która ciągle mierzy, co faktycznie działa w kombinacjach model-zadanie i dostosowuje routing w oparciu o rzeczywiste dane o wydajności, a nie benchmarki.

Powodem, dla którego większość firm nie dokonała tej zmiany, jest to, że nikt nie zostaje zwolniony za wybór modelu granicznego — to “nikt nie zostaje zwolniony za kupno IBM” w świecie AI. Ekosystem dostawców promuje modele graniczne, bo tam są marże. A infrastruktura orkiestracji wymagana do faktycznego uruchomienia architektury wielomodelowej — logika routingu, mechanizmy awaryjne, zarządzanie modelami, obserwowalność — po prostu nie istnieje w większości firm. Utknęły w lokalnym optimum, gdzie koszty zmiany i niepewność związana z wieloma modelami wydają się wyższe niż ciągłe przepłacanie za wnioskowanie graniczne.

Jakie są największe błędy, które widzisz, gdy firmy przechodzą od pilotaży AI do systemów produkcyjnych?

Zakładają, że ich wybory mogą być statyczne i długotrwałe. W rzeczywistości każda warstwa stosu technologicznego dla AI zmienia się szybko. Firmy muszą podejmować decyzje, które zapewniają opcjonalność i elastyczność.

W jakich typach przepływów pracy widziałeś, że mniejsze, zadaniowo specyficzne modele przewyższają duże modele graniczne i dlaczego ma to znaczenie strategiczne?

Widzieliśmy to w prawie każdym powszechnym codziennym zadaniu pracy — rzeczach takich jak podstawowa księgowość, podsumowywanie tekstu, ekstrakcja encji z różnych dokumentów. Badaliśmy SLM dla setek zadań pracy i prawie zawsze wygrywają, jeśli problem jest właściwie ustrukturyzowany.

Pisałeś o malejącym koszcie krańcowym wdrażania AI w nowe przypadki użycia. W jaki sposób ta zmiana wpływa na długoterminową ekonomikę adopcji AI przez przedsiębiorstwa?

Narracja o bańce zakłada, że przychody z AI wymagają proporcjonalnych inwestycji w R&D w nowe modele. Nie wymagają. Modele są zbudowane. Infrastruktura istnieje. Każdy dodatkowy przypadek użycia to prompt, połączenie danych, może lekkie dostrojenie — a nie kolejny trening za 100 mln dolarów. Krzywa kosztów krańcowych obniża się w miarę dojrzewania platformy.

Jest to przeciwieństwo kolei żelaznych czy telekomów, gdzie każda nowa mila torów była droga. W AI zbudowanie silnika było drogie. Podłączanie rzeczy do silnika jest tanie i staje się coraz tańsze — koszty wnioskowania spadły około 1000-krotnie w ciągu dwóch lat. Pytanie dla przedsiębiorstw nie brzmi, czy AI się opłaca. Tylko ile przypadków użycia możesz nałożyć na tę samą infrastrukturę, zanim krzywa przychodów przytłoczy krzywą kosztów.

Jakich sygnałów powinny używać zespoły techniczne, aby określić, kiedy przełączyć modele, dostroić je lub zbudować wyspecjalizowane małe modele zadaniowe?

Sygnały niekoniecznie są techniczne. Są raczej napędzane wydajnością lub ekonomią. Na przykład przełączenie modelu, dostrojenie modelu lub zbudowanie niestandardowego SLM może zadziałać. Decyzja zależy od tego, czy optymalizujesz pod kątem opóźnienia czy kosztu, jak często zadanie jest wykonywane i jak długo trwa zbudowanie i wdrożenie każdego rozwiązania.

Jak projektować zabezpieczenia, monitorowanie i zarządzanie zgodnością w sposób, który faktycznie skaluje się z użyciem, zamiast stać się wąskim gardłem?

Błędem, który popełnia większość przedsiębiorstw, jest traktowanie zarządzania zgodnością jako punktu kontrolnego — warstwy ręcznego przeglądu doczepionej do przepływów pracy AI. To się nie skaluje. Staje się wąskim gardłem w momencie wzrostu użycia.

Zarządzanie zgodnością musi być osadzone w samej warstwie orkiestracji. Gdy twoja infrastruktura routingu już ocenia każde wywołanie wnioskowania — który model, które zadanie, jaki poziom ufności — dodanie zabezpieczeń jest kosztem krańcowym, a nie nowym systemem. Ta sama warstwa, która decyduje, który model obsługuje zapytanie, może egzekwować politykę: filtrowanie danych osobowych przed wywołaniem, walidacja wyjścia po, ślady audytowe przechwytywane automatycznie, alokacja kosztów według działu.

Kluczowa intuicja jest taka, że przedsiębiorstwa nie zawodzą wewnątrz systemów AI. Zawodzą między nimi — w przekazaniach, eskalacjach i wyjątkach. Zarządzanie zgodnością, które się skaluje, wygląda jak płaszczyzna sterująca, która sprawia, że każde działanie AI jest bezpieczne, podlegające audytowi i powtarzalne jako produkt uboczny wykonania, a nie przeszkoda dla niego.

Porównałeś dzisiejszy krajobraz AI do przejścia z mainframe’ów na komputery PC. Co ta decentralizacja oznacza dla startupów budujących w warstwie systemowej?

Jesteśmy teraz w fazie mainframe’ów AI. Duże, scentralizowane modele graniczne od OpenAI, Anthropic i Google były konieczne, aby skoncentrować wysiłki i zademonstrować, co AI może zrobić. Ta faza się sprawdziła. Możliwości są dobrze zrozumiane. Ale tak jak informatyka nie pozostała scentralizowana, AI też nie pozostanie. Wchodzimy w erę PC — zdecentralizowany ekosystem, w którym mniejsze, wyspecjalizowane modele działają bliżej pracy.

Dane o wydatkach już to odzwierciedlają. Inwestycje przedsiębiorstw w AI są teraz podzielone prawie równo między infrastrukturę i aplikacje, a udział aplikacji rośnie szybciej. Ekspansja jest pozioma — w HR, prawo

//www.futurist.ai">futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skoncentrowanej na inwestowaniu w zaawansowane technologie, które na nowo definiują przyszłość i przekształcają całe sektory.