Connect with us

Wywiady

Neetu Pathak, współzałożyciel i CEO Skymel – seria wywiadów

mm

Neetu Pathak, współzałożyciel i CEO Skymel, prowadzi firmę w rewolucjonizowaniu wnioskowania AI za pomocą innowacyjnej technologii NeuroSplit™. Wraz z CTO Sushant Tripathy, prowadzi misję Skymel, aby poprawić wydajność aplikacji AI, jednocześnie redukując koszty obliczeniowe.

NeuroSplit™ to technologia inferencji adaptacyjnej, która dynamicznie rozdziela obciążenia AI między urządzeniami użytkowników a serwerami w chmurze. Ten podejście wykorzystuje bezczynne zasoby obliczeniowe na urządzeniach użytkowników, redukując koszty infrastruktury chmury o do 60%, przyspieszając szybkość inferencji, zapewniając prywatność danych i umożliwiając płynną skalowalność.

Poprzez optymalizację lokalnej mocy obliczeniowej, NeuroSplit™ pozwala aplikacjom AI działać wydajnie nawet na starszych GPU, znacznie redukując koszty, jednocześnie poprawiając doświadczenie użytkownika.

Czym skłoniło Cię do współzałożenia Skymel, i jakie kluczowe wyzwania w infrastrukturze AI staraliście się rozwiązać za pomocą NeuroSplit?

Pomysł na Skymel powstał z połączenia naszych uzupełniających się doświadczeń. Podczas pracy w Google mój współzałożyciel, Sushant Tripathy, wdrażał modele AI oparte na mowie na miliardach urządzeń z Androidem. Odkrył, że istnieje ogromna ilość bezczynnych zasobów obliczeniowych na urządzeniach użytkowników, ale większość firm nie mogła ich wykorzystać skutecznie z powodu złożonych wyzwań inżynieryjnych związanych z dostępem do tych zasobów bez naruszania doświadczenia użytkownika.

Tymczasem moje doświadczenie pracy z przedsiębiorstwami i startupami w Redis dało mi głębokie zrozumienie, jak krytyczna stała się opóźnienie dla firm. W miarę jak aplikacje AI stały się bardziej powszechne, stało się jasne, że musimy przenieść przetwarzanie bliżej miejsca, w którym dane są tworzone, zamiast stale przesyłać dane tam i z powrotem do centrów danych.

To było momentem, w którym Sushant i ja zrealizowaliśmy, że przyszłość nie polega na wyborze między przetwarzaniem lokalnym a chmurowym – ale na stworzeniu inteligentnej technologii, która może bezproblemowo adaptować się między przetwarzaniem lokalnym, chmurowym lub hybrydowym w zależności od konkretnego wnioskowania. To spostrzeżenie doprowadziło nas do założenia Skymel i rozwoju NeuroSplit, przechodząc poza tradycyjne ograniczenia infrastruktury, które hamowały innowacje AI.

Czy możesz wyjaśnić, jak NeuroSplit dynamicznie optymalizuje zasoby obliczeniowe, jednocześnie zachowując prywatność użytkownika i wydajność?

Jednym z głównych pułapek w lokalnym wnioskowaniu AI były jego statyczne wymagania obliczeniowe – tradycyjnie, uruchamianie modelu AI wymagało tych samych zasobów obliczeniowych, niezależnie od warunków urządzenia lub zachowania użytkownika. Ten podejście “jedna rozmiar pasuje do wszystkich” ignoruje fakt, że urządzenia mają różne możliwości sprzętowe, od różnych chipów (GPU, NPU, CPU, XPU) do różnych przepustowości sieci, a użytkownicy mają różne zachowania w zakresie użycia aplikacji i wzorców ładowania.

NeuroSplit ciągle monitoruje różne telemetrię urządzeń – od możliwości sprzętowych po bieżące wykorzystanie zasobów, stan baterii i warunki sieci. Uwzględniamy również wzorce zachowań użytkowników, takie jak ilość innych uruchomionych aplikacji i typowe wzorce użycia urządzenia. Ten kompleksowy monitoring pozwala NeuroSplit na dynamiczne określenie, ile wnioskowania obliczeniowego może być bezpiecznie uruchomione na urządzeniu użytkownika, optymalizując jednocześnie wskaźniki wydajności deweloperów.

Gdy prywatność danych jest niezwykle ważna, NeuroSplit zapewnia, że surowe dane nigdy nie opuszczają urządzenia, przetwarzając wrażliwe informacje lokalnie, jednocześnie zachowując optymalną wydajność. Nasza zdolność do inteligentnego podziału, przycinania lub odłączania modeli AI pozwala nam zmieścić 50-100 modeli AI w przestrzeni pamięci jednego tylko zkwantyfikowanego modelu na urządzeniu użytkownika. W praktyce oznacza to, że użytkownicy mogą uruchamiać znacznie więcej aplikacji AI jednocześnie, przetwarzając wrażliwe dane lokalnie, w porównaniu z tradycyjnymi podejściami obliczeniowymi.

Jakie są główne korzyści z adaptacyjnego wnioskowania NeuroSplit dla firm AI, szczególnie tych, które pracują ze starszą technologią GPU?

NeuroSplit dostarcza trzy przełomowe korzyści dla firm AI. Po pierwsze, dramatycznie redukuje koszty infrastruktury za pomocą dwóch mechanizmów: firmy mogą wykorzystywać tańsze, starsze GPU, a nasza unikalna zdolność do umieszczenia pełnych i modeli stub na GPU w chmurze umożliwia znacznie wyższe wskaźniki wykorzystania GPU. Na przykład aplikacja, która zwykle wymaga kilku NVIDIA A100 za 2,74 USD za godzinę, może teraz działać na jednym A100 lub kilku V100 za zaledwie 0,83 USD za godzinę.

Po drugie, znacznie poprawiamy wydajność, przetwarzając początkowe surowe dane bezpośrednio na urządzeniach użytkowników. Oznacza to, że dane, które ostatecznie trafiają do chmury, są znacznie mniejsze, znacznie redukując opóźnienia sieciowe, jednocześnie zachowując dokładność. Ten hybrydowy podejście daje firmom najlepsze z obu światów – szybkość przetwarzania lokalnego z mocą obliczeniową chmury.

Po trzecie, poprzez przetwarzanie wrażliwych danych początkowych na urządzeniu użytkownika, pomagamy firmom utrzymać silne zabezpieczenia prywatności użytkowników bez poświęcania wydajności. Jest to coraz bardziej krytyczne wraz ze wzrostem świadomości na temat prywatności i coraz surowszymi regulacjami.

Jak rozwiązanie Skymel redukuje koszty wnioskowania AI bez kompromisowania złożoności modelu lub dokładności?

Po pierwsze, dzieląc poszczególne modele AI, rozdzielamy obliczenia między urządzenia użytkowników a chmurę. Pierwsza część działa na urządzeniu użytkownika, obsługując od 5% do 100% całkowitej obliczeniowej w zależności od dostępnych zasobów urządzenia. Tylko pozostała obliczeniowa część musi być przetworzona na GPU w chmurze.

Ten podział oznacza, że GPU w chmurze obsługują zmniejszone obciążenie obliczeniowe – jeśli model pierwotnie wymagał pełnego GPU A100, po podziale to samo obciążenie może wymagać tylko 30-40% pojemności GPU.

Po drugie, NeuroSplit optymalizuje wykorzystanie GPU w chmurze. Poprzez wydajne rozmieszczenie pełnych modeli i modeli stub (pozostałych części podzielonych modeli) na tym samym GPU w chmurze, osiągamy znacznie wyższe wskaźniki wykorzystania w porównaniu z tradycyjnymi podejściami. Oznacza to, że więcej modeli może działać jednocześnie na tym samym GPU w chmurze, dalej redukując koszty na wnioskowanie.

Czym wyróżnia się podejście hybrydowe (lokalne + chmura) Skymel od innych rozwiązań infrastruktury AI na rynku?

Krajobraz AI znajduje się w fascynującym punkcie zwrotnym. Podczas gdy dzisiaj focus jest na skalowaniu ogólnych dużych modeli językowych w chmurze, nadchodzące pięć lat zobaczy, jak AI staje się głęboko spersonalizowane i kontekstowo świadome. Nie chodzi tylko o fine-tuning – chodzi o AI, które adaptuje się do konkretnych użytkowników, urządzeń i sytuacji w czasie rzeczywistym.

To przesunięcie tworzy dwa główne wyzwania infrastrukturalne. Po pierwsze, tradycyjne podejście do uruchamiania wszystkiego w scentralizowanych centrach danych staje się niewykonalne zarówno technicznie, jak i ekonomicznie. Po drugie, rosnąca złożoność aplikacji AI oznacza, że potrzebujemy infrastruktury, która może dynamicznie optymalizować się w wielu modelach, urządzeniach i lokalizacjach obliczeniowych.

W Skymel budujemy infrastrukturę, która specjalnie rozwiązuje te wyzwania. Nasza technologia umożliwia AI działać tam, gdzie ma największy sens – czy to na urządzeniu, na którym generowane są dane, w chmurze, gdzie dostępna jest większa moc obliczeniowa, czy inteligentnie podzielone między nimi. Co więcej, podejmujemy te decyzje w czasie rzeczywistym, w zależności od zmieniających się warunków i wymagań.

Patrząc w przyszłość, pomyślne aplikacje AI nie będą definiowane przez rozmiar ich modeli lub ilość dostępnego obliczenia. Będą definiowane przez ich zdolność do dostarczania spersonalizowanych, responsywnych doświadczeń, jednocześnie efektywnie zarządzając zasobami. Naszym celem jest udostępnienie tego poziomu inteligentnej optymalizacji każdej aplikacji AI, niezależnie od skali czy złożoności.

Jak Agent Orchestrator uzupełnia NeuroSplit, a jaka rolę odgrywa w transformacji strategii wdrożenia AI?

Agent Orchestrator (AO) i NeuroSplit współpracują, tworząc system wdrożenia AI, który samodzielnie optymalizuje się:

1. Deweloperzy ustawiają granice:

  • Ograniczenia: dozwolone modele, wersje, dostawcy chmury, strefy, zasady zgodności
  • Cele: docelowa opóźnienie, limity kosztów, wymagania wydajności, potrzeby prywatności

2. AO działa w ramach tych ograniczeń, aby osiągnąć cele:

  • Decyduje, które modele/API użyć dla każdego żądania
  • Adaptuje strategie wdrożenia w oparciu o rzeczywistą wydajność
  • Robi kompromisy, aby zoptymalizować określone cele
  • Może być ponownie konfigurowany natychmiast, gdy potrzeby się zmieniają

3. NeuroSplit wykonuje decyzje AO:

  • Używa telemetrii urządzeń w czasie rzeczywistym do optymalizacji wykonania
  • Podział przetwarzania między urządzenie a chmurę, gdy jest to korzystne
  • Zapewnia, że każde wnioskowanie działa optymalnie, biorąc pod uwagę bieżące warunki

To jak mieć system AI, który samodzielnie optymalizuje się w ramach określonych reguł i celów, zamiast wymagać ręcznej optymalizacji dla każdego scenariusza.

Twoim zdaniem, jak Agent Orchestrator zmieni sposób wdrożenia AI w różnych branżach?

Rozwiązuje trzy kluczowe wyzwania, które hamowały przyjęcie i innowacje AI.

Po pierwsze, pozwala firmom nadążyć za najnowszymi postępami AI bez wysiłku. Z Agentem Orchestratora można natychmiast wykorzystywać najnowsze modele i techniki bez przebudowy infrastruktury. To znacząca przewaga konkurencyjna w świecie, w którym innowacje AI idą w zawrotnym tempie.

Po drugie, umożliwia dynamiczną, na żądanie optymalizację wyboru modelu AI. Agent Orchestrator może inteligentnie łączyć i dopasowywać modele z ogromnego ekosystemu, aby dostarczyć najlepsze możliwe wyniki dla każdej interakcji użytkownika. Na przykład AI do obsługi klienta mogą używać specjalistycznego modelu do pytań technicznych i innego do pytań dotyczących rozliczeń, dostarczając lepsze wyniki dla każdego typu interakcji.

Po trzecie, maksymalizuje wydajność, minimalizując koszty. Agent automatycznie balansuje między uruchamianiem AI na urządzeniu użytkownika a w chmurze, w zależności od tego, co ma największy sens w danym momencie. Gdy prywatność jest ważna, przetwarza dane lokalnie. Gdy potrzebna jest dodatkowa moc obliczeniowa, wykorzystuje chmurę. Wszystko to dzieje się za kulisami, tworząc gładkie doświadczenie dla użytkowników, jednocześnie optymalizując zasoby dla firm.

Ale to, co naprawdę wyróżnia Agenta Orchestratora, to możliwość tworzenia następnej generacji doświadczeń hiperpersonalizowanych dla użytkowników. Weźmy platformę edukacyjną – z naszą technologią mogą zbudować system, który automatycznie adaptuje swój sposób nauczania w zależności od poziomu zrozumienia każdego ucznia. Gdy użytkownik wyszukuje “uczenie maszynowe”, platforma nie tylko wyświetla ogólne wyniki – może natychmiast ocenić ich bieżące zrozumienie i dostosować wyjaśnienia, używając pojęć, które już znają.

Ostatecznie Agent Orchestrator reprezentuje przyszłość wdrożenia AI – przesunięcie od statycznej, monolitycznej infrastruktury AI do dynamicznej, adaptacyjnej, samoodptymalizującej się orkiestracji AI. To nie tylko o tym, aby ułatwić wdrożenie AI – to o tym, aby umożliwić całkowicie nowe klasy aplikacji AI.

Jaki rodzaj informacji zwrotnej otrzymaliście dotąd od firm biorących udział w prywatnej betzie Agenta Orchestratora?

Informacje zwrotne od naszych uczestników prywatnej bety były wielkie! Firmy są zachwycone odkryciem, że mogą wreszcie uwolnić się od blokady infrastruktury, niezależnie od czy to są modele własnościowe, czy usługi hostingowe. Możliwość zapewnienia przyszłości każdej decyzji wdrożeniowej była przełomem, eliminując straszne miesiące przeróbek przy zmianie podejścia.

Nasze wyniki wydajności NeuroSplit były niczym niezwykłym – nie możemy się doczekać, aby podzielić się danymi publicznie wkrótce. Co jest szczególnie ekscytujące, to jak sam koncept adaptacyjnego wdrożenia AI zdobył wyobraźnię. Fakt, że AI wdraża się sama, brzmi jak coś z przyszłości i nie jest czymś, czego się spodziewano teraz, więc już sam postęp technologiczny budzi entuzjazm wobec możliwości i nowych rynków, które może stworzyć w przyszłości.

Z szybkim postępem w AI generatywnej, co widzisz jako następne główne wyzwania dla infrastruktury AI, i jak Skymel planuje je rozwiązać?

Kierujemy się ku przyszłości, której większość ludzi jeszcze nie w pełni zrozumiała: nie będzie jednego dominującego modelu AI, ale miliardów. Nawet jeśli stworzymy najpotężniejszy model AI wyobrażalny, nadal będziemy potrzebować spersonalizowanych wersji dla każdej osoby na Ziemi, każdej dostosowanej do unikalnych kontekstów, preferencji i potrzeb. To oznacza rewolucyjną zmianę od dzisiejszego podejścia “jedna rozmiar pasuje do wszystkich”.

Przyszłość wymaga inteligentnej infrastruktury, która może obsłużyć miliardy modeli. W Skymel nie tylko rozwiązujemy dzisiejsze wyzwania wdrożeniowe – nasza mapa drogowa technologiczna już buduje fundamenty dla tego, co nadchodzi.

Jak wyobrażasz sobie ewolucję infrastruktury AI w ciągu najbliższych pięciu lat, i jaką rolę widzisz Skymel odgrywającą w tej ewolucji?

Krajobraz infrastruktury AI ma przejść przez fundamentalną transformację. Podczas gdy dzisiaj focus jest na skalowaniu ogólnych dużych modeli językowych w chmurze, nadchodzące pięć lat zobaczy, jak AI staje się głęboko spersonalizowane i kontekstowo świadome. To nie tylko o fine-tuning – to o AI, które adaptuje się do konkretnych użytkowników, urządzeń i sytuacji w czasie rzeczywistym.

To przesunięcie tworzy dwa główne wyzwania infrastrukturalne. Po pierwsze, tradycyjne podejście do uruchamiania wszystkiego w scentralizowanych centrach danych staje się niewykonalne zarówno technicznie, jak i ekonomicznie. Po drugie, rosnąca złożoność aplikacji AI oznacza, że potrzebujemy infrastruktury, która może dynamicznie optymalizować się w wielu modelach, urządzeniach i lokalizacjach obliczeniowych.

W Skymel budujemy infrastrukturę, która specjalnie rozwiązuje te wyzwania. Nasza technologia umożliwia AI działać tam, gdzie ma największy sens – czy to na urządzeniu, na którym generowane są dane, w chmurze, gdzie dostępna jest większa moc obliczeniowa, czy inteligentnie podzielone między nimi. Co więcej, podejmujemy te decyzje w czasie rzeczywistym, w zależności od zmieniających się warunków i wymagań.

Patrząc w przyszłość, pomyślne aplikacje AI nie będą definiowane przez rozmiar ich modeli lub ilość dostępnego obliczenia. Będą definiowane przez ich zdolność do dostarczania spersonalizowanych, responsywnych doświadczeń, jednocześnie efektywnie zarządzając zasobami. Naszym celem jest udostępnienie tego poziomu inteligentnej optymalizacji każdej aplikacji AI, niezależnie od skali czy złożoności.

Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić Skymel.

Antoine jest wizjonerskim liderem i współzałożycielem Unite.AI, z niezachwianą pasją do kształtowania i promowania przyszłości sztucznej inteligencji i robotyki. Jako serialowy przedsiębiorca, uważa, że sztuczna inteligencja będzie tak samo przełomowa dla społeczeństwa, jak elektryczność, i często zachwycany jest potencjałem technologie przełomowych i AGI. Jako futurysta, poświęca się badaniu, jak te innowacje ukształtują nasz świat. Ponadto jest założycielem Securities.io, platformy skupiającej się na inwestowaniu w najnowocześniejsze technologie, które przeobrażają przyszłość i zmieniają całe sektory.