Wywiady
Dr. Mike Flaxman, VP of Product at HEAVY.AI – Seria wywiadów

Dr. Mike Flaxman jest obecnie VP of Product w HEAVY.AI, wcześniej pełnił funkcję Product Managera i kierował praktyką Spatial Data Science w Professional Services. Przez ostatnie 20 lat pracował w dziedzinie planowania środowiskowego przestrzennego. Przed dołączeniem do HEAVY.AI założył Geodesign Technologies, Inc. i współzałożył GeoAdaptive LLC, dwie firmy start-up, które stosowały technologie analizy przestrzennej w planowaniu. Przed założeniem firmy był profesorem planowania na MIT i Industry Managerem w ESRI.
HEAVY.AI to platforma z przyspieszeniem sprzętowym do analizy danych w czasie rzeczywistym o dużym wpływie. Wykorzystuje zarówno procesor GPU, jak i CPU do szybkiego przetwarzania ogromnych zbiorów danych, z obsługą SQL i danych przestrzennych. Platforma obejmuje narzędzia analityczne do interaktywnych pulpitów, filtrowania krzyżowego i skalowalnej wizualizacji danych, umożliwiając wydajną analizę dużych zbiorów danych w różnych branżach.
Czy możesz opowiedzieć o swoim tle zawodowym i tym, co skłoniło Cię do dołączenia do HEAVY.AI?
Przed dołączeniem do HEAVY.AI spędziłem lata w środowisku akademickim, ostatecznie ucząc analizy przestrzennej na MIT. Prowadziłem także małą firmę konsultingową, z różnymi klientami z sektora publicznego. Byłem zaangażowany w projekty systemów informacji geograficznej w 17 krajach. Moja praca zawiodła mnie od doradzania organizacjom, takim jak Inter American Development Bank, do zarządzania technologią systemów informacji geograficznej w architekturze, inżynierii i budownictwie w ESRI, największym deweloperze systemów informacji geograficznej na świecie.
Pamiętam żywo moje pierwsze spotkanie z tym, co jest teraz HEAVY.AI, kiedy jako konsultant byłem odpowiedzialny za planowanie scenariuszy dla programu ochrony siedlisk plaż Florydy. Moi koledzy i ja mieliśmy trudności z modelem siedliska żółwi morskich przy użyciu danych Landsat 30m, a przyjaciel wskazał mi na nowe i bardzo istotne dane – 5cm LiDAR. Było to dokładnie to, czego potrzebowaliśmy pod względem naukowym, ale coś, co było około 3600 razy większe niż to, co planowaliśmy użyć. Niezależnie od tego, nikt nie zwiększyłby mojego budżetu nawet o ułamek tej kwoty. Więc tego dnia położyłem narzędzia, których używałem i uczyłem przez kilka dekad, i poszukałem czegoś nowego. HEAVY.AI przeciął i wyświetlił te dane tak gładko i bez wysiłku, że byłam od razu uzależniona.
Przeskoczmy do przodu o kilka lat, a nadal uważam, że to, co robi HEAVY.AI, jest dość unikalne, a ich wczesna stawka na analitykę GPU była dokładnie tam, gdzie branża nadal potrzebuje iść. HEAVY.AI jest stanowczo ukierunkowana na demokratyzację dostępu do dużych zbiorów danych. To ma oczywiście składnik objętości danych i szybkości przetwarzania, co podstawowo daje każdemu własny superkomputer. Ale coraz ważniejszym aspektem z wprowadzeniem dużych modeli językowych jest uczynienie modelowania przestrzennego dostępnym dla wielu więcej ludzi. Te dni, zamiast spędzać lata ucząc się złożonego interfejsu z tysiącami narzędzi, możesz po prostu rozpocząć rozmowę z HEAVY.AI w języku ludzkim Twojego wyboru. Program nie tylko generuje polecenia wymagane, ale także prezentuje istotne wizualizacje.
Za kulisami dostarczanie łatwości użycia jest oczywiście bardzo trudne. Obecnie, jako VP of Product Management w HEAVY.AI, jestem głęboko zaangażowany w określanie, które funkcje i możliwości priorytetyzujemy dla naszych produktów. Moje rozległe doświadczenie w systemach informacji geograficznej pozwala mi naprawdę zrozumieć potrzeby naszych klientów i kierować naszą mapą rozwoju odpowiednio.
Jak Twoje poprzednie doświadczenie w planowaniu środowiskowym przestrzennym i startupach wpłynęło na Twoją pracę w HEAVY.AI?
Planowanie środowiskowe jest szczególnie wymagającą dziedziną, ponieważ musisz uwzględnić zarówno różne zestawy potrzeb ludzkich, jak i świat naturalny. Ogólny rozwiązanie, które nauczyłem się wcześnie, polegało na połączeniu metody znanej jako planowanie uczestniczące z technologiami teledetekcji i systemów informacji geograficznej. Przed ustaleniem planu działania tworzyliśmy wiele scenariuszy i symulowaliśmy ich pozytywne i negatywne wpływy w komputerze przy użyciu wizualizacji. Używanie procesów uczestniczących pozwoliło nam połączyć różne formy ekspertyzy i rozwiązać bardzo złożone problemy.
Chociaż nie robimy zwykle planowania środowiskowego w HEAVY.AI, ten wzorzec nadal działa bardzo dobrze w środowiskach biznesowych. Więc pomagamy klientom konstruować cyfrowe bliźniaki kluczowych części ich biznesu, i pozwalamy im tworzyć i oceniać scenariusze biznesowe szybko.
Przypuszczam, że moje doświadczenie pedagogiczne dało mi głęboką empatię dla użytkowników oprogramowania, szczególnie złożonych systemów oprogramowania. Gdzie jeden uczeń potyka się w jednym miejscu, jest to losowe, ale gdzie dziesiątki lub setki ludzi popełniają podobne błędy, wiesz, że masz problem z projektem. Może moja ulubiona część projektowania oprogramowania polega na tym, aby wziąć te nauki i zastosować je w projektowaniu nowych generacji systemów.
Czy możesz wyjaśnić, jak HeavyIQ wykorzystuje przetwarzanie języka naturalnego do ułatwienia eksploracji danych i wizualizacji?
Te dni wydaje się, że każdy i jego brat chwalą nowy model AI, większość z nich jest niepamiętnymi klonami siebie nawzajem. Zajęliśmy zupełnie inną ścieżkę. Uważamy, że dokładność, odtwarzalność i prywatność są niezbędnymi cechami dla każdego narzędzia analitycznego biznesu, w tym tych generowanych przez duże modele językowe (LLM). Więc zbudowaliśmy je w naszej ofercie na podstawowym poziomie. Na przykład, ściśle ograniczamy dane wejściowe modelu do baz danych przedsiębiorstw i dokumentów wewnątrz przedsiębiorstwa. Ograniczamy również dane wyjściowe do najnowszych HeavySQL i Charts. To oznacza, że niezależnie od tego, jaki pytanie zadasz, spróbujemy odpowiedzieć Twoimi danymi, i pokażemy Ci dokładnie, jak uzyskaliśmy tę odpowiedź.
Z tymi gwarancjami na miejscu, nie ma to znaczenia dla naszych klientów, jak dokładnie przetwarzamy zapytania. Ale za kulisami, kolejna ważna różnica w stosunku do konsumenckich modeli AI polega na tym, że szczegółowo dostosowujemy modele do konkretnych typów pytań, które użytkownicy biznesu zadają danym biznesowym, w tym danym przestrzennym. Więc na przykład nasz model jest doskonały w wykonywaniu przestrzennych i szeregowych połączeń, które nie są w klasycznych benchmarkach SQL, ale naszymi użytkownikami są używane codziennie.
Pakujemy te podstawowe możliwości w interfejsie Notebook, który nazywamy HeavyIQ. IQ polega na tym, aby uczynić eksplorację danych i wizualizację tak intuicyjną, jak to tylko możliwe, używając przetwarzania języka naturalnego (NLP). Zadajesz pytanie po angielsku – jak “Jaki był pogoda w Kalifornii w zeszłym tygodniu?” – i HeavyIQ tłumaczy to na zapytania SQL, które nasza baza danych z przyspieszeniem GPU przetwarza szybko. Wyniki są prezentowane nie tylko jako dane, ale jako wizualizacje – mapy, wykresy, cokolwiek jest najbardziej istotne. Chodzi o umożliwienie szybkiego, interaktywnego wyszukiwania, szczególnie przy dużych lub szybko zmieniających się zbiorach danych. Co jest kluczowe, to nie jest to pierwsze pytanie, które zadajesz, ale może to trzecie, które naprawdę dociera do sedna sprawy, a HeavyIQ jest zaprojektowany, aby ułatwić to głębsze eksplorowanie.
Jakie są podstawowe korzyści z używania HeavyIQ zamiast tradycyjnych narzędzi BI dla firm telekomunikacyjnych, dostawców usług i agencji rządowych?
HeavyIQ wyróżnia się w środowiskach, w których masz do czynienia z dużymi, szybko poruszającymi się danymi – dokładnie tymi danymi, z którymi mają do czynienia firmy telekomunikacyjne, dostawcy usług i agencje rządowe. Tradycyjne narzędzia analityczne biznesu często mają trudności z objętością i szybkością tych danych. Na przykład w telekomunikacji możesz mieć miliardy rekordów połączeń, ale to maleńka frakcja przerwanych połączeń, na którą musisz się skoncentrować. HeavyIQ pozwala Ci przeszukiwać te dane 10 do 100 razy szybciej dzięki naszej infrastrukturze GPU. Ta szybkość, w połączeniu z możliwością interaktywnego wyszukiwania i wizualizacji danych, sprawia, że jest to niezwykle cenne dla analizy ryzyka w dostawach usług lub planowania scenariuszy w czasie rzeczywistym dla agencji rządowych.
Inną zaletą, o której już wspomniałem powyżej, jest to, że przestrzenne i czasowe zapytania SQL są niezwykle potężne analitycznie – ale mogą być wolne lub trudne do napisania ręcznie. Kiedy system działa z tym, co nazywamy “szybkością ciekawości”, użytkownicy mogą zadawać zarówno więcej pytań, jak i bardziej nuansowane pytania. Więc na przykład inżynier telekomunikacyjny może zauważyć czasowy szczyt awarii sprzętu z systemu monitorowania, mieć intuicję, że coś jest nie tak w określonym obiekcie, i sprawdzić to z zapytaniem przestrzennym, które zwraca mapę.
Jakie środki są wdrożone, aby zapobiec wycieku metadanych podczas używania HeavyIQ?
Jak opisano powyżej, zbudowaliśmy HeavyIQ z prywatnością i bezpieczeństwem na podstawowym poziomie. To obejmuje nie tylko dane, ale także kilka rodzajów metadanych. Używamy metadanych na poziomie kolumny i tabeli, aby określić, które tabele i kolumny zawierają informacje niezbędne do odpowiedzi na zapytanie. Używamy również wewnętrznych dokumentów firmy, gdzie są one dostarczone, aby pomóc w tym, co nazywa się wzmocnioną generacją (RAG). Ostatecznie, same modele językowe generują dalsze metadane. Wszystkie te, ale szczególnie dwa ostatnie, mogą być bardzo wrażliwe biznesowo.
W przeciwieństwie do modeli trzecich stron, gdzie Twoje dane są zwykle wysyłane na zewnętrzne serwery, HeavyIQ działa lokalnie na tej samej infrastrukturze GPU, co reszta naszej platformy. To zapewnia, że Twoje dane i metadane pozostają pod Twoją kontrolą, bez ryzyka wycieku. Dla organizacji, które wymagają najwyższych poziomów bezpieczeństwa, HeavyIQ może być nawet wdrożony w całkowicie odizolowanym środowisku, zapewniając, że wrażliwe informacje nigdy nie opuszczają określonego sprzętu.
Jak HEAVY.AI osiąga wysoką wydajność i skalowalność z ogromnymi zbiorami danych przy użyciu infrastruktury GPU?
Sekret polega podstawie na unikaniu ruchu danych, który jest powszechny w innych systemach. U podstawy, zaczyna się to od bazy danych zaprojektowanej specjalnie do uruchamiania na procesorach GPU NVIDIA. Pracowaliśmy nad tym przez ponad 10 lat, i naprawdę wierzymy, że mamy najlepsze rozwiązanie w swojej klasie, jeśli chodzi o analitykę z przyspieszeniem GPU.
Nawet najlepsze systemy oparte na CPU wypalają się znacznie wcześniej niż przeciętny GPU. Strategia, gdy to się dzieje w CPU, wymaga rozproszenia danych w wielu rdzeniach i systemach (tzw. “poziome skalowanie”). To działa dobrze w niektórych kontekstach, gdzie rzeczy są mniej czasokrytyczne, ale ogólnie zaczyna się zacinając na wydajności sieci.
Oprócz unikania ruchu danych w zapytaniach, unikamy go również w wielu innych powszechnych zadaniach. Po pierwsze, możemy renderować grafikę bez przenoszenia danych. Następnie, jeśli chcesz modelować inferencję ML, robimy to ponownie bez przenoszenia danych. I jeśli przesłuchujesz dane z dużym modelem językowym, robimy to ponownie bez przenoszenia danych. Nawet jeśli jesteś naukowcem danych i chcesz przesłuchać dane z Pythona, dostarczamy metody, aby to zrobić na GPU bez przenoszenia danych.
To oznacza w praktyce, że możemy wykonywać nie tylko zapytania, ale także renderowanie 10 do 100 razy szybciej niż tradycyjne bazy danych i serwery map oparte na CPU. Kiedy masz do czynienia z ogromnymi, szybko poruszającymi się zbiorami danych, z którymi pracują nasi klienci – takimi jak modele pogody, rekordy połączeń telefonicznych lub obrazy satelitarne – ten rodzaj przyspieszenia wydajności jest absolutnie niezbędny.
Jak HEAVY.AI utrzymuje swoją przewagę konkurencyjną w szybko ewoluującym krajobrazie analityki dużych zbiorów danych i AI?
To jest świetne pytanie, i jest to coś, o czym myślimy ciągle. Krajobraz analityki dużych zbiorów danych i AI ewoluuje w niezwykle szybkim tempie, z nowymi przełomami i innowacjami, które zdarzają się cały czas. Zdecydowanie nie szkodzi, że mamy 10-letnią przewagę w technologii bazy danych GPU.
Myślę, że kluczem dla nas jest pozostanie w pełni skupionym na naszej podstawowej misji – demokratyzacji dostępu do dużych, przestrzennych zbiorów danych. To oznacza ciągłe poszerzanie granic tego, co jest możliwe z analityką z przyspieszeniem GPU, i zapewnienie, że nasze produkty dostarczają niezrównaną wydajność i możliwości w tej dziedzinie. Duża część tego to nasz ciągły wkład w rozwój niestandardowych, dostosowanych modeli językowych, które naprawdę rozumieją nuansów SQL przestrzennego i analizy geoprzestrzennej.
Zbudowaliśmy obszerną bibliotekę danych szkoleniowych, idąc znacznie poza ogólne benchmarki, aby upewnić się, że nasze narzędzia analityczne konwersacyjne mogą angażować się z użytkownikami w naturalny, intuicyjny sposób. Ale wiemy również, że technologia sama w sobie nie jest wystarczająca. Musimy pozostać głęboko powiązani z naszymi klientami i ich ewoluującymi potrzebami. Na końcu dnia, nasza przewaga konkurencyjna sprowadza się do naszego nieustannego skupienia na dostarczaniu transformacyjnej wartości naszym użytkownikom. Nie tylko dotrzymujemy kroku rynkowi – pchamy granice tego, co jest możliwe z dużymi zbiorami danych i AI. I będziemy to robić, niezależnie od tego, jak szybko krajobraz ewoluuje.
Jak HEAVY.AI wspiera wysiłki reagowania w sytuacjach awaryjnych za pośrednictwem HeavyEco?
Zbudowaliśmy HeavyEco, kiedy zobaczyliśmy, że niektórzy z naszych największych klientów z sektora energetycznego mają znaczne trudności z po prostu spożyciem dzisiejszych danych modeli pogodowych, a także wizualizacją ich do porównań wspólnych. To zajmowało jednemu z klientów aż cztery godziny, aby tylko załadować dane, a kiedy masz do czynienia z szybko poruszającymi się skrajnymi warunkami pogodowymi, takimi jak pożary… to po prostu nie jest wystarczająco dobre.
HeavyEco jest zaprojektowany, aby zapewnić wgląd w czasie rzeczywistym w sytuacjach o wysokich konsekwencjach, takich jak podczas pożaru lub powodzi. W takich sytuacjach musisz podejmować decyzje szybko i na podstawie najlepszych możliwych danych. Więc HeavyEco służy przede wszystkim jako profesjonalnie zarządzana rura danych dla autorytatywnych modeli, takich jak te od NOAA i USGS. Na ich podstawie HeavyEco pozwala uruchamiać scenariusze, modelować wpływ na budynki i wizualizować dane w czasie rzeczywistym. To daje pierwszym odpowiedziom informacje krytyczne, których potrzebują, kiedy to się liczy. Chodzi o przekształcenie złożonych, ogromnych zbiorów danych w wykonalną inteligencję, która może kierować natychmiastowym podejmowaniem decyzji.
Ostatecznie, naszym celem jest dać naszym użytkownikom możliwość eksplorowania swoich danych z prędkością myśli. Niezależnie od tego, czy uruchamiasz złożone modele przestrzenne, porównujesz prognozy pogody czy starasz się zidentyfikować wzorce w geoprzestrzennych szeregach czasowych, chcemy, abyś mógł to robić bezproblemowo, bez żadnych technicznych barier na Twojej drodze.
Czym wyróżnia się własny LLM HEAVY.AI od innych modeli LLM trzecich stron pod względem dokładności i wydajności?
Nasz własny LLM jest specjalnie dostosowany do typów analiz, na które się koncentrujemy – takich jak text-to-SQL i text-to-wizualizacja. Początkowo próbowaliśmy tradycyjnych modeli trzecich stron, ale stwierdziliśmy, że nie spełniają one wysokich wymagań dokładności naszych użytkowników, którzy często podejmują krytyczne decyzje. Więc dostosowaliśmy szereg modeli open-source i przetestowaliśmy je przeciwko branżowym benchmarkom.
Nasz LLM jest znacznie bardziej dokładny dla zaawansowanych pojęć SQL, których potrzebują nasi użytkownicy, szczególnie w danych geoprzestrzennych i czasowych. Dodatkowo, ponieważ działa na naszej infrastrukturze GPU, jest również bardziej bezpieczny.
Ponadto, oprócz wbudowanych możliwości modelu, dostarczamy pełny interaktywny interfejs użytkownika dla administratorów i użytkowników, aby dodać metadane dotyczące domeny lub biznesu. Na przykład, jeśli model podstawowy nie działa zgodnie z oczekiwaniami, możesz zaimportować lub dostosować metadane na poziomie kolumny lub dodać informacje dotyczące wytycznych i uzyskać natychmiastowy feedback.
Jak HEAVY.AI wyobraża sobie rolę analityki danych geoprzestrzennych i czasowych w kształtowaniu przyszłości różnych branż?
Uważamy, że analityka danych geoprzestrzennych i czasowych będzie niezwykle ważna dla przyszłości wielu branż. To, czym się naprawdę zajmujemy, to pomaganie naszym klientom w podejmowaniu lepszych decyzji, szybciej. Niezależnie od tego, czy jesteś w telekomunikacji, dostawach usług, rządzie, czy innej – posiadanie możliwości analizy i wizualizacji danych w czasie rzeczywistym może być przełomowe.
Nasza misja polega na tym, aby uczynić tego rodzaju potężną analitykę dostępną dla wszystkich, a nie tylko dla dużych graczy z ogromnymi zasobami. Chcemy upewnić się, że nasi klienci mogą skorzystać z danych, których posiadają, aby pozostać na czele i rozwiązać problemy, zanim się pojawią. Ponieważ dane będą nadal rosły i stawały się coraz bardziej złożone, widzimy swoją rolę jako zapewnienie, że nasze narzędzia ewoluują wraz z nimi, aby nasi klienci byli zawsze przygotowani na to, co nastąpi.
Dziękujemy za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić HEAVY.AI.












