Connect with us

Dr. Mike Flaxman, VP of Product at HEAVY.AI – Interview Series

Rozhovory

Dr. Mike Flaxman, VP of Product at HEAVY.AI – Interview Series

mm

Dr. Mike Flaxman je v současné době VP of Product at HEAVY.AI, dříve působil jako Product Manager a vedl Spatial Data Science practice v Professional Services. Posledních 20 let se věnoval prostorovému environmentálnímu plánování. Před HEAVY.AI založil Geodesign Technologies, Inc a spoluzaložil GeoAdaptive LLC, dvě startupy, které aplikují prostorovou analýzu na plánování. Předtím, než se stal součástí startupů, byl profesorem plánování na MIT a Industry Managerem v ESRI.

HEAVY.AI je hardwarově akcelerovaná platforma pro analýzu dat v reálném čase s vysokým dopadem. Utilizuje jak procesory GPU, tak CPU pro rychlé dotazování rozsáhlých datových sad, s podporou SQL a geoprostorových dat. Platforma zahrnuje vizuální analytické nástroje pro interaktivní dashboardy, křížové filtrování a škálovatelné datové visualizace, umožňující efektivní analýzu velkých dat v různých odvětvích.

Můžete nám říci o své profesní zkušenosti a co vás vedlo k připojení se k HEAVY.AI?

Předtím, než jsem se připojil k HEAVY.AI, jsem strávil roky v akademické sféře, kde jsem nakonec učil prostorovou analytiku na MIT. Také jsem vedl malou poradenskou firmu s různými klienty z veřejného sektoru. Byl jsem zapojen do projektů GIS v 17 zemích. Moje práce mě zavedla od poradenské činnosti pro organizace, jako je Inter American Development Bank, až po řízení technologie GIS pro architekturu, inženýrství a stavebnictví v ESRI, největšího developera GIS na světě.

Pamatuji si velmi živě svou první zkušenost s tím, co je nyní HEAVY.AI, a to, když jako konzultant jsem byl zodpovědný za scénářové plánování pro program ochrany habitatu floridských pláží. Moji kolegové a já jsme se potýkali s modelem habitatu mořských želv pomocí 30m Landsat dat a kamarád mě upozornil na úplně nová a velmi relevantní data – 5cm LiDAR. Byla to přesně ta data, která jsme potřebovali z vědeckého hlediska, ale něco jako 3600krát větší, než jsme plánovali použít. Samozřejmě, že nikdo nebyl ochoten zvýšit můj rozpočet ani o zlomek této částky. Takže toho dne jsem odložil nástroje, které jsem používal a učil po několik desetiletí, a šel jsem hledat něco nového. HEAVY.AI prošlo a vykreslilo tato data tak hladce a bez námahy, že jsem byl okamžitě uchvácen.

O několik let později si stále myslím, že to, co HEAVY.AI dělá, je bastante jedinečné a jeho raná sázka na GPU-analýzu byla přesně tam, kde průmysl stále potřebuje jít. HEAVY.AI je pevně zaměřeno na demokratizaci přístupu k velkým datům. To zahrnuje nejen složku objemu dat a rychlosti zpracování, ale také to, že dává každému svůj vlastní superpočítač. Ale stále důležitějším aspektem s příchodem velkých jazykových modelů je zpřístupnění prostorového modelování mnoha více lidem. Tyto dny, místo toho, abyste strávili roky učením se komplexního rozhraní s tisíci nástroji, můžete prostě začít konverzaci s HEAVY.AI v lidském jazyce své volby. Program nejen generuje příkazy, které jsou vyžadovány, ale také představuje relevantní visualizace.

Za scénou, zajištění snadného použití je samozřejmě velmi obtížné. V současné době, jako VP of Product Management at HEAVY.AI, jsem silně zapojen do určování, které funkce a schopnosti budeme prioritizovat pro naše produkty. Moje rozsáhlé zkušenosti v GIS mi umožňují skutečně rozumět potřebám našich zákazníků a vést náš vývojový roadmap odpovídajícím způsobem.

Jak vaše předchozí zkušenosti se spatialním environmentálním plánováním a startupy ovlivnily vaši práci v HEAVY.AI?

Environmentální plánování je zvláště náročné odvětví, protože je třeba zohlednit jak lidské potřeby, tak přírodní svět. Obecné řešení, které jsem se naučil brzy, bylo spojit metodu nazývanou participativní plánování s technologiemi dálkového průzkumu a GIS. Předtím, než jsme se usadili na plánu akce, jsme vytvořili několik scénářů a simulovali jejich pozitivní a negativní dopady v počítači pomocí visualizací. Používání participativních procesů nám umožnilo kombinovat různé formy odbornosti a řešit velmi komplexní problémy.

I když se obvykle nevěnujeme environmentálnímu plánování v HEAVY.AI, tento vzorec stále funguje velmi dobře v obchodních prostředích. Takže pomáháme zákazníkům konstruovat digitální dvojčata klíčových částí jejich podnikání a umožňujeme jim vytvářet a vyhodnocovat obchodní scénáře rychle.

Myslím, že moje pedagogická zkušenost mi dala hluboké porozumění pro uživatele softwaru, zejména komplexních softwarových systémů. Kde jeden student zakopne na jednom místě, je náhodné, ale kde desítky nebo stovky lidí dělají podobné chyby, víte, že máte designový problém. Možná mi nejvíce záleží na softwarovém designu, a to na aplikaci těchto znalostí při navrhování nových generací systémů.

Můžete vysvětlit, jak HeavyIQ využívá zpracování přirozeného jazyka k usnadnění průzkumu a visualizace dat?

V těchto dnech se zdá, že každý a jeho bratr propaguje nový genAI model, většina z nich je zapomenutelnými klonovými verzemi. My jsme zvolili zcela jinou cestu. Věříme, že přesnost, reprodukovatelnost a soukromí jsou nezbytnými charakteristikami pro jakékoli obchodní analytické nástroje, včetně těch generovaných velkými jazykovými modely (LLM). Takže jsme je postavili do našeho nabídky na fundamentální úrovni. Například jsme omezili modelové vstupy přísně na firemní databáze a poskytli dokumenty uvnitř firemní bezpečnostní perimetry. Také jsme omezili výstupy na nejnovější HeavySQL a Charts. To znamená, že ať jste požádali jakoukoli otázku, pokusíme se odpovědět pomocí vašich dat a ukážeme vám přesně, jak jsme tuto odpověď odvodili.

S těmito zárukami na místě, záleží méně na našich zákaznících, přesně jak zpracováváme dotazy. Ale za scénou, další důležitý rozdíl oproti spotřebitelským genAI je, že jsme jemně ladili modely proti konkrétním typům otázek, které obchodní uživatelé pokládají obchodním datům, včetně prostorových dat. Takže například náš model je excelente ve výkonu prostorových a časových spojení, které nejsou v klasických SQL benchmarcích, ale naše uživatelé je používají denně.

Balíme tyto základní schopnosti do Notebook rozhraní, které nazýváme HeavyIQ. IQ je o tom, aby byl průzkum dat a visualizace co nejjednodušší pomocí zpracování přirozeného jazyka (NLP). Položíte otázku v angličtině – jako “Jaké byly počasí v Kalifornii minulý týden?” – a HeavyIQ přeloží to do SQL dotazů, které naše GPU-akcelerovaná databáze zpracuje rychle. Výsledky jsou prezentovány nejen jako data, ale jako visualizace – mapy, grafy, cokoli je nejrelevantnější. Je to o umožnění rychlé, interaktivní dotazování, zejména při práci s velkými nebo rychle se pohybujícími datovými sadami. Co je zde klíčové, je to, že to často není první otázka, kterou položíte, ale možná ta třetí, která opravdu dospěje k jádru vhledu, a HeavyIQ je navržen tak, aby usnadnil tuto hlubší exploraci.

Jaké jsou hlavní výhody používání HeavyIQ oproti tradičním BI nástrojům pro telekomunikační společnosti, utility a vládní agentury?

HeavyIQ vyniká v prostředích, kde se pracuje s velkými, rychlými daty – přesně tím typem dat, se kterým pracují telekomunikační společnosti, utility a vládní agentury. Tradiční obchodní inteligence nástroje často zápasí s objemem a rychlostí těchto dat. Například v telekomunikacích můžete mít miliardy záznamů o hovorech, ale je to ten malý zlomek zrušených hovorů, na který se musíte zaměřit. HeavyIQ umožňuje vám procházet tato data 10 až 100krát rychleji díky našemu GPU infrastruktuře. Tato rychlost, kombinovaná s možností interaktivního dotazování a visualizace dat, činí ji nepostradatelnou pro analýzu rizik v utilitách nebo reálnou scénářovou plánování pro vládní agentury.

Jiná výhoda, již zmíněná výše, je, že prostorové a časové SQL dotazy jsou extrémně analyticky silné – ale mohou být pomalé nebo obtížné ručně psát. Když systém funguje na “rychlosti zvědavosti”, uživatelé mohou položit více otázek a nuancovaných otázek. Takže například inženýr telekomunikační společnosti může zaznamenat časový špičkový trend poruch zařízení z monitorovacího systému, mít intuici, že něco jde špatně v konkrétní lokalitě, a zkontrolovat to pomocí prostorového dotazu, který vrátí mapu.

Jaká opatření jsou zavedena, aby se zabránilo úniku metadata při používání HeavyIQ?

Jak je popsáno výše, postavili jsme HeavyIQ s privátním a bezpečným jádrem. To zahrnuje nejen data, ale také několik typů metadata. Používáme metadata na úrovni sloupců a tabulek rozsáhle při určování, které tabulky a sloupce obsahují informace potřebné pro odpověď na dotaz. Také používáme interní firemní dokumenty, kde jsou poskytnuty, pro pomoc při takzvaném retrieval-augmented generation (RAG). Nakonec, jazykové modely samy generují další metadata. Všechny tyto, ale zejména poslední dvě, mohou být vysoce obchodně citlivé.

Na rozdíl od třetích stran, kde vaše data jsou obvykle odeslána na externí servery, HeavyIQ běží místně na stejné GPU infrastruktuře jako zbytek naší platformy. To zajišťuje, že vaše data a metadata zůstávají pod vaší kontrolou, bez rizika úniku. Pro organizace, které vyžadují nejvyšší úroveň zabezpečení, HeavyIQ může být nasazen i v kompletně izolovaném prostředí, zajišťujícím, že citlivé informace nikdy neopustí konkrétní zařízení.

Jak HEAVY.AI dosahuje vysoké výkonnosti a škálovatelnosti s masivními datovými sadami pomocí GPU infrastruktury?

Tajemství spočívá v podstatě v tom, že se vyhýbáme pohybu dat, který je přítomný v jiných systémech. V jádru to začíná s databází, která je navržena od základu pro běh na NVIDIA GPU. Pracovali jsme na tom již více než 10 let a skutečně věříme, že máme nejlepší řešení, když jde o GPU-akcelerovanou analýzu.

I ty nejlepší CPU-založené systémy vyčerpají páru dlouho před tím, než se dostane k průměrnému GPU. Strategie, která se používá, když k tomu dojde na CPU, vyžaduje distribuci dat napříč několika jádry a poté napříč několika systémy (tzv. “horizontální škálování”). To funguje dobře v některých kontextech, kde věci nejsou tak časově kritické, ale obecně začíná být brzděno síťovým výkonem.

Kromě toho, že se vyhýbáme pohybu dat u dotazů, vyhýbáme se mu také u mnoha dalších běžných úkolů. Prvním je, že můžeme vykreslit grafiku bez pohybu dat. Poté, pokud chcete modelovat ML inference, opět to děláme bez pohybu dat. A pokud se ptáte na data pomocí velkého jazykového modelu, opět to děláme bez pohybu dat. I když jste data scientist a chcete se ptát na data z Pythonu, opět poskytujeme metody, jak to udělat na GPU bez pohybu dat.

To znamená, že můžeme provádět nejen dotazy, ale také vykreslování 10 až 100krát rychleji než tradiční CPU-založené databáze a mapové servery. Když se zabýváte masivními, rychlými datovými sadami, se kterými pracují naši zákazníci – jako jsou počasí, telekomunikační záznamy o hovorech nebo satelitní snímky – takový výkonový boost je absolutně nezbytný.

Jak HEAVY.AI udržuje svou konkurenční výhodu v rychle se vyvíjejícím prostředí velkých dat a AI?

To je skvělá otázka a je něco, o čem neustále přemýšlíme. Krajina velkých dat a AI se vyvíjí neuvěřitelně rychle, s novými průlomy a inovacemi, které se dějí neustále. Určitě nám nepomůže, že máme 10letou přednost v technologii GPU databáze.

Myslím, že klíčem pro nás je zůstat laserově zaměřen na naši základní misi – demokratizovat přístup k velkým, geoprostorovým datům. To znamená neustále tlačit hranice toho, co je možné s GPU-akcelerovanou analýzou, a zajišťovat, že naše produkty dodávají nepřekonatelný výkon a schopnosti v tomto doméně. Velká část toho spočívá v našem pokračujícím investování do vývoje vlastních, jemně laděných jazykových modelů, které skutečně rozumějí nuancím prostorové SQL a geoprostorové analýzy.

Postavili jsme rozsáhlou knihovnu trénovacích dat, která jde daleko za obecné benchmarky, abychom zajistili, že naše konverzační analytické nástroje mohou interagovat s uživateli přirozeným, intuitivním způsobem. Ale také víme, že technologie sama o sobě nestačí. Musíme zůstat hluboce spojeni s našimi zákazníky a jejich se vyvíjejícími potřebami. Na konci dne naše konkurenční výhoda spočívá v našem nekompromisním zaměření na dodávání transformačních hodnot našim uživatelům. Nemáme pouze tempo s trhem – tlačíme hranice toho, co je možné s velkými daty a AI. A budeme v tom pokračovat, bez ohledu na to, jak rychle se krajina vyvíjí.

Jak HEAVY.AI podporuje úsilí o reakci na mimořádné události prostřednictvím HeavyEco?

Postavili jsme HeavyEco, když jsme viděli, že někteří z našich největších zákazníků z utilit mají značné problémy s pouhým požitím dnešních výstupů počasí, stejně jako s jejich vizualizací pro společné srovnání. Bylo to pro jednoho zákazníka trvat až čtyři hodiny, aby pouze načetl data, a když jste proti rychlým extrémním povětrnostním podmínkám, jako jsou požáry… to prostě nestačí.

HeavyEco je navržen tak, aby poskytoval reálné přehledy v situacích s vysokými následky, jako jsou během požáru nebo povodně. V takových scénářích je třeba učinit rozhodnutí rychle a na základě nejlepších dostupných dat. Takže HeavyEco slouží jako profesionálně spravovaná datová pipeline pro autoritativní modely, jako jsou ty od NOAA a USGS. Na těchto modelech HeavyEco umožňuje spustit scénáře, modelovat dopady na budovy a vizualizovat data v reálném čase. To dává prvním respondentům kritické informace, které potřebují, když to nejvíce záleží. Je to o přeměně komplexních, rozsáhlých datových sad na akční inteligenci, která může vést okamžité rozhodování.

Nakonec, náš cíl je dát našim uživatelům schopnost procházet svá data rychlostí myšlení. Bez ohledu na to, zda běží komplexní prostorové modely, srovnávají předpovědi počasí nebo se snaží identifikovat vzory v geoprostorových časových řadách, chceme, aby mohli dělat to bezproblémově, bez jakýchkoli technických bariér, které by jim stály v cestě.

Co odlišuje proprietární LLM HEAVY.AI od třetích stran LLM v otázce přesnosti a výkonu?

Náš proprietární LLM je specificky naladěn pro typy analýz, na které se zaměřujeme – jako je text-to-SQL a text-to-visualizace. Zpočátku jsme zkoušeli tradiční třetí strany modely, ale zjistili jsme, že nesplňují vysoké požadavky na přesnost našich uživatelů, kteří často činí kritická rozhodnutí. Takže jsme jemně ladili řadu open-source modelů a testovali je proti odvětvovým benchmarkům.

Náš LLM je mnohem přesnější pro pokročilé SQL koncepty, které naši uživatelé potřebují, zejména v geoprostorových a časových datech. Kromě toho, protože běží na naší GPU infrastruktuře, je také bezpečnější.

Kromě vestavěných modelových schopností také poskytujeme plně interaktivní uživatelské rozhraní pro správce a uživatele, aby přidali metadata související s doménou nebo obchodem. Například, pokud základní model nefunguje podle očekávání, můžete importovat nebo upravit metadata na úrovni sloupců, nebo přidat směrovací informace a okamžitě získat zpětnou vazbu.

Jak HEAVY.AI vidí roli geoprostorové a časové datové analýzy při formování budoucnosti různých odvětví?

Věříme, že geoprostorová a časová datová analýza budou kritické pro budoucnost mnoha odvětví. Co se skutečně zaměřujeme na, je pomoci našim zákazníkům učinit lepší rozhodnutí, rychleji. Bez ohledu na to, zda jste v telekomunikacích, utilitách, vládě nebo jiném odvětví, mít schopnost analyzovat a vizualizovat data v reálném čase může být hrou měnící pravidla.

Naše mise je učinit tento typ silné analýzy dostupný všem, nejen velkým hráčům s masivními zdroji. Chceme zajistit, aby naši zákazníci mohli využít data, která mají, aby zůstali předními a řešili problémy, jakmile se objeví. Jak data pokračují v růstu a stávají se složitějšími, vidíme svou roli v tom, že naše nástroje budou evolucí spolu s nimi, aby naši zákazníci byli vždy připraveni na to, co přijde.

Děkuji za skvělý rozhovor, čtenáři, kteří chtějí se dozvědět více, by měli navštívit HEAVY.AI.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.