Connect with us

Jeronimo De Leon, Senior Product Manager of AI at Backblaze – Interview Series

Rozhovory

Jeronimo De Leon, Senior Product Manager of AI at Backblaze – Interview Series

mm

Jeronimo De Leon je zkušený lídr produktového managementu s více než 10 lety zkušeností s vedením inovací poháněných umělou inteligencí napříč podniky a startupy. V současné době působí jako Senior Product Manager, AI ve společnosti Backblaze, kde vede vývoj funkcí AI/ML, zaměřuje se na to, jak Backblaze zlepšuje životní cyklus AI dat pro architektury MLOps zákazníků a implementuje nástroje a agenty AI pro optimalizaci interních operací.

Backblaze je cloudová společnost pro ukládání a zálohování dat, která poskytuje neomezené, automatické zálohování počítačů pro jednotlivce a podniky, spolu s řešením objektového úložiště pro podniky, média a aplikační zátěže. Jejich služby se zaměřují na dostupnost, bezpečnost dat, snadné obnovení a bezproblémovou kompatibilitu s existujícími systémy.

Vy máte více než deset let zkušeností s řízením produktů poháněných umělou inteligencí – od práce s LLM na Intelas a RAG na Welcome.AI až po spuštění chatbotu Bloomberg a nyní vedení úsilí o AI ve společnosti Backblaze. Jak tyto zkušenosti ovlivnily váš pohled na roli cloudového úložiště při škálování pracovních postupů AI/ML?

Od začátku práce na projektech AI v IBM Watson jsem viděl dramatické zrychlení tempa inovací. Co dříve trvalo roky, aby se dostalo z výzkumu do produkce, nyní se děje během měsíců. Nicméně, základní infrastrukturální výzvy zůstávají stejné: kde jsou data, kde je uložíme a jak k nim efektivně přistupujeme?

Předtím byly omezení spojená s výpočetními prostředky a modely, ale nyní máme nadbytek předem trénovaných modelů a mnoho poskytovatelů výpočetních prostředků. Avšak když jsme začali projekt, obvykle jsme museli začít s projektem sběru a zpracování dat, což je stále stejné dnes. Pravidelně vidím, jak organizace narazí na stejné úzké místo při konsolidaci dat z různých zdrojů. Organizace, které uspějí, jsou ty, které řeší přístup k datům brzy a vytvářejí základ, který škáluje s jejich zralostí AI. Vaše rozhodnutí o architektuře úložiště určují, jak rychle můžete dostat k trénování modelů a inovacím.

Kde vidíte cloudové úložiště hrát nejkritičtější role napříč životním cyklem AI – od ingestování a zpracování dat až po trénování, jemné ladění, inferenci a monitorování?

Cloudové úložiště je kritické napříč životním cyklem AI, s klíčovými fázemi v agregaci dat, zpracování, trénování a inferenci. Na začátku systematicky konsoliduje, katalogizuje a zabezpečuje archivy, aby urychlilo nové projekty a usnadnilo testování vznikajících modelů. Čisté, dobře zpracované data často překonávají pouze množství dat, což dělá úložiště centrálním pro kvalitu i škálovatelnost. Jedna z mých oblíbených frází Backblaze je: „Není to hromadění, pokud se jedná o data.“ Nikdy nevíte, jak cenná bude, takže by organizace měly shromažďovat co nejvíce.

Během trénování zajišťuje škálovatelné úložiště propustnost masivních datových sad a při inferenci zachycuje výstupy předpovědí a zpětnou vazbu uživatelů, aby ermögnilo kontinuální iteraci. Na konci je úložiště základem, který určuje, jak rychle můžete inovovat s AI.

Jaké jsou největší překážky, kterým čelí organizace při škálování úložiště pro AI, a jak se tyto výzvy liší mezi menšími startupy a velkými podniky?

Největší překážky při škálování úložiště pro AI jsou náklady, správa dat a přístupnost. Ukládání velkých objemů dat je pouze částí výzvy; musí být také organizována, zpřístupněna a řízena s odpovídajícími kontrolami. Čisté, dobře strukturované data jsou často cennější než pouze mít více dat.

Pro startupy je počáteční výzvou získání dostatečných dat pro trénování a jemné ladění jejich modelů. Jakmile je mají, náklady a architektura se stávají dalšími bariérami.

Pro velké podniky je výzvou komplexita. Jejich data jsou hojná, ale fragmentovaná napříč silami, legacy systémy a režimy dodržování předpisů, což činí konsolidaci a přístupnost obtížnými.

Organizace, které uspějí, pohlížejí na úložiště jako na strategického enablera, který škáluje v nákladech, výkonu a přístupnosti spolu se zralostí AI.

Mezi náklady, latencí, bezpečností a dodržováním předpisů vidíte jako nejnaléhavější bariéru pro škálování AI dnes, a jak by organizace měly priorizovat řešení této výzvy?

Mezi náklady, latencí, bezpečností a dodržováním předpisů je latence jednou z nejnaléhavějších bariér. Přímě se dotýká jak trénování modelů, tak inferenci, a inferenci zejména formuje uživatelský zážitek. Organizace dělají vše možné, aby snížily latenci v této fázi, protože zpoždění při poskytování předpovědí může podkopat přijetí.

Náklady zůstávají stálou výzvou, protože objemy dat rostou, a dodržování předpisů se stává kritičtějším, jak organizace rostou, zejména v regulovaných odvětvích. Startupy se často zaměřují nejprve na náklady a latenci, zatímco podniky musí vyvážit latenci s řízením a regulatorními požadavky. Prioritou by mělo být budování úložiště, které minimalizuje latenci pro trénování a inferenci, zatímco zůstává nákladově efektivní a dodržuje předpisy, jak se přijetí AI rozšiřuje.

Velké podniky často zdůrazňují potřebu flexibility a snadného přístupu k datům, aby poháněly inovace AI. Z vašeho pohledu, co znamená skutečná flexibilita v přístupu k datům, a proč je tak zásadní?

V nedávné přednášce jsem zdůraznil myšlenku inteligentního archivování. Skutečná flexibilita v přístupu k datům začíná centralizací informací do strukturovaného, vyhledatelného archivu. To znamená sjednocení různých formátů, normalizaci a označování pro konzistenci a umožnění indexování pro budoucí dotazování. Tento přístup zajišťuje, že data nejsou pouze uložena, ale také učiněna použitelnými.

Je to zásadní, protože vytváří základ pro analýzu a modelování. Když jsou data strukturovaná a vyhledatelná, týmy mohou pracovat rychleji, experimentovat více volně a snižovat latenci jak v trénování, tak v inferenci. Bez této flexibility se úložiště rychle stává úzkým místem místo enableru pro inovace AI.

Můžete sdílet reálné případy užití – jako například u zákazníků Decart AI nebo Wynd Labs – které demonstrují, jak správný přístup k cloudovému úložišti může přímo umožnit inovace AI?

Tyto jsou dva skvělé příklady toho, jak správný přístup k cloudovému úložišti přímo umožňuje inovace AI. Decart se zaměřil na trénování modelů, kde bylo efektivně přesunutí dat do výpočetních prostředků kritické. S Backblaze B2 škálovali na 16 PB za 90 dní, trénovali napříč několika GPU klastry s nulovými náklady na výstup a dosáhli desetkrát větší efektivity než konkurenti. Tato spolehlivost a efektivita je umožnila inovovat rychleji.

Wynd Labs se zaměřil na přístup zákazníků k datům. Denně ingestují petabyty a měsíčně slouží desítky petabytů. S vysokým výkonem Backblaze a bezplatným výstupem mohli škálovat na podnikové požadavky a reinvestovat zdroje do vývoje produktů. Schopnost dodávat přístup k datům v měřítku odemkla nové příležitosti pro jejich platformu.

V obou případech správná strategie úložiště transformovala infrastrukturu z omezení na enabler, umožňující společnostem soustředit se na inovace v AI místo na řízení nákladů a komplexity.

Jak AI modely a datové sady rostou komplexitou, jakou radu byste poskytli organizacím, které se snaží vyvážit výkon úložiště s nákladovou efektivitou?

Organizace potřebují myslet na své dlouhodobé využití dat s ohledem na svůj produkt. Shromažďování, zpracování, přesun a spouštění inferencí na data budou všechny zásadní pro to, jak jejich produkt evoluuje. Pokud na to nebudou brát zřetel nyní, náklady a výzvy úložiště se pouze zhorší s časem. Jelikož AI bude centrální částí jejich produktu a organizace, úložiště musí být navrženo brzy tak, aby vyvážilo výkon s nákladovou efektivitou, aby mohlo škálovat hladce, jak rostou.

Bezpečnost a dodržování předpisů jsou obzvláště naléhavé v regulovaných odvětvích. Jak vidíte cloudové úložiště evolucí, aby podporovalo potřeby řízení, zatímco týmy mohou inovovat rychle?

Řízení je klíčovou částí úložiště. Zjednodušení přístupu se solidním základem pro to, jak jsou data spravována, zabezpečena a audity, je kritické. Vidím, jak cloudové úložiště evoluuje se silnějšími vestavěnými kontrolami, jako je šifrování ve výchozím nastavení, jemně zrnitá oprávnění, auditní stopy a možnosti rezidence dat. Stejně důležité je původ dat. V AI je důležité vědět, odkud data pocházejí, jak byly zpracovány a jak se používají v modelech, a to jak pro dodržování předpisů, tak pro důvěru.

Současně se platformy úložiště zlepšují v uživatelské přívětivosti, aby týmy mohly pracovat rychleji. Když řízení, původ a přístupnost spolupracují, organizace mohou splnit regulatorní požadavky, zatímco pokračují v inovacích s AI na vysoké rychlosti.

Pro organizace, které hodnotí nebo migrují na B2, jakou radu nebo vedení poskytnete v souvislosti s implementací – zejména pokud jde o migraci dat, integraci s existujícími MLOps nebo výpočetními stacky nebo optimalizaci pro propustnost a výstup?

Protože B2 je kompatibilní se S3, integruje se přímo do existujících MLOps a výpočetních stacků bez nutnosti re-architektury. Často pracujeme s klienty na proof of concept, aby ověřili migraci, výkon a integraci, než škálovat. Od té doby se zaměřujeme na optimalizaci propustnosti, přesun dat a orchestraci dat, aby týmy mohly trénovat napříč klastry, spouštět inferenci a iterovat rychle bez zpomalení infrastrukturou.

Jak Backblaze rozšiřuje své nabídky úložiště, aby splňovaly tyto vznikající potřeby, zejména s trendy kolem LLM, exabyte-měřítkových datových sad a hybridních nebo multi-cloud strategií?

V Backblaze se soustředíme nejen na to, jak jsou data používána dnes, ale také na to, jak budou orchestrována v budoucnu. Úložiště již není pouze archivem, ale stává se nástrojem, který umožňuje rychlý přístup, efektivní přesun a spolehlivou orchestraci dat napříč prostředími. S LLM a exabyte-měřítkovými datovými sadami bude tato základna rychlého přístupu a vysoké propustnosti kritická nejen pro trénování a inferenci, ale také pro vznikající třídu agentů AI, kteří se spoléhají na data, aby procesy více automatizovali. Výsledkem je základna úložiště, která umožňuje inovace nyní a připravuje organizace na to, co přijde dále.

Děkuji za skvělý rozhovor, čtenáři, kteří si chtějí přečíst více, by měli navštívit Backblaze.

Antoine je vizionářský líder a zakládající partner Unite.AI, poháněný neotřesitelnou vášní pro formování a propagaci budoucnosti AI a robotiky. Jako sériový podnikatel věří, že AI bude mít na společnost stejně disruptivní vliv jako elektřina, a často je chycen při tom, jak hovoří o potenciálu disruptivních technologií a AGI. Jako futurist, je zasvěcen prozkoumání toho, jak tyto inovace budou formovat náš svět. Kromě toho je zakladatelem Securities.io, platformy zaměřené na investice do špičkových technologií, které předefinovávají budoucnost a mění celé sektory.