Rozhovory
Frank Liu, ředitel operací ve společnosti Zilliz – Interview Series

Frank Liu je ředitel operací ve společnosti Zilliz, která je předním poskytovatelem vektorových databází a technologií umělé inteligence. Jsou také inženýři a vědci, kteří vytvořili LF AI Milvus®, nejpopulárnější open-source vektorovou databázi.
Co vás最初 přitáhlo k strojnímu učení?
Má první zkušenost se silou ML/AI byla jako student bakalářského studia na Stanfordu, ačkoli to bylo trochu mimo můj obor (elektrotechnika). Byl jsem zpočátku přitahován k oboru elektrotechnika, protože schopnost zjednodušit komplexní elektrické a fyzikální systémy na matematické aproximace mi připadala velmi silná, a statistika a strojové učení mi připadaly stejně. Nakonec jsem během postgraduálního studia absolvoval více kurzů počítačového vidění a strojového učení a napsal svou diplomovou práci o použití ML pro hodnocení estetické krásy obrázků. To vše mě vedlo k mé první práci v týmu Computer Vision & Machine Learning v Yahoo, kde jsem měl hybridní roli výzkumu a softwarového vývoje. Byli jsme stále v době před transforméry AlexNet & VGG a vidět, jak se celý obor a průmysl tak rychle vyvíjí, od přípravy dat po masivně paralelní školení modelů až po produkční nasazení modelů, je úžasné. Mnohými způsoby to feels a bit absurdní použít frázi “předtím” k odkazu na něco, co se stalo méně než před 10 lety, ale takový je pokrok, který byl v tomto oboru učiněn.
Po Yahoo jsem působil jako technický ředitel startupu, který jsem spoluzaložil, kde jsme využili ML pro indoor lokalizaci. Tam jsme museli optimalizovat sekvenční modely pro velmi malé mikrokontroléry – velmi odlišnou, ale související inženýrskou výzvou pro dnešní velké LLM a difuzní modely. Také jsme vyvinuli hardware, panely pro visualizaci a jednoduché cloud-native aplikace, ale AI/ML vždy tvořily jádro naší práce.
Ačkoli jsem již více než 7 nebo 8 let v oboru ML nebo v jeho blízkosti, stále si uchovávám velkou lásku k navrhování obvodů a digitální logice. Mít zázemí v oboru elektrotechnika je mnoha způsoby nesmírně užitečné pro mnoho prací, které dělám dnes. Mnoho důležitých konceptů v digitálním designu, jako je virtuální paměť, předpověď větvení a současná exekuce v HDL, poskytuje úplný přehled o mnoha ML a distribuovaných systémech dnes. Ačkoli chápu lákadlo CS, doufám, že uvidím oživení tradičních inženýrských oborů – elektrotechnika, mechanika, chemie apod. – v příštích pár letech.
Pro čtenáře, kteří nejsou seznámeni s termínem, co je nestrukturovaná data?
Nestrukturovaná data odkazují na “komplexní” data, která jsou zásadně data, která nelze uložit v předem definovaném formátu nebo se nehodí do existujícího datového modelu. Pro srovnání, strukturovaná data odkazují na jakýkoli typ dat, který má předem definovanou strukturu – numerická data, řetězce, tabulky, objekty a klíčové úložiště jsou všechny příklady strukturovaných dat.
Abychom skutečně pochopili, co jsou nestrukturovaná data a proč jsou tradičně obtížně zpracovatelná, pomáhá srovnání s daty strukturovanými. V nejzákladnějších termínech lze tradiční strukturovaná data uložit pomocí relačního modelu. Vzít například relační databázi se tabulkou pro ukládání informací o knihách: každá řádek v tabulce by mohla reprezentovat konkrétní knihu indexovanou podle čísla ISBN, zatímco sloupce by označovaly odpovídající kategorii informací, jako je název, autor, datum vydání, atd. Dnes existují mnohem flexibilnější datové modely – široké sloupcové úložiště, objektové databáze, grafické databáze, atd. – ale celková myšlenka zůstává stejná: tyto databáze jsou určeny k ukládání dat, která se hodí do určitého datového modelu.
Nestrukturovaná data, na druhé straně, lze považovat za zásadně pseudo-náhodný blob binárních dat. Může reprezentovat cokoliv, být libovolně velký nebo malý a může být transformován a přečten mnoha různými způsoby. To činí nemožným uložit je do jakéhokoli datového modelu, natož do tabulky v relační databázi.
Jaké jsou některé příklady tohoto typu dat?
Lidsky generovaná data – obrázky, videa, audio, přirozený jazyk, atd. – jsou skvělými příklady nestrukturovaných dat. Existuje však mnoho méně všedních příkladů nestrukturovaných dat. Uživatelské profily, proteinové struktury, genové sekvence a dokonce i lidsky čitelný kód jsou také skvělými příklady nestrukturovaných dat. Hlavním důvodem, proč byla nestrukturovaná data tradičně tak obtížně zpracovatelná, je, že nestrukturovaná data mohou mít jakoukoli formu a mohou vyžadovat velmi odlišné časy zpracování.
Používaje obrázky jako příklad, dvě fotografie stejné scény by mohly mít velmi odlišné pixelové hodnoty, ale obě by měly podobný celkový obsah. Přirozený jazyk je dalším příkladem nestrukturovaných dat, o kterém rád mluvím. Věty “Elektrotechnika” a “Počítačová věda” jsou extrémně úzce spojeny – natolik, že budovy elektrotechniky a počítačové vědy na Stanfordu jsou vedle sebe – ale bez způsobu, jak zakódovat semantický význam za těmito dvěma větami, počítač by mohl naivně myslet, že “Počítačová věda” a “Sociální věda” jsou více spojeny.
Co je vektorová databáze?
Abychom pochopili vektorovou databázi, pomáhá nejprve pochopit, co je vložení. Budu se tím zabývat chvíli, ale stručně řečeno, vložení je vektor s vysokou dimenzí, který může reprezentovat semantiku nestrukturovaných dat. Obecně platí, že dvě vložení, která jsou blízká nhau z hlediska vzdálenosti, jsou velmi pravděpodobně semanticky podobná vstupním datům. Díky modernímu ML máme možnost zakódovat a transformovat různá typy nestrukturovaných dat – obrázky a text, například – do semanticky silných vektorů vložení.
Z hlediska organizace se nestrukturovaná data stávají neuvěřitelně obtížně zpracovatelnými, jakmile jejich množství přesáhne určitou hranici. Zde přichází vektorová databáze, jako je Zilliz Cloud. Vektorová databáze je speciálně navržena pro ukládání, indexování a vyhledávání velkých množství nestrukturovaných dat pomocí vložení jako základního представování. Vyhledávání v vektorové databázi se obvykle provádí pomocí dotazovacích vektorů a výsledkem dotazu jsou nejvíce podobné výsledky založené na vzdálenosti.
Nejlepší vektorové databáze mají mnoho funkcí použitelnosti tradičních relačních databází: horizontální škálovatelnost, caching, replikace, převzetí služeb a spouštění dotazů jsou pouze některé z mnoha funkcí, které by měla mít skutečná vektorová databáze. Jako kategorie definující, jsme byli aktivní v akademických kruzích a publikovali články na SIGMOD 2021 a VLDB 2022, dvou nejlepších konferencích o databázích.
Můžete diskutovat, co je vložení?
Obecně řečeno, vložení je vektor s vysokou dimenzí, který pochází z aktivací mezilehlé vrstvy v multilayerovém neuronovém síti. Mnoho neuronových sítí je trénováno k výstupu vložení samy o sobě a některé aplikace používají konkatenovalé vektory z více mezilehlých vrstev jako vložení, ale nebudu se tím zabývat příliš detailně. Další méně častý, ale stejně důležitý způsob generování vložení je prostřednictvím ručně vytvořených funkcí. Místo toho, aby se ML model automaticky naučil správné reprezentace pro vstupní data, dobrá stará funkce inženýrství může fungovat pro mnoho aplikací. Bez ohledu na základní metodu, vložení pro semanticky podobné objekty jsou blízko sebe z hlediska vzdálenosti a tato vlastnost je tím, co pohání vektorové databáze.
Jaké jsou některé z nejpopulárnějších použití této technologie?
Vektorové databáze jsou skvělé pro jakoukoli aplikaci, která vyžaduje some formu semantického vyhledávání – produktové doporučení, video analýza, dokumentové vyhledávání, detekce hrozeb a podvodů a AI-poháněné chatboty jsou některé z nejpopulárnějších použití vektorových databází dnes. Abych ilustroval, Milvus, open-source vektorová databáze vytvořená Zilliz a základní jádro Zilliz Cloud, byla použita více než tisíci podnikovými uživateli napříč různými použitími.
Rád bych diskutoval o těchto aplikacích a pomáhal lidem pochopit, jak fungují, ale také jsem rád, když diskutuji o méně známých použití vektorových databází. Nový objev léků je jedním z mých oblíbených “nišových” použití vektorových databází. Výzvou pro tuto konkrétní aplikaci je vyhledávání potenciálních kandidátských léků na určitou nemoc nebo symptom mezi databází 800 milionů sloučenin. Farmaceutická společnost, se kterou jsme komunikovali, byla schopna významně zlepšit proces objevu léků a snížit hardwarové zdroje kombinací Milvus s chemickou knihovnou RDKit.
Cleveland Museum of Art’s (CMA) AI ArtLens je dalším příkladem, o kterém rád mluvím. AI ArtLens je interaktivní nástroj, který bere dotazový obrázek jako vstup a vyhledává vizuálně podobné obrázky z databáze muzea. To se obvykle nazývá reverzní vyhledávání obrázků a je poměrně běžným použitím vektorových databází, ale jedinečná hodnota, kterou Milvus poskytla CMA, byla schopnost aplikaci spustit do týdne s velmi malým týmem.
Můžete diskutovat, co je open-source platforma Towhee?
Když komunikujeme s lidmi z komunity Milvus, zjistili jsme, že mnozí z nich chtěli mít sjednocený způsob generování vložení pro Milvus. To bylo pravdivé pro téměř všechny organizace, se kterými jsme mluvili, ale zejména pro společnosti, které neměly mnoho inženýrů strojového učení. S Towhee se snažíme vyřešit tuto mezeru pomocí toho, co nazýváme “vector data ETL.” Zatímco tradiční ETL potrubí se zaměřují na kombinování a transformaci strukturovaných dat z více zdrojů do použitelného formátu, Towhee je určen pro práci s nestrukturovanými daty a explicitně zahrnuje ML do výsledného ETL potrubí. Towhee dosahuje tohoto poskytováním stovek modelů, algoritmů a transformací, které lze použít jako stavební bloky v potrubí vektorových dat ETL. Kromě toho Towhee poskytuje také snadno použitelný Python API, který umožňuje vývojářům vytvářet a testovat tato ETL potrubí v jednom řádku kódu.
Ačkoli je Towhee samostatným projektem, je také součástí širšího ekosystému vektorových databází kolem Milvus, který Zilliz vytváří. Představujeme si Milvus a Towhee jako dva vysoce komplementární projekty, které, když se používají společně, mohou skutečně demokratizovat zpracování nestrukturovaných dat.
Zilliz nedávno získala 60 milionů dolarů v rámci série B. Jak tohle urychlí misi Zilliz?
Chtěl bych především poděkovat Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital a dalším za to, že věří v misi Zilliz a podporují nás touto sérií B. Nyní jsme získali celkem 113 milionů dolarů a tato poslední kola financování budou podporovat naše úsilí o škálování inženýrských a marketingových týmů. Konkrétně budeme zlepšovat naše spravované cloudové nabídky, které jsou目前 v rané fázi, ale naplánované k otevření pro každého později v tomto roce. Budeme také pokračovat ve investicích do špičkového výzkumu databází a AI, jak jsme dělali v posledních 4 letech.
Je něco jiného, co byste rádi sdíleli o Zilliz?
Jako společnost rosteme rychle, ale to, co skutečně odlišuje náš současný tým od ostatních v databázovém a ML prostoru, je naše jedinečná vášeň pro to, co stavíme. Jsme na misi demokratizovat zpracování nestrukturovaných dat a je absolutně úžasné vidět tolik talentovaných lidí v Zilliz, kteří pracují na jednom cíli. Pokud vás zajímá cokoliv, co děláme, neváhejte kontaktovat nás. Rádi bychom vás měli na palubě.
Pokud chcete vědět trochu více, jsem také osobně otevřen k diskusi o Zilliz, vektorových databázích nebo pokroku v AI/ML. Moje (figurativní) dveře jsou vždy otevřené, takže neváhejte mě kontaktovat přímo na Twitteru/LinkedIn.
Nakonec bych chtěl poděkovat za skvělý rozhovor. Čtenáři, kteří chtějí dozvědět se více, by měli navštívit Zilliz.












