cung Frank Liu, Drejtor i Operacioneve në Zilliz - Seria e Intervistave - Unite.AI
Lidhu me ne

intervistat

Frank Liu, Drejtor i Operacioneve në Zilliz – Seria e Intervistave

mm

Publikuar

 on

Frank Liu është Drejtor i Operacioneve në Zilliz, një ofrues kryesor i bazës së të dhënave vektoriale dhe teknologjive AI. Ata janë gjithashtu inxhinierët dhe shkencëtarët që krijuan LF AI Milvus®, bazën e të dhënave vektoriale më të njohura në botë me burim të hapur.

Çfarë ju tërhoqi fillimisht në mësimin e makinerive?

Ekspozimi im i parë ndaj fuqisë së ML/AI ishte si student në Stanford, pavarësisht se ishte pak larg nga diploma ime (Inxhinieri Elektrike). Fillimisht më tërhoqi EE si fushë, sepse aftësia për të distiluar sisteme komplekse elektrike dhe fizike në përafrime matematikore ndihej shumë e fuqishme për mua, dhe statistikat dhe mësimi i makinerive ndiheshin të njëjtën gjë. Përfundova duke marrë më shumë klasa për vizionin kompjuterik dhe mësimin e makinerive gjatë shkollës së mesme, dhe përfundova duke shkruar tezën time të masterit mbi përdorimin e ML për të shënuar bukurinë estetike të imazheve. E gjithë kjo çoi në punën time të parë në ekipin Computer Vision & Machine Learning në Yahoo, ku isha në një rol hibrid të kërkimit dhe zhvillimit të softuerit. Ne ishim ende në ditët e para-transformatorëve AlexNet & VGG në atë kohë, dhe të shohësh një fushë të tërë dhe industri të lëvizte kaq shpejt, nga përgatitja e të dhënave në trajnimin masiv të modeleve paralele deri te prodhimi i modeleve, ka qenë e mahnitshme. Në shumë mënyra, ndihet pak qesharake të përdorësh frazën "atëherë" për t'iu referuar diçkaje që ka ndodhur më pak se 10 vjet më parë, por i tillë është përparimi që është bërë në këtë fushë.

Pas Yahoo, unë shërbeva si CTO i një startup-i që bashkëthemelova, ku shfrytëzuam ML-në për lokalizimin e ambienteve të brendshme. Atje, na u desh të optimizonim modelet sekuenciale për mikrokontrolluesit shumë të vegjël – një sfidë inxhinierike shumë e ndryshme, por megjithatë e lidhur me modelet masive të LLM-ve dhe difuzionit të sotëm. Ne ndërtuam gjithashtu pajisje, panele kontrolli për vizualizim dhe aplikacione të thjeshta vendase në renë kompjuterike, por AI/ML shërbeu gjithmonë si një komponent thelbësor i punës që po bënim.

Edhe pse kam qenë në ose ngjitur me ML për pjesën më të mirë të 7 ose 8 viteve tani, unë ende ruaj shumë dashuri për dizajnin e qarkut dhe dizajnin logjik dixhital. Të kesh një sfond në Inxhinieri Elektrike është, në shumë mënyra, jashtëzakonisht e dobishme për shumë punë në të cilën jam përfshirë këto ditë gjithashtu. Shumë koncepte të rëndësishme në dizajnin dixhital, si memoria virtuale, parashikimi i degëve dhe ekzekutimi i njëkohshëm në HDL, ndihmojnë në ofrimin e një pamjeje të plotë për shumë sisteme ML dhe të shpërndara sot. Ndërsa e kuptoj joshjen e CS, shpresoj të shoh një ringjallje në fusha më tradicionale inxhinierike – EE, MechE, ChemE, etj… – brenda dy viteve të ardhshme.

Për lexuesit që nuk janë të njohur me termin, çfarë janë të dhënat e pastrukturuara?

Të dhënat e pastrukturuara i referohen të dhënave "komplekse", të cilat në thelb janë të dhëna që nuk mund të ruhen në një format të paracaktuar ose të përshtaten në një model ekzistues të të dhënave. Për krahasim, të dhënat e strukturuara i referohen çdo lloji të të dhënave që ka një strukturë të paracaktuar - të dhënat numerike, vargjet, tabelat, objektet dhe depot e çelësave/vlerave janë të gjitha shembuj të të dhënave të strukturuara.

Për të ndihmuar në të kuptuarit e vërtetë se çfarë janë të dhënat e pastrukturuara dhe pse tradicionalisht ka qenë e vështirë për të përpunuar në mënyrë llogaritëse këtë lloj të dhënash, ndihmon krahasimi i tyre me të dhënat e strukturuara. Në terma më të thjeshtë, të dhënat e strukturuara tradicionale mund të ruhen nëpërmjet një modeli relacional. Merrni, për shembull, një bazë të dhënash relacionale me një tabelë për ruajtjen e informacionit të librit: çdo rresht brenda tabelës mund të përfaqësojë një libër të caktuar të indeksuar me numrin ISBN, ndërsa kolonat do të tregonin kategorinë përkatëse të informacionit, si titulli, autori, data e publikimit. , kështu me radhë e kështu me radhë. Në ditët e sotme, ka modele shumë më fleksibël të të dhënave - dyqane me kolona të gjera, baza të të dhënave të objekteve, baza të të dhënave grafike, e kështu me radhë e kështu me radhë. Por ideja e përgjithshme mbetet e njëjtë: këto baza të të dhënave kanë për qëllim të ruajnë të dhëna që i përshtaten një modeli ose modeli të dhënash të veçantë.

Të dhënat e pastrukturuara, nga ana tjetër, mund të mendohen në thelb si një pikë pseudo-rastësore e të dhënave binare. Mund të përfaqësojë çdo gjë, të jetë arbitrarisht i madh ose i vogël dhe mund të transformohet dhe lexohet në një nga mënyrat e panumërta të ndryshme. Kjo e bën të pamundur përshtatjen në çdo model të dhënash, e lëre më një tabelë në një bazë të dhënash relacionale.

Cilët janë disa shembuj të këtij lloji të të dhënave?

Të dhënat e krijuara nga njeriu – imazhet, video, audio, gjuha natyrore, etj – janë shembuj të shkëlqyer të të dhënave të pastrukturuara. Por ka edhe një sërë shembujsh më pak të zakonshëm të të dhënave të pastrukturuara. Profilet e përdoruesve, strukturat e proteinave, sekuencat e gjenomit, madje edhe kodi i lexueshëm nga njeriu janë gjithashtu shembuj të shkëlqyer të të dhënave të pastrukturuara. Arsyeja kryesore që të dhënat e pastrukturuara tradicionalisht kanë qenë kaq të vështira për t'u menaxhuar është se të dhënat e pastrukturuara mund të marrin çdo formë dhe mund të kërkojnë kohë ekzekutimi shumë të ndryshme për t'u përpunuar.

Duke përdorur imazhet si shembull, dy foto të së njëjtës skenë mund të kenë vlera shumë të ndryshme pikselësh, por të dyja kanë një përmbajtje të përgjithshme të ngjashme. Gjuha natyrore është një shembull tjetër i të dhënave të pastrukturuara që më pëlqen t'i referohem. Frazat "Inxhinieri Elektrike" dhe "Shkenca Kompjuterike" janë jashtëzakonisht të lidhura ngushtë - aq shumë sa ndërtesat EE dhe CS në Stanford janë ngjitur me njëra-tjetrën - por pa një mënyrë për të koduar kuptimin semantik pas këtyre dy frazave, një kompjuter mund të me naivitet mendojnë se “Shkenca Kompjuterike” dhe “Shkenca Sociale” janë më të lidhura.

Çfarë është një bazë të dhënash vektoriale?

Për të kuptuar një bazë të dhënash vektoriale, së pari ndihmon për të kuptuar se çfarë është një embedding. Do t'i arrij asaj për momentin, por versioni i shkurtër është se një ngulitje është një vektor me dimensione të larta që mund të përfaqësojë semantikën e të dhënave të pastrukturuara. Në përgjithësi, dy ngulitje që janë afër njëra-tjetrës për sa i përket distancës ka shumë të ngjarë të korrespondojnë me të dhëna hyrëse të ngjashme semantike. Me ML moderne, ne kemi fuqinë për të koduar dhe transformuar një sërë llojesh të ndryshme të dhënash të pastrukturuara – për shembull imazhe dhe tekst – në vektorë ngulitjesh të fuqishme semantike.

Nga këndvështrimi i një organizate, të dhënat e pastrukturuara bëhen tepër të vështira për t'u menaxhuar pasi shuma të rritet përtej një kufiri të caktuar. Këtu është një bazë të dhënash vektoriale si p.sh Reja Zilliz Një bazë të dhënash vektoriale është ndërtuar me qëllim për të ruajtur, indeksuar dhe kërkuar në sasi të mëdha të dhënash të pastrukturuara duke përdorur ngulitje si përfaqësimin themelor. Kërkimi në një bazë të dhënash vektoriale zakonisht bëhet me vektorë të pyetjeve, dhe rezultati i pyetjes është rezultati më i lartë N më i ngjashëm bazuar në distancë.

Bazat e të dhënave vektoriale më të mira kanë shumë nga veçoritë e përdorshmërisë së bazave të të dhënave relacionale tradicionale: shkallëzimi horizontal, memoria e fshehtë, përsëritja, dështimi dhe ekzekutimi i pyetjeve janë vetëm disa nga shumë karakteristika që duhet të zbatojë një bazë e të dhënave vektoriale e vërtetë. Si përcaktues i kategorive, ne kemi qenë aktivë edhe në qarqet akademike, duke publikuar punime në SIGMOD 2021 VLDB 2022, dy konferencat kryesore të bazës së të dhënave atje sot.

A mund të diskutoni se çfarë është një embedding?

Në përgjithësi, një embedding është një vektor me dimensione të larta që vjen nga aktivizimi i një shtrese të ndërmjetme në një rrjet nervor shumështresor. Shumë rrjete nervore janë të trajnuar për të nxjerrë vetë embeddings dhe disa aplikacione përdorin vektorë të bashkuar nga shumë shtresa të ndërmjetme si ngulitje, por unë nuk do të hyj shumë në asnjërën prej tyre për momentin. Një mënyrë tjetër më pak e zakonshme, por po aq e rëndësishme për të gjeneruar ngulitje është përmes veçorive të punuara me dorë. Në vend që një model ML të mësojë automatikisht paraqitjet e duhura për të dhënat hyrëse, inxhinieria e vjetër e mirë e veçorive mund të funksionojë edhe për shumë aplikacione. Pavarësisht nga metoda themelore, ngulitje për objekte semantikisht të ngjashme janë afër njëri-tjetrit për sa i përket distancës, dhe kjo veti është ajo që fuqizon bazat e të dhënave vektoriale.

Cilat janë disa nga rastet më të njohura të përdorimit me këtë teknologji?

Bazat e të dhënave vektoriale janë të shkëlqyera për çdo aplikacion që kërkon një formë kërkimi semantik - rekomandimi i produktit, analiza e videove, kërkimi i dokumenteve, zbulimi i kërcënimeve dhe mashtrimeve dhe chatbot-et e fuqizuara nga AI janë disa nga rastet më të njohura të përdorimit për bazat e të dhënave vektoriale sot. Për ta ilustruar këtë, Milvus, baza e të dhënave vektoriale me burim të hapur e krijuar nga Zilliz dhe thelbi themelor i Zilliz Cloud, është përdorur nga mbi një mijë përdorues të ndërmarrjeve në një sërë rastesh të ndryshme përdorimi.

Unë jam gjithmonë i lumtur të bisedoj rreth këtyre aplikacioneve dhe të ndihmoj njerëzit të kuptojnë se si funksionojnë ato, por padyshim që më pëlqen shumë të kaloj edhe disa nga rastet më pak të njohura të përdorimit të bazës së të dhënave vektoriale. Zbulimi i ri i barnave është një nga rastet e mia të preferuara të përdorimit të bazës së të dhënave vektoriale "të ngrohtë". Sfida për këtë aplikacion të veçantë është kërkimi i barnave potenciale kandidate për të trajtuar një sëmundje ose simptomë të caktuar në një bazë të dhënash prej 800 milionë përbërësish. Një kompani farmaceutike me të cilën komunikuam ishte në gjendje të përmirësonte ndjeshëm procesin e zbulimit të barnave përveç reduktimit të burimeve harduerike duke kombinuar Milvus me një bibliotekë kimike të quajtur RDKit.

Muzeu i Artit i Cleveland (CMA) AI ArtLens është një shembull tjetër që më pëlqen të sjell. AI ArtLens është një mjet ndërveprues që merr një imazh të pyetjes si hyrje dhe tërheq imazhe vizualisht të ngjashme nga baza e të dhënave të muzeut. Kjo zakonisht referohet si kërkim i kundërt i imazhit dhe është një rast mjaft i zakonshëm përdorimi për bazat e të dhënave vektoriale, por propozimi unik i vlerës që Milvus i ofroi CMA ishte aftësia për të vënë në punë aplikacionin brenda një jave me një ekip shumë të vogël.

A mund të diskutoni se çfarë është platforma me burim të hapur Towhee?

Kur komunikuam me njerëz nga komuniteti Milvus, zbuluam se shumë prej tyre donin të kishin një mënyrë të unifikuar për të gjeneruar ngulitje për Milvus. Kjo ishte e vërtetë për pothuajse të gjitha organizatat e ndryshme me të cilat folëm, por veçanërisht për kompanitë që nuk kishin shumë inxhinierë të mësimit të makinerive. Me Towhee, ne synojmë ta zgjidhim këtë boshllëk përmes asaj që ne e quajmë "të dhëna vektoriale ETL". Ndërsa tubacionet tradicionale ETL fokusohen në kombinimin dhe transformimin e të dhënave të strukturuara nga burime të shumta në një format të përdorshëm, Towhee ka për qëllim të punojë me të dhëna të pastrukturuara dhe përfshin në mënyrë eksplicite ML në tubacionin ETL që rezulton. Towhee e realizon këtë duke ofruar qindra modele, algoritme dhe transformime që mund të përdoren si blloqe ndërtimi në një tubacion ETL të të dhënave vektoriale. Për më tepër, Towhee ofron gjithashtu një API Python të lehtë për t'u përdorur, i cili lejon zhvilluesit të ndërtojnë dhe testojnë këto tubacione ETL në një linjë të vetme kodi.

Ndërsa Towhee është projekti i tij i pavarur, ai është gjithashtu një pjesë e ekosistemit më të gjerë të bazës së të dhënave vektoriale të përqendruar rreth Milvus që Zilliz po krijon. Ne parashikojmë që Milvus dhe Towhee të jenë dy projekte shumë plotësuese të cilat, kur përdoren së bashku, mund të demokratizojnë vërtet përpunimin e pastrukturuar të të dhënave.

Zilliz së fundmi ngriti një raund prej 60 milionë dollarësh të Serisë B. Si do ta përshpejtojë kjo misionin e Zilliz?

Fillimisht do të doja të falënderoja Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital dhe të tjerë që besuan në misionin e Zilliz dhe na mbështetën me këtë zgjerim të Serisë B. Tani kemi mbledhur një total prej 113 milionë dollarësh dhe ky raund i fundit financimi do të mbështesë përpjekjet tona për të zvogëluar ekipet inxhinierike dhe të futura në treg. Në veçanti, ne do të përmirësojmë ofertën tonë të menaxhuar në renë kompjuterike, e cila aktualisht është në akses të hershëm, por është planifikuar të hapet për të gjithë më vonë këtë vit. Ne gjithashtu do të vazhdojmë të investojmë në bazën e të dhënave të fundit dhe kërkimin e AI, siç kemi bërë në 4 vitet e fundit.

A ka ndonjë gjë tjetër që dëshironi të ndani për Zilliz?

Si kompani, ne po rritemi me shpejtësi, por ajo që vërtet e dallon ekipin tonë aktual nga të tjerët në bazën e të dhënave dhe hapësirën ML është pasioni ynë i veçantë për atë që po ndërtojmë. Ne jemi në një mision për të demokratizuar përpunimin e pastrukturuar të të dhënave dhe është absolutisht e mahnitshme të shohësh kaq shumë njerëz të talentuar në Zilliz duke punuar drejt një qëllimi të veçantë. Nëse ndonjë nga ato që po bëjmë ju duket interesante, mos ngurroni merrni kontakt me ne. Do të donim t'ju kishim në bord.

Nëse dëshironi të dini pak më shumë, unë jam gjithashtu personalisht i hapur për të biseduar rreth Zilliz, bazat e të dhënave vektoriale ose përparime të lidhura me ngulitjen në AI/ML. Dera ime (figurative) është gjithmonë e hapur, ndaj mos ngurroni të më kontaktoni direkt në Twitter/LinkedIn.

E fundit, por jo më pak e rëndësishme, faleminderit për leximin!

Faleminderit për intervistën e mrekullueshme, lexuesit që dëshirojnë të mësojnë më shumë duhet ta vizitojnë Zilliz.

Një partner themelues i unite.AI dhe një anëtar i Këshilli i Teknologjisë i Forbes, Antoine është një futurist i cili është i apasionuar pas të ardhmes së AI dhe robotikës.

Ai është gjithashtu Themeluesi i Letrat me vlerë.io, një faqe interneti që fokusohet në investimin në teknologjinë përçarëse.