Haastattelut
Ben Koska, SF Tensorin perustaja ja toimitusjohtaja – Haastattelusarja

Ben Koska, SF Tensorin perustaja ja toimitusjohtaja, on tekoälytutkija ja järjestelmäinsinööri, joka on tunnettu työstään suorituskykyisen laskennan, ytimen optimoinnin ja tehokkaan mallikoulutuksen parissa. Hänen taustansa kattaa matalan tason tekoälyinfrastruktuurin kehittämisen, koulutusläpimenojen parantamisen ja työkalujen suunnittelun, jotka tekevät edistyneen mallikehityksen helpoksi ilman raskasta insinööritöitä. Hän keskittyy järjestelmien rakentamiseen, jotka puskevat nopeuden, siirrettävyyden ja luotettavuuden rajoja heterogeenisessä laitteistossa.
SF Tensor on yhtiö, jonka hän johtaa filosofian käytännölliseksi alustaksi muuttamiseksi. Se esittelee yhdenmukaisen ohjelmointimallin, ytimen optimoijan ja cross-cloud-ohjauksen, joka on suunniteltu poistamaan jakautuneiden tekoälytyön kuormien monimutkaisuus. Alusta pyrkii antamaan insinööreille puhdas, laitteistoriippumaton ympäristö, jossa he voivat kirjoittaa kerran, ottaa käyttöön missä tahansa ja saavuttaa automaattisesti suorituskyvyn. SF Tensorin tehtävä on tehdä tekoälylaskelema merkittävästi nopeammaksi, helpommin hallittavaksi ja vapauttaa toimittajien lukituksista.
Perustit SF Tensorin vasta 19-vuotiaana johtamalla jo useita startup-yrityksiä. Mikä innoitti sinua ottamaan haasteen tekoälyinfrastruktuurin uudelleenkeksimiseksi urasi alussa?
Ongelma, jota ratkaisemme, on sellainen, josta välittäminen on minulle tärkeää, koska se on ongelma, jonka itse kohtasin. Kun kehittelimme sitä, mikä on nyt SF Tensorin ydinpinot, emme työskennelleet kaupallisessa projektissa, vaan se oli akateeminen tavoite. Olimme saaneet avustuksen johtamaan jotain mielenkiintoista tutkimusta, mutta käytimme suurimman osan ajastamme infrastruktuurin ja optimointien kanssa painimiseen sijasta tutkimuksen tekemiseen. Löysimme, että ihmiset olivat yleisesti ottaen kiinnostuneita infrastruktuuriteknologiastamme, ei tutkimushankkeestamme.
SF Tensor tarttuu yhteen tekoälyn vaikeimmista ongelmista — irrottautumisesta NVIDIA:n CUDA-dominanssista. Kuinka lähestyit järjestelmän suunnittelua, joka voisi saavuttaa oikean laitteiston siirrettävyyden ilman suorituskyvyn heikentymistä
Lopulta kaikki tekoäly palautuu yksinkertaisiin matemaattisiin ongelmiin. Jokainen malli on perustavalla tasolla joukko matemaattisia operaatioita, joiden tulokset on laskettava. Käsittämällä sen ennen kaikkea matemaattisena ongelmana, ei tietojenkäsittelytieteen ongelmana, voimme tunnistaa pienimmän joukon rajoituksia laskuissa ja generoida miljoonia tai jopa miljardeja eri tapoja muuttaa laskuja konekieleksi, löytäen nopeimman. Se on helpommin sanottu kuin tehty, koska emme voi todella suorittaa miljardeja eri ohjelmia löytääksemme nopeimman, joten joudumme keksimään tarkan matemaattisen mallin arvioida ohjelman nopeutta tietylle laitteistolle, mikä on yksi keskeisistä innovaatioista, jotka mahdollistavat sen, mitä teemme tänään.
Yhtiön blogi korostaa innovaatioita kääntäjäoptimoinnissa ja cross-cloud-ohjauksessa. Voitko selittää, kuinka SF Tensorin lähestymistapa eroaa olemassa olevista kehyksistä, kuten PyTorch tai JAX?
Emme ole kirjoittaneet siitä vielä teknistä blogia, mutta tukemme itse asiassa kehyksiä, kuten PyTorch ja JAX, sallimalla koodin, joka on kirjoitettu niissä, optimoida pinorakenteemme. On useita arkkitehtuurisia päätöksiä, jotka JAX ja PyTorch ovat tehneet, jotka erottavat ne pinorakenteestamme, mutta merkittävin niistä on, että käsittelemme koko mallia yhtenä laskuna, joka on ratkaistava, ei yksittäinä moduuleina, jotka on optimoitava erikseen ja yhdessä. Tässä suhteessa emme sovellakaan perinteisiä kääntäjäoptimoimisen tekniikoita ja yritä soveltaa kunkin yksittäisen optimoinnin sijaan luomme hakutilan, jossa on miljoonia tai jopa miljardeja potentiaalisia ytimiä, ja väitämme, ettei ihminen voi keksiä sääntöjoukkoa, jolla voidaan muuttaa koodi nopeimmaksi, joten meidän on luotava kaikki yhdistelmät ja tunnistettava nopein.
Monet startup-yritykset keskittyvät koulutus tehokkuuteen, mutta olet korostanut “infrastruktuurin verotusta” — aikaa, jonka tutkijat menettävät laskennan hallinnassa sijasta innovoinnissa. Kuinka SF Tensor tasapainottaa tämän epäsymmetrian?
Uskomme, että molemmat ongelmat on ratkaistava, ja suuri osa työstämme on koulutus tehokkuuden parantamiseksi, mutta akuutin ongelman, jonka voimme ratkaista ilman, että olemme riippuvaisia tulevista innovaatioista, on infrastruktuurin verotus, koska se on ongelma, jonka olemme itse jo ratkaisseet.
Olet maininnut jopa 80 prosentin laskun koulutuskustannuksissa. Mitkä tietyt optimoinnit tai arkkitehtuuriset läpimurrot mahdollistavat tämän?
Koko ohjelmistopinorakenteemme perustuu ajatukselle, että hakupohjainen kääntäjä voittaa aina ihmisten luomat säännöt. Tähän asti suurin rajoitus näille kääntäjille on ollut se, ettei ole mahdollista testata ja arvioida miljoonia tai jopa miljardeja ytimiä. Olisi siis välttämätöntä luoda matemaattinen malli laskennasta, joka pystyy arvioimaan tarkan ajan, jonka tietylle laskelmalle tai joukolle laskelmia kuluu tietyllä laitteistolla. Tekemällä tämän voimme laajentaa hakutilaamme ja leikata sen sitten, mikä on välttämätöntä, jos haluamme löytää nopeimmat ytimet johdonmukaisesti.
Kuinka taustasi Emma-ohjelmointikielen kehittämisessä vaikuttaa SF Tensorin arkkitehtuuriin ja filosofiaan suorituskyvyn ja abstraktion suhteen?
Älä kerro sijoittajilleni, mutta olen edelleen sydämeni perustalla kääntäjäinsinööri. Olen aina ollut kiinnostunut etsimään eri keinoja tehdä asioita vain hieman nopeammaksi. Kehittäessämme Emmaa heittäytyimme koko kääntäjän 4-5 kertaa; aloimme alusta, jokaisella kerralla, koska törmäsimme optimointiin, jota emme voineet toteuttaa nykyisten rajoitusten vuoksi, mikä pakotti meidät uudelleen suunnittelemaan järjestelmää yleisemmäksi, samalla kun sallimme laskeutua alimmalle optimointitasolle, kun se oli tarpeen, usein vastoin yleisiä periaatteita kääntäjän ja kielen suunnittelussa. Nämä oppimisen ja tuloksena oleva arkkitehtuuri yhdistivät lähes kaksi vuotta sellaisia, mitä monille näytti pienistä optimoinneista ja vääristä panostuksista, mutta ne kasaantuvat järjestelmäksi, joka sallii meidän nykyään iteroida nopeammin ja optimoida paremmin kuin järjestelmät, jotka seurasivat yleisiä periaatteita, koska ne periaatteet on suunniteltu CPU:lle, ei GPU:lle ja tekoälymallille.
Olet työskennellyt suurimittakaavaisissa koulutusajoissa yli 4 000 GPU:n kanssa — mitkä olivat joitain suurimmista opetuksista laskennan hallinnasta tässä mittakaavassa?
Yksi suurimmista on, että laitteiston virhe on paljon yleisempi ja ongelmallisempi kuin voisi olettaa. Ollessani työskennellyt perinteisten ohjelmien ja kääntäjien kanssa yleensä tietokone toimii juuri niin kuin sille on käsketty, ja jos jotain menee pieleen, se on lähes aina henkilön, joka kirjoitti koodin, virhe. GPU:illa toisaalta laitteiston virhe on yleinen ilmiö, erityisesti jakautuneissa koulutusajoissa erittäin suurilla klustereilla. Tämän kanssa käsi kädessä on se, että toisin kuin CPU:t, jotka toimivat yleensä deterministisesti ja ennustettavasti, GPU:t voivat toisinaan selittämättömästi tehdä asioita, kuten laskea kellotaajuutta ilman ilmeistä syytä, hidastaen koko koulutusprosessia, koska yksittäinen piiri toimii hitaammin.
Y Combinator on tukenut joitain teknologian merkittävimmistä infrastruktuuriyrityksistä. Kuinka tämä kokemus on muovannut lähestymistapaasi SF Tensorin tuotteen ja visoin kasvattamiseksi?
Mennä Y Combinatoriin ajattelin, että veto, jonka halusimme tehdä silloin, oli kunnianhimoinen. Muutaman viikon kuluttua määritelmämme kunnianhimoisesta oli muuttunut dramaattisesti, ja panostimme vielä suurempaan vetoon. Toisaalta yhteisön ja oppimisen tunne, jonka voin ottaa puhelimella tai lähettää sähköpostia melkein mihin tahansa yhtiöön tai henkilölle ja saada vastauksen ja neuvon muutamassa tunnissa, on muuttanut tapaa, jolla lähestymme ongelmia ja omaksumme merkittävästi enemmän yhteistyöhön perustuvan lähestymistavan.
Edetessäsi olet ilmaissut kiinnostuksesi ei-LLM-malleihin, robottiikkaan ja synteettisiin tietoihin. Kuinka nämä alueet sopivat yhtiön pitkän aikavälin visioon?
LLM:t ovat ehdottomasti mielenkiintoinen teknologia ja tulevat olemaan tärkeä osa siinä, kuinka maailma näyttää tulevaisuudessa, mutta syy siihen, miksi ne ovat kehittyneitä verrattuna muihin tekoälyalueisiin, johtuu pääasiassa siitä, että niiden kehittämiseen on panostettu paljon rahaa, ja niin monta ihmistä on yhteistyössä ratkaisemassa ongelmaa, että ne ovat saaneet melko hyvän optimoinnin. Oletetaan, että voimme alentaa pääsyrajan, salliessa tutkijoille ympäri maata ja maapallon, jopa niille, joilla on rajalliset resurssit ja vähän tai ei ollenkaan tietoa optimoinneista, tehdä tutkimusta niin halvalla ja tehokkaasti kuin mahdollista. Uskon, että silloin näemme kokonaan uuden sukupolven malleja, jotka ratkaisevat ongelmia, joissa LLM:t eivät ole soveliaisia, joko koska ne ovat vuorovaikutuksessa fyysiseen maailmaan tai koska ne ovat ongelmia, joita ei voida oikein ilmaista kielellä.
Miten tekoälyinfrastruktuuripino näyttää viiden vuoden kuluttua — ja missä roolissa SF Tensor on siinä?
Viiden vuoden kuluttua toivon, että moni yhtiö on kehittänyt ja julkaissut oman erikoispiirinsä, ja tutkijat voivat hyödyntää ja käyttää niitä ilman, että heidän tarvitsee kirjoittaa koodia nimenomaan niille, ja toivon, että he eivät edes tarvitse tietää, että niitä on olemassa. Se on tulevaisuus, jota olemme rakentamassa, ja jossa uskon, että meillä on merkittävä rooli muotoilussa.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla SF Tensor-sivustolla.












