Connect with us

Tekoäly-infrastruktuuri on rikki. Tokenit ovat uusi arvon mittari.

Ajatusjohtajat

Tekoäly-infrastruktuuri on rikki. Tokenit ovat uusi arvon mittari.

mm

Tekoäly-alalla on mittausongelma.

Vuosiin mennessä menestykseksi on määritelty pääsy laskentaan, kuten kuka on eniten GPU:ita, suurimmat klusterit tai nopeimmat koulutusajot. Miljardeja on pumpattu infrastruktuuriin voittamaan tämän kilpailun.

Mutta kun tekoäly siirtyy kokeilusta tuotantoon, tämä malli alkaa murtua.

Yritykset eivät osta GPU:ita. He eivät edes osta inference-kapasiteettia. He ostavat tuloksia kuten yhteenvetoja, suosituksia, päätöksiä, sisältöä. Toisin sanoen, he ostavat tokenie.

Kuitenkin suurin osa tekoäly-infrastruktuurista on edelleen suunniteltu siten, että laskenta on lopputuote. Se ei ole.

Tekoälyn todellinen arvon yksikkö on tokeni. Ja yritykset, jotka tunnistavat tämän muutoksen aikaisin, määrittelevät seuraavan markkinointikauden.

Tehtävä on noussut: tekoälytokenitehdas

Jos tokenit ovat tuote, niin tekoäly-infrastruktuurin on käyttäydyttävä tuotantojärjestelmän kaltaisesti, ei tieteellisen projektin kaltaisesti. Tästä konseptista tekoälytokenitehdas syntyy.

Tekoälytokenitehdas ei ole vain ohjelmistokerros pinossa. Se on uudelleenajattelu itse pinosta. Sen sijaan, että optimoidaan erillisten mallien suorituskykyä tai raakaa laitteiston hyötykäyttöä, se keskittyy yhteen tulos: tehokkaaseen tokenien tuotantoon suuressa mittakaavassa.

Tämä tarkoittaa infrastruktuurin monimutkaisuuden abstrahointia, dynaamisen työkuormituksen jakoa heterogeenisissa ympäristöissä ja jatkuvaa optimointia läpi tuloksia, viivettä, hyötykäyttöä ja tokenin kustannusta.

Nykyinen malli on perustuu GPU-vuokraukseen, johon on lisätty ylimääräisiä askelia. Organisaatiot varustavat kalliita laitteita, yhdistävät sirpaleisia työkaluja ja toivovat, että hyötykäyttö lopulta oikeuttaa sijoituksen.

Tokenitehdas kääntää tämän kaavan täysin ylösalaisin. Se toimittaa tuloksia, ei infrastruktuuria, ja käsittelee tehokkuuden perussuunnitteluperiaatteena alusta alkaen. Tämä ei ole asteittainen edistys. Se on siirtymä infrastruktuurista kapasiteetiksi infrastruktuuriin tuotantona.

Miksi vanha malli ei pidä

Nykyinen tekoäly-infrastruktuurin malli ei ole vain tehokas. Se on yhä epävakaa.

GPU-pula paljasti ensimmäiset halkeamat. Kysyntä jatkaa ylittämään tarjonnan, mikä pakottaa organisaatiot sirpaleisiin, monivälitteisiin käyttöönottoihin. Se, mikä aluksi oli väliaikainen ratkaisu, on nopeasti muuttunut normiksi: heterogeeniset ympäristöt, joita yhdistää yhtenäinen toiminnallinen kerros.

Ongelma on, että useimmat olemassa olevat pinot eivät ole koskaan suunniteltu tälle todellisuudelle. Ne eivät optimoi tehokkaasti arkkitehtuureja, sovella reaaliajassa tai tarjoa selkeää näkyvyyttä suorituskykyyn ja kustannuksiin.

Tuloksena monimutkaisuus kasvaa nopeammin kuin mittakaava.

Jokainen uusi malli, kehys, kiihdytin tai pilvi-alusta esittää toisen kerroksen toiminnallista ylijäämää. Tiimit viettävät valtavasti aikaa hallitsemalla orkestraatiota, yhteensopivuutta, reititystä, aikataulutusta ja havainnollistamisen ongelmia tuloksien parantamisen sijaan.

Se, mikä pitäisi olla skaalautuvuuden etu, muuttuu nopeasti koordinaatio-ongelmaksi.

Samaan aikaan taloudelliset seikat ovat muuttumassa vaikeammin väärin käsiteltäviksi. Varhaiset tekoäly-käyttöönotot voivat peittää tehokkuuden puutteita kasvun ja kokeilun takia. Tämä aikakausi on sulkeutumassa.

Johtajat ovat nyt esittämässä vaikeampia kysymyksiä: Miksi inference-kustannukset ovat niin arvaamattomia? Miksi GPU-hyötykäyttö on edelleen niin alhainen? Miksi organisaatiot maksavat premium-hintaa laitteista, jotka usein ovat käyttämättöminä? Miksi on niin vaikea sitoa infrastruktuurin kustannukset liiketoimintatuloksiin?

Vastaus on yksinkertainen: Järjestelmä on suunniteltu pääsyä varten, ei tehokkuutta varten.

Siirtyminen laskenta-keskeisestä arkkitehtuurista token-keskeiseen arkkitehtuuriin

Tokenitehtaan siirtyminen on sekä filosofinen että arkkitehtoninen.

Ensinnäkin, markkinat siirtyvät GPU-palvelusta tulokseen perustuvaan palveluun. Asiakkaat eivät halua hallita infrastruktuuria; he haluavat taata tulokset. Looginen lopputila on kulutus, joka perustuu tuloksiin, ei resursseihin.

Toiseksi, sirpaleiset pinot antavat tilaa yhtenäisille ohjauskerroksille. Heterogeenisissa ympäristöissä näkyvyys ja ohjaus ovat kaikkein tärkeintä. Tokenitehtaat tarjoavat reaaliaikaisen näkyvyyden käyttöön, kustannuksiin ja suorituskykyyn, sekä mahdollisuuden toimia sen mukaan. Organisaatioiden on ymmärrettävä: Kuka tuottaa tokenie? Mikä on kustannus? Mikä laitteisto? Mikä työkuorma? Ja mikä on tehokkuuden taso? Ilman näitä vastauksia optimointi muuttuu arvaamiseksi.

Lopulta, teollisuuden keskittyminen on siirtymässä suorittamisesta jatkuvaan optimointiin. Haaste ei ole enää ainoastaan mallien suorittaminen, vaan niiden suorittaminen älykkäästi, kun organisaatiot määrittelevät: Mihin laitteistoon kuuluvat mihin työkuormat? Miten saadaan maksimoitua tuloksia halliten kustannuksia? Miten estetään tokenien käytön päättymättömyys?

Tokenitehtaat käsittelevät näitä kysymyksiä ensisijaisina ongelmina, ei jälkikäteen.

Miksi nykyinen tekoäly-toimitusmalli ei riitä

Perinteinen tekoäly-pino (kattaa laitteiston toimittajat, pilvi-alustat, inference-palvelut) on rakennettu lähinnä nopeaan kasvuun, ei järjestelmälliseen tehokkuuteen.

Jokainen kerros lisää arvoa, mutta myös kustannuksia, abstraktiota ja toiminnallista sirpaleisuutta. Tuloksena on järjestelmä, jossa on pinotut marginaalit, rajoitettu läpinäkyvyys ja kasvava toimittajan riippuvuus. Organisaatiot lopulta optimoivat siloissa, ei järjestelmän yli.

Tokenitehtaat haastavat perustavasti tämän mallin.

Laitteiston ja arvon toimittamisen erottamisen kautta ne mahdollistavat päästä-päähän optimoinnin. Työkuormat voivat liikkua sujuvasti ympäristössä. Arkkitehtuureja voidaan kehittää ilman massiivisia uudelleenkirjoituksia. Tehokkuus muuttuu mitattavaksi, hallittavaksi ja jatkuvasti parantuvaksi.

Tämä on, miten yritykset ja uudet pilvi-alustat voivat kilpailla tehokkaammin hyperskaleerien kanssa. Ei kokoamalla heidän mittakaavaansa, vaan ylittämällä heidän tehokkuutensa.

Kuka saa voittaa

Ehkä häiritsevin asia tässä siirtymässä on se, kenet se valtuuttaa. Et tarvitse omistaa datakeskusta tai edes GPU:ita toimintaan tokenitehtaalla.

Se, mikä on tärkeää, on ohjaus, optimointi ja toimitus. Se avaa oven paljon laajemmalle joukolle toimijoita:

  • Yritykset, joilla on suuret, pysyvät tekoäly-työkuormat.
  • Neo-pilvi-palveluntarjoajat, jotka optimoivat tiettyjä pysty- tai käyttötarkoituksia.
  • Infrastruktuurin toimittajat, jotka siirtyvät pinon ylempään.

Tässä mallissa kilpailuetu ei tule laskentakapasiteetista. Se tulee tokenien tuottamisesta paremmin, nopeammin ja halvemmalla kuin kukaan muu.

Uusi taistelukenttä: Tokenin kustannus

Seuraava vaihe tekoäly-kilpailussa ei voiteta ainoastaan mallin laadulla. Se voitetaan tehokkuudella. Tarkemmin sanottuna, tokenin kustannuksella.

Kuka voi toimittaa vastaavia tai parempia tuloksia murto-osaan kustannuksista? Kuka voi skaalata ilman laitteiston kustannusten päättymättömyyttä? Kuka voi muuttaa tekoälyn ennustettavaksi, voitolliseksi liiketoiminnaksi?

Nämä eivät ole infrastruktuurin kysymyksiä. Ne ovat tuotantokysymyksiä, jotka vaativat tuotantotapaan.

Tulevaisuus ei ole rakennettu GPU:iden varaan

GPU:t eivät häviä, mutta ne eivät ole enää tarina. Tokenit ovat.

Organisaatiot, jotka pysyvät laskentaan keskittyneinä, kohtaavat kasvavia kustannuksia ja väheneviä tuottoja. Ne, jotka siirtyvät token-keskeisiin järjestelmiin, avaavat perustavasti toisenlaisen mallin, joka luo yhteyden infrastruktuurin ja tuloksien sekä kustannusten ja arvon välille.

Tekoälytokenitehtaat eivät ole kaukainen konsepti. Ne ovat vääjäämätön markkinan kehitys. Ainoa oikea kysymys on, kuka rakentaa ne ensin ja kuka jää jälkeen.

Gaurav Shah on NeuRealityn liiketoimintakehitys- ja strategiavice president, jossa hän johtaa asiakastöitä tekoälyinferenssin vallankumoukseen ja sen omaksumisen kiihdyttämiseen eri aloilla, kuten rahoitus-, terveydenhuolto- ja hallintosektoreilla. Gauravilla on kolmen vuosikymmenen kokemus teknologia-alalta, ja hän on työskennellyt tuotemarkkinoinnin ja johtamistehtävissä NVIDIA, Marvell, Tenstorrent ja GlobalFoundries -yrityksissä. Hän toimii San Franciscon lahden alueella.