Ajatusten johtajat
Räätälöidyt LLM:t jokaiselle yritykselle? DeepSeek näyttää meille tien

Olipa kerran, tekninen huuto oli "matkapuhelimet kaikille” – ja todellakin matkaviestintä on mullistanut liiketoiminnan (ja maailman). Nykyään puhelun vastine on antaa kaikille pääsy AI:lle sovelluksia. Mutta tekoälyn todellinen voima on sen valjastaminen yritysten ja organisaatioiden erityistarpeisiin. Kiinalaisen startup-yrityksen DeepSeekin polku osoittaa, kuinka tekoälyä voivat todellakin valjastaa kaikki, erityisesti rajalliset budjetit, täyttääkseen erityistarpeensa. Itse asiassa halvemman tekoälyn tulo lupaa muuttaa syvälle juurtuneita tekoälyratkaisuja, jotka jäävät usein monien pienyritysten ja organisaatioiden näkymättömiin kustannusvaatimusten vuoksi.
LLM:t ovat – tai olivat – a kallis yritys, joka vaatii pääsyn valtaviin tietomääriin, suuria määriä tehokkaita tietokoneita tietojen käsittelemiseen sekä aikaa ja resursseja, jotka on käytetty mallin koulutukseen. Mutta ne säännöt muuttuvat. Pienellä budjetilla toimiva DeepSeek kehitti oman LLM:n ja ChatGPT-tyyppisen sovelluksen kyselyihin – paljon pienemmällä investoinnilla kuin vastaavat amerikkalaisten ja eurooppalaisten yritysten rakentamat järjestelmät. DeepSeekin lähestymistapa avaa ikkunan LLM-kehitykseen pienille organisaatioille, joilla ei ole miljardeja kuluja. Itse asiassa päivä ei välttämättä ole kaukana, jolloin useimmat pienet organisaatiot voivat kehittää omia LLM:iään palvelemaan omia erityisiä tarkoituksiaan, mikä yleensä tarjoaa tehokkaamman ratkaisun kuin yleiset LLM:t, kuten ChatGPT.
Vaikka keskustelu ylittää DeepSeekin todelliset kustannukset, se ei johdu pelkästään kustannuksista, jotka erottavat sen ja vastaavat mallit toisistaan: se on tosiasia, että se luotti vähemmän kehittyneisiin pelimerkkeihin ja keskittyneempään koulutukseen. Koska DeepSeek on kiinalainen yritys, johon sovelletaan Yhdysvaltojen vientirajoituksia, se ei voinut käyttää kehittyneitä Nvidia-siruja joita käytetään yleensä LLM-kehityksen vaatimaan raskaaseen laskentaan, ja siksi oli pakko käyttää vähemmän tehokkaita Nvidia H-800 -siruja, joka ei pysty käsittelemään tietoja yhtä nopeasti tai tehokkaasti.
Voiman puutteen kompensoimiseksi DeepSeek otti erilaisen, keskittyneemmän ja suoran lähestymistavan LLM-kehitykseensä. Sen sijaan, että olisi heittänyt vuoria dataa mallin eteen ja luottanut tietojen merkitsemiseen ja soveltamiseen laskentatehoon, DeepSeek rajasi koulutusta, käyttämällä pientä määrää korkealaatuista "kylmäkäynnistys"-dataa ja soveltamalla IRL (iteratiivinen vahvistusoppiminen, jossa algoritmi soveltaa tietoja eri skenaarioihin ja oppii siitä). Tämä keskittynyt lähestymistapa mahdollistaa mallin oppimisen nopeammin, vähemmän virheitä ja vähemmän hukattua laskentatehoa.
Samalla tavalla kuin vanhemmat voivat ohjata vauvan tiettyjä liikkeitä auttamalla häntä onnistuneesti kaatumaan ensimmäistä kertaa – sen sijaan, että jättäisivät vauvan selvittämään asian yksin tai opettaisivat vauvalle laajempia liikkeitä, jotka voisivat teoriassa auttaa kiertymisessä – näitä keskittyneempiä tekoälymalleja kouluttavat datatutkijat tarkentavat sitä, mitä tarvitaan eniten tiettyihin tehtäviin ja tuloksiin. Tällaisilla malleilla ei todennäköisesti ole yhtä laajaa luotettavaa sovellusta kuin suuremmilla LLM:illä, kuten ChatGPT:llä, mutta niihin voidaan luottaa tietyissä sovelluksissa ja ne voidaan suorittaa tarkasti ja tehokkaasti. Jopa DeepSeekin kriitikot myöntävät, että sen virtaviivainen lähestymistapa kehitykseen lisäsi merkittävästi tehokkuutta, mikä mahdollistaa sen, että se sai aikaan enemmän paljon vähemmällä.
Tämän lähestymistavan tarkoituksena on antaa tekoälylle parhaat panokset, jotta se voi saavuttaa virstanpylväänsä älykkäimmällä ja tehokkaimmalla mahdollisella tavalla, ja se voi olla arvokasta mille tahansa organisaatiolle, joka haluaa kehittää LLM:n erityistarpeitaan ja tehtäviään varten. Tällainen lähestymistapa on yhä arvokkaampi pienille yrityksille ja organisaatioille. Ensimmäinen askel on aloittaa oikeista tiedoista. Esimerkiksi yrityksen, joka haluaa käyttää tekoälyä myynti- ja markkinointitiimiensä auttamiseksi, tulisi kouluttaa mallinsa huolellisesti valitulla tietojoukolla, joka hioo myyntikeskusteluja, strategioita ja mittareita. Tämä estää mallia tuhlaamasta aikaa ja laskentatehoa merkityksettömille tiedoille. Lisäksi koulutus on jäsenneltävä vaiheittain varmistaen, että malli hallitsee jokaisen tehtävän tai konseptin ennen siirtymistä seuraavaan.
Tässäkin on rinnastuksia vauvan kasvattamiseen, kuten olen itse oppinut siitä lähtien, kun tulin äidiksi muutama kuukausi sitten. Molemmissa skenaarioissa ohjattu, vaiheittainen lähestymistapa välttää resurssien tuhlaamisen ja vähentää kitkaa. Lopuksi, tällainen lähestymistapa sekä vauvaihmisillä että tekoälymalleilla johtaa iteratiiviseen parannukseen. Kun vauva kasvaa tai malli oppii enemmän, sen kyvyt paranevat. Tämä tarkoittaa, että malleja voidaan jalostaa ja parantaa, jotta ne selviävät paremmin todellisista tilanteista.
Tämä lähestymistapa pitää kustannukset alhaisina, estäen tekoälyprojekteja muuttumasta resurssien hukkaan, mikä tekee niistä helpommin saatavilla pienempien tiimien ja organisaatioiden käyttöön. Se myös parantaa tekoälymallien suorituskykyä nopeammin; ja koska mallit eivät ole ylikuormitettu vieraalla tiedolla, niitä voidaan myös mukauttaa uuteen tietoon ja muuttuviin liiketoiminnan tarpeisiin – avainasemassa kilpailluilla markkinoilla.
DeepSeekin saapuminen ja halvemman ja tehokkaamman tekoälyn maailma – vaikka se alun perin levitti paniikkia kaikkialle tekoälymaailmaan ja osakemarkkinoille – on kaiken kaikkiaan myönteinen kehitys tekoälysektorille. Tekoälyn suurempi tehokkuus ja alhaisemmat kustannukset ainakin tietyissä kohdistetuissa sovelluksissa johtavat viime kädessä tekoälyn yleiseen käyttöön, mikä edistää kasvua kaikille, kehittäjistä sirujen valmistajiin ja loppukäyttäjiin. Itse asiassa DeepSeek havainnollistaa Jevonsin paradoksi – joissa tehokkuuden lisääminen johtaa todennäköisesti enemmän resurssin käyttöön, ei vähemmän. Koska tämä suuntaus näyttää jatkuvan, pienyritykset, jotka keskittyvät tekoälyn käyttöön erityistarpeidensa täyttämiseksi, ovat myös paremmat kasvuun ja menestymiseen.