Ajatusjohtajat
Räätälöidyt LLM:t jokaiselle liiketoiminnalle? DeepSeek näyttää tiemme

Aikoinaan teknologisen kehityksen huipulla kuului kutsu ”matkapuhelimet kaikille” – ja tosiaan matkapuhelimet ovat mullistaneet liiketoiminnan (ja maailman). Nykyään vastaava kutsu on antaa kaikille pääsy tekoälysovelluksiin. Mutta tekoälyn todellinen voima on siinä, että se voidaan räätälöidä liiketoiminnan ja organisaatioiden tarkoituksiin. Kiinalaisen startup-yritys DeepSeekin avaama tie osoittaa, miten tekoäly voidaan hyödyntää kaikilla, erityisesti niillä, joilla on rajoitetut budjetit, jotta voidaan täyttää heidän tarkat tarpeensa. Tosiaan edullisemman tekoälyn kehittymisellä on luvassa muuttaa syvästi juurtunut tapa, jonka mukaan tekoälyratkaisut usein jäävät pienen budjetin vuoksi monista pienistä liiketoiminnasta ja organisaatioista näkymättömiksi.
LLM:t ovat – tai olivat – kallis hanke, joka vaatii pääsyn valtaviin määriin dataa, suuriin määrin voimakkaita tietokoneita datan prosessointiin ja aikaa sekä resursseja mallin kouluttamiseen. Mutta nämä säännöt muuttuvat. Toimien niukalla budjetilla DeepSeek kehitti oman LLM:n ja ChatGPT-tyyppisen sovelluksen kyselyihin – paljon pienemmällä sijoituksella kuin vastaavat järjestelmät, jotka amerikkalaiset ja eurooppalaiset yritykset ovat rakentaneet. DeepSeekin lähestymistapa avaa ikkunan LLM-kehitykseen pienemmille organisaatioille, joilla ei ole miljardeja käytettävissään. Tosiaan se päivä ei ole kaukana, kun useimmat pienet organisaatiot voivat kehittää oman LLM:n omiin tarkoituksiinsa, mikä usein tarjoaa tehokkaamman ratkaisun kuin yleiset LLM:t kuten ChatGPT.
Vaikka keskustelu DeepSeekin todellisista kustannuksista jatkuu, se ei ole ainoastaan kustannus, joka erottaa sen ja vastaavat mallit: Se on se, että se nojautui vähemmän edistyneisiin piireihin ja tarkemmaksi koulutuslähestymistapaan. Kiinalaisena yrityksenä, joka on altis Yhdysvaltojen vientirajoituksille, DeepSeek ei pystynyt pääsemään käsiksi edistyneisiin Nvidia-piireihin, joita yleensä käytetään LLM-kehityksen vaativiin laskentaan, ja joutui siten käyttämään vähemmän tehokkaita Nvidia H-800 -piirejä, jotka eivät pysty käsittelemään dataa yhtä nopeasti tai tehokkaasti.
Korvatakseen tämän tehon puutteen DeepSeek otti toisenlaisen, tarkemman ja suoremman lähestymistavan LLM-kehitykseen. Sen sijaan, että heittäisi valtavan määrän dataa malliin ja luottaisi laskentavoimaan datan merkintään ja soveltamiseen, DeepSeek karsi koulutusta, hyödyntäen pienen määrän laadukasta “kylmän käynnistys”-dataa ja soveltamalla IRL:ää (iteratiivista vahvistusoppimista, jossa algoritmi soveltaa dataa eri skenaarioihin ja oppii siitä). Tämä kohdennettu lähestymistapa sallii mallin oppia nopeammin, vähemmän virheillä ja vähemmän haaskatulla laskentateholla.
Samoin kuin vanhemmat voivat ohjata vauvan tiettyjä liikkeitä, auttaen häntä kääntymään ylösalaisin ensimmäisen kerran – eikä jätä vauvaa yksin ratkaisemaan ongelmaa tai opettamaan vauvalle laajaa liikkeen valikoimaa, joka voisi teoriassa auttaa kääntymisessä – data-tieteilijät, jotka kouluttavat näitä kohdennettuja tekoälymalleja, zoomaavat siihen, mitä tarvitaan tiettyihin tehtäviin ja tuloksiin. Näillä malleilla ei välttämättä ole yhtä laaja soveltamisala kuin suuremmilla LLM:illä kuten ChatGPT, mutta niitä voidaan luottaa tiettyihin sovelluksiin ja niiden suorittamiseen tarkkuudella ja tehokkuudella. Jopa DeepSeekin kriitikot myöntävät, että sen suoraviivainen lähestymistapa kehitykseen lisäsi merkittävästi tehokkuutta, mahdollistaen sen tehdä enemmän vähemmällä.
Tämä lähestymistapa on antaa tekoälylle parhaat syötöt, jotta se voi saavuttaa merkittävyytensä älykkäimmällä ja tehokkaimmalla tavalla, ja se voi olla arvokasta kaikille organisaatioille, jotka haluavat kehittää LLM:n omiin tarpeisiinsa ja tehtäviinsä. Tällainen lähestymistapa on yhä arvokkaampaa pienille liiketoiminnalle ja organisaatioille. Ensimmäinen askel on aloittaa oikeasta datasta. Esimerkiksi yritys, joka haluaa käyttää tekoälyä auttamaan myynti- ja markkinointitiimejään, tulisi kouluttaa mallinsa huolellisesti valitulla datasetillä, joka kohdistuu myyntikeskusteluihin, strategioihin ja mittareihin. Tämä pitää mallin pois käyttämästä aikaa ja laskentatehoa merkityksettömiin tietoihin. Lisäksi koulutuksen on oltava rakenteista vaiheittain, varmistaen, että malli hallitsee jokaisen tehtävän tai käsitteen ennen siirtymistä seuraavaan.
Tämä vastaa myös vauvan kasvattamista, jota olen itse oppinut äitinä viime kuukausina. Molemmissa tapauksissa ohjattu, askelkohtainen lähestymistapa välttää resurssien haaskauksen ja vähentää kitkaa. Lopulta tämä lähestymistapa sekä vauvojen kasvattamisessa että tekoälymallien kehittämisessä johtaa iteratiiviseen parantamiseen. Kun vauva kasvaa tai malli oppii enemmän, sen kyvyt paranevat. Tämä tarkoittaa, että malleja voidaan jalostaa ja parantaa paremmin käsittelemään todellisen maailman tilanteita.
Tämä lähestymistapa pitää kustannukset alhaalla, estäen tekoälyprojektien muuttumisen resurssien haaskaukseksi, ja tekee niistä helpommin saatavilla pienemmille tiimeille ja organisaatioille. Se myös johtaa tekoälymallien parempaan suorituskykyyn nopeammin; ja koska malleja ei ylitetty merkityksettömillä tiedoilla, ne voidaan myös sopeuttaa sopeutumaan uusiin tietoihin ja muuttuviin liiketoimintatarpeisiin – avain kilpailukykyisillä markkinoilla.
DeepSeekin ja edullisemman, tehokkaamman tekoälyn maailman saapuminen – vaikka se aluksi levisi paniikkia tekoälymaailmassa ja osakemarkkinoilla – on lopulta positiivinen kehitys tekoälysektorille. Tekoälyn suurempi tehokkuus ja alhaisemmat kustannukset, ainakin tiettyihin kohdennettuihin sovelluksiin, johtavat lopulta tekoälyn laajempaan käyttöön, mikä ajaa kasvua kaikille, kehittäjiltä piirien valmistajille ja loppukäyttäjille. Tosiaan DeepSeek havainnollistaa Jevonsin paradoksin – jossa suurempi tehokkuus johtaa todennäköisemmin resurssin käytön lisääntymiseen, ei vähentymiseen. Kun tämä kehitys näyttää jatkuvan, pienet liiketoiminnat, jotka keskittyvät käyttämään tekoälyä omiin tarpeisiinsa, ovat myös paremmin valmistautuneita kasvuun ja menestykseen.












