Connect with us

Šité LLM pro každé podnikání? DeepSeek nám ukazuje cestu

Myslitelé

Šité LLM pro každé podnikání? DeepSeek nám ukazuje cestu

mm

Dříve býval technickým heslem „mobilní telefony pro každého“ – a skutečně mobilní komunikace změnila podnikání (a svět). Dnes je ekvivalentem tohoto hesla dát každému přístup k aplikacím umělé inteligence. Ale skutečná síla umělé inteligence spočívá v jejím využití pro specifické potřeby podniků a organizací. Cesta, kterou prokázal čínský startup DeepSeek, ukazuje, jak lze umělou inteligenci skutečně využít každým, zejména těmi s omezenými rozpočty, aby splnili své specifické potřeby. Skutečně příchod levnější umělé inteligence slibuje změnit hluboce zakořeněný vzorec, kdy řešení umělé inteligence často zůstávají pro mnoho malých podniků a organizací kvůli nákladovým požadavkům mimo dosah.

LLM jsou – nebo byly – drazí podnik, vyžadující přístup k obrovskému množství dat, velkému počtu výkonných počítačů pro zpracování dat a času a zdrojů investovaných do školení modelu. Ale tyto pravidla se mění. DeepSeek, který funguje na minimálním rozpočtu, vyvinul svůj vlastní LLM a aplikaci typu ChatGPT pro dotazy – s mnohem menším investičním úsilím než podobné systémy postavené americkými a evropskými společnostmi. Přístup DeepSeek otevírá okno do vývoje LLM pro menší organizace, které nemají miliardy k dispozici. Skutečně den, kdy většina malých organizací bude moci vyvinout své vlastní LLM pro své specifické účely, obvykle poskytující účinnější řešení než obecné LLM jako ChatGPT, nemusí být daleko.

Zatímco debata zůstává o skutečných nákladech DeepSeek, není to prostě cena, která jej a podobné modely odlišuje: Je to fakt, že spoléhal na méně pokročilé čipy a více zaměřený přístup ke školení. Jako čínská společnost podléhající americkým exportním omezením, DeepSeek nemohl získat přístup k pokročilým čipům Nvidia, které se obecně používají pro náročné výpočty vyžadované pro vývoj LLM, a byl proto nucen použít méně výkonné čipy Nvidia H-800, které nemohou zpracovávat data tak rychle nebo efektivně.

Aby kompenzoval tuto nedostatečnou sílu, DeepSeek zvolil jiný, více zaměřený a přímý přístup ke svému vývoji LLM. Místo toho, aby házel obrovské množství dat na model a spoléhal na výpočetní sílu k označení a aplikaci dat, DeepSeek zúžil školení, využívající malé množství vysoce kvalitních „cold-start“ dat a aplikující IRL (iterativní učení s posilováním, s algoritmem aplikujícím data na různé scénáře a učícím se z nich). Tento zaměřený přístup umožňuje modelu učit se rychleji, s méně chybami a méně zbytečným výpočetním výkonem.

Podobně jako rodiče, kteří mohou pomáhat dítěti s konkrétními pohyby, pomáhají mu úspěšně převalit se poprvé – spíše než nechat dítě, aby to vyřešilo samo, nebo učit dítě širšímu spektru pohybů, které by teoreticky mohlo pomoci s převalením – datové vědci, kteří školí tyto více zaměřené modely AI, se zaměřují na to, co je nejvíce potřeba pro konkrétní úkoly a výsledky. Takové modely pravděpodobně nemají tak široké spolehlivé použití jako větší LLM jako ChatGPT, ale lze na ně spolehnout pro konkrétní aplikace a provádění těchto aplikací s přesností a efektivitou. I kritici DeepSeek přiznávají, že jeho zefektivněný přístup ke školení významně zvýšil efektivitu, umožnil jim dělat více s mnohem menším.

Tento přístup se týká poskytování umělé inteligenci nejlepších vstupů, aby mohla dosáhnout svých milníků nejchytřejším a nejefektivnějším způsobem, a může být cenný pro jakoukoli organizaci, která chce vyvinout LLM pro své specifické potřeby a úkoly. Takový přístup je stále cennější pro malé podniky a organizace. První krok spočívá v zahájení správných dat. Například společnost, která chce použít umělou inteligenci, aby pomohla svým prodejním a marketingovým týmům, by měla školit svůj model na pečlivě vybrané datové sadě, která se zaměřuje na prodejní rozhovory, strategie a metriky. To udržuje model od plýtvání časem a výpočetním výkonem na irelevantních informacích. Kromě toho musí být školení strukturováno ve fázích, zajišťujících, že model zvládne každý úkol nebo koncept, než přechází na další.

To má také paralely ve výchově dítěte, jak jsem sám zjistil, od doby, co jsem se stal otcem před několika měsíci. V obou scénářích vede zaměřený, krok za krokem přístup k úspoře zdrojů a snižuje tření. Nakonec takový přístup u lidských dětí i modelů AI vede k iterativnímu zlepšování. Jak dítě roste, nebo model učí více, jeho schopnosti se zlepšují. To znamená, že modely lze vylepšit a upravit, aby lépe zvládaly reálné situace.

Tento přístup snižuje náklady, brání tomu, aby projekty umělé inteligence byly drenáží zdrojů, a činí je přístupnější menším týmům a organizacím. Také vede k lepšímu výkonu modelů AI mnohem rychleji; a protože modely nejsou přetíženy zbytečnými daty, lze je také upravit, aby se přizpůsobily novým informacím a měnícím se obchodním potřebám – klíčovým v konkurenčních trzích.

Příchod DeepSeek a světa levnější a efektivnější umělé inteligence – ačkoli to zpočátku vyvolalo paniku v AI světě a akciových trzích – je celkově pozitivní vývoj pro sektor umělé inteligence. Greater efektivita a nižší náklady na umělou inteligenci, alespoň pro některé zaměřené aplikace, nakonec povedou k většímu využití umělé inteligence obecně, což pohání růst pro každého, od vývojářů po výrobce čipů až po koncové uživatele. Skutečně DeepSeek ilustruje Jevonovu paradox – kde větší efektivita pravděpodobně povede k většímu využití zdroje, ne k menšímu. Jak tento trend vypadá, že bude pokračovat, malé podniky, které se zaměřují na využití umělé inteligence, aby splnily své specifické potřeby, budou také lépe připraveny na růst a úspěch.

Stav Levi-Neumark je CEO & spoluzakladatel Alta a odborník v oblasti produktového managementu a růstu výnosů. Předtím byla jednou z prvních zaměstnankyň ve firmě Monday.com, kde pomáhala vyvíjet "BigBrain", interní nástroj BI používaný pro denní operace společnosti. Stav vystudovala bakalářský titul v oboru počítačových věd a statistiky na Hebrejské univerzitě v Jeruzalémě.