Umělá inteligence
Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

Titulky stále přicházejí. Modely DeepSeek vyzyvají benchmarky, stanovují nové standardy a dělají hodně hluku. Ale něco zajímavého se právě stalo ve scéně výzkumu AI, což také stojí za vaši pozornost.
Allen AI tiše vydal jejich novou rodinu modelů Tülu 3 a jejich verze s 405B parametry nejsou pouze soutěžící s DeepSeek – ale také je překonávají v klíčových benchmarcích.
Počkáme si na perspektivu.
Model Tülu 3 s 405B parametry soutěží s top performery jako DeepSeek V3 v celé řadě úkolů. Vidíme srovnatelné nebo lepší výkony v oblastech, jako jsou matematické problémy, kódovací výzvy a přesné sledování pokynů. A dělají to s kompletně otevřeným přístupem.
Vydaný kompletní tréninkový proces, kód a dokonce i jejich novou metodu učení s ověřitelnými odměnami nazvanou Reinforcement Learning with Verifiable Rewards (RLVR), která to umožnila.
Takové vývojové změny v posledních týdnech opravdu mění, jak se děje vývoj top-tier AI. Když plně open source model může soutěžit s nejlepšími uzavřeným modely, otevírá se možnosti, které byly dříve uzamčeny za soukromými firemními zdmi.
Technická bitva
Co dělá Tülu 3 výjimečným? To se týká unikátního čtyřfázového tréninkového procesu, který jde za hranice tradičních přístupů.
Počkáme si, jak Allen AI postavil tento model:
Fáze 1: Strategické výběry dat
Tým věděl, že kvalita modelu začíná kvalitou dat. Kombinovali zavedené datové sady, jako WildChat a Open Assistant s vlastními generovanými obsahy. Ale tady je klíčový náhled: nezjednodušili pouze data – vytvořili cílené datové sady pro specifické dovednosti, jako je matematické uvažování a kódovací dovednosti.
Fáze 2: Budování lepších odpovědí
Ve druhé fázi se Allen AI zaměřil na učení modelu specifických dovedností. Vytvořili různé sady tréninkových dat – některé pro matematiku, jiné pro kódování a další pro obecné úkoly. Opakovaným testováním těchto kombinací mohli vidět přesně, kde model vyniká a kde potřebuje práci. Tento iterativní proces odhalil skutečný potenciál, kterého může Tülu 3 dosáhnout v každé oblasti.
Fáze 3: Učení z porovnání
Tady se Allen AI stal kreativním. Postavil systém, který mohl okamžitě porovnat odpovědi Tülu 3 s ostatními top modely. Ale také vyřešil trvalý problém v AI – tendenci modelů psát dlouhé odpovědi pouze pro jejich délku. Jejich přístup, využívající length-normalized Direct Preference Optimization (DPO), znamenal, že model se naučil hodnotit kvalitu nad kvantitu. Výsledek? Odpovědi, které jsou både přesné a účelné.
Když se modely AI učí z preferencí (která odpověď je lepší, A nebo B?), tendují k rozčarování: začínají myslet, že delší odpovědi jsou vždy lepší. Je to, jako by se snažily vyhrát tím, že řeknou více místo toho, aby řekly věci dobře.
Length-normalized DPO opravuje tuto vadu tak, že upravuje, jak se model učí z preferencí. Místo toho, aby se pouze díval na preferovanou odpověď, bere v úvahu délku každé odpovědi. Představte si to jako hodnocení odpovědí podle kvality na слово, ne pouze podle celkového dopadu.
Proč je to důležité? Protože pomáhá Tülu 3 naučit se být přesný a efektivní. Místo toho, aby odpovědi prodlužoval zbytečnými slovy, aby se zdál komplexnější, učí se dodávat hodnotu v jakékoli délce, která je skutečně potřebná.
Toto může vypadat jako malý detail, ale je zásadní pro budování AI, která komunikuje přirozeně. Nejlepší lidský odborník ví, kdy být stručný a kdy rozvinout – a přesně to length-normalized DPO pomáhá učit model.
Fáze 4: Inovace RLVR
Toto je technický průlom, který si zaslouží pozornost. RLVR nahrazuje subjektivní modely odměn konkrétními ověřitelnými výsledky.
Většina modelů AI se učí prostřednictvím komplexního systému modelů odměn – v podstatě vzdělaných odhadů o tom, co dělá dobrou odpověď. Ale Allen AI zvolil jiný přístup s RLVR.
Zamyslete se, jak目前 trénujeme modely AI. Obvykle potřebujeme jiné modely AI (nazývané modely odměn), aby posoudily, zda odpověď je dobrá nebo ne. Je to subjektivní, komplexní a často nekonzistentní. Některé odpovědi mohou vypadat dobře, ale obsahovat jemné chyby, které projdou.
RLVR otočí tento přístup vzhůru nohama. Místo spoléhání se na subjektivní soudy používá konkrétní, ověřitelné výsledky. Když se model pokusí o matematický problém, není žádná šedá zóna – odpověď je buď správná, nebo špatná. Když napíše kód, ten buď správně funguje, nebo ne.
Tady to začíná být zajímavé:
- Model získává okamžitou, binární zpětnou vazbu: 10 bodů za správné odpovědi, 0 za nesprávné
- Není zde prostor pro částečné kredity nebo fuzzy hodnocení
- Učení se stává zaměřeným a přesným
- Model se učí dávat přednost přesnosti před odpověďmi, které znějí přesvědčivě, ale jsou nesprávné

RLVR trénink (Allen AI)
Výsledky? Tülu 3 ukázal významné zlepšení v úkolech, kde je důležitá správnost. Jeho výkon v matematickém uvažování (GSM8K benchmark) a kódovacích výzvách skočil pozoruhodně. I jeho sledování pokynů se stalo přesnějším, protože model se naučil hodnotit konkrétní přesnost nad aproximativní odpovědi.
Co je obzvláště vzrušující, je to, jak to mění hru pro open-source AI. Předchozí přístupy často bojovaly s tím, aby dosáhly stejné přesnosti jako uzavřené modely v technických úkolech. RLVR ukazuje, že s správným tréninkovým přístupem mohou open-source modely dosáhnout stejné úrovně spolehlivosti.
Pohled na čísla
Verze Tülu 3 s 405B parametry soutěží přímo s top modely v oboru. Počkáme si, kde vyniká a co to znamená pro open source AI.
Matematika
Tülu 3 vyniká v komplexním matematickém uvažování. Na benchmarcích, jako GSM8K a MATH, odpovídá výkonu DeepSeek. Model zvládá vícekrokové problémy a ukazuje silné matematické uvažovací schopnosti.
Kód
Kódovací výsledky jsou stejně působivé. Díky tréninku RLVR píše Tülu 3 kód, který efektivně řeší problémy. Jeho síla spočívá v pochopení kódovacích pokynů a produkci funkčních řešení.
Přesné sledování pokynů
Schopnost modelu sledovat pokyny vyniká jako jeho jádrová síla. Zatímco mnoho modelů aproximuje nebo generalizuje pokyny, Tülu 3 ukazuje pozoruhodnou přesnost při exactním sledování toho, co je požadováno.
Otevírání černé skříňky vývoje AI
Allen AI vydal nejen silný model, ale také celý vývojový proces.
Každý aspekt tréninkového procesu je zdokumentován a přístupný. Od čtyřfázového přístupu po metody přípravy dat a implementaci RLVR – celý proces leží otevřený pro studium a replikaci. Tato transparentnost nastavuje nový standard ve vývoji high-performance AI.
Vývojáři získávají komplexní zdroje:
- Kompletní tréninkové procesy
- Nástroje pro zpracování dat
- Hodnoticí rámce
- Specifikace implementace
To umožňuje týmům:
- Modifikovat tréninkové procesy
- Adaptovat metody pro specifické potřeby
- Stavět na ověřených přístupech
- Vytvořit specializované implementace
Tento otevřený přístup urychluje inovace napříč oborem. Výzkumníci mohou stavět na ověřených metodách, zatímco vývojáři se mohou soustředit na vylepšení místo začátku od nuly.
Vzestup open source excelence
Úspěch Tülu 3 je velkým okamžikem pro open source vývoj AI. Když open source modely odpovídají nebo překonávají soukromé alternativy, fundamentálně mění to průmysl. Výzkumné týmy po celém světě získávají přístup k ověřeným metodám, urychluje se jejich práce a rodí se nové inovace. Soukromé AI laboratoře budou muset přizpůsobit – buď zvýšením transparentnosti nebo tlačením technických hranic ještě dále.
Pohledem do budoucna, průlomy Tülu 3 v ověřitelných odměnách a vícefázovém tréninku naznačují, co přijde. Týmy mohou stavět na těchto základech, potenciálně tlačící výkon ještě výše. Kód existuje, metody jsou zdokumentovány, a nová vlna vývoje AI začala. Pro vývojáře a výzkumníky představuje možnost experimentovat a vylepšovat tyto metody začátek vzrušující kapitoly ve vývoji AI.
Často kladené otázky (FAQ) o Tülu 3
Co je Tülu 3 a jaké jsou jeho klíčové funkce?
Tülu 3 je rodina open-source LLM vyvinutá Allen AI, postavená na architektuře Llama 3.1. Je k dispozici ve různých velikostech (8B, 70B a 405B parametrů). Tülu 3 je navržen pro vylepšený výkon napříč různými úkoly, včetně znalostí, uvažování, matematiky, kódování, sledování pokynů a bezpečnosti.
Jaký je tréninkový proces pro Tülu 3 a jaká data jsou použita?
Trénink Tülu 3 zahrnuje několik klíčových fází. První, tým kurátorem rozmanitý soubor promptů z veřejných datových sad a syntetických dat zaměřených na specifické dovednosti, zajišťuje, aby data byla dekontaminována proti benchmarkům. Druhá, supervizované jemné ladění (SFT) se provádí na mixu instrukcí, matematiky a kódovacích dat. Třetí, přímá optimalizace preferencí (DPO) se používá s preferenčními daty generovanými prostřednictvím lidské a LLM zpětné vazby. Nakonec, učení s ověřitelnými odměnami (RLVR) se používá pro úkoly s měřitelnou správností. Tülu 3 používá kurátorská data pro každou fázi, včetně instrukcí, matematiky a kódovacích dat.
Jak Tülu 3 přistupuje k bezpečnosti a jaké metriky se používají k jejímu hodnocení?
Bezpečnost je klíčovou součástí vývoje Tülu 3, řešenou po celou dobu tréninkového procesu. Bezpečnostní specifická datová sada se používá během SFT, která se ukázala být převážně ortogonální k ostatním úkolem orientovaným datům.
Co je RLVR?
RLVR je technika, při které se model učí optimalizovat proti ověřitelné odměně, jako je správnost odpovědi. To se liší od tradičního RLHF, který používá model odměn.













