Connect with us

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

Sztuczna inteligencja

Allen AI’s Tülu 3 Just Became DeepSeek’s Unexpected Rival

mm

Nagłówki nie przestają przychodzić. Modele DeepSeek wyzywają benchmarki, ustanawiają nowe standardy i robią dużo szumu. Ale coś interesującego właśnie się wydarzyło w scenie badań nad sztuczną inteligencją, co również zasługuje na Twoją uwagę.

Allen AI cicho wydał nową rodzinę modeli Tülu 3, a ich wersja z 405B parametrów nie tylko konkurowała z DeepSeek – ale również ją wyprzedzała w kluczowych benchmarkach.

Położmy to na właściwej perspektywie.

Model Tülu 3 o 405B parametrów rywalizuje z najlepszymi wykonawcami, takimi jak DeepSeek V3, w różnych zadaniach. Widzimy porównywalne lub lepsze wyniki w obszarach takich jak rozwiązywanie problemów matematycznych, wyzwania programistyczne i ścisłe przestrzeganie instrukcji. I robią to w całkowicie otwarty sposób.

Opublikowali kompletny proces szkolenia, kod oraz nową metodę uczenia ze wzmocnieniem o nazwie Uczenie ze Wzmocnieniem z Weryfikowalnymi Nagrodami (RLVR), która umożliwiła to.

Rozwój takich technologii w ciągu ostatnich kilku tygodni naprawdę zmienia, jak odbywa się rozwój sztucznej inteligencji na najwyższym poziomie. Kiedy w pełni otwarty model może dorównać najlepszym zamkniętym modelom, otwiera to możliwości, które wcześniej były zablokowane za prywatnymi ścianami korporacyjnymi.

Bitwa Techniczna

Co sprawiło, że Tülu 3 wyróżnił się? Chodzi o unikalny czterostopniowy proces szkolenia, który wykracza poza tradycyjne podejścia.

Spójrzmy, jak Allen AI zbudował ten model:

Etap 1: Strategiczny Wybór Danych

Zespół wiedział, że jakość modelu zaczyna się od jakości danych. Połączyli ugruntowane zestawy danych, takie jak WildChat i Open Assistant, z treścią wygenerowaną przez nich. Ale oto kluczowe spostrzeżenie: nie tylko agregowali dane – tworzyli ukierunkowane zestawy danych dla konkretnych umiejętności, takich jak rozumowanie matematyczne i biegłość w programowaniu.

Etap 2: Budowanie Lepszych Odpowiedzi

W drugim etapie Allen AI skupił się na nauczaniu modelu konkretnych umiejętności. Stworzyli różne zestawy danych szkoleniowych – niektóre do matematyki, inne do programowania i więcej do ogólnych zadań. Przez powtarzające się testowanie tych kombinacji mogli zobaczyć dokładnie, gdzie model się wyróżniał i gdzie wymagał poprawy. Ten proces iteracyjny ujawnił prawdziwy potencjał, jaki Tülu 3 mógł osiągnąć w każdej dziedzinie.

Etap 3: Uczenie się z Porównań

To jest miejsce, w którym Allen AI został kreatywny. Zbudowali system, który mógł natychmiast porównywać odpowiedzi Tülu 3 z innymi najlepszymi modelami. Ale również rozwiązali trwały problem w AI – tendencję modeli do pisania długich odpowiedzi tylko dla ich długości. Ich podejście, wykorzystujące normalizowaną długością Direct Preference Optimization (DPO), oznaczało, że model uczył się cenić jakość ponad ilość. Rezultat? Odpowiedzi, które są zarówno precyzyjne, jak i celowe.

Kiedy modele AI uczą się z preferencji (która odpowiedź jest lepsza, A czy B?), mają tendencję do rozwoju frustrującego biasu: zaczynają myśleć, że dłuższe odpowiedzi są zawsze lepsze. To jest jakby próbowali wygrać, mówiąc więcej, zamiast mówić rzeczy dobrze.

Normalizowana DPO naprawia to, dostosowując, w jaki sposób model uczy się z preferencji. Zamiast po prostu patrzeć, która odpowiedź była preferowana, bierze pod uwagę długość każdej odpowiedzi. Wyobraź sobie to jako ocenianie odpowiedzi według ich jakości na słowo, a nie tylko ich łącznego wpływu.

Dlaczego to ma znaczenie? Ponieważ pomaga Tülu 3 nauczyć się być precyzyjnym i wydajnym. Zamiast wypełniać odpowiedzi dodatkowymi słowami, aby wydawać się bardziej kompletnym, uczy się dostarczać wartość w każdej długości, która jest naprawdę potrzebna.

To może wydawać się drobnostką, ale jest kluczowe dla budowania AI, która komunikuje się naturalnie. Najlepsi eksperci ludzie wiedzą, kiedy być zwięzłymi i kiedy rozwinąć – i to właśnie normalizowana DPO pomaga nauczyć model.

Etap 4: Innowacja RLVR

To jest techniczny przełom, który zasługuje na uwagę. RLVR zastępuje subiektywne modele nagród konkretną weryfikacją.

Większość modeli AI uczy się za pomocą złożonego systemu modeli nagród – podstawowo wykształconych przypuszczeń o tym, co sprawia, że odpowiedź jest dobra. Ale Allen AI poszedł inną drogą z RLVR.

Pomyśl, jak obecnie trenujemy modele AI. Zwykle potrzebujemy innych modeli AI (nazywanych modelami nagród), aby osądzić, czy odpowiedź jest dobra czy nie. Jest to subiektywne, złożone i często niespójne. Niektóre odpowiedzi mogą wydawać się dobre, ale zawierać subtelne błędy, które przemykają.

RLVR odwraca to podejście. Zamiast polegać na subiektywnych osądach, wykorzystuje konkretny, weryfikowalny wynik. Kiedy model próbuje rozwiązać problem matematyczny, nie ma szarości – odpowiedź jest albo prawidłowa, albo nieprawidłowa. Kiedy pisze kod, ten kod albo działa poprawnie, albo nie.

Oto, gdzie staje się interesująco:

  • Model otrzymuje natychmiastową, binarną informację zwrotną: 10 punktów za poprawne odpowiedzi, 0 za niepoprawne
  • Nie ma miejsca na częściową punktację lub rozmytą ocenę
  • Proces uczenia się staje się skoncentrowany i precyzyjny
  • Model uczy się priorytetowo traktować dokładność ponad odpowiedzi, które brzmią wiarygodnie, ale są niepoprawne

RLVR Training (Allen AI)

Rezultaty? Tülu 3 wykazał znaczne poprawy w zadaniach, w których liczy się poprawność. Jego wyniki w rozumowaniu matematycznym (benchmark GSM8K) i wyzwaniach programistycznych znacznie wzrosły. Nawet jego zdolność do przestrzegania instrukcji stała się bardziej precyzyjna, ponieważ model nauczył się cenić konkretną dokładność ponad przybliżone odpowiedzi.

Co sprawia, że jest to szczególnie ekscytujące, to sposób, w jaki zmienia to grę dla otwartego źródła AI. Poprzednie podejścia często miały trudności z dopasowaniem się do precyzji zamkniętych modeli w zadaniach technicznych. RLVR pokazuje, że z odpowiednim podejściem szkoleniowym, modele otwartego źródła mogą osiągnąć ten sam poziom niezawodności.

Spojrzenie na Liczby

Wersja Tülu 3 o 405B parametrów konkurowała bezpośrednio z najlepszymi modelami w tej dziedzinie. Spójrzmy, gdzie wyróżnia się i co to oznacza dla otwartego źródła AI.

Matematyka

Tülu 3 wyróżnia się w złożonym rozumowaniu matematycznym. Na benchmarkach takich jak GSM8K i MATH, dorównuje wynikom DeepSeek. Model radzi sobie z wieloetapowymi problemami i wykazuje silne zdolności rozumowania matematycznego.

Kod

Wyniki programistyczne są równie imponujące. Dzięki szkoleniu RLVR, Tülu 3 pisze kod, który skutecznie rozwiązuje problemy. Jego siła leży w zrozumieniu instrukcji programistycznych i wytwarzaniu funkcjonalnych rozwiązań.

Precyzyjne Przestrzeganie Instrukcji

Zdolność modelu do przestrzegania instrukcji wyróżnia się jako podstawowa siła. Podczas gdy wiele modeli przybliża lub uogólnia instrukcje, Tülu 3 wykazuje zdumiewającą precyzję w wykonywaniu dokładnie tego, co jest wymagane.

Otwieranie Czarnego Pudełka Rozwoju AI

Allen AI wydał nie tylko potężny model, ale również cały proces rozwoju.

Każdy aspekt procesu szkoleniowego jest udokumentowany i dostępny. Od czterostopniowego podejścia po metody przygotowania danych i implementację RLVR – cały proces leży otwarty do studiowania i powielenia. Ta przejrzystość ustanawia nowy standard w rozwoju AI o wysokiej wydajności.

Deweloperzy otrzymują kompleksowe zasoby:

  • Kompletne potoki szkoleniowe
  • Narzędzia do przetwarzania danych
  • Ramowe oceny
  • Specyfikacje implementacyjne

To umożliwia zespołom:

  • Modyfikację procesów szkoleniowych
  • Adaptację metod dla konkretnych potrzeb
  • Budowanie na sprawdzonych podejściach
  • Tworzenie specjalistycznych implementacji

To przyspiesza innowacje w całej dziedzinie. Badacze mogą budować na zweryfikowanych metodach, a deweloperzy mogą skupić się na ulepszeniach, zamiast zaczynać od zera.

Wzrost Doskonałości Otwartego Źródła

Sukces Tülu 3 to duży moment dla rozwoju AI o otwartym źródle. Kiedy modele otwartego źródła dorównują lub przewyższają prywatne alternatywy, to zmienia to branżę. Zespoły badawcze na całym świecie zyskują dostęp do sprawdzonych metod, przyspieszając swoją pracę i wywołując nowe innowacje. Prywatne laboratoria AI będą musiały się dostosować – albo zwiększając przejrzystość, albo pchając granice techniczne jeszcze dalej.

Spójrzmy w przyszłość, przełomy Tülu 3 w nagrodach weryfikowalnych i szkoleniu wieloetapowym wskazują na to, co nadchodzi. Zespoły mogą budować na tych fundamentach, potencjalnie pchając wydajność jeszcze wyżej. Kod istnieje, metody są udokumentowane, a nowa fala rozwoju AI się zaczęła. Dla deweloperów i badaczy możliwość eksperymentowania i ulepszania tych metod oznacza początek ekscytującego rozdziału w rozwoju AI.

Często Zadawane Pytania (FAQ) o Tülu 3

Co to jest Tülu 3 i jakie są jego kluczowe cechy?

Tülu 3 to rodzina modeli LLM o otwartym źródle opracowana przez Allen AI, zbudowana na architekturze Llama 3.1. Dostępna jest w różnych rozmiarach (8B, 70B i 405B parametrów). Tülu 3 został zaprojektowany do poprawy wydajności w różnych zadaniach, w tym wiedzy, rozumowaniu, matematyce, kodowaniu, przestrzeganiu instrukcji i bezpieczeństwie.

Jaki jest proces szkolenia Tülu 3 i jakie dane są używane?

Szkolenie Tülu 3 obejmuje kilka kluczowych etapów. Po pierwsze, zespół kuruje różnorodny zestaw bodźców z publicznych zestawów danych i syntetycznych danych ukierunkowanych na konkretnych umiejętności, zapewniając, że dane są oczyszczone z benchmarków. Po drugie, przeprowadza się szkolenie nadzorowane (SFT) na mieszance danych dotyczących przestrzegania instrukcji, matematyki i kodowania. Następnie stosuje się optymalizację preferencji bezpośredniej (DPO) z danymi preferencyjnymi wygenerowanymi za pomocą opinii ludzi i LLM. Na koniec stosuje się Uczenie ze Wzmocnieniem z Weryfikowalnymi Nagrodami (RLVR) dla zadań o mierzonej poprawności. Tülu 3 wykorzystuje opracowane zestawy danych dla każdego etapu, w tym dane z instrukcjami sterowanymi przez osobowość, matematyką i kodem.

Jak Tülu 3 podchodzi do bezpieczeństwa i jakie metryki są używane do jego oceny?

Bezpieczeństwo jest kluczowym składnikiem rozwoju Tülu 3, rozwiązywanym na każdym etapie procesu szkoleniowego. Wykorzystano specjalny zestaw danych dotyczących bezpieczeństwa podczas SFT, który okazał się w dużej mierze ortogonalny do innych danych zorientowanych na zadania.

Co to jest RLVR?

RLVR to technika, w której model jest szkolony w celu optymalizacji wobec weryfikowalnej nagrody, takiej jak poprawność odpowiedzi. Różni się to od tradycyjnego RLHF, który wykorzystuje model nagród.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.