Kontakt z nami

Liderzy myśli

Ewolucja szkolenia w zakresie modeli sztucznej inteligencji: poza rozmiarem i w stronę wydajności

mm

Opublikowany

 on

W szybko rozwijającym się krajobrazie sztucznej inteligencji tradycyjne podejście do ulepszania modeli językowych poprzez zwykłe zwiększanie rozmiaru modelu przechodzi kluczową transformację. Ta zmiana podkreśla bardziej strategiczne podejście skoncentrowane na danych, czego przykładem są ostatnie zmiany w modelach takich jak Lama3.

Dane to wszystko, czego potrzebujesz

Historycznie rzecz biorąc, dominowało przekonanie o rozwijaniu możliwości sztucznej inteligencji, że im więcej, tym lepiej.

W przeszłości byliśmy świadkami dramatycznego wzrostu możliwości głębokiego uczenia się poprzez proste dodanie kolejnych warstw do sieci neuronowych. Algorytmy i aplikacje takie jak rozpoznawanie obrazu, które przed pojawieniem się technologii były kiedyś możliwe tylko teoretycznie głęboka nauka, szybko zyskało szeroką akceptację. Rozwój kart graficznych jeszcze bardziej wzmocnił ten trend, umożliwiając pracę większych modeli z coraz większą wydajnością. Trend ten przeniósł się również na obecny szum dotyczący modeli dużych języków.

Co jakiś czas natrafiamy na ogłoszenia największych firm zajmujących się sztuczną inteligencją wypuszczające modele z dziesiątkami, a nawet setkami miliardów parametrów. Łatwo zrozumieć uzasadnienie: im więcej parametrów posiada model, tym jest on bardziej wydajny. Jednak ta brutalna metoda skalowania osiągnęła punkt malejących zysków, szczególnie biorąc pod uwagę opłacalność takich modeli w praktycznych zastosowaniach. Niedawne ogłoszenie Meta dotyczące podejścia Llama3, które wykorzystuje 8 miliardów parametrów, ale jest wzbogacone 6–7 razy większą ilością wysokiej jakości danych treningowych, dorównuje – a w niektórych scenariuszach przewyższa – skuteczność wcześniejszych modeli, takich jak GPT3.5, które może pochwalić się ponad 100 miliardami parametrów. Oznacza to znaczący zwrot w prawie skalowania modeli językowych, w którym jakość i ilość danych zaczyna mieć pierwszeństwo przed samym rozmiarem.

Koszt a wydajność: delikatna równowaga

W miarę jak modele sztucznej inteligencji (AI) przechodzą od fazy rozwojowej do praktycznego zastosowania, ich wpływ gospodarczy, w szczególności wysokie koszty operacyjne modeli wielkoskalowych, staje się coraz bardziej znaczący. Koszty te często przewyższają wydatki na początkowe szkolenie, co podkreśla potrzebę podejścia opartego na zrównoważonym rozwoju, w którym priorytetem jest efektywne wykorzystanie danych, a nie zwiększanie rozmiaru modelu. Strategie takie jak powiększanie danych i przenieś naukę może ulepszyć zbiory danych i zmniejszyć potrzebę szeroko zakrojonych przekwalifikowań. Usprawnianie modeli poprzez selekcję cech i redukcję wymiarowości zwiększa wydajność obliczeniową i obniża koszty. Techniki takie jak porzucenie i wczesne zatrzymanie poprawiają uogólnianie, umożliwiając efektywne działanie modeli przy mniejszej ilości danych. Alternatywne strategie wdrażania, takie jak przetwarzanie brzegowe, zmniejszają zależność od kosztownej infrastruktury chmurowej, podczas gdy przetwarzanie bezserwerowe zapewnia skalowalne i opłacalne wykorzystanie zasobów. Koncentrując się na rozwoju zorientowanym na dane i badając ekonomiczne metody wdrażania, organizacje mogą stworzyć bardziej zrównoważony ekosystem sztucznej inteligencji, który równoważy wydajność z efektywnością kosztową.

Malejące zyski z większych modeli

Krajobraz rozwoju sztucznej inteligencji ulega zmianie paradygmatu, z rosnącym naciskiem na efektywne wykorzystanie danych i optymalizację modeli. Scentralizowane firmy zajmujące się sztuczną inteligencją tradycyjnie polegały na tworzeniu coraz większych modeli, aby osiągnąć najnowocześniejsze wyniki. Jednak strategia ta staje się coraz bardziej niezrównoważona, zarówno pod względem zasobów obliczeniowych, jak i skalowalności.

Zdecentralizowana sztuczna inteligencja stwarza natomiast inny zestaw wyzwań i możliwości. Zdecentralizowane sieci blockchain, które stanowią podstawę zdecentralizowanej sztucznej inteligencji, mają zasadniczo inną konstrukcję w porównaniu do scentralizowanych firm zajmujących się sztuczną inteligencją. Sprawia to, że zdecentralizowanym przedsiębiorstwom zajmującym się sztuczną inteligencją trudno jest konkurować ze scentralizowanymi podmiotami pod względem skalowania większych modeli przy jednoczesnym zachowaniu wydajności w zdecentralizowanych operacjach.

To tutaj zdecentralizowane społeczności mogą zmaksymalizować swój potencjał i stworzyć niszę w krajobrazie sztucznej inteligencji. Wykorzystując zbiorową inteligencję i zasoby, zdecentralizowane społeczności mogą opracowywać i wdrażać wyrafinowane modele sztucznej inteligencji, które są zarówno wydajne, jak i skalowalne. Umożliwi im to skuteczne konkurowanie ze scentralizowanymi firmami zajmującymi się sztuczną inteligencją i będzie kształtować przyszłość rozwoju sztucznej inteligencji.

Patrząc w przyszłość: droga do zrównoważonego rozwoju sztucznej inteligencji

Trajektoria przyszłego rozwoju sztucznej inteligencji powinna koncentrować się na tworzeniu modeli, które będą nie tylko innowacyjne, ale także integracyjne i ekonomiczne. Nacisk powinien zostać przesunięty na systemy, które mogą osiągnąć wysoki poziom dokładności i użyteczności przy rozsądnych kosztach i wykorzystaniu zasobów. Taka strategia zapewni nie tylko skalowalność technologii AI, ale także ich dostępność i trwałość w dłuższej perspektywie.

W miarę dojrzewania dziedziny sztucznej inteligencji strategie rozwoju sztucznej inteligencji muszą odpowiednio ewoluować. Przejście od doceniania rozmiaru do priorytetowego traktowania wydajności i opłacalności w szkoleniu modelowym to nie tylko wybór techniczny, ale strategiczny imperatyw, który zdefiniuje następną generację aplikacji AI. Takie podejście prawdopodobnie będzie katalizatorem nowej ery innowacji, w której rozwój sztucznej inteligencji będzie napędzany inteligentnymi i zrównoważonymi praktykami, które obiecują szersze zastosowanie i większy wpływ.​​​​​​​​​​​​​​​

Jiahao Sun, założyciel i dyrektor generalny FLock.io, jest absolwentem Oksfordu i ekspertem w dziedzinie sztucznej inteligencji i blockchain. Pełniąc poprzednie role dyrektora ds. sztucznej inteligencji w Royal Bank of Canada i pracownika badawczego ds. sztucznej inteligencji w Imperial College w Londynie, założył FLock.io, aby skupić się na rozwiązaniach AI skupiających się na prywatności. Dzięki swojemu przywództwu FLock.io jest pionierem w zakresie bezpiecznych, opartych na współpracy szkoleń i wdrażania modeli sztucznej inteligencji, co pokazuje jego zaangażowanie w wykorzystywanie technologii na rzecz rozwoju społecznego.