Umělá inteligence

MPT-30B: MosaicML převyšuje GPT-3 s novým LLM, který posouvá hranice NLP

Zveřejněno

10 měsíci

Července 5, 2023

Obrázek vybraného blogu-MPT-30B: MosaicML převyšuje GPT-3 s novým LLM, který posouvá hranice jazykových modelů

MosaicML je generativní AI společnost, která poskytuje řešení pro nasazení a škálovatelnost AI. Jejich nejnovější model velkého jazyka (LLM) MPT-30B dělá vlny napříč komunitou AI.

Cesta MosaicML LLM začala vydáním MPT-7B (Mosaic Pretrained Transformer) v květnu 2023, který přišel se třemi variantami:

MPT-7B-StoryWriter-65k+ (pro generování dlouhého příběhu)
MPT-7B-Instruct (pro následující krátké pokyny)
MPT-7B-Chat (pro generování dialogu)

Modely byly svědky obrovského úspěchu v komunitě ML díky své povaze open source, komerční použitelnosti a výjimečné schopnosti zpracovávat rozšířená kontextová okna.

A co je nejdůležitější, model byl na stejné úrovni a v některých případech předčil ostatní srovnatelné modely (LLaMA-7B, StabilníLM 7B, atd). Do června byla série MPT-7B stažena více než 3 milionykrát. 22. června vyšlo MosaicML MPT-30B což ještě více zvedlo laťku pro open-source nadační modely.

MPT-30B: Výkonný LLM, který překračuje GPT-3

MPT-30B je open source a komerčně licencovaný LLM založený na dekodéru, který je výkonnější než GPT-3-175B s pouze 17 % parametrů GPT-3, tj. 30B. V několika úlohách překonává GPT-3. Zde je srovnání mezi MPT-30B a GPT-3.

MPT-30B: Výkonný LLM, který překonává srovnání GPT-3-GPT3-vs-MPT-30B

Zdroj

MPT-30B navazuje na předchozí model MPT-7B. Ve srovnání s modely podobných velikostí je výpočtově efektivní trénovat. Například LLaMA-30B použil přibližně 1.44krát vyšší rozpočet na FLOP než MPT-30B, zatímco Falcon-40B měl 1.27krát vyšší rozpočet na FLOP než MPT-30B. Zde je ilustrace vylepšení MPT-30B v různých úkolech oproti jeho předchůdci.

MPT-30B: Výkonný LLM, který překonává srovnání GPT-3-MPT-30B-MPT-7B

Zdroj

Některé speciální vlastnosti MPT-30B jsou následující:

Kontextové okno tokenu 8k

Kontextové okno v LLM odkazuje na rozsah tokenů, které může model zvážit před generováním výstupu. MPT-30B měl v době školení kontextové okno 8000 tokenů. Nejprve byl trénován na 1T tokenu pomocí 2k sekvencí tokenů a poté dalších 50B tokenů 8k sekvencí tokenů (zhruba 6000 slova).

Podpora ALiBi

Abychom tuto funkci vysvětlili, položme si otázku:

Jak může MPT-30B porozumět a předpovídat delší sekvence, než na kterých byl trénován?

MPT-30B používá an Pozor s lineárními odchylkami (ALiBi) technika k pochopení delších sekvencí a rozšíření kontextového okna za 8 XNUMX tokenů během jemného ladění nebo vyvozování.

Namísto výpočtu pozičních vložení, ve kterém každému slovu v sekvenci přiřadíme vektor, ALiBi vypočítá skóre pozornosti mezi klíči a tokeny dotazu. Když jsou klíč a tokeny dotazu blízko u sebe, je trest nižší, ale jinak vyšší. V důsledku toho podkladové architektura transformátoru lze extrapolovat na dlouhé vstupy.

Efektivní inference a výkon školení prostřednictvím FlashAttention

Pozornost, tj. zaměření na relevantní části vstupní sekvence, je kritickou součástí transformátorů, ale může být pomalé a náročné na paměť, zejména při zpracování dlouhých textových sekvencí.

FlashPozor je přístup navržený výzkumníky z Cornell University, který řeší tento problém pro MPT-30B. Pomocí techniky zvané dlaždicování snižuje FlashAttention počet, kolikrát model potřebuje ke čtení nebo zápisu do paměti, čímž urychluje zpracování. Proto model využívá nejmodernější techniku FlashAttention a NVIDIA Rychlejší transformátor optimalizační knihovna pro efektivní školení a vyvozování.

Snadné školení a nasazení

Vývojáři mohou trénovat MPT-30B od začátku nebo použít kontrolní body MosaicML pro rychlejší nasazení. Může být také vyladěn pro případy použití specifické pro doménu na konkrétní datové sadě.

Velikost modelu byla zvolena tak, aby umožňovala bezproblémové nasazení na jediném GPU, konkrétně 1xA100-80GB v 16bitové přesnosti nebo 1xA100-40GB v 8bitové přesnosti. To znamená, že model byl navržen tak, aby vyhovoval paměťovým omezením těchto GPU.

Schopnosti kódování

MPT-30B také poskytuje výjimečné možnosti kódování. HumanEval je datová sada vydaná OpenAI, která obsahuje 164 ručně vytvořených programovacích problémů. Na datové sadě HumanEval tento model překonává účelové modely LLM, jako je např StarCoder série.

Zdroj

Vyladěné varianty: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Pokyn

LLM se primárně používají pro instrukce, jako je odpovídání na otázky, sumarizace textu, jazykový překlad atd. MPT-30B-Instruct je komerčně využitelná (udržuje komerční licenci CC-By-SA-3.0) varianta MPT-30B vyladěná speciálně pro instrukce následující úkoly. Pro jemné doladění byly použity následující datové sady:

DORT
P3
Alpaca
Dolly - 15 tis

Datový soubor Dolly byl dále rozšířen Datový soubor užitečný a neškodný od Anthropic pro doladění výuky. Kromě toho byla pro rozšiřování dat použita celá řada datových sad, které jsou následující:

Soutěž Matematika
GradeSchoolMath
DialogSum
DuoRC
QASPER
Kvalitní
SummScreen
Pavouk

MPT-30B-Chat

MPT-30B-Chat je vyladěná verze MPT-30B pro generování dialogu. Jedná se o výzkumný artefakt vydaný pod licencí CC-By-NC-SA-4.0, který umožňuje pouze nekomerční použití. Model byl doladěn pomocí různých jazykových datových sad, včetně:

Airoboros/GPT4-1.2
Kulečníkové sukno
velbloud
GPTeacher
guanako
LongCoversations
Sdílet GPT
WizardLM

LLM sdílejí velkou část mnoha miliard dolarů generativní trh s umělou inteligencí, který zaznamenal obrovský růst v žádném okamžiku poté, co ChatGPT loni způsobil revoluci v krajině. Rodina MPT je základní součástí této revoluce. V blízké budoucnosti můžeme očekávat komerčně dostupné open-source modely, které jsou mnohem výkonnější a efektivnější než rodina MPT.

Pro nejnovější zprávy o AI navštivte unite.ai.