Umělá inteligence
GLM-130B: Otevřený bilingvní předtrénovaný model

Rámec GLM-130B je bilingvní předtrénovaný velký jazykový model s více než 130 miliardami parametrů, schopný generovat textové výstupy v angličtině a čínštině. Rámec GLM-130B je pokus o otevření zdrojového kódu jazykového modelu v rozsahu více než 100 miliard parametrů a diskutuje, jak lze rámce takové velikosti předtrénovat, protože目前, trénování modelu takové velikosti je často doprovázeno problémy, jako jsou divergence a loss spikes.
V tomto článku budeme mluvit o rámcu GLM-130B, který se snaží vyvinout metodu pro efektivní předtrénování velkých jazykových modelů s stovkami miliard parametrů. Budeme se blíže zabývat fungováním a architekturou rámcu GLM-130B, stejně jako procesem trénování a designovými rozhodnutími, která nejenom zvyšují efektivitu, ale také stabilitu. Počáteční experimenty provedené k otestování fungování rámcu GLM-130B na široké škále anglických benchmarků ukázaly, že model GLM-130B překonal současný stav umění GPT-3 framework o značnou míru. Takže pojďme začít a prozkoumejme, jak rámec GLM-130B dodává tak konzistentní, přesné a stabilní výsledky.
Úvod do rámcu GLM-130B
Velké jazykové modely schopné provozu v few-shot a zero-shot nastaveních, zejména ty s více než 100 miliardami parametrů, představují atraktivní škálovací zákony, z nichž jedním z nejlepších je framework GPT-3, který dodává značné vylepšení výkonu oproti svému předchůdci, frameworku BERT. Nicméně, navzdory popularitě frameworku GPT-3 a jeho širokému použití, proces trénování a v některých ohledech sám framework GPT-3 nebyl transparentní pro veřejnost. Kromě toho, empiricky vyjmenovat všechny možné designy pro trénování LLM s více než 100 miliardami parametrů je computačně nezvladatelné, což činí ještě kritičtějším vyvinout metodu předtrénování pro velké rámce LLM.
Výše uvedený bod činí sdílení fungování a procesu trénování vysoce kvalitních velkých rámců LLM, jako je GPT-3, kriticky důležitým, a s ohledem na etické obavy, rámec GLM-130B je pokus o předtrénování přesného a otevřeného LLM s více než 100 miliardami parametrů. Během svého pokusu tým vývoje GLM-130B pozoroval, že předtrénování velkého rámcu LLM je často doprovázeno širokým spektrem inženýrských a technických výzev v oblasti stability, efektivnosti a konvergence.
Konkrétněji, GLM-130B je bidirekční a bilingvní hustý rámec s více než 130 miliardami parametrů, předtrénovaný na 400 miliardách tokenů na clusteru 96 NVIDIA DGX-A100 GPU uzlů po dobu téměř dvou měsíců. Kromě toho, namísto použití architektury GPT, rámec GLM-130B využívá algoritmus GLM nebo Obecný jazykový model, který se snaží využít autoregresivní blank filling jako trénovací cíl, a bidirekční pozornost. Následující tabulka porovnává rámec GLM-130B s ostatními modely s více než 100 miliardami parametrů, včetně GPT, BLOOM-176B a OPT-175B.

… (zbytek překladu)










