Künstliche Intelligenz

MPT-30B: MosaicML übertrifft GPT-3 mit einem neuen LLM, um die Grenzen des NLP zu erweitern

Veröffentlicht Juli 5, 2023

Haziqa Sajid

Ausgewählter Blog Image-MPT-30B: MosaicML übertrifft GPT-3 mit einem neuen LLM, um die Grenzen von Sprachmodellen zu verschieben

MosaikML ist eine generative KI Unternehmen, das KI-Bereitstellungs- und Skalierbarkeitslösungen anbietet. Ihr neuestes großes Sprachmodell (LLM) MPT-30B schlägt in der KI-Community Wellen.

Die LLM-Reise von MosaicML begann mit der Veröffentlichung von MPT-7B (Mosaic Pretrained Transformer) im Mai 2023 mit drei Varianten:

MPT-7B-StoryWriter-65k+ (für die Erstellung langer Geschichten)
MPT-7B-Instruct (für die Befolgung von Kurzanweisungen)
MPT-7B-Chat (zur Dialoggenerierung)

Aufgrund ihres Open-Source-Charakters, ihrer kommerziellen Verwendbarkeit und ihrer außergewöhnlichen Fähigkeit, erweiterte Kontextfenster zu verarbeiten, erlebten die Modelle großen Erfolg in der ML-Community.

Am wichtigsten war, dass das Modell auf Augenhöhe war und in einigen Fällen die anderen vergleichbaren Modelle übertraf (LLaMA-7B, StabilLM 7B, usw). Bis Juni wurde die MPT-7B-Serie über 3 Millionen Mal heruntergeladen. Am 22. Juni wurde MosaikML veröffentlicht MPT-30B was die Messlatte für Open-Source-Grundlagenmodelle noch höher legte.

Der MPT-30B: Ein leistungsstarker LLM, der GPT-3 übertrifft

MPT-30B ist ein Open-Source- und kommerziell lizenziertes Decoder-basiertes LLM, das leistungsfähiger ist als GPT-3-175B mit nur 17 % der GPT-3-Parameter, also 30B. Es übertrifft GPT-3 bei mehreren Aufgaben. Hier ist ein Vergleich zwischen MPT-30B und GPT-3.

Der MPT-30B: Ein leistungsstarker LLM, der den GPT-3-GPT3-gegen-MPT-30B-Vergleich übertrifft

Quelle

MPT-30B baut auf dem Vorgängermodell MPT-7B auf. Im Vergleich zu Modellen mit ähnlichen Größen ist das Training recheneffizient. Beispielsweise verbrauchte LLaMA-30B etwa 1.44-mal mehr FLOPs-Budget als MPT-30B, während Falcon-40B ein 1.27-mal höheres FLOPs-Budget als MPT-30B hatte. Hier ist eine Veranschaulichung der Verbesserung des MPT-30B bei verschiedenen Aufgaben gegenüber seinem Vorgänger.

Der MPT-30B: Ein leistungsstarker LLM, der den GPT-3-MPT-30B-MPT-7B-Vergleich übertrifft

Quelle

Einige Besonderheiten des MPT-30B sind wie folgt:

8k-Token-Kontextfenster

Das Kontextfenster in LLMs bezieht sich auf den Bereich von Token, die das Modell berücksichtigen kann, bevor es die Ausgabe generiert. MPT-30B hatte zum Trainingszeitpunkt ein Kontextfenster von 8000 Token. Es wurde zuerst auf 1T-Token mit 2k-Token-Sequenzen und dann auf weiteren 50B-Tokens mit 8k-Token-Sequenzen (ungefähr) trainiert 6000 Wörter).

ALiBi-Unterstützung

Um diese Funktion zu erklären, betrachten wir eine Frage:

Wie kann MPT-30B längere Sequenzen als die, auf denen es trainiert wurde, verstehen und Vorhersagen treffen?

MPT-30B verwendet eine Aufmerksamkeit bei linearen Verzerrungen (ALiBi) Technik, um längere Sequenzen zu verstehen und das Kontextfenster während der Feinabstimmung oder Inferenz über 8 Token hinaus zu erweitern.

Anstatt Positionseinbettungen zu berechnen, bei denen wir jedem Wort in der Sequenz einen Vektor zuweisen, berechnet ALiBi Aufmerksamkeitswerte zwischen Schlüssel- und Abfragetoken. Wenn Schlüssel- und Abfragetoken nahe beieinander liegen, ist die Strafe gering, ansonsten jedoch höher. Infolgedessen ist der zugrunde liegende Transformator-Architektur kann auf lange Eingaben extrapoliert werden.

Effiziente Inferenz- und Trainingsleistung über FlashAttention

Aufmerksamkeit, also die Fokussierung auf relevante Teile der Eingabesequenz, ist eine kritische Komponente von Transformatoren, kann jedoch langsam und speicherintensiv sein, insbesondere bei der Verarbeitung langer Textsequenzen.

BlitzAchtung ist ein von Forschern der Cornell University vorgeschlagener Ansatz, der dieses Problem für MPT-30B angeht. Mithilfe einer Technik namens „Kacheln“ reduziert FlashAttention die Häufigkeit, mit der das Modell aus dem Speicher lesen oder in den Speicher schreiben muss, und beschleunigt so die Verarbeitung. Daher nutzt das Modell die hochmoderne FlashAttention-Technik und NVIDIAs Schneller Transformator Optimierungsbibliothek für effizientes Training und Inferenz.

Einfache Schulung und Bereitstellung

Entwickler können MPT-30B von Grund auf trainieren oder die Checkpoints von MosaicML für schnellere Bereitstellungen verwenden. Außerdem kann es für domänenspezifische Anwendungsfälle in einem bestimmten Datensatz optimiert werden.

Die Größe des Modells wurde so gewählt, dass eine mühelose Bereitstellung auf einer einzelnen GPU möglich ist, insbesondere 1xA100-80GB mit 16-Bit-Präzision oder 1xA100-40GB mit 8-Bit-Präzision. Das bedeutet, dass das Modell so konzipiert wurde, dass es innerhalb der Speicherbeschränkungen dieser GPUs liegt.

Codierungsfunktionen

MPT-30B bietet auch außergewöhnliche Codierungsfunktionen. HumanEval ist ein von OpenAI veröffentlichter Datensatz, der 164 handgefertigte Programmierprobleme enthält. Im HumanEval-Datensatz übertrifft das Modell speziell entwickelte LLM-Modelle wie das StarCoder .

Quelle

Feinabgestimmte Varianten: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Anleitung

LLMs werden hauptsächlich für Anweisungen wie Fragenbeantwortung, Textzusammenfassung, Sprachübersetzung usw. verwendet. MPT-30B-Instruct ist eine kommerziell nutzbare Variante von MPT-3.0B (behält die kommerzielle CC-By-SA-30-Lizenz bei), die speziell für entwickelt wurde Anleitung zur Befolgung von Aufgaben. Zur Feinabstimmung wurden folgende Datensätze verwendet:

TORTE
P3
Alpaka
Dolly-15k

Der Dolly-Datensatz wurde weiter erweitert Der hilfreiche und harmlose Datensatz von Anthropic zur Feinabstimmung des Unterrichts. Darüber hinaus wurden für die Datenanreicherung verschiedenste Datensätze verwendet, die wie folgt lauten:

WettbewerbMathe
GrundschuleMathe
DialogSumme
DuoRC
QASPER
Qualität
SummScreen
Spiders

MPT-30B-Chat

MPT-30B-Chat ist eine optimierte Version von MPT-30B für die Dialoggenerierung. Es handelt sich um ein Forschungsartefakt, das unter der CC-By-NC-SA-4.0-Lizenz veröffentlicht wurde und nur eine nichtkommerzielle Nutzung erlaubt. Das Modell wurde mithilfe verschiedener Sprachdatensätze verfeinert, darunter:

Airoboros/GPT4-1.2
Fries
Camel
GPTeacher
Guanaco
Lange Coverationen
TeilenGPT
WizardLM

LLMs teilen sich einen großen Teil davon mehrere Milliarden Dollar Markt für generative KI, der in kürzester Zeit ein enormes Wachstum verzeichnete, nachdem ChatGPT letztes Jahr die Landschaft revolutioniert hatte. Die MPT-Familie ist ein grundlegender Teil dieser Revolution. In naher Zukunft können wir mit kommerziell erhältlichen Open-Source-Modellen rechnen, die weitaus leistungsfähiger und effizienter sind als die MPT-Familie.

Die neuesten KI-Nachrichten finden Sie unter unite.ai.