Künstliche Intelligenz

Im Inneren des Phi-3 Mini von Microsoft: Ein leichtes KI-Modell, das sein Gewicht übertrifft

Veröffentlicht May 1, 2024

Aayush Mittal mittal

Microsoft hat kürzlich sein neuestes leichtes Sprachmodell namens Phi-3 Mini vorgestellt und damit den Startschuss für ein Trio kompakter KI-Modelle gegeben, die modernste Leistung bieten und gleichzeitig klein genug sind, um effizient auf Geräten mit begrenzten Rechenressourcen zu laufen. Mit nur 3.8 Milliarden Parametern ist Phi-3 Mini nur ein Bruchteil der Größe von KI-Giganten wie GPT-4, verspricht jedoch, deren Fähigkeiten in vielen Schlüsselbereichen zu erreichen.

Die Entwicklung von Phi-3 Mini stellt einen bedeutenden Meilenstein im Bestreben dar, fortschrittliche KI-Funktionen zu demokratisieren, indem sie auf einer breiteren Palette von Hardware zugänglich gemacht werden. Aufgrund seines geringen Platzbedarfs kann es lokal auf Smartphones, Tablets und anderen Edge-Geräten bereitgestellt werden, wodurch die mit cloudbasierten Modellen verbundenen Latenz- und Datenschutzbedenken überwunden werden. Dies eröffnet neue Möglichkeiten für intelligente Erlebnisse auf dem Gerät in verschiedenen Bereichen, von virtuellen Assistenten und Konversations-KI bis hin zu Codierungsassistenten und Sprachverständnisaufgaben.

: 4-Bit quantisiert phi-3-mini läuft nativ auf einem iPhone

Unter der Haube: Architektur und Ausbildung

Im Kern ist Phi-3 Mini ein Transformator-Decoder-Modell, das auf einer ähnlichen Architektur wie der basiert Open-Source-Llama-2-Modell. Es verfügt über 32 Ebenen, 3072 versteckte Dimensionen und 32 Aufmerksamkeitsköpfe mit einer Standardkontextlänge von 4,000 Token. Microsoft hat außerdem eine lange Kontextversion namens Phi-3 Mini-128K eingeführt, die die Kontextlänge mithilfe von Techniken wie LongRope auf beeindruckende 128,000 Token erweitert.

Was Phi-3 Mini jedoch auszeichnet, ist seine Trainingsmethodik. Anstatt sich ausschließlich auf die rohe Gewalt riesiger Datensätze und Rechenleistung zu verlassen, hat sich Microsoft auf die Kuratierung eines qualitativ hochwertigen, begründungsreichen Trainingsdatensatzes konzentriert. Diese Daten bestehen aus stark gefilterten Webdaten sowie synthetischen Daten, die von größeren Sprachmodellen generiert wurden.

Der Ausbildungsprozess folgt einem zweiphasigen Ansatz. In der ersten Phase wird das Modell einer Vielzahl von Webquellen ausgesetzt, um ihm Allgemeinwissen und Sprachverständnis zu vermitteln. In der zweiten Phase werden noch stärker gefilterte Webdaten mit synthetischen Daten kombiniert, die darauf ausgelegt sind, logisches Denken und Fachkenntnisse in Nischendomänen zu vermitteln.

Microsoft bezeichnet diesen Ansatz als „datenoptimales Regime“ und weicht damit vom traditionellen „rechenoptimalen Regime“ oder „Übertrainingsregime“ ab, das bei vielen großen Sprachmodellen zum Einsatz kommt. Ziel ist es, die Trainingsdaten so zu kalibrieren, dass sie zum Maßstab des Modells passen. So wird das richtige Maß an Wissen und Denkfähigkeit bereitgestellt und gleichzeitig ausreichend Kapazität für andere Funktionen freigehalten.

: Qualität der neuen Phi-3-Modelle, gemessen an der Leistung beim Massive Multitask Language Understanding (MMLU)-Benchmark

Dieser datenzentrierte Ansatz hat sich ausgezahlt, da der Phi-3 Mini bei einer Vielzahl akademischer Benchmarks eine bemerkenswerte Leistung erzielt und oft mit viel größeren Modellen mithalten oder diese sogar übertreffen kann. Beispielsweise erreicht es beim MMLU-Benchmark für Multitasking-Lernen und -Verstehen einen Wert von 69 % und beim MT-Benchmark für mathematisches Denken 8.38 % – Ergebnisse, die mit Modellen wie Mixtral 8x7B und GPT-3.5 vergleichbar sind.

Sicherheit und Robustheit

Neben der beeindruckenden Leistung hat Microsoft bei der Entwicklung von Phi-3 Mini großen Wert auf Sicherheit und Robustheit gelegt. Das Modell wurde einem strengen Post-Training-Prozess unterzogen, der überwachtes Feintuning (SFT) und direkte Präferenzoptimierung (DPO) umfasste.

Die SFT-Phase nutzt sorgfältig kuratierte Daten aus verschiedenen Bereichen, darunter Mathematik, Codierung, logisches Denken, Konversation, Modellidentität und Sicherheit. Dies trägt dazu bei, die Fähigkeiten des Modells in diesen Bereichen zu stärken und gleichzeitig ein starkes Identitätsgefühl und ethisches Verhalten zu vermitteln.

In der DPO-Phase hingegen geht es darum, das Modell von unerwünschtem Verhalten abzuhalten, indem abgelehnte Antworten als Negativbeispiele verwendet werden. Dieser Prozess umfasst Daten im Chat-Format, Denkaufgaben und verantwortungsvolle KI-Bemühungen (RAI) und stellt sicher, dass Phi-3 Mini die Microsoft-Prinzipien für ethische und vertrauenswürdige KI einhält.

Um sein Sicherheitsprofil weiter zu verbessern, wurde Phi-3 Mini umfangreichen Red-Teaming- und automatisierten Tests in Dutzenden von RAI-Schadenskategorien unterzogen. Ein unabhängiges Red-Team bei Microsoft untersuchte das Modell iterativ und identifizierte verbesserungswürdige Bereiche, die dann durch zusätzliche kuratierte Datensätze und Umschulungen angegangen wurden.

Dieser mehrgleisige Ansatz hat die Häufigkeit schädlicher Antworten, sachlicher Ungenauigkeiten und Verzerrungen deutlich reduziert, wie die internen RAI-Benchmarks von Microsoft belegen. Beispielsweise weist das Modell niedrige Fehlerraten bei der Fortsetzung schädlicher Inhalte (0.75 %) und Zusammenfassung (10 %) sowie eine niedrige Rate an Unbegründetheiten (0.603) auf, was darauf hindeutet, dass seine Antworten fest im gegebenen Kontext verankert sind.

Anwendungen und Einsatzbereiche

Mit seiner beeindruckenden Leistung und den robusten Sicherheitsmaßnahmen eignet sich Phi-3 Mini gut für eine Vielzahl von Anwendungen, insbesondere in ressourcenbeschränkten Umgebungen und latenzbegrenzten Szenarien.

Eine der aufregendsten Perspektiven ist der Einsatz intelligenter virtueller Assistenten und Konversations-KI direkt auf Mobilgeräten. Durch die lokale Ausführung können diese Assistenten sofortige Antworten geben, ohne dass eine Netzwerkverbindung erforderlich ist, und gleichzeitig sicherstellen, dass vertrauliche Daten auf dem Gerät verbleiben, wodurch Datenschutzbedenken berücksichtigt werden.

Die ausgeprägten Denkfähigkeiten von Phi-3 Mini machen es auch zu einer wertvollen Hilfe bei der Programmierung und der Lösung mathematischer Probleme. Entwickler und Studierende profitieren von der Codevervollständigung, Fehlererkennung und Erklärungen auf dem Gerät, was die Entwicklungs- und Lernprozesse optimiert.

Darüber hinaus eröffnet die Vielseitigkeit des Modells Möglichkeiten in Bereichen wie Sprachverständnis, Textzusammenfassung und Fragenbeantwortung. Seine geringe Größe und Effizienz machen es zu einer attraktiven Wahl für die Einbettung von KI-Funktionen in eine Vielzahl von Geräten und Systemen, von intelligenten Haushaltsgeräten bis hin zu industriellen Automatisierungssystemen.

Ausblick: Phi-3 Small und Phi-3 Medium

Während Phi-3 Mini Obwohl dies an sich schon eine bemerkenswerte Leistung ist, hat Microsoft noch größere Pläne für die Phi-3-Familie. Das Unternehmen hat bereits eine Vorschau auf zwei größere Modelle gezeigt, Phi-3 Small (7 Milliarden Parameter) und Phi-3 Medium (14 Milliarden Parameter), von denen erwartet wird, dass sie die Leistungsgrenzen für kompakte Sprachmodelle verschieben.

Phi-3 Small nutzt beispielsweise einen fortschrittlicheren Tokenizer (Tiktoken) und einen Aufmerksamkeitsmechanismus für gruppierte Abfragen sowie eine neuartige Blocksparse-Aufmerksamkeitsschicht, um seinen Speicherbedarf zu optimieren und gleichzeitig die Leistung beim Abrufen langer Kontexte aufrechtzuerhalten. Es umfasst außerdem weitere 10 % mehrsprachiger Daten und verbessert so seine Fähigkeiten beim Sprachverständnis und bei der Sprachgenerierung in mehreren Sprachen.

Phi-3 Medium hingegen stellt mit 40 Schichten, 40 Aufmerksamkeitsköpfen und einer Einbettungsdimension von 5,120 einen deutlichen Maßstabssprung dar. Während Microsoft anmerkt, dass einige Benchmarks möglicherweise eine weitere Verfeinerung der Trainingsdatenmischung erfordern, um diese erhöhte Kapazität vollständig zu nutzen, sind die ersten Ergebnisse vielversprechend, mit erheblichen Verbesserungen gegenüber Phi-3 Small bei Aufgaben wie MMLU, TriviaQA und HumanEval.

Einschränkungen und zukünftige Richtungen

Trotz seiner beeindruckenden Fähigkeiten ist der Phi-3 Mini, wie alle Sprachmodelle, nicht ohne Einschränkungen. Eine der bemerkenswertesten Schwächen ist die relativ begrenzte Kapazität zum Speichern von Faktenwissen, was sich in der geringeren Leistung bei Benchmarks wie TriviaQA zeigt.

Microsoft glaubt jedoch, dass diese Einschränkung durch die Erweiterung des Modells um Suchmaschinenfunktionen gemildert werden kann, die es ermöglichen, relevante Informationen bei Bedarf abzurufen und zu analysieren. Dieser Ansatz wird in der demonstriert Umarmendes Face-Chat-UI, wo Phi-3 Mini die Suche nutzen kann, um seine Antworten zu verbessern.

Ein weiterer Verbesserungsbereich betrifft die Mehrsprachigkeit des Modells. Phi-3 Small hat zwar erste Schritte unternommen und zusätzliche mehrsprachige Daten integriert, doch um das Potenzial dieser kompakten Modelle für sprachübergreifende Anwendungen voll auszuschöpfen, sind weitere Arbeiten erforderlich.

Mit Blick auf die Zukunft ist Microsoft bestrebt, die Phi-Modellfamilie kontinuierlich weiterzuentwickeln, ihre Einschränkungen zu beseitigen und ihre Fähigkeiten zu erweitern. Dies kann weitere Verfeinerungen der Trainingsdaten und -methodik sowie die Erforschung neuer Architekturen und Techniken umfassen, die speziell auf kompakte, leistungsstarke Sprachmodelle zugeschnitten sind.

Fazit

Der Phi-3 Mini von Microsoft stellt einen bedeutenden Fortschritt bei der Demokratisierung fortschrittlicher KI-Funktionen dar. Durch die Bereitstellung modernster Leistung in einem kompakten, ressourceneffizienten Paket eröffnet er neue Möglichkeiten für intelligente On-Device-Erlebnisse in einer Vielzahl von Anwendungen.

Der innovative Trainingsansatz des Modells, der hochwertige, logisch schlüssige Daten über reine Rechenleistung stellt, hat sich als bahnbrechend erwiesen und Phi-3 Mini zu einer Leistung befähigt, die weit über seiner Gewichtsklasse liegt. In Kombination mit robusten Sicherheitsmaßnahmen und kontinuierlichen Entwicklungsbemühungen wird die Phi-3-Modellfamilie die Zukunft intelligenter Systeme entscheidend mitgestalten und KI zugänglicher, effizienter und vertrauenswürdiger machen als je zuvor.

Während die Technologiebranche die Grenzen des Möglichen mit KI immer weiter verschiebt, stellt Microsofts Engagement für leichte, leistungsstarke Modelle wie Phi-3 Mini eine erfrischende Abkehr von der gängigen Weisheit „Größer ist besser“ dar. Indem Phi-3 Mini zeigt, dass Größe nicht alles ist, hat es das Potenzial, eine neue Innovationswelle anzustoßen, die sich auf die Maximierung des Werts und der Wirkung von KI durch intelligente Datenkuratierung, durchdachtes Modelldesign und verantwortungsvolle Entwicklungspraktiken konzentriert.

Aayush Mittal

Ich habe die letzten fünf Jahre damit verbracht, in die faszinierende Welt des maschinellen Lernens und des Deep Learning einzutauchen. Meine Leidenschaft und mein Fachwissen haben dazu geführt, dass ich an über 50 verschiedenen Software-Engineering-Projekten mitgewirkt habe, mit besonderem Schwerpunkt auf KI/ML. Meine anhaltende Neugier hat mich auch zur Verarbeitung natürlicher Sprache geführt, einem Bereich, den ich gerne weiter erforschen möchte.

Unite.AI