Connect with us

Innerhalb von Microsofts Phi-3 Mini: Ein leichtes KI-Modell, das über sein Gewicht hinaus schlägt

Künstliche Intelligenz

Innerhalb von Microsofts Phi-3 Mini: Ein leichtes KI-Modell, das über sein Gewicht hinaus schlägt

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone
Microsoft hat kürzlich sein neuestes leichtes Sprachmodell namens Phi-3 Mini vorgestellt, das den Startschuss für eine Trio von kompakten KI-Modellen gibt, die darauf ausgelegt sind, Spitzenleistungen zu erzielen, während sie klein genug sind, um effizient auf Geräten mit begrenzten Rechenressourcen zu laufen. Mit nur 3,8 Milliarden Parametern ist Phi-3 Mini nur ein Bruchteil der Größe von KI-Riesen wie GPT-4, doch es verspricht, ihre Fähigkeiten in vielen Schlüsselbereichen zu erreichen.
Die Entwicklung von Phi-3 Mini stellt einen bedeutenden Meilenstein in der Bestrebung dar, erweiterte KI-Fähigkeiten zu demokratisieren, indem sie auf einer breiteren Palette von Hardware zugänglich gemacht werden. Sein kleiner Fußabdruck ermöglicht es, es lokal auf Smartphones, Tablets und anderen Edge-Geräten zu bereitstellen, wodurch die Latenz und Datenschutzbedenken im Zusammenhang mit cloudbasierten Modellen überwunden werden. Dies eröffnet neue Möglichkeiten für intelligente On-Device-Erfahrungen in verschiedenen Bereichen, von virtuellen Assistenten und konversationeller KI bis hin zu Codierhilfen und Sprachverständigungsaufgaben.
4-bit quantized phi-3-mini running natively on an iPhone
4-bit quantized phi-3-mini running natively on an iPhone

Unter der Haube: Architektur und Training

Im Kern ist Phi-3 Mini ein Transformer-Decoder-Modell, das auf einer ähnlichen Architektur wie das open-source Llama-2-Modell basiert. Es verfügt über 32 Schichten, 3072 versteckte Dimensionen und 32 Aufmerksamkeitsköpfe, mit einer Standardkontextlänge von 4.000 Token. Microsoft hat auch eine Langkontextversion namens Phi-3 Mini-128K vorgestellt, die die Kontextlänge auf beeindruckende 128.000 Token mit Techniken wie LongRope erweitert.
Was Phi-3 Mini jedoch auszeichnet, ist seine Trainingsmethodik. Anstatt sich allein auf die rohe Kraft von massiven Datensätzen und Rechenleistung zu verlassen, hat Microsoft sich auf die Kuratierung eines hochwertigen, vernunftdichten Trainingsdatensatzes konzentriert. Diese Daten bestehen aus stark gefilterten Webdaten sowie synthetischen Daten, die von größeren Sprachmodellen generiert werden.
Der Trainingsprozess folgt einem zweiphasigen Ansatz. In der ersten Phase wird das Modell einer Vielzahl von Webquellen ausgesetzt, die darauf abzielen, es in allgemeinem Wissen und Sprachverständnis zu unterrichten. Die zweite Phase kombiniert noch mehr stark gefilterte Webdaten mit synthetischen Daten, die darauf ausgelegt sind, logisches Denken und Nischen-Domänen-Expertenwissen zu vermitteln.
Microsoft bezeichnet diesen Ansatz als “datenoptimales Regime”, eine Abkehr von dem traditionellen “rechenoptimalem Regime” oder “Übertrainingsregime”, das von vielen großen Sprachmodellen eingesetzt wird. Das Ziel ist es, die Trainingsdaten an die Größe des Modells anzupassen, um das richtige Maß an Wissen und Denkfähigkeit bereitzustellen, während noch genug Kapazität für andere Fähigkeiten bleibt.

Qualität der neuen Phi-3-Modelle, gemessen an der Leistung auf dem Massive Multitask Language Understanding (MMLU)-Benchmark
Qualität der neuen Phi-3-Modelle, gemessen an der Leistung auf dem Massive Multitask Language Understanding (MMLU)-Benchmark

Dieser datenzentrierte Ansatz hat sich ausgezahlt, da Phi-3 Mini eine bemerkenswerte Leistung auf einer breiten Palette akademischer Benchmarks erzielt, oft größere Modelle übertrifft oder mit ihnen Schritt hält. Zum Beispiel erreicht es 69 % auf dem MMLU-Benchmark für Multitask-Lernen und -Verständnis und 8,38 auf dem MT-Benchmark für mathematisches Denken – Ergebnisse, die mit Modellen wie Mixtral 8x7B und GPT-3,5 vergleichbar sind.

Sicherheit und Robustheit

Neben seiner beeindruckenden Leistung hat Microsoft bei der Entwicklung von Phi-3 Mini einen starken Fokus auf Sicherheit und Robustheit gelegt. Das Modell hat einen strengen Post-Trainingsprozess durchlaufen, der überwachtes Feintuning (SFT) und direkte Präferenzoptimierung (DPO) umfasst.
Die SFT-Phase nutzt hoch kuratierte Daten aus verschiedenen Domänen, darunter Mathematik, Codierung, Denken, Konversation, Modellidentität und Sicherheit. Dies hilft, die Fähigkeiten des Modells in diesen Bereichen zu stärken, während es gleichzeitig ein starkes Gefühl von Identität und ethischem Verhalten vermittelt.
Die DPO-Phase konzentriert sich auf die Abwendung des Modells von unerwünschtem Verhalten, indem abgelehnte Antworten als negative Beispiele verwendet werden. Dieser Prozess umfasst Chat-Format-Daten, Denkaufgaben und verantwortungsvolle KI (RAI)-Bemühungen, um sicherzustellen, dass Phi-3 Mini den Grundsätzen von Microsoft für ethische und vertrauenswürdige KI entspricht.
Um sein Sicherheitsprofil weiter zu verbessern, wurde Phi-3 Mini einer umfassenden Red-Teaming- und automatisierten Tests über Dutzende von RAI-Schadenskategorien unterzogen. Ein unabhängiges Red-Team bei Microsoft untersuchte das Modell iterativ und identifizierte Bereiche für Verbesserungen, die durch zusätzliche kuratierte Datensätze und erneutes Training angegangen wurden.
Dieser mehrschichtige Ansatz hat die Häufigkeit schädlicher Antworten, tatsächlicher Ungenauigkeiten und Vorurteile erheblich reduziert, wie Microsofts interne RAI-Benchmarks zeigen. Zum Beispiel weist das Modell eine niedrige Fehlerrate für schädliche Inhaltsfortsetzung (0,75 %) und Zusammenfassung (10 %) auf, sowie eine niedrige Rate von Ungenauigkeiten (0,603), was darauf hinweist, dass seine Antworten fest in dem gegebenen Kontext verwurzelt sind.

Anwendungen und Einsatzszenarien

Mit seiner beeindruckenden Leistung und robusten Sicherheitsmaßnahmen ist Phi-3 Mini für eine breite Palette von Anwendungen geeignet, insbesondere in ressourcenbeschränkten Umgebungen und latenzgebundenen Szenarien.
Eine der spannendsten Perspektiven ist die Bereitstellung intelligenter virtueller Assistenten und konversationeller KI direkt auf Mobilgeräten. Durch das lokale Laufen können diese Assistenten instantane Antworten liefern, ohne dass eine Netzwerkverbindung erforderlich ist, während sie gleichzeitig sicherstellen, dass sensible Daten auf dem Gerät bleiben, um Datenschutzbedenken zu adressieren.
Die starken Denkfähigkeiten von Phi-3 Mini machen es auch zu einem wertvollen Asset für Codierhilfen und mathematische Problemlösung. Entwickler und Studenten können von On-Device-Code-Vervollständigung, Fehlererkennung und Erklärungen profitieren, um den Entwicklungs- und Lernprozess zu rationalisieren.
Jenseits dieser Anwendungen eröffnet die Vielseitigkeit des Modells Möglichkeiten in Bereichen wie Sprachverständnis, Textzusammenfassung und Fragebeantwortung. Seine geringe Größe und Effizienz machen es zu einer attraktiven Wahl für die Einbettung von KI-Fähigkeiten in eine breite Palette von Geräten und Systemen, von intelligenten Haushaltsgeräten bis hin zu industriellen Automatisierungssystemen.

Ausblick: Phi-3 Small und Phi-3 Medium

Während Phi-3 Mini an sich bereits eine bemerkenswerte Leistung ist, hat Microsoft noch größere Pläne für die Phi-3-Familie. Das Unternehmen hat bereits zwei größere Modelle, Phi-3 Small (7 Milliarden Parameter) und Phi-3 Medium (14 Milliarden Parameter), vorgestellt, die die Leistungsgrenzen für kompakte Sprachmodelle neu definieren sollen.
Phi-3 Small nutzt beispielsweise einen fortgeschritteneren Tokenizer (tiktoken) und einen gruppierten Abfragemechanismus sowie eine neuartige blocksparse Aufmerksamkeitsschicht, um seinen Speicherbedarf zu optimieren, während es gleichzeitig die Leistung bei der Langkontextabrufung beibehält. Es integriert auch zusätzliche 10 % multilinguale Daten, um seine Fähigkeiten im Sprachverständnis und in der Sprachgenerierung über mehrere Sprachen hinweg zu verbessern.
Phi-3 Medium stellt einen wesentlichen Schritt in der Größe dar, mit 40 Schichten, 40 Aufmerksamkeitsköpfen und einer Einbettungsdimension von 5.120. Microsoft weist darauf hin, dass einige Benchmarks möglicherweise eine weitere Verfeinerung der Trainingsdatenmischung erfordern, um das volle Potenzial dieser erhöhten Kapazität auszuschöpfen, doch die ersten Ergebnisse sind vielversprechend, mit wesentlichen Verbesserungen gegenüber Phi-3 Small bei Aufgaben wie MMLU, TriviaQA und HumanEval.

Einschränkungen und zukünftige Richtungen

Trotz seiner beeindruckenden Fähigkeiten ist Phi-3 Mini, wie alle Sprachmodelle, nicht ohne Einschränkungen. Eine der bemerkenswertesten Schwächen ist seine relativ begrenzte Fähigkeit, faktisches Wissen zu speichern, wie es durch seine geringere Leistung auf Benchmarks wie TriviaQA belegt wird.
Microsoft glaubt jedoch, dass diese Einschränkung durch die Ergänzung des Modells mit Suchmaschinenfunktionen gemildert werden kann, um es zu ermöglichen, relevante Informationen auf Abruf abzurufen und zu verarbeiten. Dieser Ansatz wird im Hugging Face Chat-UI demonstriert, wo Phi-3 Mini die Suche nutzen kann, um seine Antworten zu verbessern.
Ein weiterer Bereich für Verbesserungen ist die multilinguale Fähigkeit des Modells. Obwohl Phi-3 Small erste Schritte unternommen hat, indem es zusätzliche multilinguale Daten integriert hat, ist weitere Arbeit erforderlich, um das volle Potenzial dieser kompakten Modelle für cross-linguale Anwendungen voll auszuschöpfen.
Microsoft ist entschlossen, die Phi-Modellfamilie kontinuierlich weiterzuentwickeln, ihre Einschränkungen anzugehen und ihre Fähigkeiten zu erweitern. Dies kann die weitere Verfeinerung der Trainingsdaten und -methodik umfassen, sowie die Erforschung neuer Architekturen und Techniken, die speziell für kompakte, hochleistungsstarke Sprachmodelle konzipiert sind.

Fazit

Microsofts Phi-3 Mini stellt einen bedeutenden Schritt in der Demokratisierung erweiterter KI-Fähigkeiten dar. Durch die Bereitstellung von Spitzenleistungen in einem kompakten, ressourcenschonenden Paket eröffnet es neue Möglichkeiten für intelligente On-Device-Erfahrungen über eine breite Palette von Anwendungen hinweg.
Die innovative Trainingsansatz des Modells, der hochwertige, vernunftdichte Daten über reine Rechenleistung stellt, hat sich als spielverändernd erwiesen, ermöglicht es Phi-3 Mini, über sein Gewicht hinaus zu schlagen. In Kombination mit seinen robusten Sicherheitsmaßnahmen und laufenden Entwicklungsbestrebungen ist die Phi-3-Modellfamilie bestens geeignet, eine entscheidende Rolle bei der Gestaltung der Zukunft intelligenter Systeme zu spielen, indem sie KI zugänglicher, effizienter und vertrauenswürdiger macht als je zuvor.
Da die Technologiebranche weiterhin die Grenzen dessen erweitert, was mit KI möglich ist, stellt Microsofts Engagement für leichte, hochleistungsstarke Modelle wie Phi-3 Mini eine erfrischende Abkehr von der herkömmlichen Weisheit “Größer ist besser” dar. Indem es zeigt, dass Größe nicht alles ist, hat Phi-3 Mini das Potenzial, eine neue Welle der Innovation auszulösen, die sich auf die Maximierung des Wertes und der Auswirkung von KI durch intelligente Datenkuratierung, sorgfältige Modellgestaltung und verantwortungsvolle Entwicklungspraktiken konzentriert.

Ich habe die letzten fünf Jahre damit verbracht, mich in die faszinierende Welt des Machine Learning und Deep Learning zu vertiefen. Meine Leidenschaft und mein Fachwissen haben mich dazu geführt, an über 50 verschiedenen Software-Entwicklungsprojekten mitzuwirken, mit einem besonderen Fokus auf KI/ML. Meine anhaltende Neugier hat mich auch zum Natural Language Processing hingezogen, ein Feld, das ich weiter erforschen möchte.