Connect with us

Wie DeepSeek die Kostenbarriere mit 5,6 Mio. $ durchbrach

Künstliche Intelligenz

Wie DeepSeek die Kostenbarriere mit 5,6 Mio. $ durchbrach

mm

Die herkömmliche AI-Weisheit besagt, dass der Bau von großen Sprachmodellen (LLMs) tiefe Taschen erfordert – typischerweise Milliarden in Investitionen. Aber DeepSeek, ein chinesischer AI-Start-up, hat gerade dieses Paradigma mit seiner neuesten Leistung durchbrochen: die Entwicklung eines weltklassigen AI-Modells für nur 5,6 Millionen Dollar.

Das V3-Modell von DeepSeek kann es mit Branchenriesen wie Googles Gemini und OpenAIs neuesten Angeboten aufnehmen, während es nur einen Bruchteil der typischen Rechenressourcen verwendet. Diese Leistung hat die Aufmerksamkeit vieler Branchenführer auf sich gezogen, und was dies besonders bemerkenswert macht, ist, dass das Unternehmen dies trotz der US-Exportbeschränkungen erreicht hat, die den Zugang zu den neuesten Nvidia-Chips beschränkten.

Die Ökonomie effizienter KI

Die Zahlen erzählen eine überzeugende Geschichte der Effizienz. Während die meisten fortschrittlichen KI-Modelle zwischen 16.000 und 100.000 GPUs für die Ausbildung benötigen, hat DeepSeek mit nur 2.048 GPUs geschafft, die 57 Tage lang liefen. Die Ausbildung des Modells verbrauchte 2,78 Millionen GPU-Stunden auf Nvidia-H800-Chips – bemerkenswert bescheiden für ein 671-Milliarden-Parameter-Modell.

Um dies in Perspektive zu setzen, benötigte Meta etwa 30,8 Millionen GPU-Stunden – etwa 11-mal mehr Rechenleistung –, um sein Llama-3-Modell auszubilden, das tatsächlich weniger Parameter mit 405 Milliarden hat. DeepSeeks Ansatz ähnelt einem Meisterkurs in Optimierung unter Einschränkungen. Durch die Arbeit mit H800-GPUs – AI-Chips, die von Nvidia speziell für den chinesischen Markt mit reduzierten Fähigkeiten entwickelt wurden – verwandelte das Unternehmen potenzielle Einschränkungen in Innovation. Anstatt standardmäßige Lösungen für die Prozessorkommunikation zu verwenden, entwickelten sie benutzerdefinierte Lösungen, die die Effizienz maximierten.

Während Wettbewerber weiterhin unter der Annahme operieren, dass massive Investitionen notwendig sind, zeigt DeepSeek, dass Erfindungsreichtum und effiziente Ressourcennutzung das Spielfeld gleich machen können.

Die Konstruktion des Unmöglichen

DeepSeeks Leistung liegt in seinem innovativen technischen Ansatz, der zeigt, dass manchmal die bedeutendsten Durchbrüche aus der Arbeit innerhalb von Einschränkungen und nicht durch das Werfen unbeschränkter Ressourcen in ein Problem resultieren.

Im Herzen dieser Innovation steht eine Strategie namens “auxiliary-loss-free Load Balancing”. Man kann sich dies wie die Orchestrierung eines massiven parallelen Verarbeitungssystems vorstellen, bei dem man traditionell komplexe Regeln und Strafen benötigt, um alles reibungslos laufen zu lassen. DeepSeek hat diese herkömmliche Weisheit auf den Kopf gestellt, indem sie ein System entwickelten, das natürlicherweise das Gleichgewicht ohne den Overhead traditioneller Ansätze aufrechterhält.

Das Team hat auch eine Technik namens “Multi-Token-Prediction” (MTP) entwickelt – eine Technik, die es dem Modell ermöglicht, voraus zu denken, indem es mehrere Token auf einmal vorhersagt. In der Praxis bedeutet dies eine beeindruckende Akzeptanzrate von 85-90 % für diese Vorhersagen in verschiedenen Themen, was 1,8-mal schnellere Verarbeitungsgeschwindigkeiten als bei vorherigen Ansätzen ermöglicht.

Die technische Architektur selbst ist ein Meisterwerk der Effizienz. DeepSeeks V3 verwendet einen Mixture-of-Experts-Ansatz mit 671 Milliarden Parametern, aber hier ist der clever Teil – es aktiviert nur 37 Milliarden für jeden Token. Diese selektive Aktivierung bedeutet, dass sie die Vorteile eines massiven Modells nutzen, während sie gleichzeitig praktische Effizienz aufrechterhalten.

Ihre Wahl des FP8-Mixed-Precision-Trainingsframeworks ist ein weiterer Sprung nach vorne. Anstatt die herkömmlichen Einschränkungen reduzierter Präzision zu akzeptieren, entwickelten sie benutzerdefinierte Lösungen, die die Genauigkeit aufrechterhalten, während sie gleichzeitig den Speicher- und Rechenanforderungen erheblich reduzieren.

Welleneffekte im KI-Ökosystem

Die Auswirkungen von DeepSeeks Leistung reichen weit über ein einzelnes erfolgreiches Modell hinaus.

Für die europäische KI-Entwicklung ist dieser Durchbruch besonders bedeutsam. Viele fortschrittliche Modelle kommen nicht in die EU, weil Unternehmen wie Meta und OpenAI entweder nicht oder nicht wollen, sich an den EU-KI-Gesetz anzupassen. DeepSeeks Ansatz zeigt, dass der Bau von Spitzen-KI nicht immer massive GPU-Cluster erfordert – es geht mehr um die effiziente Nutzung verfügbarer Ressourcen.

Diese Entwicklung zeigt auch, wie Exportbeschränkungen tatsächlich Innovationen vorantreiben können. DeepSeeks eingeschränkter Zugang zu High-End-Hardware zwang sie, anders zu denken, was zu Software-Optimierungen führte, die in einer ressourcenreichen Umgebung möglicherweise nie entstanden wären. Dieses Prinzip könnte die Art und Weise, wie wir global KI-Entwicklung angehen, verändern.

Die Demokratisierungsaussichten sind tiefgreifend. Während Branchenriesen weiterhin Milliarden durchbrennen, hat DeepSeek eine Blaupause für effiziente, kostengünstige KI-Entwicklung geschaffen. Dies könnte Türen für kleinere Unternehmen und Forschungseinrichtungen öffnen, die aufgrund von Ressourceneinschränkungen bisher nicht konkurrieren konnten.

Dies bedeutet jedoch nicht, dass große Recheninfrastrukturen obsolet werden. Die Branche konzentriert sich auf die Skalierung der Inferenzzeit – wie lange ein Modell braucht, um Antworten zu generieren. Wenn dieser Trend anhält, werden erhebliche Rechenressourcen weiterhin notwendig sein, wahrscheinlich sogar noch mehr in Zukunft.

Aber DeepSeek hat das Gespräch grundlegend geändert. Die langfristigen Auswirkungen sind klar: Wir betreten eine Ära, in der innovative Denkweise und effiziente Ressourcennutzung wichtiger sein könnten als reine Rechenleistung. Für die KI-Gemeinschaft bedeutet dies, sich nicht nur auf die Ressourcen zu konzentrieren, die wir haben, sondern auf die kreative und effiziente Nutzung dieser Ressourcen.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.