Vordenker
Maßgeschneiderte LLMs für jedes Unternehmen? DeepSeek zeigt uns den Weg

Es war einmal, da war der technische Ruf “Mobiltelefone für jeden” – und tatsächlich haben Mobilfunkkommunikationen das Geschäft (und die Welt) revolutioniert. Heute ist das Äquivalent zu diesem Ruf, jedem Zugang zu KI-Anwendungen zu geben. Aber die wahre Macht der KI liegt darin, sie für die spezifischen Bedürfnisse von Unternehmen und Organisationen zu nutzen. Der von dem chinesischen Startup DeepSeek eingeschlagene Weg zeigt, wie KI tatsächlich von jedem genutzt werden kann, insbesondere von denen mit begrenzten Budgets, um ihre spezifischen Bedürfnisse zu erfüllen. Tatsächlich verspricht das Aufkommen von kostengünstiger KI, das tief verwurzelte Muster zu ändern, dass KI-Lösungen oft für viele kleine Unternehmen und Organisationen aufgrund der Kostenanforderungen außer Sichtweite bleiben.
LLMs sind – oder waren – ein teures Unterfangen, das den Zugang zu großen Mengen an Daten, einer großen Anzahl leistungsstarker Computer zur Datenverarbeitung und Zeit und Ressourcen für die Modellierung erfordert. Aber diese Regeln ändern sich. Mit einem Budget, das einem Lumpensammler alle Ehre machen würde, entwickelte DeepSeek sein eigenes LLM und eine ChatGPT-ähnliche Anwendung für Abfragen – mit einem viel kleineren Investment als für ähnliche Systeme, die von amerikanischen und europäischen Unternehmen gebaut wurden. Der Ansatz von DeepSeek öffnet ein Fenster zur LLM-Entwicklung für kleinere Organisationen, die nicht über Milliarden verfügen. Tatsächlich ist der Tag nicht mehr fern, an dem die meisten kleinen Organisationen ihre eigenen LLMs entwickeln können, um ihre eigenen spezifischen Zwecke zu erfüllen, was in der Regel eine effektivere Lösung als allgemeine LLMs wie ChatGPT bietet.
Während Debatten über die tatsächlichen Kosten von DeepSeek bestehen, liegt es nicht nur an den Kosten, die es und ähnliche Modelle von anderen unterscheiden: Es liegt daran, dass es weniger fortschrittliche Chips und einen fokussierteren Ansatz zur Modellierung verwendet. Als chinesisches Unternehmen, das US-Exportbeschränkungen unterliegt, konnte DeepSeek nicht auf die fortschrittlichen Nvidia-Chips zugreifen, die normalerweise für die schwere Rechenarbeit erforderlich sind, die für die LLM-Entwicklung erforderlich ist, und musste daher weniger leistungsfähige Nvidia H-800-Chips verwenden, die Daten nicht so schnell oder effizient verarbeiten können.
Um diesen Mangel an Leistung auszugleichen, ging DeepSeek einen anderen, fokussierteren und direkteren Ansatz bei der LLM-Entwicklung. Anstatt Berge von Daten auf ein Modell zu werfen und sich auf Rechenleistung zu verlassen, um die Daten zu beschriften und anzuwenden, verengte DeepSeek die Modellierung und nutzte eine kleine Menge hochwertiger “Cold-Start”-Daten und wendete IRL (iteratives Verstärkungslernen, wobei der Algorithmus Daten auf verschiedene Szenarien anwendet und daraus lernt). Dieser fokussierte Ansatz ermöglicht es dem Modell, schneller zu lernen, mit weniger Fehlern und weniger verschwendeter Rechenleistung.
Ähnlich wie Eltern einem Baby helfen, bestimmte Bewegungen auszuführen, um es erfolgreich zum ersten Mal über den Rücken zu rollen – anstatt das Baby alleine zu lassen oder es eine Vielzahl von Bewegungen zu lehren, die theoretisch helfen könnten, sich zu rollen – zoomen die Datenwissenschaftler, die diese fokussierteren KI-Modelle trainieren, auf das ein, was für bestimmte Aufgaben und Ergebnisse am meisten benötigt wird. Solche Modelle haben wahrscheinlich nicht so viele zuverlässige Anwendungen wie größere LLMs wie ChatGPT, aber sie können für bestimmte Anwendungen verlässlich sein und diese mit Präzision und Effizienz ausführen. Sogar DeepSeeks Kritiker geben zu, dass sein strömungsförmiger Ansatz bei der Entwicklung die Effizienz erheblich erhöht hat und es ermöglicht, mit viel weniger mehr zu erreichen.
Dieser Ansatz besteht darin, der KI die besten Eingaben zu geben, damit sie ihre Meilensteine auf die cleverste und effizienteste Weise möglich erreichen kann und kann für jede Organisation, die eine LLM für ihre spezifischen Bedürfnisse und Aufgaben entwickeln möchte, von Wert sein. Ein solcher Ansatz ist für kleine Unternehmen und Organisationen immer wertvoller. Der erste Schritt besteht darin, mit den richtigen Daten zu beginnen. Zum Beispiel sollte ein Unternehmen, das KI nutzen möchte, um seinem Vertriebs- und Marketing-Team zu helfen, sein Modell auf einem sorgfältig ausgewählten Datensatz trainieren, der sich auf Vertriebsgespräche, -strategien und -metriken konzentriert. Dies verhindert, dass das Modell Zeit und Rechenleistung auf irrelevante Informationen verschwendet. Darüber hinaus muss die Schulung in Stufen erfolgen, um sicherzustellen, dass das Modell jede Aufgabe oder jeden Begriff beherrscht, bevor es zum nächsten übergeht.
Dies hat auch Parallelen zur Erziehung eines Babys, wie ich selbst seitdem gelernt habe, als ich vor ein paar Monaten Mutter wurde. In beiden Szenarien vermeidet ein geführter, schrittweiser Ansatz den Verschleiß von Ressourcen und reduziert die Reibung. Schließlich führt ein solcher Ansatz bei menschlichen Babys und KI-Modellen zu einer iterativen Verbesserung. Wenn das Baby wächst oder das Modell mehr lernt, verbessern sich seine Fähigkeiten. Dies bedeutet, dass Modelle verfeinert und verbessert werden können, um besser mit realen Situationen umzugehen.
Dieser Ansatz hält die Kosten niedrig, verhindert, dass KI-Projekte zu einem Ressourcen-Abfluss werden, und macht sie für kleinere Teams und Organisationen zugänglicher. Er führt auch zu einer besseren Leistung von KI-Modellen in kürzerer Zeit; und da die Modelle nicht mit überflüssigen Daten überladen sind, können sie auch an neue Informationen und veränderte Geschäftsanforderungen angepasst werden – ein wichtiger Aspekt in wettbewerbsintensiven Märkten.
Die Ankunft von DeepSeek und der Welt der kostengünstigeren, effizienteren KI – obwohl sie zunächst Panik in der KI-Welt und an den Aktienmärkten auslöste – ist insgesamt eine positive Entwicklung für den KI-Sektor. Die größere Effizienz und die geringeren Kosten der KI, zumindest für bestimmte fokussierte Anwendungen, werden letztendlich zu einer größeren Nutzung der KI im Allgemeinen führen, was das Wachstum für alle antreibt, von Entwicklern bis hin zu Chip-Herstellern und Endnutzern. Tatsächlich veranschaulicht DeepSeek den Jevons-Paradoxon – wo mehr Effizienz wahrscheinlich zu einer größeren Nutzung einer Ressource und nicht zu einer geringeren führt. Da sich dieser Trend fortsetzen dürfte, werden kleine Unternehmen, die sich auf die Nutzung von KI konzentrieren, um ihre spezifischen Bedürfnisse zu erfüllen, auch besser für Wachstum und Erfolg gerüstet sein.












