Künstliche Intelligenz

Denken Maschinen Lab liefert erstes Modell mit 200ms Echtzeit-Interaktion

mm

Denken Maschinen Lab, das AI-Startup, das von der ehemaligen OpenAI-CTO Mira Murati gegründet wurde, veröffentlichte am 11. Mai 2026 eine Forschungsvorschau seines ersten internen Modells, nachdem das Lab über ein Jahr lang geschwiegen hatte, was es eigentlich bauen würde. Das Unternehmen bezeichnet das System als “Interaktionsmodell” – eine multimodale Architektur, die von Grund auf trainiert wurde, um Audio-, Video- und Textdaten in 200-Millisekunden-Blöcken zu verarbeiten, anstatt auf die Fertigstellung eines Benutzers zu warten.

Das Modell, benannt TML-Interaction-Small, ist ein 276-Milliarden-Parameter-Mixture-of-Experts-System mit 12 Milliarden aktiven Parametern. Laut dem Unternehmen Blog-Beitrag ist es das erste Produkt aus einem Lab, das etwa 2 Milliarden Dollar bei einer Bewertung von 12 Milliarden Dollar aufgenommen hat, ohne etwas anderes als ein Feinabstimmungstool ausgeliefert zu haben. Die Veröffentlichung erfolgt inmitten anhaltender Turbulenzen durch den Abgang von Talenten und einer gestoppten Folgefinanzierungsrunde.

Was ein Interaktionsmodell eigentlich tut

Denken Maschinen argumentiert, dass die heutigen Frontier-Modelle – einschließlich OpenAI’s GPT-Echtzeit und Google’s Gemini Live – Echtzeit-Verhalten auf turnbasierte Architekturen mit einer “Vorrichtung” externer Komponenten wie Sprachaktivitätserkennung aufsetzen. Diese Komponenten entscheiden, wann der Benutzer aufgehört hat zu sprechen, und übergeben dann eine abgeschlossene Äußerung an das Modell. Während das Modell eine Antwort generiert, friert seine Wahrnehmung der Welt ein.

Das Interaktionsmodell ersetzt diese Vorrichtung durch das, was das Unternehmen “zeitlich ausgerichtete Mikro-Turns” nennt. Das System verarbeitet kontinuierlich 200 Millisekunden Eingabe, während es 200 Millisekunden Ausgabe generiert, wobei beide Token-Ströme auf dem gleichen Taktzyklus verflochten sind. Diese Struktur ermöglicht es dem Modell, einen Benutzer mitten im Satz zu unterbrechen, auf visuelle Hinweise zu reagieren, ohne aufgefordert zu werden, oder gleichzeitig mit dem Benutzer zu sprechen, um Aufgaben wie Live-Übersetzung zu erledigen.

Die Architektur überspringt schwere eigenständige Encoder. Audio wird als dMel-Features durch eine leichte Einbettungsschicht eingespeist, Bilder werden in 40×40-Patches aufgeteilt und alle Komponenten werden von Grund auf mit dem Transformer ko-trainiert. Ein separates Hintergrundmodell läuft asynchron, um tieferes Reasoning, Tool-Aufrufe und Web-Browsing zu bearbeiten, während das Interaktionsmodell in der Konversation präsent bleibt.

Laut den vom Unternehmen gemeldeten Benchmarks erreicht TML-Interaction-Small eine Turn-taking-Latenz von 0,40 Sekunden auf FD-bench V1, im Vergleich zu 1,18 Sekunden für GPT-Echtzeit-2.0 in seinem minimalen Denkmodus und 0,57 Sekunden für Gemini-3.1-Flash-Live. Auf FD-bench V1.5, das die Interaktionsqualität über Benutzerunterbrechungen, Hintergrundgespräche und Backchannels bewertet, erreicht das Modell 77,8 gegenüber 46,8 für GPT-Echtzeit-2.0 minimal und 45,5 für Gemini-3.1-Flash-Live in seinem Hochdenkmodus. Die Zahlen sind selbst gemeldet.

Ein lang erwarteter erster Schiff

Die Veröffentlichung schließt eine lange Lücke zwischen Finanzierung und Produkt. Denken Maschinen wurde im Februar 2025 gegründet und schloss im Juli desselben Jahres eine 2-Milliarden-Dollar-Seed-Runde bei einer Bewertung von 12 Milliarden Dollar ab – weithin als die größte Seed-Runde aufgeführt. Die Runde wurde von Andreessen Horowitz angeführt, mit Beteiligung von Nvidia, AMD, Cisco, Accel, ServiceNow und Jane Street. Bis jetzt war das einzige ausgelieferte Produkt des Unternehmens Tinker, eine API für die Feinabstimmung offener Modelle, die im Oktober 2025 gestartet wurde.

Die Zwischenmonate brachten Turbulenzen. Mitgründer Barret Zoph und Luke Metz verließen das Unternehmen im Januar 2026, um zu OpenAI zurückzukehren, und Murati kündigte an, dass das Unternehmen “Weg von Zoph getrennt” worden sei. Andrew Tulloch verließ das Unternehmen, um zu Meta’s Superintelligence Labs zu gehen, nachdem Mark Zuckerberg ein Angebot von 1 Milliarde Dollar, um das Unternehmen direkt zu kaufen, abgelehnt worden war. Meta hat seitdem fünf Gründungsmitglieder des Labors eingestellt. Murati reagierte, indem er Soumith Chintala, einen Mitbegründer von PyTorch, zum CTO ernannte. Eine angebliche Folgerunde bei einer Bewertung von etwa 50 Milliarden Dollar wurde nicht bis Ende 2025 abgeschlossen.

Die Rechenstory bewegte sich in die entgegengesetzte Richtung. Im März kündigte Denken Maschinen eine Partnerschaft mit Nvidia an, die eine nicht genannte Investition und den Einsatz von mindestens einem Gigawatt Next-Generation-Vera-Rubin-Systemen umfasst. Das Labor erweiterte auch seine Google-Cloud-Beziehung, um die Ausbildung von Frontier-Modellen auf Nvidia-GB300-Hardware zu umfassen.

Was zu beobachten ist

Das Interaktionsmodell ist noch nicht für Unternehmen oder die Öffentlichkeit verfügbar. Denken Maschinen sagt, dass eine begrenzte Forschungsvorschau in den kommenden Monaten für ausgewählte Partner geöffnet wird, mit einer breiteren Veröffentlichung später im Jahr 2026. Das Unternehmen plant auch, größere Interaktionsmodelle zu veröffentlichen, wobei es angibt, dass die aktuelle 276-Milliarden-Parameter-Version die kleinste Variante ist, die es bei der erforderlichen Latenz ausliefern kann.

Die unabhängige Überprüfung der Benchmark-Ansprüche ist die unmittelbare Frage. FD-Bench ist einer der wenigen öffentlichen Benchmarks, die die Interaktionsqualität zielen, und die Ergebnisse von Denken Maschinen wurden noch nicht von Dritten unter realistischer Last reproduziert. Die Proaktivitäts-Tests, die das Unternehmen für visuelle Hinweise eingeführt hat, einschließlich adaptierter Versionen von RepCount-A, ProactiveVideoQA und Charades, sind neue Instrumente ohne etablierte Basis.

Die strategische Wette ist gezielter. Während OpenAI, Anthropic und Google im vergangenen Jahr autonome Agenten-Fähigkeiten vorangetrieben haben, setzt Denken Maschinen darauf, dass der nächste Wettbewerbsachse die Art und Weise sein wird, wie Menschen mit KI kommunizieren – näher an einer kontinuierlichen Konversation als an einer Reihe von Prompts. Das Interaktionsmodell konkurriert direkt mit den Echtzeit-Sprach-KI-Systemen, die von OpenAI, Google und einer wachsenden Reihe von Sprach-fokussierten Startups ausgeliefert werden. Ob die Architektur den Kontakt mit Produktionsworkloads übersteht – lange Sitzungen, unzuverlässige Konnektivität und die Sicherheitsbeschränkungen der Echtzeit-Verweigerung – ist der Test, den die nächste Vorschau-Runde auferlegen wird.

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.