Interviews

Dr. Xianxin Guo, CEO und Mitgründer von Lumai – Interview-Serie

mm

Dr. Xianxin Guo, CEO und Mitgründer von Lumai, ist ein Physiker und Deep-Tech-Unternehmer, der sich auf optische Computer und KI-Hardware spezialisiert hat, mit einem PhD in Quantenphysik und nichtlinearer Optik von der Hong Kong University of Science and Technology. Er hatte zuvor Forschungspositionen inne, darunter eine Postdoc-Stelle an der University of Calgary und ein 1851 Research Fellowship an der University of Oxford, wo er zu Fortschritten in der Photonik und KI-Beschleunigung beitrug. Durch seine Arbeit bei Lumai von Head of Research zu CEO ist er der Haupterfinder hinter der KernTechnologie des Unternehmens und bringt über ein Jahrzehnt Erfahrung an der Schnittstelle von Physik, Maschinellem Lernen und fortschrittlichen Computersystemen mit.

Lumai ist ein Spin-out der University of Oxford, das auf der Entwicklung von Next-Generation-KI-Prozessoren basierend auf 3D-optischer Computerarchitektur arbeitet, bei der Licht anstelle von Elektrizität für wichtige KI-Berechnungen verwendet wird. Die Technologie ist darauf ausgelegt, Matrixoperationen zu beschleunigen, die moderne KI-Modelle untermauern, und bietet damit wesentlich schnellere Verarbeitungsgeschwindigkeiten bei gleichzeitiger Reduzierung des Energieverbrauchs im Vergleich zu herkömmlichen siliziumbasierten GPUs. Durch die Integration von optischer Rechenleistung in bestehende Rechenzentren zielt Lumai darauf ab, eine skalierbarere und kosteneffizientere KI-Implementierung zu ermöglichen und damit die wachsenden Einschränkungen rund um Rechenleistung und Energieverbrauch in großen KI-Systemen zu adressieren.

Sie begannen Ihre Karriere in der Quantenphysik und nichtlinearen Optik, später wurden Sie 1851 Research Fellow an der University of Oxford, bevor Sie Lumai aus Ihrer Forschung heraus gründeten. Was war der entscheidende Moment, in dem Sie erkannten, dass optische Computer von akademischer Theorie zu einem kommerziell tragfähigen Unternehmen übergehen konnten?

Während meiner Zeit an der University of Oxford erforschten wir, wie die Eigenschaften von Licht im freien Raum für die Lösung von Matrixoperationen genutzt werden können, die maschinelles Lernen untermauern. Gleichzeitig wurden die Einschränkungen herkömmlicher Hardware für KI immer wichtiger. Die Konvergenz dieser Herausforderungen, die wir in unserer Forschung gelöst hatten, und die Notwendigkeit nach effizienterer Rechenleistung gaben uns das Vertrauen, dass wir unsere Ideen in die Praxis umsetzen und reale Probleme lösen konnten.

Wir haben uns seit dieser anfänglichen Forschung weit entwickelt – bei Lumai haben wir nun das weltweit erste optische Computersystem entwickelt, das in der Lage ist, Billionen-Parameter-LLMs in Echtzeit auszuführen.

Lumai geht eines der größten Engpässe in der KI heute an, die Energie- und Skalierbarkeitseinschränkungen siliziumbasierter Computer. Welche spezifischen Einschränkungen in herkömmlichen Architekturen trieben Sie zu einem grundlegend anderen Ansatz mit Licht?

Was uns vorantrieb, war die begrenzte Entwicklung von Siliziumlösungen. Mit Silizium sehen Sie inkrementelle Verbesserungen, aber diese kommen mit unverhältnismäßigen Erhöhungen von Leistung und Komplexität. Die Einschränkung der Siliziumskalierung liegt hauptsächlich in der Physik – Frequenzen nehmen nicht zu, und die Anzahl der Transistoren, die geschaltet werden können, ist durch thermische Grenzen begrenzt. Leckströme bleiben ein Problem. Es wird geschätzt, dass Silizium nur zu einer 25-prozentigen jährlichen Leistungssteigerung beiträgt.

An diesem Punkt macht es Sinn, zu fragen, ob ein anderes physikalisches Medium diese Operationen vielleicht natürlicher ausführen könnte, anstatt weiterhin Elektronen zu beschleunigen.

Ihre Arbeit konzentriert sich auf optische Computer und maschinelles Lernen. Wie verändert die Verwendung von Photonen anstelle von Elektronen grundlegend die Art und Weise, wie die Rechenoperationen auf der Hardware-Ebene ablaufen?

Bei Elektronen ist die Rechenoperation inhärent sequenziell und verlustbehaftet – Sie schalten Transistoren, bewegen Ladungen, erzeugen Wärme. Jede Operation hat einen thermischen Kostenfaktor, und dieser Kostenfaktor kumuliert sich.

Photonen verhalten sich sehr anders. Licht bewegt sich ohne die gleichen Widerstandsverluste, und kritisch wichtig ist, dass durch die Eigenschaften von Licht enorme Zahlen von Matrixoperationen parallel ausgeführt werden können, indem man einfach die Weise, wie Lichtstrahlen durch ein physikalisches Medium interagieren, strukturiert. Die Rechenoperation findet in der Ausbreitung des Lichts selbst statt, nicht im Schalten von Milliarden von Gates.

Lumais Technologie nutzt 3D-optische Verarbeitung und massive räumliche Parallelität. Können Sie erklären, wie diese Architektur solch dramatische Verbesserungen in Durchsatz und Effizienz im Vergleich zu GPUs ermöglicht?

Das Ziel ist es, dichte Matrixmultiplikation so effizient und schnell wie möglich in einem einzigen Zyklus durchzuführen. Lumais Ansatz tut genau dies, indem Licht in einem dreidimensionalen Volumen verwendet wird, um Millionen von Operationen simultan auszuführen.

Man kann einfach nicht das gleiche Maß an Parallelität in 2D-Strukturen erreichen, bei denen Operationen über Hunderte von Kernen verarbeitet werden, was eine ständige Datenbewegung erfordert. Es ist diese inhärente Parallelität – kombiniert mit der Tatsache, dass man, sobald man im Lichtbereich ist, Operationen ohne Energieverbrauch ausführen kann –, die sowohl die Durchsatzverbesserung als auch die dramatische Reduzierung des Energieverbrauchs pro Token antreibt.

Viele KI-Infrastruktur-Unternehmen konzentrieren sich noch auf das Training, während Lumai sich auf die Inferenz konzentriert. Warum glauben Sie, dass die Inferenz die definierende Herausforderung dieser nächsten Phase der KI ist?

Die Inferenz ist der Punkt, an dem KI tatsächlich etwas Nützliches tut – jede beantwortete Anfrage, jede abgeschlossene Agentenaufgabe, jedes generierte Dokument. Wir haben jetzt die Inferenz-Ära betreten, und die Nachfrage wächst mit einer Rate, die von trainingsorientierter Hardware nie absorbiert werden konnte.

Die Ökonomie ist auch anders: Die Inferenz läuft kontinuierlich, über Millionen von Nutzern. Der Kostenfaktor pro Token wird zum definierenden Maßstab, und das ist der Punkt, an dem die Energiebegrenzung am härtesten trifft.

Was die Inferenz besonders gut für optische Computer geeignet macht, ist, dass die Vorausfüllphase stark rechenlastig ist. In dieser Vorausfüllphase der disaggregierten Inferenz wird der gesamte Kontext verarbeitet, bevor eine Antwort generiert wird. Dies entspricht fast perfekt unserem optischen Motor und darauf haben wir uns zuerst konzentriert.

Eine der langjährigen Herausforderungen im optischen Computing war die Stabilität und Skalierbarkeit. Welche waren die wichtigsten technischen Durchbrüche, die es Lumai ermöglichten, diese Barrieren zu überwinden?

Die Herausforderung bestand nie darin, zu demonstrieren, dass Optik Rechenoperationen durchführen kann – Forscher hatten dies bereits Jahre zuvor gezeigt. Die Herausforderung bestand darin, es im großen Maßstab und außerhalb des Labors zum Laufen zu bringen.

Zwei Dinge waren am wichtigsten. Erstens verwenden wir die gleichen Komponenten, die bereits in Rechenzentren für Kommunikation und Netzwerke eingesetzt werden. Keine exotischen Materialien, keine spekulative Lieferkette. Zweitens haben wir eine bewusste architektonische Entscheidung getroffen, ein Hybrid-Design zu verwenden, das den optischen Tensor-Motor mit digitaler Verarbeitung für Systemsteuerung und Software kombiniert.

Ihr System verwendet einen Hybrid-Ansatz, der optische und digitale Komponenten kombiniert. Wie wichtig ist diese Balance für die Praktikabilität des optischen Computings in der realen Rechenzentrumsumgebung?

Es ist fundamental. Optisches Computing bedeutet nicht, alles durch Licht zu ersetzen. Digitale Systeme sind außerordentlich gut darin, Steuerung, Sequenzierung und Schnittstellen zur Software-Umgebung zu handhaben, die die Branche über Jahrzehnte aufgebaut hat. Unser optischer Motor exceliert bei den Kernmathematikoperationen, die die Inferenz-Berechnung dominieren. Die Hybrid-Architektur lässt jede Komponente das tun, was sie am besten kann.

Aus der Sicht der Implementierung ist dies enorm wichtig. Lumai Iris integriert sich in bestehende Rechenzentren, verwendet Standard-Schnittstellen und läuft reale Modelle, einschließlich Llama 8B und 70B, bereits heute.

Mit der Bekanntgabe der Lumai Iris-Familie, insbesondere des Iris Nova-Servers, was signalisiert die Erreichung von Echtzeit-Inferenz auf Billionen-Parameter-Modellen für die Zukunft der KI-Infrastruktur?

Es signalisiert, dass optisches Computing von der Forschung in die Realität übergegangen ist. Die Ausführung von Billionen-Parameter-Modellen in Echtzeit ist der Beweispunkt, den die Branche benötigte. Die Lumai Iris Server-Familie besteht aus drei Servern: Nova, Aura und Tetra. Lumai Iris Nova, der erste Server in der Familie, ist bereits für Evaluierungen verfügbar, und wir sind bereits dabei, mit Partnern zusammenzuarbeiten, die ihn gegen reale Inferenz-Workloads einsetzen möchten.

Im weiteren Sinne signalisiert es, dass die Entwicklung der KI-Infrastruktur vor einem Wandel steht. Die Annahme war, dass die Skalierung der Inferenz bedeutet, mehr GPUs zu kaufen, mehr Leistung zu verbrauchen und größere Rechenzentren zu bauen. Lumai Iris Nova zeigt, dass es einen anderen Weg gibt – einen, der dramatisch mehr Leistung pro Kilowatt und eine grundlegend anders strukturierte Kostenstruktur pro Token bietet. Wenn die Lumai Iris Server-Familie sich weiterentwickelt, werden die Auswirkungen auf die Art und Weise, wie Hyperscaler und Unternehmen über die Beschaffung von Rechenleistung nachdenken, erheblich sein.

Die Pressemitteilung hebt bis zu 90 Prozent geringeren Energieverbrauch im Vergleich zu herkömmlichen Systemen hervor. Wie bedeutend ist dieser Durchbruch im Kontext der wachsenden Energiebegrenzungen, denen globale Rechenzentren gegenüberstehen?

Die Energiebegrenzung ist die definierende Infrastrukturherausforderung der KI-Ära – die Leistungskapazität ist bereits ein limitierender Faktor für die Implementierungspläne, und wir haben die sogenannte Leistungswand erreicht.

Vor diesem Hintergrund ist eine 90-prozentige Reduzierung des Energieverbrauchs ein Durchbruch, der die grundlegenden Ökonomien und die Machbarkeit von KI im großen Maßstab verändert. Ein einzelnes Lumai-System kann Dutzende von energiehungrigen GPUs ersetzen, was sich in einer signifikanten Verschiebung dessen niederschlägt, was innerhalb eines gegebenen Leistungsrahmens erreicht werden kann.

Es gibt auch eine Kostenkomponente: Die Baukosten von Rechenzentren spiegeln die Leistungskapazität wider, sodass ein rechenzentrums schwächeres Rechenzentrum weniger kostet. Die Reduzierung des Energieverbrauchs reduziert direkt die Kosten pro Token – was letztendlich die wirtschaftliche Tragfähigkeit von KI im großen Maßstab ermöglicht.

Wenn man in die Zukunft blickt, während die Branche über eine post-siliziumbasierte Ära spricht, wie sehen Sie die Entwicklung des optischen Computings in den nächsten zehn Jahren, und welche Rolle wird Lumai bei dieser Transition spielen?

Die post-siliziumbasierte Ära hat bereits begonnen, und sie findet gleichzeitig mit dem Übergang zur Inferenz-Ära und der anhaltenden Nachfrage nach mehr Leistung bei geringerem Kostenfaktor pro Token statt. Silizium wird natürlich weiter eine Rolle spielen, aber die Annahme, dass jede Generation von Rechenleistungsverbesserungen aus der Weiterentwicklung von Siliziumknoten resultiert, ist nicht länger glaubwürdig angesichts der Rate, mit der KI fortschreitet. Wir sehen optisches Computing in Schlüsselbereichen des Stacks eingesetzt, wo hochparallele, hochdurchsatzige Verarbeitung erforderlich ist.

Für Lumai ist der Fahrplan darauf ausgerichtet, die Dichte, Effizienz und Fähigkeiten des optischen Computings weiter voranzutreiben und dies in Rechenzentren auszurollen. Die Vision ist eine Welt, in der die Energiekosten für Intelligenz sinken und in der ein Megawatt-Maßstab-Rechenzentrum die gleiche Token-Menge generieren kann wie ein Gigawatt-Maßstab-Rechenzentrum heute.

Diese Zukunft ist keine ferne Spekulation. Wir haben das erste System gebaut, das beweist, dass optisches Computing im großen Maßstab funktioniert. Alles, was von hier aus kommt, ist Ingenieurskunst.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Lumai besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.