Interviews
Manuel Romero, Mitgründer und wissenschaftlicher Leiter von Maisa – Interviewreihe

Manuel Romero, Mitgründer und wissenschaftlicher Leiter von Maisa, ist KI-Forscher und -Ingenieur mit dem Fokus auf die Entwicklung zuverlässiger, unternehmensgerechter KI-Systeme. Er gründete Maisa 2024 mit dem Ziel, verantwortungsvolle KI zu entwickeln, die komplexe Geschäftsprozesse transparent und kontrolliert ausführen kann. Vor seiner Zeit bei Maisa bekleidete Romero leitende Positionen im Bereich KI-Engineering und maschinelles Lernen bei Unternehmen wie Clibrain und Narrativa, wo er sich auf die Verarbeitung natürlicher Sprache und groß angelegte KI-Systeme spezialisierte. Zuvor war er als Full-Stack-Softwareentwickler und DevOps-Spezialist tätig, bevor er in die fortgeschrittene KI-Forschung und -Entwicklung wechselte und sich aktiv im Open-Source-KI-Ökosystem engagierte.
Maisa AI Maisa entwickelt autonome „digitale Mitarbeiter“ – KI-Agenten, die komplexe Unternehmensprozesse automatisieren und gleichzeitig Nachvollziehbarkeit, Governance und Zuverlässigkeit gewährleisten. Die Plattform ermöglicht es Unternehmen, KI-Agenten mithilfe natürlicher Sprache zu erstellen und einzusetzen. So lässt sich die Automatisierung interner Systeme und Datenquellen ohne umfangreiche Programmierung realisieren. Durch den Fokus auf verifizierbares Schließen und strukturierte Ausführung will Maisa gängige Einschränkungen generativer KI-Systeme überwinden und Unternehmen dabei unterstützen, autonome KI sicher und skalierbar einzuführen.
Sie haben sich oft darauf konzentriert, das tieferliegende „Warum“ hinter KI-Systemen zu verstehen. Was hat Sie aus technischer Sicht dazu bewogen, Maisa im Jahr 2024 mitzugründen, und welche Lücke in der KI-Architektur von Unternehmen wurde Ihrer Meinung nach nicht geschlossen?
Die Motivation für die Gründung von Maisa entstand aus der Erkenntnis, dass die meisten KI-Lösungen für Unternehmen auf Modellen und nicht auf Systemen basieren.
Während des Booms der generativen KI konzentrierten sich viele Unternehmen auf die Integration großer Sprachmodelle in bestehende Arbeitsabläufe. Diese Systeme waren jedoch oft fehleranfällig, intransparent und schwer in großem Umfang zu betreiben. Ihnen fehlte Folgendes:
- deterministische Ausführung, wo es darauf ankam.
- starke Beobachtbarkeit, Rückverfolgbarkeit
- Reproduzierbarkeit
Die von uns festgestellte Lücke bestand im Fehlen einer echten KI-Infrastruktur für Unternehmen. Zwar entwickelten Unternehmen Anwendungen auf Basis von LLM-APIs, doch es fehlte ihnen etwas Vergleichbares zu einer Computerarchitektur für Wissensarbeit.
Maisa wurde gegründet, um diese Lücke zu schließen, indem eine Architektur entworfen wurde, die sich um die Knowledge Processing Unit (KPU) dreht, ein System, das es KI ermöglicht, zuverlässig innerhalb realer Unternehmensabläufe zu arbeiten.
Sie haben vor der Gründung von Maisa im Bereich fortgeschrittener natürlicher Sprachverarbeitung und generativer Systeme gearbeitet. Wie haben diese Erfahrungen die architektonischen Entscheidungen hinter der Plattform beeinflusst?
Meine Erfahrung in der NLP und NLG, insbesondere im Bereich des Trainings und Vortrainings von Sprachmodellen und später großer Sprachmodelle (Hunderte davon), hat mir beim Aufbau realer Systeme darauf eine wichtige Erkenntnis vermittelt: Die Transformer-Architektur ist zwar extrem leistungsstark, weist aber mindestens drei grundlegende Einschränkungen auf, die für einen zuverlässigen Produktiveinsatz behoben werden müssen.
Das erste sind Halluzinationen. Diese Modelle generieren Texte probabilistisch und können Ausgaben erzeugen, die sich korrekt anhören, aber nicht auf verifizierten Informationen beruhen.
Der zweite Faktor sind Kontextbeschränkungen. Selbst bei größeren Kontextfenstern operieren Modelle innerhalb eines begrenzten Tokenraums, was es schwierig macht, über große oder komplexe Wissensbestände hinweg zu argumentieren.
Der dritte Faktor sind aktuelle Informationen. Vortrainierte Modelle stellen eine Momentaufnahme des Wissensstands zum Zeitpunkt des Trainings dar, während Unternehmensumgebungen Systeme erfordern, die in der Lage sind, ständig wechselnde Informationen zu verarbeiten.
Die Berücksichtigung dieser Einschränkungen prägte viele der architektonischen Entscheidungen hinter Maisa. Anstatt uns allein auf das Modell zu verlassen, konzentrierten wir uns auf den Aufbau eines Systems, das strukturierten Zugriff auf Wissen, Validierungsmechanismen und kontrollierte Ausführung bietet, damit KI zuverlässig in realen Unternehmensabläufen eingesetzt werden kann.
Viele Unternehmen experimentieren mit generativer KI, tun sich aber schwer, über Pilotprojekte hinauszukommen. Was ist aus systemtechnischer Sicht der Hauptgrund dafür, dass die Skalierung in so vielen Organisationen scheitert?
Viele Unternehmen tun sich schwer, über Pilotprojekte mit generativer KI hinauszukommen, da die meisten Implementierungen eher als Experimente denn als robuste Systeme konzipiert sind. Frühe Prototypen setzen oft auf schnelle Entwicklung, einfache Orchestrierung und simple Datenabfrage-Pipelines. Diese können zwar einen Nutzen aufzeigen, bieten aber nicht die für Produktionsumgebungen erforderliche Zuverlässigkeit, Beobachtbarkeit und Kontrolle. Beim Versuch, diese Systeme zu skalieren, stoßen Unternehmen auf Probleme wie inkonsistente Ergebnisse, mangelnde Nachverfolgbarkeit, Schwierigkeiten bei der Integration in bestehende Arbeitsabläufe und eingeschränkte Kontrollmöglichkeiten über das Verhalten der KI. Im Kern liegt das Problem darin, dass große Sprachmodelle probabilistische Generatoren sind, während Unternehmensprozesse vorhersagbares und nachvollziehbares Verhalten erfordern. Ohne eine Architektur, die Struktur für Schlussfolgerung, Validierung, Ausführung und Überwachung bietet, bleiben generative KI-Systeme über einzelne Anwendungsfälle hinaus schwer skalierbar.
Die digitalen Mitarbeiter von Maisa sind so konzipiert, dass sie überprüfbar und strukturiert arbeiten und nicht rein probabilistisch. Was bedeutet das konkret für Unternehmen, die KI für den Produktiveinsatz evaluieren?
Wenn wir sagen, dass die digitalen Mitarbeiter von Maisa überprüfbar und strukturiert und nicht rein probabilistisch arbeiten, meinen wir, dass die KI in einem kontrollierten System agiert, in dem ihre Aktionen und Schlussfolgerungen nachvollziehbar und steuerbar sind. Anstatt einem Modell freie Hand bei der Generierung von Ausgaben und Entscheidungen zu lassen, strukturiert das System die Interaktion der KI mit Daten, Tools und Workflows. Jeder Prozessschritt kann protokolliert, überprüft und validiert werden, und Aktionen werden über definierte Schnittstellen und nicht direkt aus der Modellausgabe ausgeführt. Für Unternehmen bedeutet dies, dass KI-Systeme mit größerer Sicherheit überwacht, geprüft und in kritische Prozesse integriert werden können. Dadurch wandelt sich die KI von einem undurchsichtigen Assistenten zu einem System, dessen Verhalten in Produktionsumgebungen verstanden, gesteuert und als vertrauenswürdig eingestuft werden kann.
Wie unterscheidet sich die Wissensverarbeitungseinheit als deren Architektur von einer typischen Orchestrierungsschicht oder Workflow-Engine, die auf großen Sprachmodellen basiert?
Die Wissensverarbeitungseinheit (KPU) unterscheidet sich von typischen Orchestrierungsschichten, da sie den gesamten Lebenszyklus KI-gestützter Schlussfolgerungen verwaltet, anstatt lediglich Eingabeaufforderungen und Modellaufrufe zu koordinieren. Die meisten Orchestrierungsframeworks fungieren als Workflow-Manager, die Schritte wie Wissensabruf, Eingabeaufforderung und Werkzeugausführung miteinander verknüpfen. Die KPU arbeitet auf einer tieferen Architekturebene, indem sie den Wissenszugriff, die Schlussfolgerungsprozesse und die Ausführung von Aktionen innerhalb des Systems strukturiert. Sie behandelt die Wissensverarbeitung als zentrale Rechenschicht und integriert Speicher, Validierung und kontrollierte Ausführung, sodass KI zuverlässig in komplexen Unternehmensworkflows arbeiten kann, anstatt lediglich Antworten zu generieren.
In regulierten Branchen ist die Risikotoleranz gering. Welche konkreten Designentscheidungen haben Sie getroffen, um sicherzustellen, dass die KI-Ergebnisse zuverlässig bleiben und sich Fehler nicht in komplexen Arbeitsabläufen ausbreiten?
In regulierten Branchen sind Zuverlässigkeit und Kontrolle unerlässlich. Daher haben wir das System mit mehreren Sicherheitsvorkehrungen ausgestattet, um die Vertrauenswürdigkeit der KI-Ergebnisse zu gewährleisten. Ein zentrales Prinzip ist die strukturierte Ausführung: Die KI kann kritische Aktionen nicht direkt auslösen, ohne kontrollierte Schnittstellen zu durchlaufen. Zusätzlich integrieren wir Validierungsebenen, die die Modellausgaben anhand von Schemata, Regeln oder sekundären Mechanismen prüfen, bevor sie akzeptiert werden. Darüber hinaus gewährleistet das System vollständige Beobachtbarkeit, indem es Entscheidungsschritte, Interaktionen mit den Tools und Entscheidungen protokolliert, sodass diese nachvollziehbar und auditierbar sind. Diese Designentscheidungen tragen gemeinsam dazu bei, die Ausbreitung von Fehlern in Arbeitsabläufen zu verhindern und ermöglichen es Unternehmen, KI-Systeme mit der in regulierten Umgebungen erforderlichen Zuverlässigkeit und Governance zu betreiben.
Was sind die überzeugendsten frühen Anwendungsfälle, in denen Sie beobachtet haben, wie digitale Mitarbeiter von geführter Unterstützung zu einer vollständig betriebsbereiten, KI-gesteuerten Ausführung übergegangen sind?
Einige der überzeugendsten frühen Anwendungsfälle finden sich in wissensintensiven Arbeitsabläufen, in denen die Prozesse zwar klar definiert sind, aber dennoch umfangreiche Analysen und Entscheidungen erfordern. In Bereichen wie Compliance-Prüfungen, technischem Support und internem Wissensmanagement können digitale Mitarbeiter über die reine Unterstützung von Menschen hinausgehen und strukturierte Aufgaben von Anfang bis Ende ausführen. Sie können große Mengen interner Informationen abrufen und analysieren, definierte Verfahren anwenden, über kontrollierte Tools mit Unternehmenssystemen interagieren und Ergebnisse generieren, die direkt in operative Arbeitsabläufe einfließen. Der entscheidende Durchbruch erfolgt, wenn die KI nicht nur Vorschläge generiert, sondern auch in der Lage ist, definierte Aktionen innerhalb eines gesteuerten Systems zuverlässig auszuführen. Dadurch können Unternehmen Teile komplexer Wissensarbeit automatisieren, anstatt sie nur zu ergänzen.
Angesichts der weltweit zunehmenden regulatorischen Kontrollen im Bereich KI: Wie wird sich Ihrer Meinung nach die Kerninfrastruktur für KI weiterentwickeln, um die Compliance-Anforderungen zu erfüllen, ohne die Innovation einzuschränken?
Mit zunehmender regulatorischer Kontrolle von KI wird sich meiner Meinung nach die Architektur von Systemen verlagern, die lediglich APIs von Modellanbietern aufrufen und deren Ergebnisse blind vertrauen. Unternehmen und Regulierungsbehörden werden vermehrt Systeme fordern, deren KI-Verhalten beobachtbar, nachvollziehbar und kontrollierbar ist. Hier gewinnen Architekturen wie die Knowledge Processing Unit (KPU) an Bedeutung. Diese Architektur ermöglicht es Organisationen, Kontrollen durchzusetzen, Entscheidungen nachzuverfolgen und die Zuverlässigkeit von KI-Ergebnissen sicherzustellen, bevor diese reale Prozesse beeinflussen. Ich gehe davon aus, dass solche Systeme sich langfristig als Standardgrundlage für eine vertrauenswürdige KI-Infrastruktur etablieren werden.
Sie haben neben Ihrer technischen Arbeit auch über Ethik und Verantwortlichkeit gesprochen. Wie beeinflussen diese Perspektiven Ihre Herangehensweise an die Entwicklung transparenter KI-Systeme?
Ethik und Verantwortlichkeit fließen für mich direkt in die Systemgestaltung ein. Wenn KI-Systeme in reale Arbeitsabläufe eingebunden werden sollen, dürfen sie nicht als undurchsichtige Blackboxen fungieren, deren Verhalten weder überprüft noch verstanden werden kann. Diese Sichtweise prägt meinen Ansatz beim Aufbau von KI-Systemen maßgeblich. Transparenz, Nachvollziehbarkeit und menschliche Kontrolle müssen von Anfang an in die Architektur integriert sein. Das bedeutet, dass Entscheidungsprozesse nachvollziehbar, Entscheidungen überprüfbar und Aktionen durch kontrollierte Mechanismen ausgeführt werden können. Sind diese Prinzipien auf Infrastrukturebene verankert, werden KI-Systeme nicht nur vertrauenswürdiger, sondern ermöglichen es Organisationen auch, verantwortungsvoller zu agieren.
Mit Blick auf die Zukunft: Glauben Sie, dass die Infrastruktur für agentenbasierte KI eine ebenso grundlegende Bedeutung erlangen wird wie die Cloud-Infrastruktur im letzten Jahrzehnt – und was muss technisch geschehen, damit dieser Wandel Realität werden kann?
Ich bin überzeugt, dass agentenbasierte KI-Infrastruktur das Potenzial hat, sich ebenso grundlegend zu entwickeln wie Cloud-Infrastruktur im letzten Jahrzehnt. Da Unternehmen zunehmend komplexe Wissensarbeit automatisieren wollen, benötigen sie Systeme, die logisches Denken, Speicherung und Ausführung über viele Aufgaben und Datenquellen hinweg zuverlässig koordinieren können. Damit dieser Wandel jedoch gelingen kann, muss die zugrundeliegende Architektur über einfache Modellintegrationen hinauswachsen. Wir brauchen eine Infrastruktur, die strukturiertes Denken, zuverlässigen Zugriff auf Unternehmenswissen, umfassende Beobachtbarkeit und die kontrollierte Ausführung von Aktionen ermöglicht. Sind diese Fähigkeiten im Kernsystem integriert, kann sich agentenbasierte KI von experimentellen Werkzeugen zu einer verlässlichen Infrastruktur entwickeln, auf die sich Unternehmen für den Betrieb kritischer Systeme verlassen.
Vielen Dank für das tolle Interview, Leser, die mehr erfahren möchten, sollten vorbeischauen Maisa AI.












