Interviews
Neetu Pathak, Co-Founder und CEO von Skymel – Interview-Serie

Neetu Pathak, Co-Founder und CEO von Skymel, leitet das Unternehmen bei der Revolutionierung der AI-Inferenz mit seiner innovativen NeuroSplit™-Technologie. Neben CTO Sushant Tripathy treibt sie die Mission von Skymel voran, die Leistung von AI-Anwendungen zu verbessern, während die Rechenkosten reduziert werden.
NeuroSplit™ ist eine adaptive Inferenztechnologie, die AI-Workloads dynamisch zwischen Endgeräten und Cloud-Servern verteilt. Dieser Ansatz nutzt die untätigen Rechenressourcen auf Benutzergeräten, um die Kosten für die Cloud-Infrastruktur um bis zu 60% zu reduzieren, die Inferenzgeschwindigkeit zu beschleunigen, die Datenprivatsphäre zu gewährleisten und eine nahtlose Skalierbarkeit zu ermöglichen.
Durch die Optimierung der lokalen Rechenleistung ermöglicht NeuroSplit™ es AI-Anwendungen, auch auf älteren GPUs effizient zu laufen, was die Kosten senkt und die Benutzererfahrung verbessert.
Was hat Sie dazu inspiriert, Skymel mitzubegründen, und welche wichtigen Herausforderungen in der AI-Infrastruktur wollten Sie mit NeuroSplit lösen?
Die Inspiration für Skymel kam aus der Konvergenz unserer komplementären Erfahrungen. Während seiner Zeit bei Google entdeckte mein Mitgründer Sushant Tripathy, dass es eine enorme Menge an untätigen Rechenressourcen auf Endgeräten gab, aber die meisten Unternehmen diese Ressourcen nicht effektiv nutzen konnten, weil sie die komplexen technischen Herausforderungen nicht bewältigen konnten, ohne die Benutzererfahrung zu beeinträchtigen.
Meine Erfahrung bei Redis gab mir tiefere Einblicke in die Bedeutung von Latenz für Unternehmen. Als AI-Anwendungen immer häufiger wurden, wurde klar, dass wir die Verarbeitung näher an den Ort bringen mussten, an dem die Daten erstellt wurden, anstatt sie ständig zu den Rechenzentren zu transportieren.
Das war der Moment, als Sushant und ich erkannten, dass die Zukunft nicht darin bestand, zwischen lokaler oder Cloud-Verarbeitung zu wählen – sondern darin, eine intelligente Technologie zu schaffen, die nahtlos zwischen lokaler, Cloud- oder Hybrid-Verarbeitung wechseln konnte, basierend auf jedem spezifischen Inferenzanfrage. Diese Erkenntnis führte uns dazu, Skymel zu gründen und NeuroSplit zu entwickeln, um die traditionellen Infrastruktur-Einschränkungen zu überwinden, die die AI-Innovation behinderten.
Können Sie erklären, wie NeuroSplit dynamisch Rechenressourcen optimiert, während die Benutzerprivatsphäre und Leistung erhalten bleiben?
Einer der größten Nachteile der lokalen AI-Inferenz war ihre statische Rechenanforderung – traditionell erforderte das Ausführen eines AI-Modells die gleichen Rechenressourcen, unabhängig von den Gerätebedingungen oder Benutzerverhaltensweisen. Dieser einheitsbasierte Ansatz ignorierte die Realität, dass Geräte unterschiedliche Hardwarefähigkeiten haben, von verschiedenen Chips (GPU, NPU, CPU, XPU) bis hin zu unterschiedlichen Netzwerkbandbreiten, und Benutzer unterschiedliche Verhaltensmuster haben, wie z.B. Anwendungsverwendung und Ladeverhalten.
NeuroSplit überwacht kontinuierlich verschiedene Geräte-Telemetrie – von Hardwarefähigkeiten bis hin zu aktuellen Ressourcennutzung, Batteriezustand und Netzwerkbedingungen. Wir berücksichtigen auch Benutzerverhaltensmuster, wie z.B. wie viele andere Anwendungen ausgeführt werden und typische Geräteverwendungsmuster. Diese umfassende Überwachung ermöglicht es NeuroSplit, dynamisch zu bestimmen, wie viel Inferenzrechnung sicher auf dem Endgerät ausgeführt werden kann, während gleichzeitig die wichtigsten Leistungsindikatoren für Entwickler optimiert werden.
Wenn die Datenprivatsphäre von entscheidender Bedeutung ist, stellt NeuroSplit sicher, dass rohe Daten das Gerät nie verlassen, sensible Informationen lokal verarbeitet und gleichzeitig die optimale Leistung aufrechterhält. Unsere Fähigkeit, AI-Modelle intelligent zu splitten, zu trimmen oder zu entkoppeln, ermöglicht es uns, 50-100 AI-Stummmodelle im Speicherplatz von nur einem quantifizierten Modell auf einem Endgerät unterzubringen. In praktischen Begriffen bedeutet dies, dass Benutzer erheblich mehr AI-gesteuerte Anwendungen gleichzeitig ausführen können, sensible Daten lokal verarbeiten, im Vergleich zu traditionellen statischen Rechenansätzen.
Was sind die Hauptvorteile von NeuroSplits adaptiver Inferenz für AI-Unternehmen, insbesondere für diejenigen, die mit älterer GPU-Technologie arbeiten?
NeuroSplit bietet AI-Unternehmen drei transformative Vorteile. Erstens reduziert es die Infrastrukturkosten dramatisch durch zwei Mechanismen: Unternehmen können billigeren, älteren GPUs effektiv nutzen, und unsere einzigartige Fähigkeit, sowohl vollständige als auch Stummmodelle auf Cloud-GPUs zu platzieren, ermöglicht eine wesentlich höhere GPU-Auslastung. Zum Beispiel kann eine Anwendung, die normalerweise mehrere NVIDIA A100s zu 2,74 $ pro Stunde erfordert, jetzt auf einem einzigen A100 oder mehreren V100s zu nur 0,83 $ pro Stunde ausgeführt werden.
Zweitens verbessert es die Leistung erheblich, indem es die initialen Rohdaten direkt auf den Benutzergeräten verarbeitet. Dies bedeutet, dass die Daten, die letztendlich in die Cloud gelangen, viel kleiner sind, was die Netzwerklatenz erheblich reduziert, während die Genauigkeit aufrechterhalten wird. Dieser hybride Ansatz bietet Unternehmen das Beste aus beiden Welten – die Geschwindigkeit der lokalen Verarbeitung mit der Leistung der Cloud-Verarbeitung.
Drittens hilft es Unternehmen, eine starke Benutzerprivatsphäre aufrechtzuerhalten, ohne die Leistung zu beeinträchtigen, indem es die sensible anfängliche Datenverarbeitung auf dem Endgerät des Benutzers durchführt. Dies ist immer wichtiger, da Datenschutzbestimmungen strenger werden und Benutzer datenschutzbewusster.
Wie reduziert Skymels Lösung die Kosten für AI-Inferenz, ohne die Modellkomplexität oder -genauigkeit zu beeinträchtigen?
Erstens verteilen wir einzelne AI-Modelle, um die Rechnung zwischen den Benutzergeräten und der Cloud aufzuteilen. Der erste Teil läuft auf dem Gerät des Benutzers, wobei 5% bis 100% der gesamten Rechnung abhängig von den verfügbaren Geräteressourcen abgedeckt werden. Nur die verbleibende Rechnung muss auf Cloud-GPUs verarbeitet werden.
Diese Aufteilung bedeutet, dass Cloud-GPUs eine reduzierte Rechenlast bewältigen müssen – wenn ein Modell ursprünglich eine volle A100-GPU erforderte, benötigt die gleiche Arbeitslast nach der Aufteilung möglicherweise nur 30-40% der GPU-Kapazität. Dies ermöglicht es Unternehmen, kostengünstigere GPU-Instanzen wie die V100 zu nutzen.
Zweitens optimiert NeuroSplit die GPU-Auslastung in der Cloud. Durch die effiziente Anordnung von vollständigen Modellen und Stummmodellen (den verbleibenden Teilen von geteilten Modellen) auf dem gleichen Cloud-GPU erzielen wir eine wesentlich höhere Auslastungsrate im Vergleich zu herkömmlichen Ansätzen. Dies bedeutet, dass mehr Modelle gleichzeitig auf dem gleichen Cloud-GPU ausgeführt werden können, was die Kosten pro Inferenz weiter reduziert.
Was unterscheidet Skymels hybriden (lokalen + Cloud-)Ansatz von anderen AI-Infrastrukturlösungen auf dem Markt?
Die AI-Landschaft befindet sich an einem faszinierenden Wendepunkt. Während Apple, Samsung und Qualcomm die Macht von Hybrid-AI durch ihre Ökosystemfunktionen demonstrieren, bleiben diese in geschlossenen Gärten. Aber AI sollte nicht durch das Endgerät eingeschränkt sein, das jemand zufällig verwendet.
NeuroSplit ist fundamental geräteunabhängig, cloudunabhängig und neuralen Netzwerken unabhängig. Dies bedeutet, dass Entwickler endlich konsistente AI-Erlebnisse liefern können, unabhängig davon, ob ihre Benutzer ein iPhone, ein Android-Gerät oder einen Laptop verwenden – oder ob sie AWS, Azure oder Google Cloud verwenden.
Denken Sie darüber nach, was dies für Entwickler bedeutet. Sie können ihre AI-Anwendung einmal erstellen und wissen, dass sie intelligent über jedes Gerät, jede Cloud und jedes neuronale Netzwerkarchitektur adaptiert. Keine Notwendigkeit, unterschiedliche Versionen für verschiedene Plattformen zu erstellen oder Funktionen basierend auf Gerätefähigkeiten zu kompromittieren.
Wir bringen unternehmensweite Hybrid-AI-Fähigkeiten aus geschlossenen Gärten und machen sie allgemein zugänglich. Wenn AI zum Mittelpunkt jeder Anwendung wird, ist diese Art von Flexibilität und Konsistenz nicht nur ein Vorteil – sie ist für die Innovation unerlässlich.
Wie ergänzt der Orchestrator-Agent NeuroSplit, und welche Rolle spielt er bei der Umgestaltung von AI-Entwicklungsstrategien?
Der Orchestrator-Agent (OA) und NeuroSplit arbeiten zusammen, um ein selbstoptimierendes AI-Entwicklungssystem zu schaffen:
1. Entwickler setzen die Grenzen:
- Einschränkungen: zulässige Modelle, Versionen, Cloud-Anbieter, Zonen, Compliance-Regeln
- Ziele: Ziel-Latenz, Kostenlimits, Leistungsanforderungen, Datenschutzbedürfnisse
2. OA arbeitet innerhalb dieser Einschränkungen, um die Ziele zu erreichen:
- Entscheidet, welche Modelle/APIs für jeden Anfrage verwendet werden sollen
- Passt die Entwicklungsstrategien anhand der realen Leistung an
- Treibt Kompromisse, um die festgelegten Ziele zu optimieren
- Kann sofort neu konfiguriert werden, wenn sich die Bedürfnisse ändern
3. NeuroSplit führt die Entscheidungen des OA aus:
- Verwendet Echtzeit-Geräte-Telemetrie, um die Ausführung zu optimieren
- Teilt die Verarbeitung zwischen Gerät und Cloud auf, wenn dies vorteilhaft ist
- Stellt sicher, dass jede Inferenz unter den aktuellen Bedingungen optimal ausgeführt wird
Es ist, als hätten Sie ein AI-System, das sich autonom innerhalb Ihrer festgelegten Regeln und Ziele optimiert, anstatt eine manuelle Optimierung für jeden Szenario zu erfordern.
Wie sehen Sie die Zukunft der AI-Entwicklung, und welche Rolle wird der Orchestrator-Agent bei der Umgestaltung der AI-Entwicklung über Branchen hinweg spielen?
Es löst drei kritische Herausforderungen, die die AI-Adoption und -Innovation behindert haben.
Erstens ermöglicht es Unternehmen, mit den neuesten AI-Fortschritten Schritt zu halten. Mit dem Orchestrator-Agent können Sie sofort die neuesten Modelle und Techniken nutzen, ohne Ihre Infrastruktur neu aufbauen zu müssen. Dies ist ein wesentlicher Wettbewerbsvorteil in einer Welt, in der die AI-Innovation mit atemberaubender Geschwindigkeit voranschreitet.
Zweitens ermöglicht es die dynamische, pro-Anfrage-Optimierung der AI-Modellauswahl. Der Orchestrator-Agent kann intelligenterweise Modelle aus dem riesigen Ökosystem von Optionen auswählen, um die besten möglichen Ergebnisse für jede Benutzerinteraktion zu liefern. Zum Beispiel könnte ein Kundenservice-AI ein spezialisiertes Modell für technische Fragen und ein anderes für Abrechnungsanfragen verwenden, um bessere Ergebnisse für jeden Interaktionstyp zu liefern.
Drittens maximiert es die Leistung, während es die Kosten minimiert. Der Agent balanciert automatisch zwischen der Ausführung von AI auf dem Benutzergerät oder in der Cloud, basierend auf dem, was in diesem Moment am sinnvollsten ist. Wenn die Privatsphäre wichtig ist, verarbeitet es die Daten lokal. Wenn zusätzliche Rechenleistung erforderlich ist, nutzt es die Cloud. All dies geschieht im Hintergrund, um ein reibungsloses Erlebnis für Benutzer zu schaffen, während es Ressourcen für Unternehmen optimiert.
Aber was den Orchestrator-Agent wirklich auszeichnet, ist, wie er es Unternehmen ermöglicht, nächste Generationen von hyperpersonalisierten Erlebnissen für ihre Benutzer zu schaffen. Nehmen Sie eine Lernplattform – mit unserer Technologie können sie ein System aufbauen, das automatisch ihre Lehrmethode anpasst, basierend auf dem Verständnisniveau jedes Schülers. Wenn ein Benutzer nach “Machine Learning” sucht, zeigt die Plattform nicht nur allgemeine Ergebnisse an – sie kann sofort beurteilen, wie gut der Benutzer bereits versteht, und Erklärungen anpassen, die auf Konzepten basieren, die der Benutzer bereits kennt.
Letztendlich repräsentiert der Orchestrator-Agent die Zukunft der AI-Entwicklung – einen Wechsel von statischer, monolithischer AI-Infrastruktur zu dynamischer, adaptiver, selbstoptimierender AI-Orchestrierung. Es geht nicht nur darum, die AI-Entwicklung zu erleichtern – es geht darum, ganz neue Klassen von AI-Anwendungen zu ermöglichen.
Welche Art von Feedback haben Sie bisher von Unternehmen erhalten, die an der privaten Beta-Version des Orchestrator-Agents teilgenommen haben?
Das Feedback von unseren privaten Beta-Teilnehmern war großartig! Unternehmen sind begeistert, dass sie endlich von Infrastruktur-Sperren befreit werden können, sei es von proprietären Modellen oder Hosting-Diensten. Die Fähigkeit, jede Entwicklungsentscheidung zukunftssicher zu machen, war ein Game-Changer, der die gefürchteten Monate der Neukonfiguration eliminierte, wenn der Ansatz geändert wurde.
Unsere NeuroSplit-Leistungsresultate waren nichts kurz von bemerkenswert – wir können es kaum erwarten, die Daten bald öffentlich zu teilen. Was besonders aufregend ist, ist, wie das Konzept der adaptiven AI-Entwicklung die Vorstellungskraft der Menschen erobert hat. Die Tatsache, dass AI sich selbst bereitstellt, klingt futuristisch und nicht wie etwas, das sie jetzt erwarten, also sind die Menschen allein durch die technologische Fortschrittlichkeit begeistert von den Möglichkeiten und neuen Märkten, die sie in der Zukunft schaffen könnte.
Angesichts der raschen Fortschritte im Bereich der generativen AI, was sehen Sie als die nächsten großen Hürden für die AI-Infrastruktur, und wie plant Skymel, diese anzugehen?
Wir steuern auf eine Zukunft zu, die die meisten noch nicht vollständig erfasst haben: Es wird kein einzelnes dominierendes AI-Modell geben, sondern Milliarden davon. Selbst wenn wir das leistungsstärkste allgemeine AI-Modell vorstellbaren können, werden wir immer noch personalisierte Versionen für jeden Menschen auf der Erde benötigen, jedes davon an die einzigartigen Kontexte, Vorlieben und Bedürfnisse angepasst. Das bedeutet mindestens 8 Milliarden Modelle, basierend auf der Weltbevölkerung.
Dies markiert eine revolutionäre Veränderung gegenüber dem heutigen einheitsbasierten Ansatz. Die Zukunft erfordert eine intelligente Infrastruktur, die Milliarden von Modellen bewältigen kann. Bei Skymel arbeiten wir nicht nur an der Lösung der heutigen Entwicklungsprobleme – unser Technologieroadmap baut bereits die Grundlage für das, was als Nächstes kommt.
Wie sehen Sie die Evolution der AI-Infrastruktur in den nächsten fünf Jahren, und welche Rolle sehen Sie Skymel in dieser Evolution?
Die AI-Infrastrukturlandschaft wird eine grundlegende Veränderung erfahren. Während heute der Fokus auf die Skalierung generischer großer Sprachmodelle in der Cloud liegt, wird die nächsten fünf Jahre AI tief personalisiert und kontextbewusst machen. Dies ist nicht nur eine Feinabstimmung – es ist AI, die sich an spezifische Benutzer, Geräte und Situationen in Echtzeit anpasst.
Diese Veränderung schafft zwei große Infrastrukturherausforderungen. Erstens wird der traditionelle Ansatz, alles in zentralisierten Rechenzentren auszuführen, technisch und wirtschaftlich untragbar. Zweitens bedeutet die zunehmende Komplexität von AI-Anwendungen, dass wir eine Infrastruktur benötigen, die dynamisch über mehrere Modelle, Geräte und Rechenstandorte optimieren kann.
Bei Skymel bauen wir eine Infrastruktur, die speziell diese Herausforderungen angeht. Unsere Technologie ermöglicht es AI, an dem Ort zu laufen, an dem es am meisten Sinn ergibt – sei es auf dem Gerät, auf dem die Daten generiert werden, in der Cloud, wo mehr Rechenleistung verfügbar ist, oder intelligent zwischen beiden aufgeteilt. Wichtiger noch, sie passt diese Entscheidungen in Echtzeit an, basierend auf sich ändernden Bedingungen und Anforderungen.
Wenn man in die Zukunft blickt, werden erfolgreiche AI-Anwendungen nicht durch die Größe ihrer Modelle oder die Menge an Rechenleistung, die sie nutzen, definiert. Sie werden durch ihre Fähigkeit definiert, personalisierte, responsive Erlebnisse zu liefern, während sie Ressourcen effizient verwalten. Unser Ziel ist es, diese Art von intelligenter Optimierung für jede AI-Anwendung zugänglich zu machen, unabhängig von Größe oder Komplexität.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Skymel besuchen.












