Interviews
Lin Qiao, CEO & Co-Founder von Fireworks AI – Interview-Reihe

Lin Qiao war früher Leiter von Metas PyTorch und ist Co-Founder und CEO von Fireworks AI. Fireworks AI ist eine Produktions-AI-Plattform, die für Entwickler entwickelt wurde. Fireworks arbeitet mit den weltweit führenden generativen AI-Forschern zusammen, um die besten Modelle mit den schnellsten Geschwindigkeiten bereitzustellen. Fireworks AI hat kürzlich eine 25-Millionen-Dollar-Serie-A-Finanzierung erhalten.
Was hat Sie ursprünglich zur Informatik hingezogen?
Mein Vater war ein sehr erfahrener Maschinenbauingenieur in einer Werft, wo er Frachtschiffe von Grund auf baute. Im Alter von etwa 10 Jahren lernte ich, die präzisen Winkel und Maße von Schiffsplänen zu lesen, und ich liebte es.
Ich war sehr an STEM-Themen interessiert, beginnend in der Mittelschule – alles, was mit Mathematik, Physik und Chemie zu tun hatte, habe ich verschlungen. Eine meiner Aufgaben in der High School bestand darin, BASIC-Programmierung zu lernen, und ich programmierte ein Spiel über eine Schlange, die ihren eigenen Schwanz fraß. Danach wusste ich, dass die Informatik meine Zukunft war.
Während Ihrer Zeit bei Meta haben Sie über 300 weltklasse-Entwickler in AI-Frameworks und -Plattformen geleitet, wo Sie Caffe2 und später PyTorch entwickelt und bereitgestellt haben. Was waren einige Ihrer wichtigsten Erkenntnisse aus dieser Erfahrung?
Große Technologieunternehmen wie Meta sind immer fünf oder mehr Jahre vorne. Als ich 2015 zu Meta kam, waren wir am Anfang unserer AI-Reise – wir wechselten von CPUs zu GPUs. Wir mussten die AI-Infrastruktur von Grund auf neu entwerfen. Modelle wie Caffe2 waren bahnbrechend, als sie entwickelt wurden, aber die AI entwickelte sich so schnell, dass sie schnell veraltet waren. Wir entwickelten PyTorch und das gesamte System darum herum als Lösung.
PyTorch ist der Ort, an dem ich gelernt habe, welche der größten Herausforderungen Entwickler bei der Entwicklung von AI haben. Die erste Herausforderung besteht darin, eine stabile und zuverlässige Modellarchitektur zu finden, die niedrige Latenz und Flexibilität aufweist, damit Modelle skaliert werden können. Die zweite Herausforderung ist die Gesamtkosten, damit Unternehmen nicht bankrott gehen, wenn sie ihre Modelle vergrößern.
Meine Zeit bei Meta hat mir gezeigt, wie wichtig es ist, Modelle und Frameworks wie PyTorch Open-Source zu halten. Es fördert die Innovation. Wir hätten ohne Open-Source-Gelegenheiten für Iterationen nicht so viel bei PyTorch gewachsen. Außerdem ist es unmöglich, auf dem neuesten Stand der Forschung zu bleiben, ohne Zusammenarbeit.
Können Sie darüber sprechen, was Sie dazu bewogen hat, Fireworks AI zu gründen?
Ich bin über 20 Jahre in der Technologiebranche tätig und habe Wellen um Wellen von branchenweiten Veränderungen gesehen – von der Cloud zu mobilen Apps. Aber diese AI-Veränderung ist eine vollständige tektonische Neuausrichtung. Ich habe viele Unternehmen gesehen, die mit dieser Veränderung kämpften. Jeder wollte schnell vorankommen und AI an erste Stelle setzen, aber ihnen fehlten die Infrastruktur, die Ressourcen und das Talent, um es zu verwirklichen. Je mehr ich mit diesen Unternehmen sprach, desto mehr erkannte ich, dass ich diese Lücke im Markt schließen konnte.
Ich gründete Fireworks AI, um dieses Problem zu lösen und als Erweiterung der unglaublichen Arbeit, die wir bei PyTorch geleistet haben. Es inspirierte sogar unseren Namen! PyTorch ist die Fackel, die das Feuer hält – aber wir wollen, dass dieses Feuer überall verbreitet wird. Daher: Fireworks.
Ich bin immer leidenschaftlich daran interessiert, Technologie zu demokratisieren und sie für Entwickler unabhängig von ihren Ressourcen zugänglich und einfach zu machen. Deshalb haben wir eine so benutzerfreundliche Oberfläche und starke Support-Systeme, um die Erbauer zu befähigen, ihre Visionen zu verwirklichen.
Können Sie darüber sprechen, was entwicklerzentrierte KI ist und warum dies so wichtig ist?
Es ist einfach: “Entwickler-zentriert” bedeutet, die Bedürfnisse der KI-Entwickler zu priorisieren. Zum Beispiel: Erstellung von Tools, Communities und Prozessen, die Entwickler effizienter und autonomer machen.
Entwickler-zentrierte KI-Plattformen wie Fireworks sollten in bestehende Workflows und Technologie-Stacks integriert werden. Sie sollten es Entwicklern einfach machen, zu experimentieren, Fehler zu machen und ihre Arbeit zu verbessern. Sie sollten Feedback fördern, denn es sind die Entwickler selbst, die verstehen, was sie benötigen, um erfolgreich zu sein. Letztendlich geht es darum, mehr als nur eine Plattform zu sein. Es geht darum, eine Community zu sein – eine, in der sich Entwickler zusammenschließen können, um die Grenzen dessen zu erweitern, was mit KI möglich ist.
Die GenAI-Plattform, die Sie entwickelt haben, ist ein bedeutender Fortschritt für Entwickler, die mit großen Sprachmodellen (LLMs) arbeiten. Können Sie die einzigartigen Funktionen und Vorteile Ihrer Plattform erläutern, insbesondere im Vergleich zu bestehenden Lösungen?
Unsere gesamte Herangehensweise als AI-Produktionsplattform ist einzigartig, aber einige unserer besten Funktionen sind:
Effiziente Inferenz – Wir haben Fireworks AI für Effizienz und Geschwindigkeit entwickelt. Entwickler, die unsere Plattform verwenden, können ihre LLM-Anwendungen mit der niedrigsten möglichen Latenz und den niedrigsten Kosten ausführen. Wir erreichen dies mit den neuesten Modell- und Service-Optimierungstechniken, einschließlich Prompt-Caching, adaptiver Sharding, Quantisierung, kontinuierlichem Batching, FireAttention und mehr.
Erschwingliche Unterstützung für LoRA-optimierte Modelle – Wir bieten eine erschwingliche Dienstleistung für low-rank-adaptierte (LoRA) fein abgestimmte Modelle über Multi-Tenancy auf Basis-Modellen an. Dies bedeutet, dass Entwickler viele verschiedene Anwendungsfälle oder Variationen desselben Modells ausprobieren können, ohne bankrott zu gehen.
Einfache Schnittstellen und APIs – Unsere Schnittstellen und APIs sind einfach und leicht für Entwickler zu integrieren. Unsere APIs sind auch OpenAI-kompatibel, um den Wechsel zu erleichtern.
Vorhandene Modelle und fein abgestimmte Modelle – Wir bieten über 100 vorab trainierte Modelle an, die Entwickler sofort verwenden können. Wir decken die besten LLMs, Bildgenerierungsmodelle, Einbettungsmodelle usw. ab. Entwickler können jedoch auch ihre eigenen benutzerdefinierten Modelle hosten und bereitstellen. Wir bieten auch Selbstbedienungsfunktionen für die Feinabstimmung an, um Entwicklern zu helfen, diese benutzerdefinierten Modelle mit ihren eigenen Daten anzupassen.
Community-Zusammenarbeit: Wir glauben an die Open-Source-Ethik der Community-Zusammenarbeit. Unsere Plattform fördert (aber erfordert nicht) die Zusammenarbeit von Entwicklern, um ihre fein abgestimmten Modelle und ihre Beiträge zu einer wachsenden Sammlung von KI-Anlagen und -Wissen zu teilen. Jeder profitiert von der Erweiterung unseres kollektiven Fachwissens.
Können Sie die hybride Herangehensweise erläutern, die zwischen Modell-Parallelismus und Daten-Parallelismus angeboten wird?
Das Parallelisieren von Machine-Learning-Modellen verbessert die Effizienz und Geschwindigkeit des Modelltrainings und hilft Entwicklern, größere Modelle zu bewältigen, die ein einzelner GPU nicht verarbeiten kann.
Modell-Parallelismus beinhaltet die Aufteilung eines Modells in mehrere Teile und das Training jedes Teils auf separaten Prozessoren. Andererseits teilt Daten-Parallelismus Datensätze in Subsets auf und trainiert ein Modell auf jedem Subset gleichzeitig auf separaten Prozessoren. Eine hybride Herangehensweise kombiniert diese beiden Methoden. Modelle werden in separate Teile aufgeteilt, die jeweils auf verschiedenen Subsets von Daten trainiert werden, was die Effizienz, Skalierbarkeit und Flexibilität verbessert.
Fireworks AI wird von über 20.000 Entwicklern verwendet und dient derzeit über 60 Milliarden Token pro Tag. Welche Herausforderungen haben Sie bei der Skalierung Ihres Betriebs auf dieses Maßstab gefaced, und wie haben Sie sie überwunden?
Ich werde ehrlich sein, es gab viele hohe Berge, die wir seit der Gründung von Fireworks AI im Jahr 2022 überwinden mussten.
Unsere Kunden kamen zunächst zu uns, weil sie sehr niedrige Latenz unterstützten, da sie Anwendungen für Verbraucher, Prosumer oder andere Entwickler bauten – alle Zielgruppen, die schnelle Lösungen benötigen. Als die Anwendungen unserer Kunden jedoch schnell skalierten, erkannten sie, dass sie die typischen Kosten, die mit dieser Skalierung verbunden sind, nicht bezahlen konnten. Dann baten sie uns, ihnen zu helfen, die Gesamtkosten (TCO) zu senken, was wir auch taten. Dann wollten unsere Kunden von OpenAI zu OSS-Modellen wechseln und baten uns, eine gleichwertige oder sogar bessere Qualität als OpenAI bereitzustellen. Wir haben das auch geschafft.
Jeder Schritt in der Evolution unseres Produkts war ein schwieriges Problem, das wir lösen mussten, aber es bedeutete, dass die Bedürfnisse unserer Kunden Fireworks AI wirklich zu dem gemacht haben, was es heute ist: ein sehr schneller Inferenz-Motor mit niedrigem TCO. Außerdem bieten wir eine Auswahl an hochwertigen, sofort verwendbaren Modellen oder Feinabstimmungsdiensten für Entwickler, um ihre eigenen Modelle zu erstellen.
Angesichts der schnellen Fortschritte in KI und maschinellem Lernen sind ethische Überlegungen wichtiger denn je. Wie geht Fireworks AI mit Bedenken hinsichtlich Bias, Datenschutz und ethischer Nutzung von KI um?
Ich habe zwei teenage-Töchter, die genAI-Apps wie ChatGPT oft verwenden. Als Mutter mache ich mir Sorgen, dass sie irreführende oder unangemessene Inhalte finden, da die Branche gerade erst beginnt, das kritische Problem der Inhaltsicherheit zu lösen. Meta unternimmt viel mit dem Purple Llama-Projekt, und Stability AIs neue SD3-Modelle sind großartig. Beide Unternehmen arbeiten hart daran, Sicherheit in ihre neuen Llama3- und SD3-Modelle mit mehreren Schichten von Filtern zu bringen. Das Input-Output-Sicherheitsmodell Llama Guard wird auf unserer Plattform häufig verwendet, aber seine Verbreitung ist noch nicht so weit verbreitet wie bei anderen LLMs. Die Branche als Ganzes hat noch einen langen Weg vor sich, um Inhaltsicherheit und KI-Ethik in den Vordergrund zu stellen.
Wir bei Fireworks legen großen Wert auf Datenschutz und Sicherheit. Wir sind HIPAA- und SOC2-konform und bieten sichere VPC- und VPN-Verbindungen. Unternehmen vertrauen Fireworks ihre proprietären Daten und Modelle an, um ihren Geschäfts-Vorteil aufzubauen.
Was ist Ihre Vision für die Zukunft der KI?
Genau wie AlphaGo Autonomie demonstrierte, als es selbstständig Schach lernte, denke ich, dass wir genAI-Anwendungen sehen werden, die immer autonomer werden. Anwendungen werden automatisch Anfragen an den richtigen Agenten oder die richtige API weiterleiten, um diese zu verarbeiten, und Kurskorrekturen vornehmen, bis sie die richtige Ausgabe erhalten. Und anstatt eines Modells, das andere als Controller aufruft, werden wir selbstorganisierte, selbstkoordinierte Agenten sehen, die zusammenarbeiten, um Probleme zu lösen.
Die blitzschnelle Inferenz, die Funktionsaufruf-Modelle und die Feinabstimmungsdienste von Fireworks haben den Weg für diese Realität geebnet. Jetzt liegt es an den innovativen Entwicklern, es zu verwirklichen.
Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Fireworks AI besuchen.












