Connect with us

Frank Liu, Director of Operations at Zilliz – Interview Series

Interviews

Frank Liu, Director of Operations at Zilliz – Interview Series

mm

Frank Liu ist der Director of Operations bei Zilliz, einem führenden Anbieter von Vektordatenbanken und KI-Technologien. Sie sind auch die Ingenieure und Wissenschaftler, die LF AI Milvus® entwickelt haben, die weltweit beliebteste Open-Source-Vektordatenbank.

Was hat Sie ursprünglich zur Maschinenlernen-Anziehung gezogen?

Meine erste Begegnung mit der Macht von ML/KI war als Undergrad-Student an der Stanford, obwohl es ein bisschen abseits meines Hauptfachs (Elektrotechnik) lag. Ich wurde ursprünglich von EE als Feld angezogen, weil die Fähigkeit, komplexe elektrische und physikalische Systeme in mathematische Approximationen zu zerlegen, sehr mächtig für mich war, und Statistik und Maschinenlernen fühlten sich ähnlich an. Ich belegte schließlich mehr Computer-Vision- und Maschinenlernen-Kurse während meines Master-Studiums und schrieb meine Master-Arbeit über die Verwendung von ML, um die ästhetische Schönheit von Bildern zu bewerten. All dies führte zu meinem ersten Job im Computer-Vision- und Maschinenlernen-Team bei Yahoo, wo ich in einer Hybrid-Rolle aus Forschung und Software-Entwicklung tätig war. Wir befanden uns noch in den pre-Transformer-AlexNet- und VGG-Tagen, und es war erstaunlich, eine ganze Branche und Industrie so schnell wachsen zu sehen, von der Datenbereitung bis zur massiv parallelen Modellierung und Modellproduktionsfähigkeit. Auf viele Arten fühlt es sich ein bisschen lächerlich an, den Ausdruck “vor vielen Jahren” zu verwenden, um auf etwas zu verweisen, das weniger als 10 Jahre her ist, aber so ist der Fortschritt in diesem Bereich.

Nach Yahoo war ich als CTO eines Startups tätig, das ich mitgegründet hatte, wo wir ML für die Indoor-Ortung nutzten. Dort mussten wir sequenzielle Modelle für sehr kleine Mikrocontroller optimieren – eine sehr unterschiedliche, aber dennoch verwandte ingenieurtechnische Herausforderung im Vergleich zu den heutigen großen LLMs und Diffusionsmodellen. Wir bauten auch Hardware, Dashboards für die Visualisierung und einfache cloud-native Anwendungen, aber KI/ML diente immer als Kernkomponente der Arbeit, die wir durchführten.

Obwohl ich jetzt seit etwa 7 oder 8 Jahren in oder neben der ML-Branche tätig bin, habe ich immer noch viel Liebe für Schaltkreis-Design und digitale Logik-Design. Ein Hintergrund in der Elektrotechnik ist auf viele Arten sehr hilfreich für viel der Arbeit, die ich heute mache. Viele wichtige Konzepte in der digitalen Gestaltung, wie virtuelles Gedächtnis, Branch-Vorhersage und konkurrierende Ausführung in HDL, bieten einen umfassenden Überblick über viele ML- und verteilte Systeme heute. Während ich den Reiz von CS verstehe, hoffe ich auf eine Wiederbelebung traditioneller Ingenieur-Felder – EE, MechE, ChemE usw. – in den nächsten paar Jahren.

Für Leser, die mit dem Begriff unstrukturierte Daten nicht vertraut sind, was bedeutet dies?

Unstrukturierte Daten beziehen sich auf “komplexe” Daten, die im Wesentlichen Daten sind, die nicht in einem vordefinierten Format gespeichert werden können oder in ein bestehendes Datenmodell passen. Zum Vergleich beziehen sich strukturierte Daten auf jede Art von Daten, die eine vordefinierte Struktur haben – numerische Daten, Zeichenfolgen, Tabellen, Objekte und Schlüssel/Wert-Speicher sind alle Beispiele für strukturierte Daten.

Um wirklich zu verstehen, was unstrukturierte Daten sind und warum sie traditionell schwer zu verarbeiten sind, hilft es, sie mit strukturierten Daten zu vergleichen. In den einfachsten Begriffen können traditionelle strukturierte Daten mithilfe eines relationalen Modells gespeichert werden. Nehmen Sie beispielsweise eine relationale Datenbank mit einer Tabelle zur Speicherung von Buchinformationen: Jede Zeile in der Tabelle könnte ein bestimmtes Buch darstellen, das durch die ISBN-Nummer indiziert wird, während die Spalten die entsprechende Kategorie von Informationen anzeigen, wie Titel, Autor, Veröffentlichungsdatum und so weiter. Heute gibt es flexiblere Datenmodelle – Weit-Spalten-Speicher, Objekt-Datenbanken, Graph-Datenbanken und so weiter. Aber die grundlegende Idee bleibt dieselbe: Diese Datenbanken sind dazu gedacht, Daten zu speichern, die einem bestimmten Datenmuster oder Datenmodell entsprechen.

Unstrukturierte Daten können dagegen als im Wesentlichen ein pseudo-zufälliger Blob binärer Daten betrachtet werden. Sie können alles darstellen, beliebig groß oder klein sein und auf eine der zahllosen unterschiedlichen Arten transformiert und gelesen werden. Dies macht es unmöglich, sie in ein Datenmodell, geschweige denn in eine Tabelle in einer relationalen Datenbank, zu passen.

Was sind einige Beispiele für diese Art von Daten?

Von Menschen generierte Daten – Bilder, Videos, Audio, natürliche Sprache usw. – sind großartige Beispiele für unstrukturierte Daten. Aber es gibt auch weniger alltägliche Beispiele für unstrukturierte Daten. Benutzerprofile, Proteinstrukturen, Genom-Sequenzen und sogar menschlich lesbarer Code sind auch großartige Beispiele für unstrukturierte Daten. Der Hauptgrund, warum unstrukturierte Daten traditionell so schwer zu verwalten waren, ist, dass unstrukturierte Daten jede Form annehmen und sehr unterschiedliche Laufzeiten zur Verarbeitung erfordern können.

Wenn man Bilder als Beispiel nimmt, könnten zwei Fotos der gleichen Szene sehr unterschiedliche Pixelwerte haben, aber beide haben einen ähnlichen Gesamthinweis. Natürliche Sprache ist ein weiteres Beispiel für unstrukturierte Daten, auf die ich gerne verweise. Die Phrasen “Elektrotechnik” und “Informatik” sind extrem eng miteinander verbunden – so sehr, dass die EE- und CS-Gebäude in Stanford nebeneinander liegen – aber ohne eine Möglichkeit, die semantische Bedeutung hinter diesen beiden Phrasen zu kodieren, könnte ein Computer naiv denken, dass “Informatik” und “Sozialwissenschaft” enger miteinander verbunden sind.

Was ist eine Vektordatenbank?

Um eine Vektordatenbank zu verstehen, hilft es, zunächst zu verstehen, was eine Einbettung ist. Ich werde darauf zurückkommen, aber die kurze Version ist, dass eine Einbettung ein hochdimensionaler Vektor ist, der die Semantik von unstrukturierten Daten darstellen kann. Im Allgemeinen sind zwei Einbettungen, die in Bezug auf den Abstand nahe beieinander liegen, sehr wahrscheinlich semantisch ähnlichen Eingabedaten zugeordnet. Mit moderner ML haben wir die Macht, verschiedene Arten von unstrukturierten Daten – Bilder und Text zum Beispiel – in semantisch leistungsstarke Einbettungsvektoren zu kodieren und zu transformieren.

Aus der Perspektive einer Organisation werden unstrukturierte Daten unglaublich schwierig zu verwalten, sobald die Menge eine bestimmte Grenze überschreitet. Hier kommt eine Vektordatenbank wie Zilliz Cloud ins Spiel. Eine Vektordatenbank ist speziell darauf ausgelegt, massive Mengen an unstrukturierten Daten zu speichern, zu indizieren und zu durchsuchen, indem sie Einbettungen als zugrunde liegende Darstellung nutzt. Die Suche in einer Vektordatenbank erfolgt in der Regel mit Abfragevektoren, und das Ergebnis der Abfrage sind die Top-N-Ähnlichsten Ergebnisse basierend auf dem Abstand.

Die besten Vektordatenbanken haben viele der Benutzerfreundlichkeitsfunktionen traditioneller relationaler Datenbanken: horizontales Skalieren, Caching, Replikation, Failover und Abfrageausführung sind nur einige der vielen Funktionen, die eine echte Vektordatenbank implementieren sollte. Als Kategoriedefinierer waren wir auch in akademischen Kreisen aktiv und haben Papier in SIGMOD 2021 und VLDB 2022 veröffentlicht, den beiden besten Datenbank-Konferenzen, die es heute gibt.

Könnten Sie über Einbettungen sprechen?

Im Allgemeinen ist eine Einbettung ein hochdimensionaler Vektor, der aus den Aktivierungen einer Zwischenschicht in einem mehrschichtigen neuronalen Netzwerk stammt. Viele neuronale Netze sind so trainiert, dass sie selbst Einbettungen ausgeben, und einige Anwendungen verwenden konkatinierte Vektoren aus mehreren Zwischenschichten als Einbettung, aber ich werde nicht zu tief darauf eingehen. Eine andere weniger gebräuchliche, aber gleich wichtige Methode, um Einbettungen zu generieren, ist durch handgefertigte Merkmale. Anstatt einem ML-Modell zu ermöglichen, die richtigen Darstellungen für die Eingabedaten automatisch zu lernen, kann gute alte Merkmalsextraktion für viele Anwendungen funktionieren. Unabhängig von der zugrunde liegenden Methode sind Einbettungen für semantisch ähnliche Objekte in Bezug auf den Abstand nahe beieinander, und diese Eigenschaft ist es, die Vektordatenbanken antreibt.

Was sind einige der beliebtesten Anwendungsfälle mit dieser Technologie?

Vektordatenbanken sind großartig für jede Anwendung, die eine Form semantischer Suche erfordert – Produkt-Empfehlung, Video-Analyse, Dokumentensuche, Bedrohungs- und Betrugs-Erkennung und KI-gestützte Chatbots sind einige der beliebtesten Anwendungsfälle für Vektordatenbanken heute. Um dies zu veranschaulichen, wurde Milvus, die Open-Source-Vektordatenbank, die von Zilliz und dem zugrunde liegenden Kern von Zilliz Cloud entwickelt wurde, von über tausend Unternehmensanwendern in verschiedenen Anwendungsfällen verwendet.

Ich bin immer gerne bereit, über diese Anwendungen zu sprechen und zu helfen, dass die Leute verstehen, wie sie funktionieren, aber ich genieße es auch sehr, über einige der weniger bekannten Vektordatenbank-Anwendungsfälle zu sprechen. Die Entdeckung neuer Medikamente ist einer meiner Lieblings-“Nischen”-Vektordatenbank-Anwendungsfälle. Die Herausforderung bei dieser bestimmten Anwendung besteht darin, potenzielle Kandidaten-Medikamente zur Behandlung einer bestimmten Krankheit oder Symptomatik in einer Datenbank von 800 Millionen Verbindungen zu suchen. Ein Pharma-Unternehmen, mit dem wir kommunizierten, konnte den Medikamenten-Entdeckungsprozess erheblich verbessern und gleichzeitig die Hardware-Ressourcen durch die Kombination von Milvus mit einer Chemie-Informations-Bibliothek namens RDKit reduzieren.

Das AI ArtLens des Cleveland Museum of Art (CMA) ist ein weiteres Beispiel, das ich gerne erwähne. AI ArtLens ist ein interaktives Tool, das ein Abfrage-Bild als Eingabe nimmt und visuell ähnliche Bilder aus der Datenbank des Museums abruft. Dies wird normalerweise als umgekehrte Bildsuche bezeichnet und ist ein ziemlich gängiger Anwendungsfall für Vektordatenbanken, aber der einzigartige Mehrwert, den Milvus dem CMA bot, war die Fähigkeit, die Anwendung innerhalb einer Woche mit einem sehr kleinen Team in Betrieb zu nehmen.

Könnten Sie über die Open-Source-Plattform Towhee sprechen?

Als wir mit Leuten aus der Milvus-Community kommunizierten, fanden wir heraus, dass viele von ihnen eine einheitliche Möglichkeit haben wollten, um Einbettungen für Milvus zu generieren. Dies war besonders bei Unternehmen der Fall, die nicht viele Maschinen-Learning-Ingenieure hatten. Mit Towhee zielen wir darauf ab, diese Lücke durch das zu schließen, was wir “Vektordaten-ETL” nennen. Während traditionelle ETL-Pipelines sich auf die Kombination und Transformation von strukturierten Daten aus mehreren Quellen in ein verwendbares Format konzentrieren, soll Towhee mit unstrukturierten Daten arbeiten und explizit ML in die resultierende ETL-Pipeline einbeziehen. Towhee erreicht dies, indem es Hunderte von Modellen, Algorithmen und Transformationen bereitstellt, die als Bausteine in einer Vektordaten-ETL-Pipeline verwendet werden können. Darüber hinaus bietet Towhee eine einfache Python-API, die es Entwicklern ermöglicht, diese ETL-Pipelines in einer einzigen Codezeile zu erstellen und zu testen.

Obwohl Towhee ein eigenständiges Projekt ist, ist es auch Teil des umfassenderen Vektordatenbank-Ökosystems, das Zilliz um Milvus herum aufbaut. Wir stellen uns vor, dass Milvus und Towhee zwei hoch komplementäre Projekte sind, die, wenn sie zusammen verwendet werden, die Verarbeitung von unstrukturierten Daten wirklich demokratisieren können.

Zilliz hat kürzlich eine Serie-B-Runde von 60 Mio. US-Dollar aufgenommen. Wie wird dies die Zilliz-Mission beschleunigen?

Ich möchte zunächst Prosperity7 Ventures, Pavilion Capital, Hillhouse Capital, 5Y Capital, Yunqi Capital und anderen danken, die an die Zilliz-Mission glauben und uns mit dieser Serie-B-Erweiterung unterstützen. Wir haben nun insgesamt 113 Mio. US-Dollar aufgenommen, und diese neueste Finanzierungsrunde wird unsere Bemühungen unterstützen, die Ingenieur- und Go-to-Market-Teams auszubauen. Insbesondere werden wir unser Managed-Cloud-Angebot verbessern, das derzeit im frühen Zugang ist, aber später in diesem Jahr für jeden zugänglich sein wird. Wir werden auch weiterhin in Spitzenforschung im Bereich Datenbanken und KI investieren, wie wir es in den letzten 4 Jahren getan haben.

Gibt es noch etwas, das Sie über Zilliz teilen möchten?

Als Unternehmen wachsen wir schnell, aber was unser aktuelles Team von anderen im Datenbank- und ML-Bereich unterscheidet, ist unsere einzigartige Leidenschaft für das, was wir aufbauen. Wir sind auf einer Mission, die Verarbeitung von unstrukturierten Daten zu demokratisieren, und es ist absolut erstaunlich, so viele talentierte Leute bei Zilliz zu sehen, die auf ein gemeinsames Ziel hinarbeiten. Wenn Ihnen das, was wir tun, interessant erscheint, zögern Sie nicht, Kontakt mit uns aufzunehmen. Wir würden uns freuen, Sie an Bord zu haben.

Wenn Sie mehr erfahren möchten, stehe ich auch persönlich gerne zur Verfügung, um über Zilliz, Vektordatenbanken oder Einbettungs-Verbesserungen im Bereich KI/ML zu sprechen.

Zum Schluss möchte ich mich bedanken!

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Zilliz besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.