Connect with us

Steven Hillion, SVP of Data und KI bei Astronomer – Interviewreihe

Interviews

Steven Hillion, SVP of Data und KI bei Astronomer – Interviewreihe

mm

Steven Hillion ist der Senior Vice President of Data und KI bei Astronomer, wo er seine umfassende akademische Ausbildung in Forschungsmathematik und über 15 Jahre Erfahrung in der Entwicklung von Machine-Learning-Plattformen im Silicon Valley nutzt. Bei Astronomer leitet er die Erstellung von Apache Airflow-Funktionen, die speziell für ML- und KI-Teams entwickelt wurden, und überwacht das interne Data-Science-Team. Unter seiner Führung hat Astronomer seine moderne Data-Orchestrierungsplattform weiterentwickelt und ihre Data-Pipeline-Fähigkeiten erheblich verbessert, um eine breite Palette von Datenquellen und Aufgaben über Machine Learning zu unterstützen.

Können Sie uns ein wenig über Ihre Reise in Data Science und KI erzählen und wie sie Ihre Herangehensweise an die Leitung von Engineering- und Analytics-Teams geprägt hat?

Ich hatte einen Hintergrund in Forschungsmathematik in Berkeley, bevor ich in die Bucht von San Francisco zog und als Ingenieur in einer Reihe von erfolgreichen Start-ups arbeitete. Ich war froh, die Politik und Bürokratie der Akademie hinter mir zu lassen, aber ich stellte fest, dass ich nach einigen Jahren die Mathematik vermisste. Also wechselte ich in die Entwicklung von Plattformen für Machine Learning und Analytics, und das ist im Wesentlichen, was ich seitdem gemacht habe.

Meine Ausbildung in reinen Mathematik hat zu einer Vorliebe für das geführt, was Data Scientists “Parsimonie” nennen – das richtige Werkzeug für den Job und nichts mehr. Da Mathematiker elegante Lösungen gegenüber komplexen Maschinen bevorzugen, habe ich immer versucht, Einfachheit zu betonen, wenn ich Machine Learning auf Geschäftsprobleme anwende. Deep Learning ist großartig für einige Anwendungen – große Sprachmodelle sind beispielsweise brillant für die Zusammenfassung von Dokumenten -, aber manchmal ist ein einfaches Regressionsmodell angemessener und einfacher zu erklären.

Es war faszinierend zu sehen, wie sich die Rolle des Data Scientists und des Software-Ingenieurs in den letzten zwanzig Jahren seit Machine Learning weit verbreitet ist, verändert hat. Da ich beide Hüte getragen habe, bin ich sehr mir der Wichtigkeit des Software-Entwicklungslebenszyklus (insbesondere Automation und Testing) bei Machine-Learning-Projekten bewusst.

Was sind die größten Herausforderungen beim Verschieben, Verarbeiten und Analysieren unstrukturierter Daten für KI und große Sprachmodelle (LLMs)?

In der Welt von Generative KI ist Ihre Daten Ihr wertvollstes Gut. Die Modelle werden immer mehr zu einem Kommoditätenprodukt, also ist Ihre Differenzierung all das hart erarbeitete institutionelle Wissen, das in Ihren proprietären und kuratierten Datensätzen erfasst ist.

Die Bereitstellung der richtigen Daten zur richtigen Zeit stellt hohe Anforderungen an Ihre Datenpipelines – und das gilt für unstrukturierte Daten genauso wie für strukturierte Daten oder vielleicht sogar mehr. Oft müssen Sie Daten aus vielen verschiedenen Quellen in vielen verschiedenen Formaten aufnehmen. Sie benötigen Zugang zu einer Vielzahl von Methoden, um die Daten zu entpacken und sie für die Verwendung in Modellinferenz oder Modelltraining vorzubereiten. Sie müssen auch die Herkunft der Daten verstehen und wissen, wohin sie enden, um “Ihre Arbeit zu zeigen”.

Wenn Sie dies nur gelegentlich tun, um ein Modell zu trainieren, ist das in Ordnung. Sie müssen es nicht unbedingt operationalisieren. Wenn Sie das Modell jedoch täglich verwenden, um Kundenstimmungen aus Online-Foren zu verstehen oder Rechnungen zusammenzufassen und zu routen, dann sieht es aus wie jede andere operationale Datenpipeline, was bedeutet, dass Sie über Zuverlässigkeit und Reproduzierbarkeit nachdenken müssen. Oder wenn Sie das Modell regelmäßig feinjustieren, müssen Sie sich um die Überwachung von Genauigkeit und Kosten kümmern.

Die gute Nachricht ist, dass Daten-Ingenieure eine großartige Plattform, Airflow, für die Verwaltung von Datenpipelines entwickelt haben, die bereits erfolgreich von einigen der weltweit fortschrittlichsten ML-Teams für die Verwaltung von Modellbereitstellung und -überwachung eingesetzt wird. Also sind die Modelle vielleicht neu, aber die Orchestrierung ist es nicht.

Können Sie die Verwendung von synthetischen Daten zur Feinabstimmung kleinerer Modelle für die Genauigkeit erläutern? Wie vergleicht sich dies mit der Ausbildung größerer Modelle?

Es ist eine leistungsstarke Technik. Sie können die besten großen Sprachmodelle als eine Art considerieren, die das erfassen, was sie über die Welt gelernt haben, und sie können dies an kleinere Modelle weitergeben, indem sie synthetische Daten generieren. LLMs erfassen enorme Mengen an Wissen, die durch umfassendes Training auf verschiedenen Datensätzen erworben wurden. Diese Modelle können synthetische Daten generieren, die die Muster, Strukturen und Informationen erfassen, die sie gelernt haben. Diese synthetischen Daten können dann verwendet werden, um kleinere Modelle zu trainieren, wodurch effektiv Wissen von den größeren Modellen auf die kleineren übertragen wird. Dieser Prozess wird oft als “Wissensdestillation” bezeichnet und hilft bei der Erstellung effizienter, kleinerer Modelle, die dennoch gut auf bestimmte Aufgaben performen. Und mit synthetischen Daten können Sie auch Probleme mit der Privatsphäre vermeiden und Lücken in Trainingsdaten, die klein oder unvollständig sind, füllen.

Dies kann hilfreich sein, um ein mehr domänen-spezifisches generatives KI-Modell zu trainieren und kann sogar effektiver sein als die Ausbildung eines “größeren” Modells, mit einem höheren Maß an Kontrolle.

Data Scientists haben synthetische Daten bereits seit Langem generiert, und die Imputation ist so alt wie fehlerhafte Datensätze. Aber Sie mussten immer sehr vorsichtig sein, dass Sie keine Vorurteile einführen oder falsche Annahmen über die Verteilung der Daten treffen. Jetzt, da die Generierung von synthetischen Daten so einfach und leistungsstark ist, müssen Sie noch vorsichtiger sein. Fehler können verstärkt werden.

Ein Mangel an Vielfalt in den generierten Daten kann zu “Modellkollaps” führen. Das Modell denkt, es macht seine Sache gut, aber das liegt daran, dass es nicht das gesamte Bild gesehen hat. Und im Allgemeinen ist ein Mangel an Vielfalt in den Trainingsdaten etwas, worauf Data-Teams immer achten sollten.

Auf einem grundlegenden Level, egal ob Sie synthetische Daten oder organische Daten verwenden, sind Herkunft und Qualität für das Training oder Feinabstimmung jedes Modells von entscheidender Bedeutung. Wie wir wissen, sind Modelle nur so gut wie die Daten, auf denen sie trainiert werden. Während synthetische Daten ein großartiges Werkzeug sein können, um ein sensibles Dataset ohne dessen Offenlegung darzustellen oder Lücken in einem repräsentativen Dataset zu füllen, müssen Sie eine Papiertrail haben, die zeigt, wo die Daten herkommen, und Sie müssen in der Lage sein, ihre Qualität nachzuweisen.

Was sind einige innovative Techniken, die Ihr Team bei Astronomer implementiert, um die Effizienz und Zuverlässigkeit von Datenpipelines zu verbessern?

Viele! Astros vollständig verwaltete Airflow-Infrastruktur und der Astro-Hypervisor unterstützen dynamisches Skalieren und proaktives Monitoring durch erweiterte Gesundheitsmetriken. Dies stellt sicher, dass Ressourcen effizient genutzt und Systeme auf jedem Skalenniveau zuverlässig sind. Astro bietet robuste datenzentrierte Warnungen mit anpassbaren Benachrichtigungen, die über verschiedene Kanäle wie Slack und PagerDuty gesendet werden können. Dies stellt sicher, dass rechtzeitig eingegriffen wird, bevor Probleme eskalieren.

Datenvalidierungstests, Unittests und Datenqualitätsprüfungen spielen eine wichtige Rolle bei der Gewährleistung der Zuverlässigkeit, Genauigkeit und Effizienz von Datenpipelines und letztendlich der Daten, die Ihr Geschäft antreiben. Diese Prüfungen stellen sicher, dass Sie, während Sie schnell Datenpipelines aufbauen, um Ihre Fristen einzuhalten, aktiv Fehler abfangen, die Entwicklungszeit verbessern und unvorhergesehene Fehler im Hintergrund reduzieren. Bei Astronomer haben wir Tools wie Astro CLI entwickelt, um die Funktionalität des Codes zu überprüfen oder Integrationsprobleme in Ihrer Datenpipeline zu identifizieren.

Wie sehen Sie die Evolution der Governance von generativer KI, und welche Maßnahmen sollten ergriffen werden, um die Schaffung von mehr Werkzeugen zu unterstützen?

Governance ist unerlässlich, wenn die Anwendungen von generativer KI erfolgreich sein sollen. Es geht alles um Transparenz und Reproduzierbarkeit. Wissen Sie, wie Sie zu diesem Ergebnis gekommen sind, und woher, und durch wen? Airflow selbst gibt Ihnen bereits eine Möglichkeit, zu sehen, was einzelne Datenpipelines tun. Seine Benutzeroberfläche war einer der Gründe für seine schnelle Adoption in der Frühphase, und bei Astronomer haben wir dies durch Sichtbarkeit über Teams und Bereitstellungen erweitert. Wir bieten unseren Kunden auch Berichts-Dashboards, die umfassende Einblicke in die Plattformnutzung, Leistung und Kostenzuordnung für fundierte Entscheidungen bieten. Darüber hinaus ermöglicht die Astro-API Teams, ihre Airflow-Pipelines programmgesteuert zu bereitstellen, zu automatisieren und zu verwalten, wodurch Risiken, die mit manuellen Prozessen verbunden sind, gemindert und ein reibungsloser Betrieb im großen Maßstab bei der Verwaltung mehrerer Airflow-Umgebungen sichergestellt wird. Herkunfts-Fähigkeiten sind in die Plattform integriert.

Dies sind alle Schritte in Richtung einer Verbesserung der Daten-Governance, und ich glaube, dass Unternehmen aller Größen die Wichtigkeit der Daten-Governance für die Gewährleistung von Vertrauen in KI-Anwendungen erkennen. Diese Anerkennung und das Bewusstsein werden in erster Linie die Nachfrage nach Daten-Governance-Tools vorantreiben, und ich erwarte, dass die Schaffung solcher Tools beschleunigt wird, wenn generative KI weiter verbreitet wird. Aber sie müssen Teil des größeren Orchestrierungs-Stapels sein, und deshalb betrachten wir sie als grundlegend für die Art und Weise, wie wir unsere Plattform aufbauen.

Können Sie Beispiele dafür nennen, wie Astronomers Lösungen die operationelle Effizienz und Produktivität für Kunden verbessert haben?

Generative KI-Prozesse umfassen komplexe und ressourcenintensive Aufgaben, die sorgfältig optimiert und wiederholt ausgeführt werden müssen. Astro, Astronomers verwaltete Apache Airflow-Plattform, bietet einen Rahmen im Zentrum des aufkommenden KI-App-Stapels, um diese Aufgaben zu vereinfachen und die Fähigkeit zu verbessern, schnell zu innovieren.

Durch die Orchestrierung von generativen KI-Aufgaben können Unternehmen sicherstellen, dass Rechenressourcen effizient genutzt und Workflows optimiert und in Echtzeit angepasst werden. Dies ist besonders wichtig in Umgebungen, in denen generative Modelle häufig aufgrund neuer Daten aktualisiert oder neu trainiert werden müssen.

Indem Teams Airflows Workflow-Management und Astronomers Bereitstellungs- und Skalierungsfähigkeiten nutzen, können sie weniger Zeit mit der Verwaltung von Infrastruktur verbringen und ihre Aufmerksamkeit stattdessen auf Daten-Transformation und Modellentwicklung konzentrieren, was die Bereitstellung von generativen KI-Anwendungen beschleunigt und die Leistung verbessert.

Auf diese Weise hat Astronomers Astro-Plattform Kunden geholfen, die operationelle Effizienz von generativer KI in einer Vielzahl von Anwendungsfällen zu verbessern. Um einige zu nennen, gehören dazu Produktentdeckung im E-Commerce, Analyse des Risikos von Kundenabwanderung, Automatisierung von Support, Klassifizierung und Zusammenfassung von Rechtsdokumenten, Gewinnung von Produktinsights aus Kundenbewertungen und dynamische Clusterbereitstellung für die Bildgenerierung von Produkten.

Welche Rolle spielt Astronomer bei der Verbesserung der Leistung und Skalierbarkeit von KI- und ML-Anwendungen?

Skalierbarkeit ist eine große Herausforderung für Unternehmen, die in generative KI investieren. Wenn Sie von einem Prototyp zu einer Produktionsumgebung wechseln, erwarten Benutzer, dass ihre generativen KI-Apps zuverlässig und leistungsstark sind und dass die von ihnen erzeugten Ausgaben vertrauenswürdig sind. Dies muss kosteneffizient geschehen, und Unternehmen aller Größen müssen in der Lage sein, ihr Potenzial zu nutzen. Mit Astronomer können Aufgaben horizontal skaliert werden, um große Mengen an Datenquellen dynamisch zu verarbeiten. Astro kann Bereitstellungen und die Cluster, auf denen sie gehostet werden, elastisch skalieren, und die Aufgabenverarbeitung auf der Grundlage von Warteschlangen mit dedizierten Maschinentypen bietet eine höhere Zuverlässigkeit und einen effizienteren Einsatz von Rechenressourcen. Um das Kosten-Effizienz-Puzzle zu lösen, bietet Astro Funktionen wie Skalierung auf Null und Hibernate, die helfen, die Kosten zu kontrollieren und die Cloud-Ausgaben zu reduzieren. Wir bieten auch eine vollständige Transparenz über die Kosten der Plattform. Mein eigenes Data-Team generiert Berichte über den Verbrauch, den wir unseren Kunden täglich zur Verfügung stellen.

Welche zukünftigen Trends in KI und Data Science sind Sie begeistert und wie bereitet sich Astronomer darauf vor?

Erklärbares KI ist ein enorm wichtiges und faszinierendes Entwicklungsfeld. Es ist fast unheimlich, in die inneren Abläufe sehr großer Modelle hineinzuschauen. Und ich bin auch daran interessiert, wie die Gemeinschaft mit der Umweltbelastung von Modelltraining und -feinabstimmung umgeht. Bei Astronomer aktualisieren wir unser Registry ständig mit allen neuesten Integrationen, damit Data- und ML-Teams problemlos mit den besten Modell-Diensten und den effizientesten Rechenplattformen verbinden können, ohne viel Aufwand.

Wie stellen Sie sich die Integration von fortschrittlichen KI-Tools wie LLMs mit herkömmlichen Datenverwaltungssystemen in den nächsten Jahren vor?

Wir haben kürzlich gesehen, wie Databricks und Snowflake Ankündigungen gemacht haben, wie sie die Nutzung und Entwicklung von LLMs innerhalb ihrer Plattformen integrieren. Andere DBMS- und ML-Plattformen werden dies auch tun. Es ist großartig zu sehen, dass Daten-Ingenieure so einfachen Zugang zu solch leistungsstarken Methoden haben, direkt von der Kommandozeile oder der SQL-Prompt.

Ich bin besonders daran interessiert, wie relationale Datenbanken Machine Learning integrieren. Ich warte immer darauf, dass ML-Methoden in den SQL-Standard aufgenommen werden, aber aus irgendeinem Grund haben sich die beiden Disziplinen nie wirklich verstanden. Vielleicht wird es diesmal anders.

Ich bin sehr aufgeregt über die Zukunft von großen Sprachmodellen, um die Arbeit von Daten-Ingenieuren zu unterstützen. Zum Beispiel haben LLMs bereits großen Erfolg bei der Code-Generierung, obwohl frühe Bemühungen, Daten-Wissenschaftlern AI-getriebene Vorschläge zu liefern, gemischt waren: Hex ist großartig, zum Beispiel, während Snowflake uninspirierend ist. Aber es gibt ein enormes Potenzial, die Natur der Arbeit für Data-Teams zu ändern, viel mehr als für Entwickler. Warum? Für Software-Ingenieure ist der Prompt ein Funktionsname oder die Dokumentation, aber für Daten-Ingenieure gibt es auch die Daten. Es gibt so viel Kontext, mit dem Modelle nützliche und genaue Vorschläge machen können.

Welchen Rat würden Sie angehenden Data Scientists und KI-Ingenieuren geben, die einen Einfluss in der Branche ausüben möchten?

Lernen Sie durch Tun. Es ist unglaublich einfach, Anwendungen zu bauen und sie mit künstlicher Intelligenz zu erweitern. Also bauen Sie etwas Cooles und schicken Sie es an einen Freund eines Freundes, der in einem Unternehmen arbeitet, das Sie bewundern. Oder schicken Sie es an mich, und ich verspreche, ich werde es mir ansehen!

Der Trick ist, etwas zu finden, das Sie leidenschaftlich interessiert, und eine gute Quelle für damit verbundene Daten zu finden. Ein Freund von mir hat eine faszinierende Analyse von anomalen Baseball-Saisons seit dem 19. Jahrhundert durchgeführt und Geschichten entdeckt, die einen Film verdienen. Und einige von Astronomers Ingenieuren haben kürzlich an einem Wochenende eine Plattform für selbstheilende Datenpipelines aufgebaut. Ich kann mir nicht vorstellen, so etwas vor ein paar Jahren zu versuchen, aber mit nur wenigen Tagen Aufwand haben wir Cohere’s Hackathon gewonnen und die Grundlage für ein neues Hauptfeature in unserer Plattform gelegt.

Vielen Dank für das großartige Interview. Leser, die mehr erfahren möchten, sollten Astronomer besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.