Interviews
Xavier Conort, Co-Founder und CPO von FeatureByte – Interview-Serie

Xavier Conort ist ein visionärer Data-Scientist mit mehr als 25 Jahren Erfahrung im Bereich Daten. Er begann seine Karriere als Aktuar in der Versicherungsindustrie, bevor er zum Data-Science wechselte. Er ist ein Top-Kaggle-Konkurrent und war Chief Data Scientist bei DataRobot, bevor er FeatureByte co-gründete.
FeatureByte ist auf eine Mission, um Enterprise-AI zu skalieren, indem es die AI-Daten radikal vereinfacht und industrialisiert. Die Feature-Engineering- und Management-Plattform ermöglicht es Data-Scientistern, state-of-the-art-Features und produktionsbereite Daten-Pipelines in Minuten zu erstellen – anstelle von Wochen oder Monaten.
Sie begannen Ihre Karriere als Aktuar in der Versicherungsindustrie, bevor Sie zum Data-Science wechselten, was hat diesen Wechsel verursacht?
Ein entscheidender Moment war der Gewinn des GE Flight Quest, einem Wettbewerb, der von GE mit einem Preisgeld von 250.000 $ ausgerichtet wurde, bei dem die Teilnehmer die Verspätungen von US-Inlandsflügen vorhersagen mussten. Ich verdanke einen Teil dieses Erfolgs einer wertvollen Versicherungspraxis: der 2-Phasen-Modellierung. Dieser Ansatz hilft, die Voreingenommenheit in Funktionen zu kontrollieren, die in den verfügbaren Trainingsdaten nicht ausreichend vertreten sind. Zusammen mit anderen Erfolgen auf Kaggle überzeugte mich diese Leistung, dass meine aktuarische Ausbildung mir einen Wettbewerbsvorteil im Bereich Data-Science verschafft.
Während meiner Kaggle-Reise hatte ich auch das Privileg, andere begeisterte Data-Scientist zu treffen, einschließlich Jeremy Achin und Tom De Godoy, die später die Gründer von DataRobot wurden. Wir teilten eine gemeinsame Vergangenheit in der Versicherungsindustrie und hatten bemerkenswerte Erfolge auf Kaggle erzielt. Als sie schließlich DataRobot gründeten, ein Unternehmen, das sich auf AutoML spezialisiert, luden sie mich ein, als Chief Data Scientist beizutreten. Ihre Vision, die besten Praktiken aus der Versicherungsindustrie mit der Macht des maschinellen Lernens zu kombinieren, begeisterte mich und bot die Gelegenheit, etwas Innovatives und Einflussreiches zu schaffen.
Bei DataRobot und waren Sie maßgeblich an der Erstellung der Data-Science-Roadmap beteiligt. Welche Arten von Datenherausforderungen haben Sie erlebt?
Die größte Herausforderung, der wir gegenüberstanden, war die unterschiedliche Qualität der Daten, die als Eingabe für unsere AutoML-Lösung bereitgestellt wurden. Dieses Problem führte oft zu zeitaufwändiger Zusammenarbeit zwischen unserem Team und den Kunden oder zu enttäuschenden Ergebnissen in der Produktion, wenn es nicht angemessen angegangen wurde. Die Qualitätsprobleme resultierten aus mehreren Quellen, die unsere Aufmerksamkeit erforderten.
Eine der Hauptherausforderungen resultierte aus der allgemeinen Verwendung von Business-Intelligence-Tools für Datenpräparation und -management. Obwohl diese Tools wertvoll für die Erstellung von Erkenntnissen sind, fehlt es ihnen an den Fähigkeiten, die erforderlich sind, um die Punkt-in-der-Zeit-Korrektheit für die Vorbereitung von maschinellen Lern-Daten zu gewährleisten. Als Folge konnten Lecks in den Trainingsdaten auftreten, was zu Overfitting und ungenauer Modellleistung führte.
Eine weitere Herausforderung war die mangelnde Kommunikation zwischen Data-Scientistern und Data-Engineern, die die Genauigkeit der Modelle in der Produktion beeinträchtigte. Inkonsistenzen zwischen den Trainings- und Produktionsphasen, die durch eine Fehlverbindung zwischen diesen beiden Teams entstanden, konnten die Modellleistung in einer realen Umgebung beeinträchtigen.
Was waren einige der wichtigsten Erkenntnisse aus dieser Erfahrung?
Meine Erfahrung bei DataRobot unterstrich die Bedeutung der Datenpräparation im maschinellen Lernen. Durch die Lösung der Herausforderungen bei der Erstellung von Trainingsdaten für Modelle, wie Punkt-in-der-Zeit-Korrektheit, Fachwissen, Domänenwissen, Tool-Einschränkungen und Skalierbarkeit, können wir die Genauigkeit und Zuverlässigkeit von maschinellen Lernmodellen verbessern. Ich kam zu dem Schluss, dass die Vereinfachung des Datenpräparationsprozesses und die Integration innovativer Technologien entscheidend sein werden, um das volle Potenzial von KI zu entfalten und ihre Versprechen zu erfüllen.
Wir haben auch von Ihrem Co-Founder Razi Raziuddin über die Genesis-Geschichte hinter FeatureByte gehört, können wir Ihre Version der Ereignisse hören?
Als ich meine Beobachtungen und Erkenntnisse mit meinem Co-Founder Razi Raziuddin diskutierte, realisierten wir, dass wir ein gemeinsames Verständnis der Herausforderungen in der Datenpräparation für maschinelles Lernen hatten. Während unserer Diskussionen teilte ich Razi meine Erkenntnisse über die jüngsten Fortschritte in der MLOps-Community mit. Ich konnte die Entstehung von Feature-Stores und Feature-Plattformen beobachten, die AI-erste Technologieunternehmen einsetzen, um die Latenz der Feature-Bereitstellung zu reduzieren, die Wiederverwendung von Features zu fördern oder die Materialisierung von Features in Trainingsdaten zu vereinfachen, während die Konsistenz zwischen Training und Bereitstellung gewährleistet wird. Es war jedoch offensichtlich, dass es immer noch eine Lücke gab, um die Bedürfnisse von Data-Scientistern zu erfüllen. Razi teilte mir seine Erkenntnisse über die moderne Daten-Stack mit, die BI und Analytics revolutioniert hat, aber nicht vollständig für KI genutzt wird.
Es wurde beiden Razi und mir klar, dass wir die Gelegenheit hatten, einen bedeutenden Einfluss auszuüben, indem wir den Feature-Engineering-Prozess radikal vereinfachen und Data-Scientistern und ML-Engineern die richtigen Tools und Benutzeroberflächen für eine nahtlose Feature-Experimentierung und Feature-Bereitstellung bieten.
Was waren einige Ihrer größten Herausforderungen beim Übergang vom Data-Scientist zum Unternehmer?
Der Übergang vom Data-Scientist zum Unternehmer erforderte von mir, meine Perspektive von einer technischen zu einer umfassenderen, geschäftlichen Denkweise zu ändern. Obwohl ich eine solide Grundlage im Verständnis von Schmerzpunkten, der Erstellung von Roadmaps, der Ausführung von Plänen, dem Aufbau von Teams und der Verwaltung von Budgets hatte, fand ich, dass die Erstellung der richtigen Botschaft, die wirklich mit unserem Zielgruppe resoniert, einer meiner größten Hindernisse war.
Als Data-Scientist lag mein Hauptaugenmerk immer auf der Analyse und Interpretation von Daten, um wertvolle Erkenntnisse zu gewinnen. Als Unternehmer musste ich mein Denken jedoch auf den Markt, die Kunden und das gesamte Geschäft ausrichten.
Glücklicherweise konnte ich diese Herausforderung überwinden, indem ich die Erfahrung von jemandem wie meinem Co-Founder Razi nutzte.
Wir haben von Razi gehört, warum Feature-Engineering so schwierig ist, was macht es aus Ihrer Sicht so herausfordernd?
Feature-Engineering hat zwei Haupt-Herausforderungen:
- Umwandlung bestehender Spalten: Dies beinhaltet die Umwandlung von Daten in ein geeignetes Format für maschinelle Lern-Algorithmen. Techniken wie One-Hot-Encoding, Feature-Skalierung und fortgeschrittene Methoden wie Text- und Bild-Transformationen werden verwendet. Die Erstellung neuer Features aus bestehenden, wie Interaktions-Features, kann die Modellleistung erheblich verbessern. Beliebte Bibliotheken wie scikit-learn und Hugging Face bieten umfassende Unterstützung für diese Art von Feature-Engineering. AutoML-Lösungen zielen darauf ab, den Prozess zu vereinfachen.
- Aus historischen Daten neue Spalten extrahieren: Historische Daten sind in Problem-Domänen wie Empfehlungssystemen, Marketing, Betrugs-Erkennung, Versicherungs-Preisgestaltung, Kredit-Scoring, Nachfrage-Prognose und Sensor-Daten-Verarbeitung von entscheidender Bedeutung. Die Extraktion von informativen Spalten aus diesen Daten ist herausfordernd. Beispiele umfassen die Zeit seit dem letzten Ereignis, Aggregationen über kürzliche Ereignisse und Einbettungen aus Ereignis-Sequenzen. Diese Art von Feature-Engineering erfordert Domänen-Expertise, Experimentierfreudigkeit, starke Codier- und Daten-Engineering-Fähigkeiten sowie tiefes Data-Science-Wissen. Faktoren wie Time-Leakage, Umgang mit großen Datenmengen und effiziente Code-Ausführung müssen ebenfalls berücksichtigt werden.
Insgesamt erfordert Feature-Engineering Fachwissen, Experimentierfreudigkeit und den Aufbau komplexer Ad-hoc-Daten-Pipelines in Abwesenheit von speziell dafür entwickelten Tools.
Können Sie uns erzählen, wie FeatureByte Data-Science-Professionals befähigt, während es Feature-Pipelines vereinfacht?
FeatureByte befähigt Data-Science-Professionals, indem es den gesamten Prozess im Feature-Engineering vereinfacht. Mit einer intuitiven Python-SDK ermöglicht es die schnelle Erstellung und Extraktion von Features aus großen Ereignis- und Artikel-Tabellen. Die Berechnung wird effizient durch die Nutzung der Skalierbarkeit von Daten-Plattformen wie Snowflake, DataBricks und Spark gehandhabt. Notebooks ermöglichen die Experimentierung, während Feature-Teilen und -Wiederverwendung Zeit sparen. Auditing stellt die Feature-Genauigkeit sicher, während die sofortige Bereitstellung die Verwaltung von Pipelines eliminiert.
Zusätzlich zu diesen Fähigkeiten, die unsere Open-Source-Bibliothek bietet, bietet unsere Enterprise-Lösung einen umfassenden Rahmen für die Verwaltung und Organisation von KI-Operationen im großen Maßstab, einschließlich Governance-Workflows und einer Benutzeroberfläche für den Feature-Katalog.
Was ist Ihre Vision für die Zukunft von FeatureByte?
Unsere endgültige Vision für FeatureByte ist es, das Feld der Data-Science und des maschinellen Lernens zu revolutionieren, indem wir den Nutzern ermöglichen, ihr volles kreatives Potenzial zu entfalten und unvergleichlichen Wert aus ihren Daten-Assets zu extrahieren.
Wir sind besonders aufgeregt über die schnellen Fortschritte in der Generativen KI und den Transformern, die eine Welt von Möglichkeiten für unsere Nutzer eröffnen. Darüber hinaus sind wir entschlossen, das Feature-Engineering zu demokratisieren. Die Generative KI hat das Potenzial, die Einstiegshürde für kreatives Feature-Engineering zu senken und es einer breiteren Öffentlichkeit zugänglich zu machen.
Zusammenfassend dreht sich unsere Vision für die Zukunft von FeatureByte um kontinuierliche Innovation, die Nutzung der Macht der Generativen KI und die Demokratisierung des Feature-Engineerings. Wir zielen darauf ab, die Plattform zu sein, die es Data-Profis ermöglicht, rohe Daten in handhabbare Eingaben für maschinelles Lernen zu verwandeln, um Durchbrüche und Fortschritte in verschiedenen Branchen voranzutreiben.
Haben Sie Ratschläge für ambitionierte KI-Unternehmer?
Definieren Sie Ihren Raum, bleiben Sie fokussiert und begrüßen Sie Neuheit.
Indem Sie den Raum definieren, den Sie besetzen möchten, können Sie sich differenzieren und eine starke Präsenz in diesem Bereich etablieren. Forschen Sie den Markt, verstehen Sie die Bedürfnisse und Schmerzpunkte potenzieller Kunden und streben Sie an, eine einzigartige Lösung zu bieten, die diese Herausforderungen effektiv angeht.
Definieren Sie Ihre langfristige Vision und setzen Sie klare kurzfristige Ziele, die mit dieser Vision übereinstimmen. Konzentrieren Sie sich auf den Aufbau einer soliden Grundlage und liefern Sie Wert in Ihrem gewählten Raum.
Schließlich ist es wichtig, fokussiert zu bleiben, aber nicht vor neuen Ideen und Ansätzen innerhalb Ihres definierten Raums zurückzuschrecken. Das Feld der KI entwickelt sich ständig, und innovative Ansätze können neue Chancen eröffnen.
Vielen Dank für das großartige Interview, Leser, die mehr erfahren möchten, sollten FeatureByte besuchen.












