Interviews
Fabiana Clemente, Mitbegründerin und Chief Data Officer bei YData – Interview Series

Fabiana Clemente ist Mitbegründerin und Chief Data Officer von YDaten. YData ist ein KI-Startup, das die erste datenzentrierte Entwicklungslösung entwickelt hat, die Datenerkennung, -verbesserung und -skalierung in einer einzigen Plattform vereint.
Was hat Sie ursprünglich an KI und maschinellem Lernen interessiert?
Mein Hintergrund liegt in der Angewandten Mathematik, wo ich die Möglichkeit hinzufüge, zu lernen und zu verstehen, wie wir Informationen aus Daten extrahieren und dabei Code nutzen können. Zu dieser Zeit war es nicht so sexy wie maschinelles Lernen, aber es hat definitiv meine Leidenschaft für diesen Bereich geweckt.
Könnten Sie uns die Entstehungsgeschichte von Ydata erzählen?
Als Datenwissenschaftler, der sowohl für Start-ups als auch für Unternehmen gearbeitet hat, hatte ich einige Schwierigkeiten – manchmal wurde der Zugriff auf Daten aus Sicherheits- oder Datenschutzgründen blockiert, manchmal war der Zugriff einfach, aber die Qualität der Daten war nicht gleichmäßig nahe an dem, was für die Entwicklung KI-basierter Lösungen erforderlich war. Das Wissen, dass diese Probleme in den meisten Unternehmen sehr häufig auftreten, hat uns dazu inspiriert, das Unternehmen mit dem Ziel zu gründen, diesen Teams bei der Überwindung dieser Hindernisse zu helfen, indem wir ihre KI-Entwicklung mit verbesserten Daten beschleunigen.
Könnten Sie unserem Publikum beschreiben, was synthetische Daten sind?
Als synthetische Daten gelten alle Daten, die nicht in der realen Welt erzeugt wurden, also alle Daten, die künstlich erzeugt wurden. Es gibt Methoden, die die Generierung synthetischer Daten ermöglichen – von regelbasierten Strategien bis hin zum Einsatz von Machine- oder Deep-Learning-Modellen, um diese „Regeln“ für uns zu lernen. Bei YData haben wir eine auf Deep Learning basierende Strategie übernommen und uns darauf spezialisiert, um neue Daten zu generieren, die das Verhalten von realen Ereignissen fernhalten, ohne Bedenken hinsichtlich der Privatsphäre.
Was macht synthetische Daten so wichtig?
Je mehr Unternehmen die Bedeutung von Daten für die Ankurbelung ihres Geschäfts erkennen, desto besser wird die Bedeutung und Rolle synthetischer Daten verstanden. Das Sammeln realer Daten ist nicht nur zeitaufwändig und teuer, sondern manchmal auch unmöglich. Um KI-Anwendungen erstellen zu können, sind Daten eine zwingende Voraussetzung – hier kommen synthetische Daten zum Einsatz. Die Fähigkeit, unsichtbare Szenarien zu generieren oder einfach den Zugriff auf Daten freizuschalten, ist der Schlüssel zur Weiterentwicklung in einer Welt, in der Pioniere wie … Andrew Ng erklärt, dass die Datenorientierung der Schlüssel für eine erfolgreiche KI-Einführung ist.
Bei selbstfahrenden Autos oder anderen Aktivitäten zur Automatisierung von Maschinen können wir bereits die Bedeutung synthetischer Daten erkennen. Daher würde ich sagen, dass es nur natürlich ist, dass sich dieses Verständnis in allen Branchen durchsetzt.
Wie generiert Ydata synthetische Daten?
YData nutzt hauptsächlich Deep Generative-Modelle, um die statistischen Attribute und Korrelationen zwischen Variablen der Originaldaten zu lernen. Dadurch kann das Modell einen statistisch relevanten Datensatz generieren, der denselben Geschäftswert wie der Originaldatensatz hat, ohne dass eine Rückverfolgbarkeit auf die Originaldatensätze möglich ist.
YData treibt diese Technologie voran und ist das Unternehmen dahinter Synthetische Daten-Community – eine Gruppe von Data-Science-Experten, die sich dafür einsetzen, jeden zu evangelisieren und ihm zu helfen, der diese Technologie erlernen und nutzen möchte.
Wie hilft die Ydata-Plattform dabei, neue Datenquellen zu entdecken und zu erschließen?
Die Plattform von YData umfasst integrierte Konnektoren zu jeder Art von Datenbank, Data Warehouse oder Data Lake, die es Benutzern ermöglicht, einfach auf relevante Metadaten zuzugreifen und zu verstehen, ob die vorhandenen Daten für die Beantwortung der ihnen vorliegenden Geschäftsfrage nützlich sind – ohne überhaupt hinzusehen bei den echten Rekorden.
Könnten Sie uns einige Details zur Synthetic Data Open Source-Community mitteilen?
Synthetische Daten stecken noch in den Kinderschuhen und aus diesem Grund ist das Wissen darüber, wie sie generiert werden, welche Vorteile oder Grenzen sie haben, einem größeren Publikum noch weitgehend unbekannt. Aus diesem Grund haben wir bei YData beschlossen, einen eher lehrreichen Weg einzuschlagen, indem wir die Synthetic-Data-Community gegründet haben – sie ist nicht nur ein Ort, an dem man Ideen austauschen oder Hilfe von Experten auf dem Gebiet der synthetischen Daten erhalten kann, sondern auch ein Ort, an dem Datenwissenschaftler und ... Andere Tech-Profile können ihre Reise in synthetische Daten mit einigen der interessantesten Algorithmen aus der Literatur beginnen.
Darüber hinaus bieten wir auch eine Perspektive auf die Datenqualität, sodass Datenwissenschaftler zunächst die Daten, mit denen sie arbeiten, verstehen können, bevor sie die Datensynthetisierung synthetisieren oder verbessern. Wir engagieren uns wirklich dafür, Datenteams dabei zu helfen, immer datenzentrierter zu werden.
YData kürzlich kündigte eine Finanzierung in Höhe von 2.7 Millionen US-Dollar an um seine internationale Expansion voranzutreiben. Können Sie uns einige Details dazu mitteilen, was dies für die Zukunft des Unternehmens und seine Expansionsstrategie bedeutet?
YData wurde bereits international geboren – wir wussten, dass diese Art von Technologie Frühanwender braucht, die normalerweise in den fortschrittlichsten Ländern ansässig sind. Aus diesem Grund befanden sich unsere ersten Kunden bereits außerhalb Portugals in ganz Europa und wir bauen nun auch eine Präsenz in Nordamerika auf. Diese Finanzierung wird es uns ermöglichen, unsere Präsenz auf beiden Kontinenten nicht nur kommerziell zu stärken, sondern auch das Team zu vergrößern: Wir sind ein vollständig verteiltes Team, das es uns ermöglicht, die besten Talente einzustellen, wo auch immer sie sind.
Gibt es noch etwas, das Sie über YData mitteilen möchten?
YData verschiebt die Barriere der datenzentrierten KI und schafft eine neue Kategorie: DataPrepOps – obwohl es ein hässlicher Name ist, ist es für die meisten Unternehmen heutzutage ein Problem, wenn es um die Entwicklung von Datenwissenschaften geht. Der Datenqualitätstrend wächst weiter und nach Datenpipelines und Datenbeobachtbarkeit steckt die Datenqualität für Data-Science-Teams immer noch in den Kinderschuhen und YData entwickelt sich zu einem Vordenker in der Datenaufbereitung.
Vielen Dank für das tolle Interview, Leser, die mehr erfahren möchten, sollten vorbeischauen YDaten.












