Entretiens
Edward Cui, Fondateur & PDG de Graviti – Série d’entretiens

Edward Cui est le fondateur et PDG de Graviti, une entreprise qui construit la prochaine génération de plateforme de données qui va fondamentalement changer la façon dont les développeurs interagissent avec les données non structurées. Avec Graviti, les développeurs d’IA peuvent acquérir, stocker et traiter des données plus rapidement et plus facilement – la base nécessaire pour exploiter l’intelligence artificielle pour autonomiser toutes les industries.
Vous avez commencé vos études universitaires en tant qu’ingénieur mécanicien, qu’est-ce qui a provoqué le passage à l’informatique et à l’intelligence artificielle ?
J’ai effectivement étudié l’ingénierie mécanique en 2012. J’ai suivi un cours sur l’apprentissage automatique à l’Université de Pennsylvanie, qui était époustouflant, et je savais que c’était l’avenir et ce que je voulais faire pour ma carrière. Après ce cours, j’ai transféré à l’informatique.
Après l’obtention de mon diplôme, j’ai effectué des recherches sur l’apprentissage par renforcement à l’Université de Pennsylvanie. En 2015, mon ancien patron, Jeff Snyder, a rejoint Uber et m’a invité à rejoindre Uber ATG. C’est le début de ma carrière dans l’industrie des voitures autonomes.
Pouvez-vous partager l’histoire de la genèse de Graviti ?
Travailler chez Uber était très compliqué au début, car les gens n’utilisaient pas de grands modèles d’apprentissage automatique et nous manquions de puissance de calcul et d’une plateforme de gestion de données pour former des modèles. Les données que nous avons collectées pour les voitures autonomes étaient toutes non structurées. Par exemple, il s’agissait d’images, de vidéos, de points LIDAR. Toutes ces données provenant de capteurs du monde réel et nous collections des tonnes de données non structurées chaque jour. Nous avons effectué une statistique qui nous a indiqué que la quantité de données que nous collectons dans une division de voitures autonomes en une semaine est égale aux données que nous collectons pour l’ensemble du secteur de la restauration dans le monde entier pour toute l’année. Des tonnes de données non structurées s’accumulaient chaque jour et cela créait de gros problèmes sur la façon de stocker ces données, de les gérer et de les utiliser pour générer des valeurs pour les différentes organisations.
Après trois ans de travail chez Uber, j’ai vu l’opportunité d’améliorer la façon dont les grandes quantités de données non structurées pourraient être gérées. J’ai donc fondé Graviti en 2019 pour accélérer les innovations dans l’IA en construisant la plateforme de gestion de données non structurées.
Pouvez-vous discuter de la façon dont Graviti est une plateforme pour gérer et structurer les données à grande échelle ?
Graviti vise à lancer la première plateforme de données qui permet aux organisations de travailler avec de grandes quantités de données non structurées pour alimenter des applications d’IA innovantes. Cette plateforme élimine les tracas et aide les développeurs à gérer de grandes quantités de données non structurées avec l’équipe.
Alors que la grande majorité des informations disponibles dans le développement de l’IA est de mauvaise qualité et non structurée, les équipes de développement passent généralement plus de 50 % de leur temps – non à construire des modèles – mais à identifier, à augmenter ou à nettoyer les données non structurées, et ce n’est que le début de leur travail. Graviti offre une façon plus experte de gérer les données pour libérer les développeurs et leur donner plus de temps pour analyser les données non structurées et former des modèles d’IA.
Nous aidons les développeurs dans trois dimensions : la découverte de données, l’itération de données et l’automatisation des flux de travail.
Découverte de données :
Graviti propose une fonctionnalité d’hébergement de données qui facilite l’organisation des données brutes, des annotations et des métadonnées en unifiant les formats de jeu de données et d’annotation. Lorsque les développeurs d’IA accèdent à différents jeux de données via Graviti, ils n’ont pas besoin de convertir les formats de données, ce qui simplifie la gestion, la requête, l’accès et les autres opérations liées aux annotations. Graviti aide à réduire les opportunités de données brutes non correspondantes ou de perte d’annotations. De plus, la plateforme Graviti peut aider les développeurs à évaluer la qualité des jeux de données avec une fonctionnalité de visualisation de données, ce qui économise au moins huit heures par semaine pour les développeurs.
Itération de données :
Lorsque les développeurs forment leurs IA, ils doivent tester avec des jeux de données dans différentes versions pour voir les résultats et noter les annotations. Le défi consiste à suivre les différentes éditions et les versions avec les membres de l’équipe qui travaillent sur le même projet. Graviti propose une solution en permettant l’attribution de différents niveaux de droits d’accès aux employés pour leur permettre de télécharger leurs annotations et de suivre les progrès du projet et de travailler simultanément.
Automatisation des flux de travail :
Avec une fonctionnalité appelée « Action », les ingénieurs peuvent automatiser les flux de travail et réduire les tâches répétitives, chronophages et manuelles. Cela libère les développeurs de l’écriture de grands scripts manuels pour atteindre ces flux de travail et ouvre du temps pour qu’ils puissent se consacrer au travail qu’ils ont à faire.
Pourquoi les données non structurées sont-elles l’avenir de l’IA ?
Plus de 80 % des données d’entreprise sont non structurées, notamment des images, des enregistrements, des vidéos, des publications sur les médias sociaux, etc. L’IA est la clé pour livrer des valeurs à partir de données non structurées. Les entreprises commencent à exploiter les données non structurées pour soutenir des recherches approfondies et des analyses plus poussées.
Graviti a récemment lancé OpenBytes, un projet de données ouvertes à but non lucratif hébergé sous la fondation Linux. Pouvez-vous discuter de ce qu’est spécifiquement OpenBytes ?
La mission d’OpenBytes est de faciliter le partage plus large de données dans la communauté de l’IA grâce à la création de normes de données, de formats et de processus permettant les contributions de données. La portée d’OpenBytes inclut la curation de jeux de données ouverts, de spécifications de données ouvertes et de développement collaboratif sous des licences ouvertes soutenant la mission, y compris la documentation, les tests, l’intégration et la création d’autres artefacts qui aident le développement, le déploiement, l’exploitation ou l’adoption du projet open source.
OpenBytes peut réduire les risques de responsabilité pour les contributeurs de données. Les détenteurs de jeux de données hésitent à partager leurs jeux de données publiquement en raison du manque de connaissance des licences de données. Une fois que les contributeurs de données rejoignent OpenBytes, leurs données seront protégées et plus de données ouvertes seront accessibles.
Nous générons également un format de jeu de données standard lors de la publication, du partage et de l’échange de données. Un format unifié aidera les contributeurs de données à comprendre les jeux de données et à trouver les données pertinentes dont ils ont besoin, ce qui conduira à des contributions de jeux de données ouverts de meilleure qualité.
Quels sont les avantages des jeux de données open source ?
Ils profitent aux chercheurs, car les scientifiques ont plus de ressources gratuites à utiliser pour former des modèles et compléter des recherches.
Ils profitent aux entreprises, qui utilisent les jeux de données pour commencer à construire des capacités d’IA et à alimenter la transition des entreprises traditionnelles aux entreprises d’IA.
Comment Graviti authentifie la qualité des jeux de données ?
Même les jeux de données populaires tels que COCO et KITTI ne sont pas parfaits pour les développeurs. Des bogues se produisent toujours lorsque les développeurs forment des modèles et personne n’a trouvé de moyen excellent pour améliorer la qualité des jeux de données. Graviti croit qu’un modèle d’évaluation de jeu de données sera établi ou qu’une autre révolution technique aidera la communauté à résoudre le problème, et c’est également une partie de la mission de Graviti à réaliser à l’avenir.
Quelle est votre vision pour l’avenir de la façon dont les développeurs accèdent aux données ?
Pour une petite quantité de données, les développeurs devraient être en mesure d’accéder à ces données facilement. Pour des quantités de données plus importantes, comme des jeux de données plus diversifiés pour la formation de modèles, la technologie d’apprentissage fédéré aidera à travailler de manière collaborative en déconnectant la capacité de faire de l’apprentissage automatique du stockage des données sur un serveur central.
Y a-t-il autre chose que vous aimeriez partager sur Graviti ?
Graviti évolue également. Nous écoutons les commentaires de nos clients, y compris les startups, les entreprises, les développeurs individuels et les chercheurs. Nous accueillons également avec plaisir toute opportunité de collaboration ou de partenariat avec tous.
Nous voyons de grandes opportunités dans le développement de l’IA à partir de données ouvertes dans un avenir très proche. Nous construisons une communauté pour le partage et la contribution de données ouvertes. Cela bénéficiera non seulement aux chercheurs pour repousser les limites de la science, mais également aux entreprises pour affiner leurs modèles et faire évoluer la technologie dans un environnement mutuellement bénéfique.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Graviti.












