Santé
Ginkgo Datapoints dévoile VCPI : un plan audacieux pour résoudre le problème de données de la découverte de médicaments par IA

Depuis des années, l’IA dans la découverte de médicaments a été freinée par un problème déceptivement simple : les données ne sont pas suffisamment bonnes. Des montagnes de séquençage, d’études de perturbation en pool et d’expériences de cellules mélangées ont donné l’impression de progrès sans apporter de véritables avancées. Mais le saut prédictif que les développeurs de médicaments attendaient n’a jamais eu lieu. Au lieu de clarté, le domaine a produit du bruit. Au lieu de reproductibilité, il a produit du dérive. Et au lieu de mesures pharmacologiques précises et spécifiques requises pour entraîner des modèles de cellules virtuelles fiables, il a produit des jeux de données optimisés plus pour l’échelle que pour l’intégrité scientifique.
C’est dans cet environnement que Ginkgo Datapoints lance l’initiative Virtual Cell Pharmacology (VCPI) — un projet qui ne promet pas seulement plus de données, mais vise à fournir de meilleures données, conçues spécifiquement pour les modèles d’IA qui tentent de prédire comment les molécules de médicaments réelles perturbent les systèmes biologiques réels. L’annonce officielle de l’entreprise souligne que VCPI générera plus de 12 milliards de points de données et profilera 100 000 composés, établissant ainsi le premier jeu de données standardisé de pharmacologie pour la modélisation de cellules virtuelles.
Pourquoi « plus de données » a échoué
Dans le blog post qui présente VCPI, Ginkgo utilise une analogie qui capture parfaitement la trajectoire erronée du domaine. Imaginez jeter une poignée de pilules dans une cage de souris — puis essayer de déterminer quelle souris a mangé quoi. Maintenant, étendez cela à un million de souris dans une seule grande cage. C’est la faille fondamentale derrière les expériences de pharmacologie à cellules uniques en pool. Ils génèrent des quantités impressionnantes de données, mais la conception sous-jacente empêche une attribution claire entre composé et phénotype.
Le problème n’est pas la technologie ; c’est l’architecture expérimentale. L’hypothèse selon laquelle les plus grands jeux de données enseignent nécessairement de meilleurs modèles s’est avérée fausse. Le blog affirme sans ambages que cette mentalité est une « dépendance aux données », argumentant qu’en l’absence de données structurées et de haute qualité, même les plus avancées IA apprendront les mauvais modèles.
VCPI représente un départ radical de cette logique. Au lieu de glorifier la taille, il mise sur la traçabilité biologique, la rigueur expérimentale et la structure contrôlée nécessaire pour que l’IA apprenne réellement la pharmacologie.
Comment VCPI reconstruit la chaîne de données
Au lieu de s’appuyer sur des essais de cellules uniques en pool, VCPI utilise DRUG-seq, une méthode de séquençage à haut débit en bulk RNA dans laquelle chaque composé est traité dans un puits barcodé isolé. Cela permet à Ginkgo de mesurer les réponses spécifiques au traitement avec un signal beaucoup plus clair que les conceptions en pool ne le permettent. Selon le communiqué de presse, l’infrastructure d’automatisation de l’entreprise peut exécuter plus de 100 plaques complètes de 384 puits par semaine, générant des millions de mesures RNA de haute fidélité à l’échelle industrielle.
Tout aussi important est l’introduction de V-Ref293, une ligne de cellules de référence standardisée nouvellement conçue. Au lieu que chaque laboratoire exécute sa propre version mutée et dérivée de la même ligne de cellules, VCPI crée une base biologique universelle — un « jumeau organique » à la classe émergente de cellules virtuelles. Cela élimine l’une des sources de longue date d’irreproductibilité en pharmacogénomique et fournit le sol ferme et la vérité nécessaire que les modèles d’IA ont désespérément besoin.
Dans le cadre de cette initiative, Ginkgo ouvre les portes à un jeu de données axé sur la communauté avec plusieurs composants définisseurs :
- Participation ouverte pour les chercheurs, les équipes pharma et les développeurs d’IA
- Profiling RNA à haut débit gratuit pour les composés soumis
- Accès optionnel avec embargo ou accès propriétaire permanent pour les contributeurs
- Sorties de données mensuelles façonnées par le vote de la communauté
- Opportunités de partage de modèles, de priorisation de composés et de statut de « super-utilisateur » anticipé
Un modèle construit par la communauté, et non un dump de données
L’un des aspects les plus inhabituels de VCPI est la décision de lancer avant que le jeu de données n’existe. Au lieu de télécharger une ressource terminée, Ginkgo demande à la communauté scientifique de déterminer quels composés sont les plus importants et de collaborer en temps réel à mesure que le jeu de données grandit.
Cette approche dérisque également la participation. Les biotechs en phase de démarrage peuvent soumettre des composés et recevoir de véritables données pharmacologiques sans brûler le budget précieux sur le criblage à haut débit. Les équipes d’IA peuvent s’assurer que le jeu de données reflète les perturbations dont elles ont réellement besoin pour l’entraînement du modèle. Et les laboratoires universitaires peuvent contribuer tout en conservant la possibilité d’une fenêtre exclusive de 90 jours.
La structure transforme la génération de données en un processus scientifique participatif — et non en un produit statique.
Ce que cela signifie pour l’avenir de la bio-IA
Les implications plus larges de VCPI dépassent Ginkgo ou toute initiative de cellules virtuelles unique. Pour que les modèles de cellules virtuelles deviennent scientifiquement crédibles, ils doivent être formés sur des données qui sont reproductibles, spécifiques au traitement et ancrées dans une référence biologique stable. Sans cette fondation, l’IA continuera à halluciner, à mal prédire ou à surestimer les artefacts.
Des initiatives comme VCPI signalent un changement dans la façon dont le domaine pense aux données elles-mêmes. La conception expérimentale devient aussi importante que l’architecture du modèle. La reproductibilité revient en tant qu’exigence centrale plutôt qu’un idéal optionnel. Et les projets à infrastructure ouverte et axés sur la communauté commencent à dépasser les jeux de données propriétaires fermés dans leur capacité à accélérer l’innovation.
Si les cellules virtuelles deviennent finalement des moteurs prédictifs fiables — des outils qui aident à classer les composés, à signaler les toxicités ou à éclairer les voies avant qu’un humain ne touche une pipette —, ce sera parce que des projets comme VCPI ont créé l’environnement de données structuré et fiable dont ils avaient besoin pour grandir.
En donnant la priorité à de meilleures données plutôt qu’à simplement plus de données, Ginkgo redefinie les fondements de la biologie habilitée par l’IA. VCPI ne réagit pas seulement à la crise des données dans la découverte de médicaments ; il prépare le terrain pour une nouvelle ère où les expériences biologiques et les pipelines de formation de l’IA évoluent ensemble, ouvertement et avec un but.




