医疗健康
Gingko 数据点推出 VCPI:一项大胆的计划,旨在解决 AI 药物发现的数据问题

多年来,药物发现中的 AI 因为一个看似简单的问题而受到阻碍:数据不够好。大量的测序、混合细胞实验和池化干扰研究给人一种进步的感觉,但并没有带来真正的突破。相反,领域内产生了噪音,而不是清晰的结果;产生了不可重复的结果,而不是可重复的结果;并且产生了优化规模而不是科学完整性的数据集,而不是提供训练可靠的虚拟细胞模型所需的精确、药理学特异性的测量。
这是 Ginkgo 数据点 推出 虚拟细胞药理学计划(VCPI) 的环境——一个不仅仅承诺更多数据,而是旨在为试图预测真实药物样分子如何干扰真实生物系统的 AI 模型提供更好的数据的项目。公司的官方声明强调,VCPI 将生成超过 120 亿个数据点,并对 10 万个化合物 进行特征分析,建立第一个用于虚拟细胞建模的标准化药理学数据集。
为什么“更多数据”失败了
在 博客文章 中介绍 VCPI,Ginkgo 使用了一个完美地捕捉了该领域误导性轨迹的类比。想象一下,将一把药丸扔进一群老鼠的笼子里——然后尝试弄清楚哪只老鼠吃了什么。现在,将其扩大到一百万只老鼠在一个巨大的笼子里。这就是池化单细胞药理学实验的核心缺陷。它们生成了令人印象深刻的数据量,但底层设计阻止了干净的归属 zwischen 化合物和表型。
问题不在于技术;而在于实验架构。假设更大的数据集天然地教会更好的模型已经被证明是错误的。博客文章直截了当地称这种心态为“数据成瘾”,认为没有结构良好、高信号输入,即使是最先进的 AI 也会学习错误的模式。
VCPI 代表了对这种逻辑的明显背离。与其赞美规模,它专注于生物学可追溯性、实验严谨性和 AI 实际学习药理学所需的受控结构。
VCPI 如何重建数据管道
与其依赖于池化单细胞测定,VCPI 使用 DRUG-seq,一种高通量的批量 RNA 测序方法,其中每个化合物在一个隔离的条形码井中处理。这使 Ginkgo 能够以比池化设计更清晰的信噪比来测量特定处理的响应。根据 新闻稿,公司的自动化基础设施每周可以运行超过 100 个完整的 384 孔板,在工业规模上生成数百万个高保真度 RNA 测量。
同样重要的是引入了 V-Ref293,一种新开发的标准参考细胞系。与其让每个实验室运行自己的突变、漂移版本的相同细胞系,VCPI 创建了一个通用的生物学基准——一个与新兴的虚拟细胞类别相对应的“有机双胞胎”。这消除了药理基因组学中长期存在的不可重复性的一个来源,并为 AI 模型提供了它们迫切需要的稳定真实值。
在此倡议下,Ginkgo 正在向一个社区驱动的数据集敞开大门,该数据集具有几个定义的组件:
- 研究人员、制药团队和 AI 开发人员的开放参与
- 提交化合物的免费高通量 RNA 特征分析
- 贡献者可选择的封闭或永久专有访问
- 由社区投票决定的每月数据发布
- 共享模型、化合物优先级和早期访问“超级用户”状态的机会
社区驱动的模型,而不是数据转储
VCPI 最不寻常的方面之一是决定在数据集存在之前启动它。与其上传完成的资源,Ginkgo 正在要求科学界帮助确定哪些化合物最重要,并在数据集增长的同时实时合作。
这种方法还降低了参与的风险。早期生物技术公司可以提交化合物并在不花费大量预算用于高通量筛选的情况下获得真正的药理学数据。AI 团队可以确保数据集反映出他们实际需要用于模型训练的干扰。学术实验室可以贡献,同时仍然保留 90 天独家窗口的可能性。
结构将数据生成转变为一个参与式的科学过程——而不是一个静态的产品。
这对生物 AI 的未来意味着什么
VCPI 的更广泛的影响超出了 Ginkgo 或任何单一的虚拟细胞计划。为了使虚拟细胞模型变得科学上可信,它们必须在可重复、特定处理和锚定到稳定生物学参考的数据上进行训练。没有这种基础,AI 将继续产生幻觉、误预测或过度拟合到伪影中。
像 VCPI 这样的计划表明该领域正在改变其对数据本身的思考方式。实验设计变得与模型架构一样重要。可重复性正成为一个核心要求,而不是一个可选的理想。社区驱动的、开放基础设施的项目正在开始超越封闭的专有数据集,在加速创新方面的能力。
如果虚拟细胞最终成为可靠的预测引擎——帮助排名化合物、标记毒性或阐明途径的工具甚至在人类触摸移液管之前——这将是因为像 VCPI 这样的项目创建了它们所需的结构化、可信赖的数据环境。
通过优先考虑更好的数据而不是简单地更多的数据,Ginkgo 正在重新定义 AI 启用的生物学的基础。VCPI 不仅仅是对药物发现中的数据危机做出反应;它为一个新的时代奠定了基础,在这个时代,生物实验和 AI 训练管道将一起演变、公开和有目的地进行。












