医疗健康
银杏数据点揭幕VCPI:一项大胆的计划来解决人工智能药物发现的数据问题

多年来,人工智能在药物发现领域一直被一个看似简单的问题所阻碍:数据不够好。大量的测序、池化干扰研究和混合细胞实验给人一种进步的感觉,但没有带来真正的突破。预期的预测飞跃从未实现。相反,领域内产生了噪音,而不是清晰;产生了漂移,而不是可重复性;并且产生了优化规模而不是科学完整性的数据集,而不是需要训练可靠的虚拟细胞模型的精确、药理学特定的测量。
这是 银杏数据点 推出 虚拟细胞药理学计划(VCPI) 的环境——一个不仅仅承诺更多数据,而是旨在为尝试预测真实药物样分子如何干扰真实生物系统的人工智能模型提供更好的数据的项目。公司的官方公告强调,VCPI 将生成超过 120 亿个数据点,并对 10 万种化合物 进行分析,建立第一个用于虚拟细胞建模的标准化药理学数据集。
为什么“更多数据”失败
在 博客文章 中介绍 VCPI,银杏使用一个完美地捕捉到该领域误导性轨迹的类比。想象一下,将一把药丸扔进一笼老鼠中——然后尝试弄清楚哪只老鼠吃了什么。现在,将其扩大到一百万只老鼠在一个巨大的笼子里。这就是池化单细胞药理学实验的核心缺陷。它们生成了令人印象深刻的数据量,但底层设计阻止了化合物和表型之间的清晰归属。
问题不在于技术;而在于实验架构。假设更大的数据集本质上会教会更好的模型已经被证明是错误的。博客文章直截了当地称这种思维方式为“数据成瘾”,认为没有结构良好、高信号输入,即使是最先进的人工智能也会学习错误的模式。
VCPI代表了对这种逻辑的根本性背离。它不是为了追求规模,而是专注于生物可追溯性、实验严谨性和人工智能实际学习药理学所需的受控结构。
VCPI如何重建数据管道
VCPI没有依赖于池化单细胞测定,而是使用 DRUG-seq,一种高通量的大规模RNA测序方法,每种化合物在一个独立的条形码井中处理。这使得银杏能够以比池化设计更清晰的信噪比来测量特定处理的响应。 根据新闻稿,公司的自动化基础设施可以每周运行超过 100 个完整的 384 孔板,在工业规模上生成数百万个高保真度的RNA测量。
同样重要的是引入了 V-Ref293,一种新开发的标准化参考细胞株。与其让每个实验室运行自己的突变、漂移版本的相同细胞株,VCPI创建了一个通用的生物基线——一个与新兴的虚拟细胞类别相对应的“有机双胞胎”。这消除了药理基因组学中长期存在的不可重复性来源,并为人工智能模型提供了稳定的真实基础。
在此倡议下,银杏正在开放一个社区驱动的数据集,具有以下几个定义组件:
- 研究人员、制药团队和人工智能开发人员的开放参与
- 提交化合物的免费高通量RNA分析
- 为贡献者提供可选的封存或永久专有访问
- 由社区投票塑造的每月数据发布
- 共享模型、化合物优先级和早期访问“超级用户”状态的机会
社区驱动的模型,而不是数据转储
VCPI最不寻常的方面之一是决定在数据集存在之前启动。银杏不是上传一个完成的资源,而是要求科学界帮助确定哪些化合物最重要,并在数据集增长的同时实时合作。
这种方法还降低了参与的风险。早期生物技术公司可以提交化合物并在不花费宝贵预算用于高通量筛选的情况下获得真正的药理学数据。人工智能团队可以确保数据集反映出他们实际需要用于模型训练的干扰。学术实验室可以贡献,同时仍然保留 90 天独家窗口的可能性。
结构将数据生成转变为一个参与式的科学过程——而不是一个静态的产品。
这对生物人工智能的未来意味着什么
VCPI的更广泛影响超出了银杏或任何单一虚拟细胞计划。为了使虚拟细胞模型具有科学可信度,它们必须在可重复、特定处理和锚定到稳定生物参考的数据上进行训练。没有这种基础,人工智能将继续产生幻觉、误预测或过度拟合到伪影中。
像 VCPI 这样的计划表明该领域正在改变其对数据本身的思考方式。实验设计变得与模型架构一样重要。可重复性再次成为一个核心要求,而不是一个可选的理想。社区驱动的、开放基础设施的项目正在开始超越封闭的专有数据集,以加速创新。
如果虚拟细胞最终成为可靠的预测引擎——帮助排名化合物、标记毒性或在人类触摸移液管之前照亮途径的工具——这是因为像 VCPI 这样的项目为它们的成长创造了结构化、可靠的数据环境。
通过优先考虑更好的数据而不是简单地更多的数据,银杏正在重塑人工智能启用生物学的基础。VCPI不仅仅是对药物发现中的数据危机做出反应;它为一个新的时代奠定了基础,在这个时代中,生物实验和人工智能训练管道将共同演进、公开和有目的地发展。




