人工智能
密苏里大学的PSBench:一种新的AI驱动蛋白质发现信任层

人工智能已经解决了生物学中最顽固的谜团之一:蛋白质如何折叠成复杂的三维形状。但是,当该领域从预测转向应用时,一个新的问题变得比以往任何时候都更加紧迫:
我们何时可以信任模型?
密苏里大学的研究人员相信他们已经迈出了解决这个问题的重要一步。该大学宣布发布PSBench,一个包含140万个蛋白质结构模型的巨大基准数据集,并附有质量评估注释。由Jianlin ‘Jack’ Cheng领导的项目旨在评估这些结构,而不是生成新的结构。
这种区别可能对未来AI驱动的医学产生至关重要的影响。
蛋白质AI的新瓶颈
蛋白质折叠问题在过去半个世纪中一直未被解决。然而,当AlphaFold从Google DeepMind展示出在预测许多蛋白质结构方面的近实验准确性时,情况发生了戏剧性的变化。这种突破如此具有变革性,以至于AI驱动的蛋白质预测被授予2024年诺贝尔化学奖的一部分。
从那时起,预测系统已经扩展到单个蛋白质之外,包括复合物、界面和生物分子相互作用。AlphaFold蛋白质结构数据库现在包含数亿个预测结构,使得曾经稀缺的东西变得几乎丰富。
但是,丰富性带来了新的挑战。
预测的蛋白质模型可能看起来令人信服,甚至优雅。然而,细微的错误,尤其是在结合界面或柔性区域,可能会使可行的药物靶点和昂贵的死胡同之间产生差异。内部置信度指标,例如pLDDT和预测对齐误差,提供了有用的指导,但它们仍然是模型生成的信号。它们从内部估计不确定性。
PSBench从外部解决这个问题。
PSBench有什么不同之处
与构建另一个预测引擎不同,PSBench作为一个大规模的评估平台。数据库编译了140万个结构模型,这些模型来自社区范围内的努力,例如蛋白质结构预测的关键评估(CASP),这是盲蛋白质建模实验的长期金标准。这些模型与准确性标签配对,允许研究人员训练和测试独立的AI系统,能够估计结构的可靠性。
本质上,PSBench使AI模型能够评分其他AI模型。
这种能力变得越来越重要,因为该领域从问“我们能否预测结构?”转变为问“这个结构是否足够可靠,以指导实验?”
程的团队在这一演变中有着深厚的根基。早在2012年,在一次早期的CASP竞赛期间,他的团队是第一个展示深度学习可以显著改善蛋白质结构建模的团队。十多年后,PSBench反映了这一旅程的下一阶段:完善预测的评估,而不仅仅是生成预测。
这项工作最近在NeurIPS 2025上进行了演讲,强调了机器学习研究和结构生物学之间的密切联系。
2026年AlphaFold:从折叠到相互作用
与此同时,整个生态系统继续进步。最新一代AlphaFold模型已经超越了单个蛋白质的折叠,扩展到了蛋白质、DNA、RNA和小分子之间的相互作用建模。数据库已经扩展到前所未有的规模,社区贡献正在加速对微生物、病毒和人类蛋白质组的覆盖。
随着这些工具的成熟,研究人员越来越多地将预测结构作为假设生成的起点。实验验证仍然非常重要,但AI现在为实验的优先顺序设定了agenda。
这就是为什么质量评估如此重要的原因。
如果预测AI系统生成的结构假设超过了实验室能够验证的数量,那么能够准确、客观地筛选这些假设的能力就成为基础设施。
对药物发现的影响
蛋白质是生物学的功能引擎。它们的三维形状决定了它们如何相互作用、信号传递和调节生命过程。当结构被误解,特别是在治疗背景下时,后果可能会在多年发展中产生连锁反应。
通过改进模型质量评估系统的训练和基准测试,PSBench可能有助于减少对有缺陷预测的错误信心。更可靠的结构评分意味着更好的目标优先级,实验室资源的使用更高效,并可能加速复杂疾病如阿尔茨海默病和癌症的治疗开发。
重要的是,PSBench不替代预测工具,如AlphaFold。相反,它补充了它们,为迅速扩展的生态系统添加了一个信任层。
科学信任层的崛起
生物学中的AI已经进入了一个新阶段。第一个时代是关于预测。第二个时代是关于扩大访问。新兴的第三个时代是关于验证、基准测试和治理。
PSBench代表了这种转变。
随着AI系统成为生物医学发现的核心,评估其输出的严谨性将决定研究人员如何自信地建立在这些输出之上。在一个angstrom级精度可以影响数十亿美元决策的领域中,信任不是可选的。
如果AlphaFold帮助解开了生命结构的秘密,PSBench可能有助于确保我们解开的东西足够坚实,可以站稳脚跟。












