人工智能
Evogene 和 Google Cloud 发布用于生成分子设计的基础模型,开启生命科学人工智能的新时代

Evogene Ltd。发布了首个用于小分子设计的生成式人工智能基础模型,标志着新化合物发现领域的突破。 宣布 于 2025 年 6 月 10 日,与 Google Cloud 合作,该模型扩展了 Evogene 的 ChemPass AI 平台,并解决了制药和农业领域长期存在的挑战:同时找到满足多个复杂标准的新分子。这种发展有望通过在单个设计周期中同时优化诸如效力、毒性和稳定性等属性来加速药物发现和作物保护的研发。
从顺序筛选到同时设计
在传统的药物和农业化学研究中,科学家通常一次测试一个因素——首先检查化合物是否有效,然后稍后测试其安全性和稳定性。这种一步一步的方法很慢,很昂贵,往往以失败告终,许多有前途的化合物在后期阶段都未能达到预期。它还使研究人员专注于熟悉的化学结构,限制了创新,并使得创造新的、可申请专利的产品更加困难。这种过时的方法导致了高昂的成本、漫长的时间表和低成功率——约 90% 的药物候选物在上市前都失败了。
生成式人工智能改变了这种范式。与其逐一过滤,人工智能模型可以同时处理多个要求,设计出从一开始就具有强效、安全和稳定的分子。 Evogene 的新基础模型专门设计用于实现这种同时的多参数设计。这种方法旨在通过将考虑诸如 ADME 和毒性等因素纳入初始设计中来降低后期开发的风险。
在实践中,这可能意味着较少的后期失败——例如,较少的药物候选物在实验室中显示出良好的结果,但由于副作用而在临床试验中失败。在简而言之,生成式人工智能允许研究人员更快、更智能地创新,同时优化成功分子的多个方面,而不是一次处理一个方面。
ChemPass AI 内部:生成模型如何设计分子
Evogene 的 ChemPass AI 平台的核心是一个强大的新基础模型,训练于一个庞大的化学数据集。该公司汇集了一个 精心策划的约 40 亿个分子结构数据库 ——涵盖已知的药物样化合物和多样化的化学骨架——以教导人工智能“分子的语言”。使用 Google Cloud 的 Vertex AI 基础设施和 GPU 超级计算,模型从这个巨大的化学库中学习了模式,赋予它前所未有的对药物样分子的知识广度。这种大规模的训练过程类似于训练大型语言模型,但人工智能学习的是化学表示,而不是人类语言。
Evogene 的生成模型建立在变换器神经网络架构之上,类似于革命了自然语言处理的 GPT 模型。事实上,该系统被称为 ChemPass-GPT,一种专有的在 SMILES 字符串(分子结构的文本编码)上训练的人工智能模型。简单来说,ChemPass-GPT 将分子视为句子——每个分子的 SMILES 字符串是一串描述其原子和键的字符。变换器模型已经学会了这种化学语言的语法,使其能够通过预测一个字符接着一个字符来“写”新的分子,就像 GPT 可以逐字写出句子一样。由于它是在数十亿个例子上训练的,模型可以生成对应于化学有效、药物样结构的新 SMILES。
这种 基于序列的生成方法 利用变换器在捕捉复杂模式方面的优势。通过在如此庞大和化学上多样的数据集上训练,ChemPass AI 克服了早期人工智能模型面临的问题,例如来自小数据集的偏差或生成冗余或无效分子。基础模型的性能已经远远超过了应用于化学的通用 GPT:内部测试显示,在生成满足所有设计标准的新分子方面,精度约为 90%,而传统的基于 GPT 的模型的精度约为 ~29%。在实践中,这意味着几乎所有 ChemPass AI 建议的分子不仅是新颖的,而且还符合其目标配置文件,这比基线生成技术有了显著的改进。
虽然 Evogene 的主要生成引擎使用线性 SMILES 上的变换器,但值得注意的是,较广泛的 AI 工具箱还包括其他架构,例如 图神经网络 (GNNs)。分子自然是图——原子作为节点,键作为边——GNNs 可以直接推理这些结构。在现代药物设计中,GNNs 通常用于预测属性或甚至通过原子逐一构建来生成分子。这种基于图的方法补充了序列模型;例如,Evogene 的平台还包含工具,如 DeepDock,用于 3D 虚拟筛选,它可能使用深度学习来评估结构背景下的分子结合。通过将序列模型(适合创造力和新颖性)与基于图的模型(适合结构准确性和属性预测)相结合,ChemPass AI 确保其生成的化合物不仅在纸面上是新颖的,而且在实践中也是化学上合理且有效的。人工智能的设计循环可能会生成候选结构,然后通过预测模型(可能基于 GNN)评估它们,以满足诸如毒性或合成可行性等标准,创建一个反馈循环来完善每个建议。
多目标优化:效力、毒性、稳定性同时优化
ChemPass AI 的一个突出特点是其内置的多目标优化能力。经典的药物发现通常一次优化一个属性,但 ChemPass 被设计为同时处理多个目标。这是通过高级机器学习技术实现的,这些技术指导生成模型以满足多个约束。在训练中,Evogene 可以施加属性要求——例如,分子必须强烈激活某个目标,避免某些毒性基团,并具有良好的生物利用度——模型学习在这些规则下导航化学空间。ChemPass-GPT 系统甚至允许“基于约束的生成”,这意味着它可以被指示仅提出满足特定期望属性的分子。
人工智能如何完成这一多参数平衡?一种方法是多任务学习,其中模型不仅生成分子,还使用学习的预测器预测其属性,并相应地调整生成。另一种强大的方法是 强化学习 (RL)。在 RL 增强的工作流中,生成模型像一个“玩分子设计游戏”的代理:它提出一个分子,然后根据该分子满足目标(效力、无毒性等)的程度获得一个奖励分数。经过多次迭代,模型调整其生成策略以最大化此奖励。这种方法已被成功应用于其他人工智能驱动的药物设计系统中——研究人员已证明 强化学习算法可以指导生成模型生成具有理想属性的分子。本质上,人工智能可以被训练以一个奖励函数,该函数包含多个目标,例如为预测的效力提供积分并为预测的毒性提供减分。然后模型优化其“动作”(添加或删除原子,改变功能基团)以获得最高的分数,有效地学习满足所有标准所需的权衡。
Evogene 尚未公开 ChemPass AI 的多目标引擎背后的确切专有“秘方”,但从他们的结果来看,很明显这种策略正在发挥作用。每个生成的化合物“同时满足基本参数”,例如效力、可合成性和安全性。即将推出的 ChemPass AI 版本 2.0 将进一步推动这一进程——它正在被开发以允许更灵活的多参数调优,包括用户定义的特定于特定治疗领域或作物要求的标准。这表明下一代模型可能会让研究人员根据需要调整某些因素的重要性(例如,优先考虑神经学药物的脑穿透性或杀虫剂的环境生物降解性),人工智能将相应地调整其设计策略。通过集成此类多目标功能,ChemPass AI 可以设计出在多个性能指标上同时达到最佳点的分子,这是传统方法几乎不可能实现的。
超越传统研发方法
ChemPass AI 生成模型的出现凸显了生命科学研发领域更广泛的转变:从劳动密集的试错工作流程到 人工智能增强的创造力和精度。与人类化学家不同,人类化学家倾向于坚持已知的化学系列并缓慢迭代,人工智能可以理解数十亿种可能性并探索未知的 99.9% 的化学空间。这为发现以前从未见过的有效化合物打开了大门——对于治疗具有新型化学的疾病或应对已经对现有分子产生耐药性的害虫和病原体至关重要。此外,通过从一开始就考虑 专利性,生成式人工智能有助于避免拥挤的知识产权领域。Evogene 的明确目标是生产出开辟新知识产权的分子,这是一个重要的竞争优势。
与传统方法相比的优势可以概括如下:
-
并行多特征优化: 人工智能同时评估多个参数,设计满足效力、安全性和其他标准的分子。相比之下,传统管道通常只在多年工作之后才发现毒性问题。通过预先过滤此类问题,人工智能设计的候选物在昂贵的后期试验中有更好的成功机会。
-
扩大化学多样性: 生成模型不仅限于现有的化合物库。ChemPass AI 可以想出以前从未制作过的结构,但预计会有效。这 新颖性驱动的生成 避免了重复发明(或分子),并有助于创建具有新作用机制的差异化产品。传统方法通常会导致“类似我”的化合物,这些化合物提供的新颖性不大。
-
速度和规模: 一组化学家可能通过合成和测试在一年内实现的成果,人工智能可以在几天内模拟。ChemPass AI 的深度学习平台可以快速虚拟筛选数十亿化合物,并在单次运行中生成数百个新想法。这大大压缩了发现时间表,将湿实验室实验仅集中在 silico 中确定的最有前途的候选物上。
-
集成知识: 像 ChemPass 这样的 AI 模型在其训练中融入了大量化学和生物知识(例如已知的结构-活性关系、毒性警报、药物样性规则)。这意味着每个分子设计都能从前人无法掌握的先验数据中受益。传统设计依赖于药物化学家的经验——这很有价值,但受到人类记忆和偏见的限制——而人工智能可以在数百万实验和多样化的化学家族中捕捉模式。
在实践中,对于制药行业,这可能会导致临床试验中更高的成功率和降低的开发成本,因为较少的资源被浪费在注定失败的化合物上。在农业领域,这意味着更快地创建更安全、更可持续的作物保护解决方案——例如,一种对杂草致命但对非目标生物体无害并且在环境中无害分解的除草剂。通过同时优化效力和环境安全,人工智能可以帮助提供“有效、可持续和专有的”农药,解决监管和抗药挑战一次性完成。
Evogene 更广泛的 AI 工具箱的一部分
虽然 ChemPass AI 在小分子设计方面占据了主导地位,但它是 Evogene 的三大 AI 驱动的“技术引擎”之一,这些引擎针对不同的领域进行了定制。该公司拥有 MicroBoost AI,专注于微生物,ChemPass AI,专注于化学,以及 GeneRator AI,专注于遗传元素。每个引擎都将大数据分析和机器学习应用于其各自的领域。
这三个 AI 引擎的集成生态系统凸显了 Evogene 作为一家“AI 第一”的生命科学公司的战略。他们旨在通过 利用计算来应对生物复杂性 来彻底改变产品发现——无论是制定药物、生物刺激剂还是抗旱作物。这些引擎共享一个共同的理念:使用最先进的机器学习来增加研发成功的概率并降低时间和成本。
展望:人工智能驱动的发现成熟
生成式人工智能正在改变分子发现,改变了人工智能从助手到创造性合作者的角色。科学家不再需要逐一测试想法,而是可以使用人工智能设计出满足多个目标的全新化合物——效力、安全性、稳定性等——一次性完成。
这种未来已经展开。一个制药团队可能会要求设计一种针对特定蛋白质、避免大脑并且口服可用的分子——人工智能可以按需提供候选物。在农业领域,研究人员可以生成针对监管和环境约束的环保型害虫控制剂。
Evogene 最近开发的基础模型,与 Google Cloud 合作,是这种转变的一个例子。它实现了多参数设计并开辟了新的化学空间。随着未来版本允许更多定制,这些模型将成为生命科学领域的必备工具。
最关键的是,其影响取决于现实世界的验证。随着人工智能生成的分子被测试和改进,模型会变得更好——在计算和实验之间创建一个强大的反馈循环。
这种生成方法并不局限于药物或杀虫剂。它很快就会在材料、食品和可持续性等领域推动突破——在以前受到试错法限制的行业中提供更快、更智能的发现。












