存根 Serafim Batzoglou 博士,Seer 首席数据官 - 访谈系列 - Unite.AI
关注我们.

面试

Seer 首席数据官 Serafim Batzoglou 博士 – 访谈系列

mm

发布时间

 on

Serafim Batzoglou 是首席数据官 先见者。在加入 Seer 之前,Serafim 曾担任 Insitro 的首席数据官,领导机器学习和数据科学的药物发现方法。在加入 Insitro 之前,他曾担任 Illumina 应用和计算生物学副总裁,领导人工智能和分子检测的研究和技术开发,使基因组数据在人类健康中更容易解释。

是什么最初吸引您进入基因组学领域?

在麻省理工学院攻读计算机科学博士学位时,我对计算生物学领域产生了兴趣,当时我参加了由后来成为我的博士生导师的邦妮·伯杰(Bonnie Berger)和大卫·吉福德(David Gifford)教授的有关该主题的课程。 在我攻读博士学位期间,人类基因组计划正在加快步伐。 麻省理工学院基因组中心负责人埃里克·兰德 (Eric Lander) 成为我的博士生联合导师,并让我参与了这个项目。 受人类基因组计划的推动,我从事人类和小鼠 DNA 的全基因组组装和比较基因组学研究。

然后,我搬到斯坦福大学,在计算机科学系任教 15 年,很荣幸为大约 30 名才华横溢的博士生以及许多博士后研究人员和本科生提供了建议。 我的团队的重点是应用算法、机器学习和软件工具构建来分析大规模基因组和生物分子数据。 我于 2016 年离开斯坦福大学,领导 Illumina 的研究和技术开发团队。 从那时起,我就享受到了行业领先的研发团队。 我发现与学术界相比,团队合作、商业方面以及对社会更直接的影响是工业界的特征。 在我的职业生涯中,我曾在创新公司工作过:DNAnexus(我于 2009 年与他人共同创立)、Illumina、insitro 以及现在的 Seer。 计算和机器学习在生物技术的整个技术链中至关重要,从技术开发到数据采集,再到生物数据解释和翻译,再到人类健康。

在过去的 20 年里,人类基因组测序变得更加便宜和快捷。 这导致了基因组测序市场的急剧增长以及生命科学行业的更广泛采用。 我们现在正处于拥有足够规模的群体基因组、多组学和表型数据的风口浪尖,以有意义地彻底改变医疗保健,包括预防、诊断、治疗和药物发现。 通过基因组数据的计算分析,我们可以越来越多地发现个体疾病的分子基础,患者有机会接受个性化和有针对性的治疗,特别是在癌症和罕见遗传病领域。 除了在医学中的明显用途之外,机器学习与基因组信息相结合使我们能够深入了解生活的其他领域,例如我们的家谱和营养。 未来几年,个性化、数据驱动的医疗保健将被采用,首先是针对罕见病患者等特定人群,然后越来越多地针对广大公众。

在担任现职之前,您曾担任以下公司的首席数据官 插入式,在药物发现方法方面引领机器学习和数据科学。 关于如何利用机器学习加速药物发现,您在这段时期的主要收获是什么?

传统的药物发现和开发“试错”模式存在效率低下和时间极其漫长的问题。 一种药物要进入市场,可能需要花费 1 亿美元以上和十多年的时间。 通过将机器学习融入这些工作中,我们可以分几步大幅降低成本和时间。 一个步骤是目标识别,其中可以通过大规模遗传和化学扰动以及成像和功能基因组学等表型读数来识别调节疾病表型或将疾病细胞状态恢复到更健康状态的基因或一组基因。 另一个步骤是化合物识别和优化,其中可以通过机器学习驱动的计算机预测和体外筛选来设计小分子或其他形式,此外还可以设计药物的所需特性,例如溶解度、渗透性、特异性和非特异性。可以优化毒性。 最困难也是最重要的方面可能是向人类的翻译。 在这里,针对正确的疾病选择正确的模型(诱导多能干细胞衍生系与原代患者细胞系以及组织样本与动物模型)提出了一系列极其重要的权衡,这些权衡最终反映了所得数据加机器的能力学习向患者翻译。

Seer Bio正在开拓新的方法来解码蛋白质组的秘密以改善人类健康,对于不熟悉这个术语的读者来说什么是蛋白质组?

蛋白质组 是生物体随着时间的推移并响应环境、营养和健康状况而产生或修饰的一组不断变化的蛋白质。 蛋白质组学是对给定细胞类型或组织样本中蛋白质组的研究。 人类或其他生物体的基因组是静态的:除了体细胞突变之外,出生时的基因组是一个人一生的基因组,在身体的每个细胞中精确复制。 蛋白质组是动态的,会在几年、几天甚至几分钟的时间内发生变化。 因此,蛋白质组比基因组更接近表型并最终更接近健康状况,因此对于监测健康和了解疾病提供了更多信息。

在 Seer,我们开发了一种获取蛋白质组的新方法,可以更深入地了解复杂样品(例如血浆)中的蛋白质和蛋白质形式,血浆是一种易于获取的样品,不幸的是迄今为止对传统质谱蛋白质组学提出了巨大的挑战。

什么是 Seer 的 Proteograph™ 平台?它如何提供蛋白质组的新视图?

Seer 的 Proteograph 平台利用专有的工程纳米粒子库,由简单、快速和自动化的工作流程提供支持,能够对蛋白质组进行深入且可扩展的询问。

Proteograph 平台在检测血浆和其他复杂样品方面表现出色,这些样品表现出较大的动态范围(样品中各种蛋白质的丰度存在多个数量级差异),而传统的质谱方法无法检测蛋白质组的低丰度部分。 Seer 的纳米颗粒经过精心设计,具有可调节的理化特性,能够以公正的方式收集动态范围内的蛋白质。 在典型的血浆样品中,与不使用 Proteograph 处理纯血浆时相比,我们的技术能够检测到多 5 倍到 8 倍的蛋白质。 因此,从样品制备到仪器仪表再到数据分析,我们的 Proteograph 产品套件可帮助科学家找到原本可能无法检测到的蛋白质组疾病特征。 我们想说,在 Seer,我们正在开辟通向蛋白质组的新大门。

此外,我们允许科学家轻松地进行大规模蛋白质组学研究。 蛋白质基因组学是将基因组数据与蛋白质组数据相结合,以识别和量化蛋白质变异,将基因组变异与蛋白质丰度水平联系起来,最终将基因组和蛋白质组与表型和疾病联系起来,并开始解开与疾病相关的因果和下游遗传途径。 。

您能讨论一下 Seer Bio 目前使用的一些机器学习技术吗?

Seer 在从技术开发到下游数据分析的所有步骤中都利用机器学习。 这些步骤包括:(1) 设计我们专有的纳米颗粒,机器学习帮助我们确定纳米颗粒的哪些理化特性和组合适用于特定的产品线和检测; (2) 从 MS 仪器产生的读出数据中检测和定量肽、蛋白质、变体和蛋白质形式; (3)大规模人群队列中的下游蛋白质组学和蛋白质组学分析。

去年,我们 在《先进材料》发表论文 结合蛋白质组学方法、纳米工程和机器学习,以提高我们对蛋白质冠形成机制的理解。 这篇论文揭示了纳米生物相互作用,并为 Seer 创造改进的未来纳米粒子和产品提供了信息。

除了纳米颗粒的开发之外,我们还一直在开发 识别变异肽和翻译后修饰的新算法 (PTM)。 我们最近开发了一种方法 蛋白质定量性状位点的检测 (pQTL)对蛋白质变异具有鲁棒性,这是基于亲和力的蛋白质组学的已知混杂因素。 我们正在扩展这项工作,使用基于深度学习的从头测序方法直接从原始光谱中识别这些肽,以便在不增加光谱库大小的情况下进行搜索。

我们的团队还在开发方法,使在机器学习方面没有深厚专业知识的科学家能够在他们的发现工作中优化调整和利用机器学习模型。 这是通过基于 Seer ML 框架来完成的 AutoML 工具,它允许通过贝叶斯优化进行有效的超参数调整。

最后,我们正在开发方法来减少批次效应并提高质谱读数的定量准确性,方法是对测量的定量值进行建模,以最大化预期指标,例如蛋白质组内肽之间的强度值的相关性。

幻觉是法学硕士的常见问题,有哪些解决方案可以预防或减轻这种情况?

LLM 是一种生成方法,需要提供大型语料库并经过训练才能生成相似的文本。 它们捕获所训练文本的底层统计属性,从简单的本地属性(例如某些单词(或标记)组合在一起出现的频率)到模拟对上下文和含义的理解的更高级别的属性。

然而,法学硕士最初并没有经过正确的培训。 具有人类反馈的强化学习(RLHF)和其他技术有助于训练它们获得所需的属性,包括正确性,但并不完全成功。 根据提示,法学硕士将生成与训练数据的统计属性最相似的文本。 通常,这段文字也是正确的。 例如,如果问“亚历山大大帝何时出生”,正确答案是公元前 356 年(或公元前 XNUMX 年),法学硕士很可能会给出该答案,因为在训练数据中,亚历山大大帝的出生经常显示为该值。 然而,当被问到“雷吉内拉皇后何时出生”(训练语料库中没有出现的虚构人物)时,法学硕士很可能会产生幻觉并编造一个关于她出生的故事。 同样,当被问到一个法学硕士可能无法找到正确答案的问题时(要么因为正确答案不存在,要么出于其他统计目的),它很可能会产生幻觉并回答得好像它知道一样。 这会产生幻觉,这对于严肃的应用来说是一个明显的问题,例如“如何治疗这样那样的癌症”。

目前还没有针对幻觉的完美解决方案。 它们是法学硕士设计中特有的。 一种部分解决方案是适当的提示,例如要求法学硕士“仔细思考,一步一步”等等。 这增加了法学硕士不编造故事的可能性。 正在开发的一种更复杂的方法是使用知识图。 知识图提供结构化数据:知识图中的实体以预定义的逻辑方式连接到其他实体。 为给定领域构建知识图当然是一项具有挑战性的任务,但可以通过自动化和统计方法以及管理的结合来实现。 借助内置的知识图谱,法学硕士可以根据结构化的已知事实集交叉检查他们生成的陈述,并且可以限制不生成与知识图谱相矛盾或不支持的陈述。

由于幻觉这一基本问题,也可以说是由于他们缺乏足够的推理和判断能力,法学硕士如今在检索、连接和提炼信息方面拥有强大的能力,但在医疗诊断或法律咨询等严肃应用中无法取代人类专家。 尽管如此,它们仍然可以极大地提高人类专家在这些领域的效率和能力。

您能否分享一下您对未来生物学由数据而非假设引导的愿景?

传统的假设驱动方法涉及研究人员发现模式、提出假设、进行实验或研究来测试它们,然后基于数据完善理论,这种方法正在被基于数据驱动建模的新范式所取代。

在这种新兴范式中,研究人员从无假设的大规模数据生成开始。 然后,他们训练机器学习模型,例如法学硕士,其目标是准确重建被遮挡的数据,在许多下游任务中实现强大的回归或分类性能。 一旦机器学习模型能够准确预测数据,并实现与实验重复之间的相似性相当的保真度,研究人员就可以询问模型以提取有关生物系统的见解并辨别潜在的生物学原理。

事实证明,法学硕士在生物分子数据建模方面特别擅长,并且致力于推动从假设驱动到数据驱动的生物发现的转变。 这种转变在未来 10 年将变得越来越明显,并允许以远远超出人类能力的粒度对生物分子系统进行精确建模。

对疾病诊断和药物发现的潜在影响是什么?

我相信法学硕士和生成式人工智能将给生命科学行业带来重大变化。 将从法学硕士中受益匪浅的一个领域是临床诊断,特别是针对罕见、难以诊断的疾病和癌症亚型。 我们可以利用大量全面的患者信息——从基因组图谱、治疗反应、医疗记录和家族史——来推动准确、及时的诊断。 如果我们能够找到一种方法来编译所有这些数据,使其易于访问,而不是被各个卫生组织孤立,我们就可以极大地提高诊断精度。 这并不意味着包括法学硕士在内的机器学习模型将能够在诊断中自主运行。 由于它们的技术限制,在可预见的未来它们将不会是自主的,而是会增强人类专家的能力。 它们将成为强大的工具,帮助医生在迄今为止所需时间的一小部分内提供信息丰富的评估和诊断,并正确记录诊断结果并将其传达给患者以及通过机器连接的整个医疗服务提供者网络学习系统。

该行业已经在利用机器学习进行药物发现和开发,并宣传其与传统模式相比能够降低成本和缩短时间。 法学硕士进一步丰富了可用的工具箱,并为大规模生物分子数据(包括基因组、蛋白质组、功能基因组和表观基因组数据、单细胞数据等)建模提供了出色的框架。 在可预见的未来,基础法学硕士无疑将连接所有这些数据模式以及收集基因组、蛋白质组和健康信息的大量个体。 此类法学硕士将有助于产生有前途的药物靶标,识别与生物功能和疾病相关的蛋白质的可能活性区域,或提出可以用小分子或其他药物模式以特定方式调节的途径和更复杂的细胞功能。 我们还可以利用法学硕士根据遗传易感性来识别药物反应者和无反应者,或将药物重新用于其他疾病适应症。 许多现有的基于人工智能的创新药物发现公司无疑已经开始朝这个方向思考和发展,我们应该期望看到更多公司的形成以及旨在在人类健康和药物领域部署法学硕士的公共努力发现。

感谢您的详细采访,想要了解更多信息的读者可以访问 先见者.

Unite.AI 创始合伙人 & 会员 福布斯技术委员会, 安托万是一个 未来学家 他对人工智能和机器人技术的未来充满热情。

他也是 证券,一个专注于投资颠覆性技术的网站。