访谈
莱兰德·海曼,夏洛克生物科学公司首席数据科学家 – 采访系列

莱兰德·海曼是夏洛克生物科学公司的首席数据科学家。他是一位经验丰富的计算机科学家和研究人员,拥有机器学习和分子诊断背景。
夏洛克生物科学公司是一家位于马萨诸塞州剑桥的生物技术公司,开发使用CRISPR的诊断测试。他们旨在通过更好、更快、更实惠的测试来破坏分子诊断。
是什么最初吸引你学习计算机科学?
我从很小的时候就开始编程,但我主要对制作视频游戏感兴趣。我的兴趣在大学和研究生院期间增长,特别是在2010年代初期,机器学习领域的突破性工作。整个领域似乎是一个令人兴奋的新前沿,可以直接影响科学研究和我们的日常生活——我无法抗拒它的吸引力。
您还获得了细胞和分子生物学博士学位,当您第一次意识到这两个领域会相交时?
我在研究生院早期就开始进行计算机科学和生物学的交叉研究。我的实验室专注于通过生物化学家、计算机科学家和其他领域之间的合作来解决蛋白质工程问题。我很快意识到机器学习可以为生物系统提供有价值的见解,并使实验更加容易。相反,我也对生物学直觉在构建机器学习模型中的价值有了深刻的理解。在我看来,准确地定义问题是机器学习中的关键要素。这就是为什么我认为跨不同领域的合作努力可以产生深远的影响。
自2022年以来,您一直在夏洛克生物科学公司工作,您能否分享一些关于您职责的细节?
我目前领导夏洛克生物科学公司的计算团队。我们的团队负责设计用于诊断测定的组件,与在湿实验室中测试这些设计的实验人员进行接口,并建立新的计算能力来改进设计。除了协调这些活动外,我还在我们的代码库中工作机器学习部分,尝试新的模型架构和新的方法来模拟我们测定中涉及的DNA和RNA物理学。
机器学习是夏洛克生物科学公司的核心,您能否描述所收集的数据类型和数据量,以及ML如何解析这些数据?
在测定开发过程中,我们为每个新病原体测试数十到数百个候选测定。虽然这些候选项中的大多数不会进入商业测试,但我们认为它们是学习错误的机会。在这些实验中,我们测量两个关键因素:灵敏度和速度。我们的模型以每个测定的DNA和RNA序列作为输入,并学习预测测定的灵敏度和速度。
ML如何预测哪些分子诊断组件将具有最快和最准确的性能?
当我们思考一个人如何学习时,有两种主要策略。一方面,一个人可以通过纯粹的试错法来学习如何完成一项任务。他们可以重复该任务,并且在经过多次失败后,他们最终会自己弄清楚该任务的规则。这种策略在互联网出现之前很流行。然而,我们可以为这个人提供一位老师来告诉他们该任务的规则。有了老师,学生可以比通过试错法更快地学习,但前提是老师完全理解该任务。
我们训练机器学习模型的方法介于这两种策略之间。虽然我们没有完美的“老师”来教导我们的机器学习模型,但我们可以让它们从对DNA和RNA物理学的某些了解开始。这种方法可以帮助它们在使用较少的数据时做出更好的预测。为此,我们对测定的DNA和RNA序列运行多个生物物理模拟。然后,我们将模拟结果输入模型,并要求它预测测定的速度和灵敏度。我们对实验室中进行的所有实验重复此过程,模型显示其预测与实际发生的情况之间的差异。通过足够的重复,它最终学会了DNA和RNA物理学与每个测定的速度和灵敏度之间的关系。
夏洛克生物科学公司还使用AI算法的其他方式是什么?
我们使用机器学习算法来解决各种问题。几个例子让我想起的是与市场研究和图像分析相关的例子。对于市场研究,我们能够训练模型来学习有关不同类型的客户,并且可能有多少人对疾病测试有未满足的需求。我们还建立了模型来分析横向流动条(在过敏性COVID测试中常用的测试类型)的图像,并自动预测是否存在阳性带。虽然对于人类来说这似乎是一项平凡的任务,但我可以亲身证明,这是一种手动注释成千上万张图像的便捷替代方法。
构建能够与尖端生物科学技术(如CRISPR)协同工作的ML模型面临的挑战是什么?
数据可用性是将机器学习模型应用于任何生物科学技术的主要挑战。CRISPR和DNA或RNA基于技术面临着一个独特的挑战,主要是由于可用的核酸结构数据集比蛋白质结构数据集小得多。这就是为什么我们近年来看到蛋白质机器学习取得了巨大的进步(如AlphaFold2),而DNA和RNA机器学习仍然落后。
您对AI与CRISPR和生物科学整合的未来有什么展望?
我们目前正在蛋白质工程和药物发现领域看到人工智能的巨大发展,我预计这将继续加速制药行业的发展。我希望在未来几年看到同样的情况发生在CRISPR和其他DNA和RNA基于技术上。这可能会对诊断、人类医学和合成生物学产生巨大的影响。我们已经在夏洛克生物科学公司的诊断和CRISPR技术开发中看到了计算工具的好处,我希望这类工作能够产生“滚雪球”的效果,推动该领域的发展。
感谢这次精彩的采访,希望了解更多的读者可以访问夏洛克生物科学公司。












