访谈
波比·萨缪尔斯,Protege联合创始人兼首席执行官 – 采访系列

波比·萨缪尔斯 领导Protege的战略和执行,跨越产品、市场和资本形成。他于2024年联合创立Protege,并自成立以来一直担任首席执行官。在他的领导下,Protege已筹集了3500万美元的资金,并在其第一整年业务中实现了3000万美元的GMV。之前,波比是Datavant的隐私中心总经理,他帮助公司在被Ciox Health以70亿美元收购之前推动了公司的增长,从而在美国创建了最大的中立健康数据生态系统。早些时候,他在LiveRamp领导合作伙伴关系,在那里他开发了构建中立数据网络的专业知识。波比拥有斯坦福商学院的MBA学位和哈佛学院的AB学位,他是哈佛深红报的总统。他带来了丰富的监管数据交换和将复杂基础设施转化为企业合作伙伴的可信AI赋能的专业知识。
Protege 是一家数据基础设施公司,连接高价值、专有数据集的所有者与构建AI模型的开发人员,提供一种治理和以隐私为首的方式来许可和访问大规模的训练数据。Protege成立于2024年,平台专注于解锁多模态数据,如医疗记录、图像、视频和音频,这些数据传统上对AI团队来说很难获取,同时为数据提供者提供对隐私、合规性和货币化的完全控制。对于AI构建者,Protege通过精选的目录和用于过滤和组合数据集的工具简化了发现和获取过程,帮助加速医疗保健、媒体和其他行业的开发。本质上,公司旨在成为AI的可信数据层,减少现代模型开发中的最大瓶颈之一。
是什么启发你创立Protege,你在Datavant领导数据、隐私和组织变革计划的经历,以及你之前在LiveRamp的经历如何塑造了你对构建Protege的愿景?
我在Datavant的经历向我展示了在规模上负责地连接数据的力量和复杂性。Datavant建立了一个平台,帮助链接敏感的健康信息,同时保持患者的隐私,这使我意识到,良好的治理数据可以推动巨大的社会进步。但是,当它没有被正确治理时,它可以造成真正的伤害。
随着AI的加速,我看到了同样的模式重现:专注于计算和AI架构,但不是数据本身。我们的假设是,下一个巨大的瓶颈是访问正确的数据。我想建立一个数据基础设施层,使数据共享变得安全、透明和对数据持有者和AI构建者都有益。这种想法导致了Protege的诞生。
Protege将自己描述为“AI数据经济的骨干”。你如何定义这一层,AI数据基础设施的真实形态是什么?
Protege是连接数据所有者和AI开发者的安全和高效的桥梁。AI的真实数据基础设施不仅仅是存储或移动数据;它验证来源,管理权限,并确保每个数据集都以道德和同意的方式使用。在实践中,这是一个平台,内容持有者可以自信地许可数据并获得适当的补偿,AI构建者可以访问他们需要的关键数据集,以便在各个行业、领域、模式和格式中负责地训练和评估模型。
确保模型在许可、代表性和基于同意的数据集上进行训练是您的核心使命之一。Protege如何在规模上实现道德来源?
我们通过系统而不是口号来实现道德。对于我们聚合和交付的每个数据和内容来源,我们确保权利持有者在明确的许可条款和隐私保护下保持所有权。
我们的平台结合了我们的人类、研究导向的专业知识和可以扩展以交付受保护的数据的数据管道和系统。我们还与我们的数据购买客户合作,以确保数据代表现实世界的人口和反映现实世界的使用场景。通过以清晰和一致的方式解决数据供应商和数据购买者,我们能够保持合规性、公平性和信任。
AI行业长期以来一直遵循“先抓取,后问”的心态。你如何看待透明的数据许可在数据提供者和AI开发者之间的关系转变?
透明度将提取转化为合作。AI公司有选择在不违反法律和知识产权的情况下,以道德的方式从审查过的数据提供者许可数据。这为双方创造了更好的激励机制。数据提供者获得收入和控制权,AI开发者获得更干净、更高质量的数据集。
这种转变建立了信任,这反过来又在AI开发中释放了速度。当组织看到AI可以以明确的同意和对数据权利持有者的补偿来建设时,这将解锁更多的用例和数据需求。这创造了一个自然的飞轮效应:最好的数据源吸引买家,买家吸引更多高保真数据源。每个人都受益。
合成数据通常被视为解决隐私和偏见挑战的解决方案。在高度监管的领域,如医疗保健,合成数据和真实世界数据集之间的正确平衡点在哪里?
合成数据对测试和增强很有用,但它不能完全取代真实世界活动的全部复杂性和细微差别,尤其是在医疗保健领域,长期的患者护理历史和结果很重要。
我们基本上相信,没有在真实世界的全部复杂性上训练的AI无法突然产生代表真实世界的合成数据。正确的平衡可能是混合方法,我们需要更多有用的、高质量的数据源,这些数据源目前被隔离并需要被解锁,然后将其与AI生成的合成数据结合起来,用于特定的用例。
Protege如何使组织能够安全地共享有价值的真实世界数据,而不暴露专有信息、患者数据或知识产权?
安全性和隐私性贯穿每一步。无论是通过我们的内部系统还是我们的去识别和隐私合作伙伴来验证我们的数据传输,我们确保我们的数据保持在预期的边界内。
在医疗保健领域,这意味着遵守所有数据传输的隐私和合规框架。在媒体领域,这意味着确保内容仅用于预先同意的许可条款和许可期限内的预期用途。
随着基础模型的不断演进,什么将定义下一代高质量训练数据管道?
三个原则将引领:来源、精确性和目的。
来源意味着对来源和条款的完全可追溯性。精确性意味着为特定的模式或用例进行策划,而不是通用的数据集合——或者说,不反映现实世界情况的数据。目的意味着将数据选择与具体的、有形的结果相结合,而不是仅仅是虚荣的基准。
这些原则共同构成了使用高质量数据来推动更好的模型的道路。
新兴法规,如欧盟AI法案和即将出台的美国框架,如何影响Protege的合规和跨境数据合作方法?
这些法规验证了我们公司的方法。它们强调了透明度、来源和风险管理,这些都是我们产品和平台的默认特征。
我们相信,未来的AI机会必须保护权利持有者并保持严格的隐私控制。通过将这些视为不可商量的,我们帮助数据合作伙伴和客户在不断变化的AI格局中前进,以信任和信心为基础。我们的目标是使负责任的AI开发不仅是正确的做法,也是更容易的做法。
数据透明度和来源在重建公众对AI系统的信任方面扮演着什么角色?
信任始于可追溯性。当人们了解数据来自哪里以及如何使用时,他们更有可能信任AI结果。
透明度和来源为数据所有者、模型开发者和最终用户创造了责任感。它们将AI从一个黑盒子转变为更易于理解和解释的东西。
在经历了20倍的增长和2500万美元的A轮融资之后,您如何平衡快速扩张与维持Protege的道德和安全承诺——以及在继续塑造组织如何负责任地训练AI模型的过程中,下一步是什么?
道德和安全是我们扩张的基础。每个新流程、合作伙伴关系和产品都以他人可以看到的方式进行衡量。如果每个人都能看到我们如何运作和做出的决定,我希望他们会感到自豪。
展望2026年,我们正在扩大我们在医疗保健和媒体以外的新领域的影响力,并创建新的数据产品,例如用于基准测试的评估数据,因为AI组织正在努力更好地衡量AI在现实世界用例中的性能。我们的目标是成为唯一可信的现实世界AI数据和专业知识平台,旨在为长期推动AI进步提供动力。
感谢这次精彩的采访,希望了解更多的读者可以访问Protege。












