访谈
安德鲁·戈登,高级研究顾问,Prolific – 采访系列

安德鲁·戈登凭借他在心理学和神经科学方面的坚实背景,作为一名研究人员揭示了见解。拥有心理学学士学位、神经心理学硕士学位和认知神经科学博士学位,安德鲁利用科学原理来理解消费者动机、行为和决策。 Prolific 是由研究人员为研究人员创建的,旨在为获得高质量的人类数据和输入提供更好的方法。今天,超过 35,000 名来自学术界和行业的研究人员依赖 Prolific AI 收集决定性的人类数据和反馈。该平台以其可靠、参与和公平对待参与者的特点而闻名,每三分钟就会启动一个新研究。
您如何利用认知神经科学的背景来帮助从事涉及 AI 的项目的研究人员?
一个好的起点是定义什么是认知神经科学。基本上,认知神经科学研究认知过程的生物基础。它结合了神经科学和心理学的原理,偶尔还包括计算机科学等其他学科,这有助于我们了解大脑如何实现各种精神功能。基本上,任何从事认知神经科学研究的人都需要对研究方法有很好的理解,并且需要对人们的思考和行为有很好的理解。这些两个方面都很重要,可以结合起来开发和运行高质量的 AI 研究。然而,一个需要注意的问题是,AI 研究是一个广泛的术语;它可以涉及从基础模型训练和数据注释到理解人们如何与 AI 系统交互等一切。使用 AI 运行研究项目与不使用 AI 运行研究项目没有什么不同;您仍然需要对方法有很好的理解,设计研究以创建最佳数据,正确采样以避免偏差,然后使用这些数据进行有效的分析来回答您要解决的任何研究问题。
Prolific 强调对参与者的道德待遇和公平补偿。您能否分享关于维护这些标准的挑战和解决方案的见解?
我们的补偿模式旨在确保参与者被重视和奖励,从而感到自己在研究机器中发挥着重要作用(因为他们确实如此)。我们相信,公平地对待参与者并提供公平的报酬率,可以激励他们更深入地参与研究,并因此提供更好的数据。
不幸的是,大多数在线采样平台没有强制执行这些道德支付和待遇原则。结果是参与者池被激励去尽快完成研究以最大化他们的赚钱潜力,从而导致数据质量低下。维持我们在 Prolific 采取的立场是具有挑战性的;我们基本上是在与潮流作斗争。AI 研究和其他形式的在线研究的现状并没有关注参与者待遇或福祉,而是关注以最低成本收集尽可能多的数据。
让更广泛的研究界了解我们为什么采取这种方法以及他们使用我们而不是竞争平台将看到的价值,带来了相当大的挑战。从后勤角度来看,另一个挑战是花费大量时间及时和公平地响应参与者或研究人员的疑虑、询问或投诉。我们花费大量时间做这件事,因为它让参与者和研究人员保持高兴,并鼓励他们继续回到 Prolific。然而,我们也严重依赖使用我们的平台的研究人员在参与者离开 Prolific 生态系统并进入研究人员的任务或调查时坚持我们的高标准的待遇和补偿。发生在我们平台之外的事情实际上是在研究团队的控制之下,因此我们不仅依赖参与者让我们知道是否出了问题,还依赖我们的研究人员坚持最高的标准。我们尽可能提供指导以确保这一点的发生。
考虑到 Prolific 的商业模式,您对人工智能开发中的人类反馈的基本作用有什么看法,特别是在偏差检测和社会推理改进等领域?
人工智能开发中的人类反馈至关重要。没有人类的参与,我们就有可能延续偏见,忽视人类社会交互的细微差别,并未能解决与人工智能相关的某些负面道德考虑。这样可能会阻碍我们朝着创建负责任、有效和道德的人工智能系统的进步。在偏差检测方面,在开发过程中融入人类反馈至关重要,因为我们应该努力开发反映尽可能广泛的观点和价值观的人工智能,而不会偏袒其中任何一个。不同的 демографики、背景和文化都有无意识的偏见,虽然不一定是负面的,但可能仍然反映出一种观点,这种观点可能不会被广泛持有。Prolific 与密歇根大学之间的合作研究强调了不同注释者的背景如何显著影响他们对诸如言论的毒性或礼貌等方面的评分。为了解决这个问题,涉及来自不同背景、文化和观点的参与者可以防止这些偏见被内置在开发中的人工智能系统中。另外,人类反馈使人工智能研究人员能够检测到更微妙的偏见形式,这些偏见可能不会被自动化方法检测到。这为调整算法、底层模型或数据预处理技术以解决偏见提供了机会。
社会推理的情况基本上是相同的。人工智能通常难以完成需要社会推理的任务,因为它本质上不是一个社会存在,而人类是。检测上下文、理解讽刺或识别情感线索需要人类般的社会推理能力,这是人工智能无法自行学习的。我们,作为人类,通过社会学习,因此教导人工智能系统这些推理技术的唯一方法是使用实际的人类反馈来训练人工智能解释和响应各种社会线索。在 Prolific,我们开发了一个专门设计用于教导人工智能此重要技能的社会推理数据集。
本质上,人类反馈不仅有助于确定人工智能系统的优势和劣势,还使开发人员能够对算法进行必要的改进和完善。ChatGPT 的操作就是一个实用例子。当您提出一个问题时,ChatGPT 有时会提供两个答案并要求您对哪一个是最好的进行排名。这是因为该模型始终在学习,而开发人员了解人类输入在确定最佳答案方面的重要性,而不是仅仅依赖另一个模型。
Prolific 在连接研究人员与参与者以进行人工智能训练和研究方面发挥了重要作用。您能否分享一些通过您的平台实现的成功故事或人工智能领域的重大进展?
由于我们参与的许多人工智能工作的商业性质,特别是在非学术领域,大多数我们参与的项目都受到严格的非披露协议的约束。这主要是为了确保技术或方法的保密性,防止它们被复制。然而,我们可以讨论的一个项目是我们与 Remesh 的合作,Remesh 是一个人工智能驱动的洞察平台。我们与 OpenAI 和 Remesh 合作开发了一个利用美国人口的代表性样本的系统。在这个项目中,成千上万来自代表性样本的个人通过 Remesh 的系统参与了关于人工智能相关政策的讨论,使得开发出反映公众广泛意愿而不是选择性人口统计的人工智能政策成为可能,多亏了 Prolific 提供了如此多样化的样本。
展望未来,您对人工智能开发的未来有什么展望,Prolific 将如何为实现这一展望做出贡献?
我对人工智能未来发展的希望寄托于认识到人工智能的质量将取决于其训练数据。确保数据质量对于人工智能系统至关重要。训练人工智能系统使用低质量数据,最终会导致次优的人工智能系统。确保高质量数据的唯一方法是确保招募一组多样化和积极参与的参与者,他们渴望提供最佳数据。在 Prolific,我们的方法和指导原则旨在培养这种参与者。通过创建一个定制的、经过彻底审查的、值得信赖的参与者池,我们预计研究人员将使用这一资源开发更有效、更可靠和更值得信赖的人工智能系统。
您在收集高质量的人工智能训练数据方面面临的最大挑战是什么,Prolific 如何克服这些障碍?
最大的挑战毫无疑问是数据质量。糟糕的数据不仅无用——它实际上可能导致有害的结果,特别是在人工智能系统被用于金融市场或军事行动等关键领域时。这种担忧强调了“垃圾进,垃圾出”的基本原则。如果输入数据是次优的,所产生的人工智能系统将本质上是低质量或低效的。大多数在线样本往往产生的数据质量低于人工智能开发的最佳水平。造成这种情况的原因有很多,但 Prolific 解决的一个关键因素是在线参与者的普遍待遇。这些个人经常被视为可消耗的,获得的补偿、待遇和尊重都很少。通过致力于参与者的道德待遇,Prolific 培养了一组积极、参与、深思熟虑、诚实和细心的贡献者。因此,当通过 Prolific 收集数据时,其高质量是有保证的,从而支持可靠和值得信赖的人工智能模型。
我们在人工智能训练数据方面面临的另一个挑战是确保样本中的多样性。虽然在线样本已经大大扩展了我们可以进行研究的人员范围,但与面对面方法相比,它们通常局限于来自西方国家的人们。这些样本往往偏向年轻、电脑熟练、受过高等教育和更左倾的民众。这并不能完全代表全球人口。为了解决这个问题,Prolific 的参与者来自全球 38 个国家。我们还为研究人员提供了工具,以便他们在研究开始前指定样本的确切人口统计学构成。另外,我们提供了通过人口普查匹配模板(如年龄、性别和种族)或甚至通过政治归属来实现代表性样本的功能。这确保了研究、注释任务或其他项目获得了多样化的参与者和见解的广泛范围。












