Connect with us

๋„์„œ ๋ฆฌ๋ทฐ

Book Review: Large Language Models by Stephan Raaijmakers

mm

作为拥有超过十五卷MIT Press Essential Knowledge series书籍的人,我以既感兴趣又谨慎的态度对待每一本新书的发布:该系列经常提供深思熟虑、易于理解的概述——但并不总是以我期望的风格或深度呈现。

Stephan Raaijmakers的Large Language Models中,作者却做到了些许不同的事情:一本内容丰富、信息量大、批判性平衡的书,值得在我最推荐的AI书籍中占有一席之地。

语言的重新构想:从人类艺术到计算

Large Language Models的一大优势是,它重新定义了“语言”的概念。与其仅仅关注哲学或文学的视角,这本书将语言视为计算现象——一个结构、统计模式和生成潜力的系统,现代神经架构可以利用它。这种重新定义并非毫无根据:Raaijmakers引导读者了解大规模神经网络如何在统计规律的基础上对文本进行编码、解析和生成——这是对这些系统的理解的一个微妙但强大的转变。通过这种计算视角,语言变得更容易被理解,而不是神秘或不透明的东西。

这种框架使LLM的工作变得更容易理解。与其将它们描绘成神秘的“理解者”,Raaijmakers展示了它们如何近似语言:预测下一个标记,统计建模语法和语义,并根据学习到的分布重新创建合理的语言输出。换句话说——它们不像人类一样“思考”;它们计算,统计上。对于许多读者来说——尤其是那些没有深厚的数学或认知科学背景的人——这是一个阐明和健康的观点。这本书将LLM周围的神秘感转化为更扎实、更易于理解的东西。

从数据到行为:LLM如何学习——以及如何对齐

在确定了语言的定义(计算上)之后,这本书继续讨论模型的学习过程。Raaijmakers以易于理解的方式解释了当代LLM的构建(深度神经网络、注意力机制、Transformer风格的架构)以及它们如何从简单的模式匹配机器演变成更对齐、更可用的工具。

LLM的演化中,一个至关重要的部分是使用强化学习从人类反馈(RLHF)——一种技术,LLM的输出由人类评估或排名,然后模型被微调以偏爱被认为更有用、更安全或与人类价值观一致的输出。书中在隐含和显式上都区分了基础阶段——预训练以学习统计规律——和对齐阶段——人类判断塑造模型的行为。这种区分非常重要:预训练赋予LLM流利和一般知识;RLHF(或基于反馈的微调)引导它朝着理想的行为发展。

在做到这一点时,Raaijmakers并没有回避复杂性或风险。他承认,人类反馈和基于奖励的对齐是不完美的:反馈中的偏见、人类判断的不均匀性、过拟合到奖励模型以及在新环境中的不可预测行为——所有这些都是合理的限制。通过拒绝理想化RLHF,这本书保持了可信度。

LLM能做什么和不能做什么

Raaijmakers在阐述LLM的优势和局限性方面表现出色。优势方面:现代LLM具有惊人的多才多艺。它们可以翻译语言、总结文本、生成代码、产生创作性写作、起草文章、回答问题并在许多领域提供帮助——基本上任何可以归结为“文本输入→文本输出”的任务。鉴于足够的规模和数据,它们的生成流利度往往令人印象深刻,甚至令人惊讶。

同时,这本书并没有回避它们的基本局限性。LLM仍然是统计模式匹配器,而不是真正的思考者:它们可以产生幻觉、自信地输出看似合理但实际上是错误的信息、复制训练数据中的偏见和刻板印象,并在需要真实世界理解、常识推理或长期连贯性的背景下失败。Raaijmakers对这些失败的处理是清醒的——不是耸人听闻的,而是现实的——强调了虽然LLM很强大,但它们并非万能。

这种平衡的方法是有价值的——它避免了炒作和悲观主义的两大陷阱。读者带着对LLM的明确理解离开:它们擅长什么以及不能被信任做什么。

机会和责任:社会承诺和危险

许多技术入门书在讨论架构或用例时就止步不前,而《Large Language Models》却更进一步——深入探讨了这项技术的社会、政治和伦理影响。在《实用机会》和《社会风险和问题》等章节中,Raaijmakers邀请读者思考LLM可能如何重塑创造力、生产力、人类交流、媒体和机构。

在机会方面:潜力是巨大的。LLM可以使写作、翻译、编程变得更加民主化。它们可以加速研究、教育和创造性表达。它们可以帮助那些在语言或写作方面挣扎的人。它们可以改变媒体的制作和消费方式。在一个面临大量信息过载的世界中,LLM可能有助于弥合差距——如果它们被明智地使用。

但Raaijmakers并没有避开黑暗面。他提出了警告:关于虚假信息和“幻觉真相”,关于根深蒂固的偏见,关于人类判断力的侵蚀,关于对有缺陷的模型的过度依赖——所有这些风险都已在更广泛的AI伦理讨论中被记录。

关键的是,这种社会视角使这本书不仅对工程师和研究人员有价值,也对政策制定者、教育工作者和任何有思想的公民都有价值。它将LLM根植于现实世界的背景中,而不是抽象的炒作。

接下来会发生什么——以及警惕的呼吁

最后一章《接下来会发生什么?》并没有假装当前的LLM是最终的结论。相反,Raaijmakers鼓励读者采取前瞻性的视角:LLM如何演变?如何改进对齐、透明度、公平性?什么样的治理、监管和设计原则将在这些模型普及时保护社会?

对于我来说——作为Essential Knowledge目录中深度参与者之一,意识到有些卷册令人失望——这本书值得被列入最好的书籍之一。它的清晰度、平衡性、技术基础和社会意识使其脱颖而出。它在易于理解的解释和严肃的批评之间取得了罕见的平衡。

因此,我敦促所有构建、部署或与LLM交互的人——开发人员、组织、政策制定者和普通用户——要保持警惕、批判和明智的态度。要求透明度。推动多样化、代表性的训练数据。坚持严格的评估。质疑输出。不要把LLM当作神谕,而是把它们当作强大的工具——工具的力量必须与关怀、责任和人类判断相匹配。

最终判决

《Large Language Models》不仅仅是一本技术入门书——它是一本及时、锐利、深思熟虑的指南,介绍了我们这个时代最有影响力的技术之一。它将易于理解的解释与清醒的反思结合;清晰的技术细节与广泛的社会意识;对潜力的钦佩与对风险的谨慎现实主义。

对于任何人——工程师、研究人员、学生、政策制定者或好奇的公民——想要了解LLM是什么,它们能做什么和不能做什么,以及它们可能对我们的未来意味着什么,Stephan Raaijmakers的《Large Language Models》是一本必读的书。

์•™ํˆฌ์•ˆ์€ Unite.AI์˜ ๋น„์ „์žˆ๋Š” ๋ฆฌ๋”์ด์ž ๊ณต๋™ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, AI์™€ ๋กœ๋ด‡๊ณตํ•™์˜ ๋ฏธ๋ž˜๋ฅผ ํ˜•์„ฑํ•˜๊ณ  ์ด‰์ง„ํ•˜๋Š” ๋ฐ ๋Œ€ํ•œ ๋ถˆ๋ณ€์˜ ์—ด์ •์— ์˜ํ•ด ์ถ”๋™๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‡„์ ์ธ ๊ธฐ์—…๊ฐ€๋กœ์„œ, ๊ทธ๋Š” AI๊ฐ€ ์‚ฌํšŒ์— ๋Œ€ํ•œ ์ „๊ธฐ์™€ ๊ฐ™์€ ํŒŒ๊ดด๋ ฅ์„ ๊ฐ€์งˆ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์œผ๋ฉฐ, ์ข…์ข… ํŒŒ๊ดด์ ์ธ ๊ธฐ์ˆ ๊ณผ AGI์˜ ์ž ์žฌ๋ ฅ์— ๋Œ€ํ•ด ์—ด๊ด‘ํ•ฉ๋‹ˆ๋‹ค.

ไฝœไธบ futurist, ๊ทธ๋Š” ์ด๋Ÿฌํ•œ ํ˜์‹ ์ด ์šฐ๋ฆฌ์˜ ์„ธ๊ณ„๋ฅผ ์–ด๋–ป๊ฒŒ ํ˜•์„ฑํ• ์ง€ ํƒ๊ตฌํ•˜๋Š” ๋ฐ ์ „๋…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ทธ๋Š” Securities.io์˜ ์ฐฝ๋ฆฝ์ž๋กœ์„œ, ๋ฏธ๋ž˜๋ฅผ ์žฌ์ •์˜ํ•˜๊ณ  ์ „์ฒด ๋ถ€๋ฌธ์„ ์žฌํ˜•์„ฑํ•˜๋Š” ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ์— ํˆฌ์žํ•˜๋Š” ํ”Œ๋žซํผ์ž…๋‹ˆ๋‹ค.