翻译

翻译的一些我觉得不错的科技文章。

如工程师般探究复杂性——以 Ladybird 浏览器为例 [译]

要掌握复杂性的精髓，最佳策略往往是拆解后再重建。这正是一群志愿者，在一位前 Safari 开发者的带领下所做的事情。他们从零开始打造了一个成熟的操作系统 SerenityOS，和一个网络浏览器 Ladybird（这意味着：他们没有复用任何现有模块，比如读取 JPEG 文件的模块）。他们如同真正的工程师一般，出于_乐趣_而投入这项工作。听起来不错，但你可能会怀疑，用这种方式能构建出一个具备所有复杂功能的网络浏览器吗？这正是一个探索工程师如何面对复杂性的故事。

December 3, 2023

软件开发加速的秘诀：小步快跑 [译]

小步快跑，助你在软件开发中加速前行。

December 3, 2023

战争与和平 (WarAgent)：基于大语言模型的世界大战多智能体模拟 [译]

我们能否在历史的十字路口避免战争？这个问题一直受到个人、学者、政策制定者和组织的关注。在这项研究中，我们试图基于人工智能（AI）和大语言模型（LLMs）的最新进展来回答这个问题。我们提出 WarAgent，一个基于 LLM 的多智能体 AI 系统，用于模拟历史国际冲突中参与国家的决策及其后果，包括第一次世界大战（WWI）、第二次世界大战（WWII）和中国古代的战国时期（WSP）。通过评估模拟的有效性，我们检验了尖端 AI 系统在研究诸如国际冲突这样的复杂集体人类行为的能力及其局限性。在这些模拟中，智能体之间的新兴互动也为检验导致战争的触发因素和条件提供了新视角。我们的发现提供了基于数据和 AI 增强的洞察，可以重新定义我们解决冲突和维持和平的策略。其影响超越了历史分析，提供了一个利用 AI 理解人类历史并可能预防未来国际冲突的蓝图。

December 3, 2023

智能的进化之路 [译]

AI 并非来自外星，而是我们自己的一部分。

December 3, 2023

如何成功地与你的雇主建立良好关系 [译]

将工作比作恋爱是一种激动人心的体验！进入职场，我们满怀期待，寄望一切顺利。但有时，我们会发现自己只是机械地维持着职场关系，不知道如何摆脱，甚至不确定是否能够摆脱，或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错，但我们总想知道外面是否还有更好的可能。又或者，你已经是那位幸运儿，找到了自己的理想职位。约会是令人兴奋的吗？更确切地说，它充满了迷惑。面对未来，我们该如何做出最佳选择呢？我的建议是：跟随内心。

December 2, 2023

伟大的产品工程周期 [译]

目前，我主要的工作是兼任部分时间的 CTO 服务。坦白说，在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难，所以我暂时放下创新者的角色，专注于规划发展路线图和招聘事宜。招聘其实是一个挑战，需要精准识别不同职位和所需资源。

December 2, 2023

创造技术杠杆：提升工作流程与增强产品能力 [译]

十多年前，我记下了几段笔记，标题是“建立技术杠杆”，此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时，我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上，当我试图为这篇讨论相同主题的文章起名时，我才想起了那篇文章。

December 2, 2023

通用型基础模型是否能在医疗领域胜过专门的调优策略？一个医学案例研究 [译]

像 GPT-4 这样的通用基础模型，在众多领域和任务中展现出了惊人的能力。然而，通常人们认为，如果不进行针对特定知识领域的密集训练，这些模型无法达到专家级别的能力。例如，目前大多数在医学能力基准上的研究都依赖于特定领域的训练，就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下，继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示，而是系统地探索了提示工程来提高性能。我们发现，创新的提示方法可以释放出更深层次的专家能力，并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的，不依赖于特定的领域知识，这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮，我们推出了 Medprompt，它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能，在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数，取得了巨大的优势。使用 Medprompt 指导下的 GPT-4，在 MedQA 数据集（USMLE 考试）上的错误率比迄今为止使用专家模型的最佳方法降低了 27%，并首次突破了 90% 的分数。超出医学领域的挑战，我们展示了 Medprompt 在其他领域的广泛适用性，通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究，证明了这种方法的广泛适用性。

December 2, 2023

当 AI 无需联网，一切皆有可能 [译]

未来，个性化的 AI 助手将可以在设备上离线运行，将衍生出很多出人意料的创新

December 2, 2023

如何为数据图表挑选更加悦目的颜色 [译]

我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉，这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。

December 1, 2023

生成式 AI 与微波炉 [译]

正如我一位同事上周晚餐时所说，现在的 GenAI 就像青少年的性行为：人人都在谈论，但没人真正懂得怎么做，大家都以为别人在做，于是每个人都声称自己在做。

November 30, 2023

PyTorch 加速生成式 AI 第二部分：高速 GPT [译]

本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分，由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性，并通过实际案例，展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中，我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型（LLM）的优化技术。

November 30, 2023

每位经理必须掌握的 10 种领导艺术 [译]

本指南深入剖析了最常见的领导风格，以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述，帮助您不仅了解这些风格本身，还能理解它们在实际情况中的应用方式。无论您已是领导，希望提升领导方法，或是初入领导岗位，这份指南都将为您提供有价值的见解，助您有效应对领导挑战。

November 30, 2023

五种与你不喜欢的人高效合作的方法 [译]

工作中不仅有艰巨的任务和职业挫折这样的压力源，更具挑战的是，有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。

November 29, 2023

历史上的一次大的因为用户界面导致的灾难 [译]

我想花点时间探讨历史上的一大用户界面灾难：1988 年 7 月 3 日，美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班，机上 290 人全部遇难。

November 29, 2023

我那价值 5 亿美元的火星探测车失误：一个失败的故事 [译]

2003 年 2 月的一个晚上，我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里，一切如常。我穿上了洁净室的专用服装，通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来，就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动，距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场，与它的“兄弟”Opportunity 一同踏上旅程，只剩下两周的时间了。

November 29, 2023

前谷歌员工眼中的开发工具指南[译]

我曾在谷歌短暂工作过，尽管时光荏苒，但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿，还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题，这些在大多数公司看来都是高难度挑战。（参考资料：[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。）

November 29, 2023

如何从 ChatGPT 中提取其训练数据 [译]

我们最近发布了一篇论文，展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT，是基于从公共互联网收集的数据进行训练的。我们的研究表明，通过对模型进行查询，我们实际上能够获取它训练时使用的一些具体数据。我们估计，如果增加查询模型的投入，能够从中提取大约一千兆字节的 ChatGPT 训练数据集。

November 29, 2023

大部分 AI 创业公司的未来不乐观 [译]

我见过不少初创公司，他们只是简单地整合几个生成式 AI API，做点提示工程，然后加个前端界面。有些产品做得挺精致，功能也不错。但这些公司大多走不远，要么就是普通公司（并非 Paul Graham 定义下的典型初创公司），要么就消失了。显然，如果你能在一个周末搭建出这样的项目，别人也能。假设你编码能力超群，是位杰出的程序员奇才！其他人或许需要花几个周末……但最终还是会有人做出类似的东西。

November 28, 2023

黄仁勋领导的 Nvidia 如何推动 AI 革命 [译]

这家公司的 CEO，黄仁勋，把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列，他的下一步会怎样？

November 28, 2023

如何阅读一篇学术论文 [译]

研究人员常常需要花费大量时间来阅读学术论文，但这一技能很少有教授传授，导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法，用于阅读学术论文，并介绍了如何利用这种方法进行文献调研。

November 28, 2023

技术写作入门 [译]

技术写作无处不在——从你新买的智能手机的使用手册，到药瓶上的安全指导，都是技术写作的体现。技术写作的最大魅力在于，它能将复杂的技术信息以清晰、简洁的方式呈现出来。

November 27, 2023

为何加入 Y Combinator 不是个好主意 [译]

YC 看似是个合理的选择。他们提供资金帮助你创业，并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报，他们仅索取一小部分股权。听起来似乎还不错，不是吗？

November 27, 2023

在你找到金矿之前，别急着建造矿井 [译]

我听过最恰当的关于创业公司的比喻是，它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊，或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段：首先，你得寻找到黄金；其次，才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步，将创业公司定义为正处于这一阶段的公司：只有当它找到黄金（或者说，一个“可复制的商业模式”）之后，它才转变为一家普通的商业公司。

November 27, 2023

Andrej Karpathy 大语言模型视频入门的精选阅读清单 [译]

本文介绍了 Branches，这是我们开发的一款工具，用于构建和展示先进的大语言模型（LLMs）推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 27, 2023

用我的 Telegram 消息微调大语言模型：一段经验分享 [译]

对大部分认识我的人来说，我大多数时间像是一个文本处理程序。既然输入输出都这么简单，一个模型能不能取代我呢？为了实现这一点，模型不只需要模仿我的写作风格，还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源，我每天都用它，它几乎记录了我所有的想法和行动。

November 27, 2023

神啊，救救我们，让我们试着理解人工智能的“单义性” [译]

你可能听说过，人工智能就像一个“黑匣子”，神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构，每当这个结构稍微朝着他们期望的人工智能方向进展一点，就给予它一些“奖励”。通过这样不断的微调，最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么，似乎只有上帝才知道。

November 27, 2023

超线性回报 [译]

在商业领域，绩效的超线性回报尤为明显。有人认为这是资本主义的弊端，认为改变规则就能改变这一现象。但实际上，绩效的超线性回报是世界的一种本质特征，而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域，成功者往往会越来越成功。

November 25, 2023

行动产生信息 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢？”到极为负面的“有谁会愿意去管理一个团队呢？”应有尽有。所以我决定写篇文章，列举一些不当经理的理由。

November 25, 2023

Cloudflare 作为 AI 领域的新动向：与 CEO Matthew Prince 的专访 [译]

我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince，我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如，他指出，由于 GPU 短缺，AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂，AI 问题已经演变成了一个分布式计算和网络的挑战。

November 25, 2023

现代大语言模型应用架构 [译]

本文将介绍构建您首个大语言模型应用所需了解的一切，以及您今天就能开始探索的潜在问题领域。

November 24, 2023

我使用 Claude AI 编写原创、完整、类似人类风格文章的尝试 [译]

利用像 Claude 这样的 AI 工具，你可以撰写篇幅较长的文章。通过分段撰写，你似乎能保持自己的风格和思路，同时引导 AI。但是，我的实践表明，用 AI 写作比我预期的要难。我可以做到差不多，但由于 AI 工具的训练方式，它们最终更倾向于解释而非辩论，这可能会让个人随笔失去很多趣味。

November 24, 2023

Q* 假设：思维树推理、过程奖励模型，以及如何大幅提升合成数据的能力 [译]

紧急专题：要弄懂 Q*，我们需要的信息其实就在我们身边，只是网络流行语更比现实生活有趣。

November 24, 2023

回望我在谷歌的 18 年 [译]

我于 2005 年 10 月加入谷歌，18 年后，我递交了辞呈。上周，我结束了在谷歌的最后一段日子。

November 23, 2023

我是如何成为机器学习的实践者 [译]

我于 2005 年 10 月加入谷歌，18 年后，我递交了辞呈。上周，我结束了在谷歌的最后一段日子。

November 23, 2023

苦涩的教训 [译]

只有两种模式能够随着计算能力的增加而无限扩展，那就是学习和搜索。构建 AI 系统时，不应将我们的发现内置其中，而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。

November 23, 2023

语言模型中的语言代理树搜索：实现推理、行动与规划的统一 [译]

大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩，但它们通常只执行简单的行为，并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架，它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于，它借鉴了强化学习中的蒙特卡洛树搜索技术，将 LLMs 当作代理使用，同时充当价值函数和优化器的角色，通过这种方式大幅提升决策质量。最关键的是，LATS 利用外部环境提供的反馈，实现了一种更为周全和灵活的问题解决方式，这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性，无论是在编程、HotPotQA 还是 WebShop 任务上，LATS 都显示出了其推理和行动能力。特别值得一提的是，在 HumanEval 编程任务上，配合 GPT-4 的 LATS 达到了 94.4% 的成功率，在 WebShop 网页浏览任务上，配合 GPT-3.5 实现了平均 75.9 的得分，这些成果都突显了我们方法的高效性和广泛适用性。

November 9, 2023

通向通用人工智能的里程碑：评估进展的新框架 [译]

我们构建了一个新的框架，这个框架可以帮助我们更好地理解通用人工智能（AGI）及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望，这个框架能够像划分自动驾驶技术等级一样，为人们提供一种通用的语言，以便比较不同的 AGI 模型，评估它们可能带来的风险，并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架，我们审视了 AGI 的现有定义，并从中提炼出六大原则，以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力，而不仅仅是其背后的技术机制；它们建议我们应当分开评估 AGI 的适用范围和性能水平；并且我们不应该只着眼于最终目标，而应该明确标记出通向 AGI 的每一个阶段。基于这些思路，我们根据 AGI 的能力深度（即性能）和广度（即适用范围）提出了“AGI 等级”，并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后，我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合，并强调在部署高级 AI 系统时，选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

November 8, 2023

利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]

这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。

November 7, 2023

利用大语言模型开发先进的推理与规划算法 [译]

November 7, 2023

大语言模型遭受的对抗性攻击 [译]

ChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们（包括我在 OpenAI 的同仁们，向他们表示敬意）在模型调整过程中投入巨大努力，确保默认的安全性行为（比如，通过 RLHF）。不过，对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。

November 7, 2023

思维树：利用大语言模型进行深度问题解决 [译]

语言模型正日益成为处理各类任务不可或缺的工具，但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中，它们的效果可能会打折扣。为了突破这些限制，我们提出了一个新的语言模型推理框架——“思维树”（ToT），这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元（我们称之为“思维”）中进行探索，这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择，并且能在必要时展望未来或者回顾过去，以作出最佳的全局性决策。我们的实验显示，ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力：24 点游戏、创意写作和迷你填字谜。举个例子，在 24 点游戏中，尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题，而我们的方法却达到了 74% 的高成功率。

November 7, 2023

GPTs 系列介绍 [译]

现在，您可以自己打造专属的 ChatGPT 版本，它可以结合特定指令、额外知识和各种技能。

November 6, 2023

Assistant API 文档 [译]

Assistant API 使您能够在自己的应用中创建 AI 助理。这样的助理根据指令运作，能够结合模型、工具和知识库来解答用户的问题。目前，Assistant API 支持三种工具：代码解释器（Code Interpreter）、信息检索（Retrieval）和函数调用（Function calling）。我们未来的计划是推出更多由 OpenAI 创建的工具，并让您能在我们的平台上使用您自己的工具。

November 6, 2023

提升 RAG 效能：如何挑选最佳的嵌入与重排模型 [译]

在打造检索增强型生成（RAG）系统时，检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择，诸如 OpenAI、CohereAI 和开源的句子转换器。同时，也有来自 CohereAI 和句子转换器的多种重新排列工具。但是，在这么多选择面前，我们该如何挑选出最佳组合，以达到最优的检索效能？我们该怎样判断哪种嵌入模型最契合我们的数据？或者哪一种重新排列工具能够最大限度地优化我们的成果？

November 5, 2023

提示工程 [译]

提示工程，也被称作情境内提示，是一种和大语言模型（LLM）沟通的策略，目的是在不更新模型底层数据的前提下，引导它按我们想要的方式行动。它是一门实验性质的科学，不同模型间提示方法的效果差别很大，所以这需要通过大量的实验和经验法则来探索。

November 5, 2023

通过知识蒸馏实现的隐式思维链推理 [译]

为了让语言模型具备推理能力，研究人员通常会通过特定提示或调整模型使其在给出最终答案前，先产出一连串的推理步骤。不过，人类虽然能够用自然语言有效推理，可能对于语言模型来说，使用一些非自然语言形式的中间运算步骤，推理会更加高效。在本项研究中，我们探索了一种不同于传统的推理方式：不是直接输出每个推理步骤，而是通过语言模型内部的隐藏状态进行隐式推理。这种隐式的推理步骤，是通过对一个接受过显式思维链推理训练的教师模型进行“知识蒸馏”得来的。不同于传统的“横向”逐字输出推理过程，我们的方法是“纵向”的，在模型不同层级的隐藏状态间进行推理。通过对多位数乘法任务和小学数学问题数据集的实验，我们发现这种方法能解决那些没有显式思维链条就无法解决的问题，并且其速度与直接给出答案而不进行任何推理的速度相当。

November 5, 2023

EmotionPrompt：运用心理学知识通过情感激发提升大语言模型的能力[译]

在推理、语言理解以及数学问题解决等多个领域，大语言模型（LLMs）已经展现出惊人的能力，它们被认为是向人工通用智能（AGI）迈进的关键一步。但是，LLMs 对提示语的敏感性仍然是它们普及应用的一大难题。本文借鉴心理学的见解，提出了 EmotionPrompt，旨在通过加入情绪刺激来提升 LLMs 的表现。EmotionPrompt 的操作原则非常直接：就是在提示语中加入情绪因素。实验结果显示，在八个不同的任务中，EmotionPrompt 采用统一的提示模板，不仅在零次学习和少数次学习场景中都大幅度超越了传统提示和 Zero-shot-CoT，还在包括 ChatGPT、Vicuna-13b、Bloom 和 Flan-T5-large 等多种模型上都实现了这一成效。此外，EmotionPrompt 还显著提高了答案的真实度和信息量。我们相信，EmotionPrompt 为探索人与大语言模型互动的跨学科知识开辟了新的道路。

November 5, 2023

2023 年人工智能与开源界的风云变幻 [译]

2023 年即将过去，此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。

November 5, 2023

可解释语言模型：探索传统与创新方法 [译]

在本文中，我们会详细介绍和评估一些语言模型的可解释性技术，其中不乏 Normal 的一些创新尝试（比如与概率机器学习相关的技术），它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术，同时指出在实际应用中，直觉有时候可能会带来误导。

November 4, 2023