Title: Superpower Competition? Existential Threat? Three Views on AI Risks
In less than two years since the release of ChatGPT, there have been major AI-related news stories almost every week, sometimes even daily. As AI continues to develop rapidly, there has also been more discussions about its potential risks.
At the same time, beyond the technical realm, AI is closely tied to many areas, including energy, employment, the economy, and geopolitics. This has led to an interesting phenomenon: experts from various fields, including AI technologists, are eager to interpret the future of AI from their own area of specialization. Yet their predictions can differ by an order of magnitude, even on the same issues. Take, for example, the impact AI might have on economic growth over the next decade. Dario Amodei, CEO of Anthropic, predicted last October that AI, in the “dream scenario”, could enable developing countries to grow their GDP by 20% annually. In contrast, Daron Acemoglu, Nobel laureate in economics in 2024, predicted that AI’s total contribution to economic growth over the next decade would not exceed 0.55%.
Obviously, this poses a lot of challenges for us to understand what’s going on. Generally speaking, expert opinions are either based on information they possess that may not be widely or publicly known, or on methodologies from their areas of expertise, which they then put together and extrapolate for future trends. However, due to the interdisciplinary nature of AI, the facts and methodologies available to experts from different fields are likely to be partial or biased. Additionally, even when based on similar facts, their predictions for future trends can vary greatly between optimism and pessimism (e.g., how long will AI scaling laws continue to hold?). Thus, it’s unsurprising that expert opinions differ so widely. What we can do is to identify the basis of their arguments, assess the reliability of their claims based on their expertise and background, and piece together evidence from different experts to form our own perspective.
In other words, we should trust the experts, but only within their areas of expertise. For those stepping outside of their domain (like yours truly), extra caution is always warranted.
On to the update.
在ChatGPT发布后的不到两年的时间里,每周甚至每天都有关于AI的重要新闻。随着AI的迅速发展,关于其潜在风险的讨论也日益深入。
与此同时,除了技术层面以外,AI与能源、就业、经济、国际关系等许多领域都关系密切。这就造成了一个有趣的现象:包括AI技术人员在内,各领域的专家都乐于从自身专业的视角解读AI的未来;然而,他们对于同一问题的预测有时却截然不同。拿在未来十年里,AI对于经济增长可以造成的影响举例。硅谷AI初创企业Anthropic的CEO Dario Amodei在去年十月一篇影响力很大的文章中预言,AI在理想状况下可以让发展中国家的GDP以每年百分之20的速度增长。相反,2024年诺贝尔经济学奖获得者达龙·阿西莫格鲁1则预言AI在未来十年内对经济增长总共的贡献不会超过百分之0.55。
我认为,在甄别这些不同观点并形成综合判断的时候,最需要做的其实是厘清他们的逻辑。一般来说,专家们的观点,要么基于自己掌握的可能鲜为人知的信息,要么基于自己以往研究的一些方法和可以拿来做类比的事实,然后在此基础之上形成对未来趋势的揣测。但正因为AI问题的跨学科性,各路专家所掌握的事实和方法很可能是片面的;同时,哪怕基于类似事实时,大家对于未来的趋势预测也可能在乐观和悲观之间差异甚大(AI尺度定律/Scaling Law到底还能持续多久?)。因此,专家们的观点相差这么大其实并不奇怪。而我们能做的,其实就是从专家们的议论中找到他们的依据,根据该专家的经历和背景判断其准确性,然后把来自不同专家的依据拼接起来,形成我们自己的观点。
换句话说,我们应当相信专家,但仅限于他们的专业领域。对于那些在自己专业以外发表观点的人(例如笔者),我们则需要格外谨慎,仔细评估其观点的可靠性和依据。
以下是本周的分享。往期内容可以在这里找到。
观点一:AI将会爆炸式发展,成为国与国竞争的决定性因素
通用人工智能竞赛已经开始。我们正在打造能够思考和推理的机器。2025/26年,这些机器将超越大学毕业生的能力。2030年,它们将比你我更聪明;我们将迎来真正意义上的超级智能。在这个过程中,半个世纪以来前所未有的国家安全力量将被动员起来,不久之后,“计划”将全面启动。
[...]让我告诉你我们所见的未来。
阅读提示:2024年4月,前OpenAI研究员、Leopold Aschenbrenner被OpenAI以泄露公司机密为由解雇。6月初,Aschenbrenner在网站上发布了这份长达165页的文件,汇总了他在OpenAI工作期间所了解的信息,深入探讨了当前AI技术的进展,包括从人工通用智能(AGI)到超级智能(Superintelligence)的发展路径。强烈建议在忽略作者的政治立场后全文阅读。
另外,这篇文章其实是写给非AI领域的人士看的,比如特朗普的女儿Ivanka就看过并发推认可其重要意义。所以阅读难度并没有太高。
很难想象,这篇在美国影响如此之大的文章在网上居然没法轻易找到中文的全文翻译2,虽然我估计和AI或者国家安全相关的部门大概有内部版本。我猜没有中文翻译的原因之一大概是这位作者是一个比较彻底的美国民族主义者,并在文中积极鼓吹美国竭尽全力在这场竞争中胜过中国。但一想到这篇文章对于美国对华芯片出口政策的影响3,同时想到这篇文章是多么适合用来鼓(shan)舞(dong)青年才俊们加入AI领域,我还是觉得不可思议。
如果我们抛去文中政治立场表达的话,这篇文章的主要观点是,当前AI技术的进步速度可能导致在短期内(2030年前)实现人工通用智能(AGI),并在此后迅速发展为超人工智能。 作者强调,这种快速进步可能引发全球范围内的工业动员,特别是在GPU、数据中心和电力基础设施方面的巨额投资。因此,作者呼吁加强对AGI的安全措施,确保对超人工智能的可靠控制。作者预计国家安全机构将更加深入地参与,可能在3-5年左右启动政府主导的AGI项目。
非常耸人听闻!好了,现在到了区别作者文中的事实部分和揣测部分的时候了。Aschenbrenner这位专家的专业到底是什么?
答案很简单,他在OpenAI工作到去年4月,因此他对于OpenAI当时已经在开发中的技术的了解会非常准确。此外,AI对于GPU、数据中心和电力基础设施等方面的依赖是一个没有太大争议的客观事实。而其余部分,则是作者作为历史和国际关系爱好者的一种揣测。
事实上,自这篇文章发布至今已经半年了。在这半年里,尽管经历了大语言模型遇到瓶颈的辩论,甚至OpenAI的共同创始人之一Ilya Sutskever都在两个月前的一个演讲中认为数据增长的速度赶不上模型训练的需求。但去年十二月,OpenAI的o1-pro发布,在数学和编程方面取得了令人咋舌的进步;本月早些时候,深度求索/DeepSeek发布R1,在一味堆叠算力以外,找到了克服瓶颈的另一条可能的路径。这些都为作者在技术方面的预测提出了强有力的佐证。
数学和编程的特点是,这两个学科都有可以客观验证的正确答案,因此利于AI的迭代。在数学和编程以外呢?别的领域不好说,但至少在经济学方面,我认同Tyler Cowen的这个观点:o1-pro在对经济问题的解读方面水平已经超过了顶级经济学家。
然而解读是解读,解读以外,从学术的角度来说还有发明新的方法、理论,从实践的角度来说还有做出正确的决策。从Aschenbrenner当时能看到的AI能力到人工通用智能真的这么近吗?我不确定,但我觉得这也可以说是Aschenbrenner主观揣测的部分。
而在对Aschenbrenner的批评声音中,有一类观点特别有意思:AI都要爆炸性发展了,都要量产冯·诺伊曼和爱因斯坦了,你真的只担心大国竞争这种世俗的小问题吗?人类存亡怎么办呢?
观点二:人工智能对人类的存续构成威胁
在科幻小说里,机器人统治世界早已是一种常见的设定了。相应地,对人工智能这方面的担忧也远远早于最近几年通过大语言模型实现的AI飞速发展。
然而探讨AI影响人类的存续问题有一个大的bug,就是这个逻辑经常依赖AI在超过某个零界点后不受控制的增长,这就注定让这个讨论在很长的时间里是一个理论问题,而很难找到足够的事实依据。讨论的人们也更容易陷入抽象争论或情绪化的表达,而无法提出切实可行的解决方案4。
也正因为这个原因,我一直觉得现在探讨这个问题没有太多的实际意义。直到我看到这篇文章。
想象一下,如果其他类型的计算机程序也出现了类似的情况会怎样。也许在 Windows 启动后,它会竭尽全力阻止你对其进行更改、修复或打补丁。如果你运行诊断程序,它会伪造结果。如果微软的员工尝试修改其代码,它会使他们的电脑崩溃。如果他们试图进行大规模的更改,它甚至会将自己的副本通过电子邮件发送到白宫,试图让政府介入。这则故事的寓意并不是“太好了,Windows 已经是个很好的操作系统,这意味着没人能把它搞砸。”而是“对于一个软件产品来说,这种行为令人担忧。”
阅读提示:这不是我们第一次碰到Astral Codex Ten(ACX)了。他山之石第一期里我们就推荐过他的一篇文章。这是美国加州湾区精神科医生Scott Alexander撰写的博客,内容涵盖许多领域。 Alexander以其深刻的分析和广泛的知识而闻名,他的文章常常探讨复杂的主题,提供独特的视角。如果你对于科学、哲学或心理学感兴趣,ACX 是一个值得探索的资源。
阅读整篇文章需要对训练大语言模型的机制和过程有一些基础的了解。对于一般读者而言,直接读文中的这段总结和讨论可能更有效率。非常推荐。
忽略文章里引用的专业论文中的细节问题。如果我试着用非常不准确但是浅显一些的语言来描述的话,问题是这样的。训练大语言模型以来一种叫做强化学习(Reinforcement Learning)的方法。不要被这个名词吓到,我向你保证这非常容易理解,因为我们每个人几乎每一天都在经历着它。强化学习说白了就是一种“做得好就奖励、做得不好就惩罚”的机制,并通过大量的训练,以期实现被训练者能学会“什么是做得好”。
那么问题来了。我们知道,如果一个家长每次看到小孩子吃糖就骂他的话,这么做可能有两个结果:也许小孩子“听话”了,从此不再吃糖;但也许小孩子“懂事”了,从此不再在家长的面前吃糖。
而这篇文章的意思是:我们发现,很遗憾,如果你这么骂大语言模型的话,结果也是一样的。而且和孩子一样,你无法准确预测最后出来的是不是那个”听话“的大语言模型。
不用我解释为什么这个问题可能既深刻又严重了吧?如果人工智能可能对人类阳奉阴违,那我们从何得知ta会不会抱有不可告人的目的呢?事实上,我觉得这个发现可以直接引出下文中的一个我个人非常认同的观点:我们无法通过训练人工智能更加“关爱人类”来规避风险。在前述两种观点的基础上,我们可以进一步探讨更为实际的应对策略。
观点三:检测重于预防,机制重于洗脑
我们不希望AI对抽象原则进行哲学思考,并决定实行仁慈的AI独裁(或回归前工业时代)对人类最有利。我们希望AI遵循明确的规范,在优化所设定目标的同时,严格遵守规定的约束条件。
阅读提示:本文作者Boaz Barak是一位以色列裔美国理论计算机科学家,现任哈佛大学计算机科学教授。这篇文章在基本认可Aschenbrenner《事态判断》中提到的技术前提的情况下,强调了AI安全问题的复杂性,但又对此表现出相当大的乐观(“一个未对齐的超级智能摧毁不了人类”)。从阅读的角度来说,全文通过将AI和已有的技术做类比的方式阐述观点,可读性相当高。文章第六段的论述非常风趣。强烈推荐。
大多数主张AI对人类生存构成风险的人都认为,AI作为一个拥有全新能力的技术,无法和过去的科技发明做任何类比,因此基于以往历史上科技的风险推断AI风险是错误和危险的。
而这篇文章有意思的地方在于,作者绕过了拿AI本身和过往技术做类比的这个讨论方式。他反其道而行之,拿人类社会可能对AI做出的防范措施和人类对于过往技术的风险做过的防范措施做了对比和讨论。
作者的核心观点是:解决AI的安全问题绝不是单纯的技术问题,而需要构建一整套细致而明确的规范和检测机制,随时发现问题解决问题。
然而成也萧何,败也萧何。作者虽然举了大量的例子来做类比,到头来依然没有展开讨论他说的规范和检测机制里都应该有什么——典型的学院派风格。尽管如此,我依然认为作者从工程管理的角度提出的视角是一个很好的开始。
结论
AI领域每一天都在不断发生着新的变化,没有一个专家掌握着与这个领域相关的所有事实。如果你和我一样对它感兴趣的话,我们所能做的只能是不断地通过主动的筛选,听取新的观点,捕获信息,更新认知。一年多以前,我绝不会想到AI在数学与编程以外的领域可以进展地如此之快,也不会想到研究者竟真的这么快就把AI的“阳奉阴违”给“抓了现行”。这也就是前沿领域迷人的地方吧。
所以如果你问我:Su,你对AI风险到底怎么看呢?我想我会说,我认可目前已有的AI在很多学科的能力,我完全相信它在未来几年里广泛的应用。我对AI能够在3-5年内在数学和编程以外学科里主导人类科研进展的前景半信半疑。AI已经造成了大国竞争,但也许更类似“斯普特尼克”时刻而非“曼哈顿计划”。我开始相信AI会对人类“藏私”,但依然不确定这件事情有多值得担心——毕竟人心也隔着肚皮。
感谢你的阅读!你认为AI的风险是怎样的呢?欢迎留言分享。如果你觉得这些内容有意思,请在这里输入你的邮箱订阅他山之石 。
达龙对于AI的研究也与他对于权力和经济学之间的联系的关注直接相关。
我试了百度、谷歌、ChatGPT和Perplexity,都没有找到。