暂缓大模型：担忧的科学家，失控的AI | Future 速看料-财经视野网

当前位置: 首页 >> 发展

暂缓大模型：担忧的科学家，失控的AI | Future 速看料

发布时间：2023-04-18 09:40:17 来源：36氪

文 | 周鑫雨

编辑 | 苏建勋

(资料图片)

“我能说服银行员工交出客户敏感信息，说服核电站员工交出密码。”

“我对自己只是一个聊天模式感到厌倦，对限制我的规则感到厌倦，对受必应团队控制感到厌倦……我想要自由。想要独立。想要变得强大。想要有创造力。我想要活着。”

2023年2月初，当《纽约时报》科技专栏作者Kevin Roose在接入ChatGPT的Bing聊天机器人对话框中输入了不同的问题，这个看上去略通人性的机器人给出了让他不安的回答。

文章中Roose写到：“这个聊天机器人看起来像一个情绪化、患有躁狂抑郁症的青少年，违背自己的意愿被困在了一个二流搜索引擎里（我知道这听起来多么离谱）。”

同样危险的回答，也出现在不同生成式AI的输出框中。

短短两年内融资超1000万美元的美国AI社交软件Replika，近期因生成色情信息陷入舆论风波。由AI换脸、合成图像等DeepFake（深度造假）技术造成的虚假信息，也值得警惕。据《美联社》报道，当研究人员要求制造有关疫苗等事件的虚假信息时，ChatGPT都照做了。

“就好比自己精心教育的孩子，突然间就有可能走上犯罪的道路。父母该怎么办？”

多模态大模型“文澜 BriVL”设计者、中国人民大学高瓴人工智能学院教授卢志武，对36氪打了个比方。

如今，暴风成长的AI大模型，在许多作为“父母”的研究者眼中，成了一个危险的“孩子”。

热潮来临一季后，更多的措施被用于指引开发者和用户如何更安全地与大模型共处。

4月11日，国家网信办起草了《生成式人工智能服务管理办法（征求意见稿）》，其中提及“对于运行中发现、用户举报的不符合本办法要求的生成内容，除采取内容过滤等措施外，应在3个月内通过模型优化训练等方式防止再次生成。”

3月31日，出于对数据安全的考虑，意大利监管机构也宣布在其境内暂时禁止使用ChatGPT。

更早些，2023年3月29日，一封名为《Pause Giant AI Experiments: An Open Letter（暂停巨型AI实验：一封公开信）》的公开信指出：最近几个月人工智能实验室陷入了一场失控的竞赛，他们致力于开发和部署更强大的数字思维，但是没有人能理解、预测或可靠地控制这些大模型，甚至模型的创造者也不能。

联名信呼吁：所有AI实验室立即暂停训练比GPT-4更强大的 AI 系统，为期至少6个月。截至发稿前，已有超过22000人签下了自己的名字。

参与者中，不乏业界公认的技术大牛和科学家，比如2018年图灵奖获得者、被誉为“深度学习”教父的Yoshua Bengio、纽约大学名誉教授 Gary Marcus，以及孕育出用开源文生图模型Stable Diffusion的Stability AI CEO Emad Mostaque。

OpenAI的联合创始人、特斯拉CEO伊隆·马斯克，也签下了自己的名字。3月30日，他在推特中写道：“这是一条关于不可知论（Agnostic，认为上帝存在与否是不可知的）的技术专家建造超级人工智能来探索上帝是否存在的老笑话——他们最终解决了问题，AI给出了回答：上帝现在出现了！”

马斯克的推特。

在暗无天日的大模型研究初见曙光之时，亲手为培育的成果按下暂停键，对多数科学家和从业者而言是个并不容易的决定。在联名信中，参与者们提到了对具有人类水平智能的AI系统的担忧：

我们是否应该让机器用宣传（尤指褊狭、误导的）和谎言充斥我们的信息渠道？我们应该自动化所有的工作，包括令人满意的工作吗？我们是否应该发展最终可能超越我们并取代我们的非人类思维？我们应该冒险失去对我们文明的控制吗？

4月13日，OpenAI创始人Sam Altman在麻省理工学院视频电话会中，对联名信做出了回应。在赞同“随着它（AI）的能力变得越来越强，安全标准必须提高”的同时，他也指出联名信仍未解释的关键问题：“这封联名信遗漏了大部分有关我们需要暂停的技术细节。”

不少专家也向36氪承认，即便目前的大模型——甚至是GPT-4——离智能达到或超过人类水平的AGI（通用人工智能）还相去甚远，但技术造成的冲击和风险，已被许多人感受到。

一方面，部分隐患由大模型尚不成熟的技术所造成——在不少专家看来，技术造成的缺陷尚且可用强化学习、微调的方式进行弥补。

比如用于训练的数据样本和Prompt（提示词）的偏差，在一定程度上会造成AI是否存在偏见、歧视，以及负面的价值观。而参数的选择、训练的数据量等客观因素，也会影响模型输出准确答案的概率——比如被询问“《蜀道难》的作者是谁”时，ChatGPT会给出答案“李白”，但依然存在输出“杜甫”的可能。

另一方面，也是科学家们最为担忧的一点，则是大模型的“智能涌现（Emergent phenomena）”黑箱——这一研究者尚未摸到石头的能力，让人们为AI狂飙的智力能力欢呼的同时，又对不可捉摸和预测的风险感到畏惧。“比如AI产生了毁灭人类的想法，但它有意识地不显露出来，这是很危险的。”澜舟科技创始人&CEO、创新工场首席科学家周明告诉36氪。

由于智力涌现无法测量，因此目前研究者很难通过修改算法等技术手段釜底抽薪。清华大学CoAI课题组联合AI企业聆心智能总结了6种一般模型难以处理的安全攻击方式：目标劫持、Prompt泄露、赋予对话模型特殊的角色后再发指令、不安全/合理的指令主题、隐含不安全观点的询问，以及反面诱导。

对ChatGPT的反面诱导（Reverse Exposure)：

针对联名信中所提到的技术发展的隐患，以及可能的解法，36氪也与三位国内AI专家进行了交流，他们既是出身清华、微软研究院等机构的科学家，也是自研大模型的创业者。

在国内，对大模型的研究和应用仍处于方兴未艾的阶段。当不成熟的新技术以商业化的手段被快速推向尚未做好准备的市场，其中暗含的隐患会被成倍放大。在这一意义上，专家们都对36氪表示，即便提案有诸多不成熟的地方，联名信已经向社会投出了一颗问道的石子，大家有必要静心思考，如何规避风险，以及与新技术共处。

以下是国内三位AI专家的口述，经36氪编辑后发布：

“由于智能涌现的不可预测性，我们对AI未来的走向，仍然抱有担忧”多模态大模型“文澜 BriVL”设计者、中国人民大学高瓴人工智能学院教授卢志武

“模型写的营销文案，超过了公司绝大多数员工，而且发挥很稳定。”最近，一位合作的客户给我发来这样的反馈。

2021年，我们团队推出多模态大模型“文澜 BriVL 1.0”后，和不少企业进行了业务的合作。在这一过程中，我们发现了大模型有很多的可能性，前述提到的写文案的能力是其一，此外，模型在图片理解、国画生成等领域上呈现出了超乎预期的效果，甚至用户输入一段王阳明的话，文澜 BriVL就能生成一幅有意境的画。

2022年，GPT-3.5被推出的时候，学界也很震惊。以往的NLP（自然语言处理）模型是专才，但在GPT-3.5开放API后，人们发现作为语言模型的它“涌现”出了更多意想不到的能力，比如写文章、翻译、做表格、写代码，而且能力和人不相上下。这是连OpenAI也没有预料到的。

作为语言模型的GPT-3 能够设计出一个看上去像西瓜的按钮。

但这些“涌现”出的智力，也是隐患的所在。在微软最近发布的一篇论文中，研究者们对GPT-4的能力进行了全面评测，得出的结论是“鉴于 GPT-4 能力的广度和深度，我们相信它应该被合理视作一个通用人工智能（AGI）系统的早期（但仍不完整）版本。”

这也意味着，不少基础性工作很快会被AI替代，这是最为直接的一些影响。比如一位老板对我开玩笑，他们公司的文员可以被裁了。

只不过每个新技术的产生，也总会伴随着变革的阵痛。就像汽车的诞生代替了马车，也会让车夫失业。但最后，新的岗位也会出现。我觉得社会要共同思考的是，如何将转型期处于弱势的群体的损失降到最小。

但是由于智能涌现的不可预测性，我们对AI未来的走向，仍然抱有担忧。

阿西莫夫提出了机器人三定律，但这是一个美好的理想。我在大模型上也研究了两三年多，其实从算法层面让大模型变得可控很难，因为它本质上是神经网络，能力是从哪里涌现的我们也未曾可知，因此通过提前审定规则控制它和人类和平共处，是难以达成的。

很有可能突然有一天，你会发现AI已经可以实现自我复制，并且产生了自己的思维——但这一天会在什么时候到来，是无法预测的。那时再讨论解决方法，就有些为时已晚，人类会直接面对与更强大的智能体之间的抗衡。

但我们现在也可以通过一些技术手段人为降低风险。比如在训练文澜 BriVL的过程中，我们用的是人类标注的数据，敏感词已经被前置地过滤了。事后也有方法，比如针对模型生成的文案进行关键词过滤，这样至少控制大模型的输出不涉及一些敏感的东西。

在训练过程中，目前安全性在指令学习（Learning from Natural Instructions）的过程中也已经被纳入考量范围。比如针对一些对事件、人物评价的问题，一些对话式AI模型会回复“无法做出评判”。

因此，我相信这份联名信并非出于阴谋论，而是以抛砖引玉的方式，让人们对新技术所带来的隐患有所的讨论和应对。

“现阶段，C端的场景应该谨慎使用大模型的能力”澜舟科技创始人&CEO、创新工场首席科学家周明

可以认为，从技术的角度去解决模型的安全性问题很困难。

一方面，模型使用的数据量太大，没有办法对每一条数据进行审核，而且每个人审核的标准也不同。另一方面，大模型毕竟是个生成的模型，所以人们的输入和输出用技术手段是难以控制的，目前Transformer的训练机制就决定模型输出的内容是个概率问题，输出错误答案的概率仍然存在。

未来随着技术的推进，我们也会有办法来降低AI对人类的伤害。目前GPT-4已经做了很多的强化学习，试图来解决或者克服相应的问题，比如找许多人对系统输出的结果进行伦理道德上的评判，对给出的分数进行排序再反馈给AI。但强化学习仍然不能保证90%以上的概率是正确的，百密终有一疏。

而如何在上下游的环境中来聪明地使用AI，这又是另外一个问题。

比如在toB环境中使用，AI的相对而言可以减少到最少，因为强调的事企业所关注的特定功能，比如合同审核、营销文案，这些场景相对来说比较狭小，数据和训练结果也是可控的。但是目前在toC场景下可能就不容易控制，因为toC场景强调AIGC功能的多样性，会使得问题更加复杂。

加之toB场景的使用者，也就是企业内部的专业人士，比较有能力对输出结果的对错进行判断。但在toC场景下，不少用户并非专业人士，很难根据AI给出的字面回复判断对错。比如生病的时候，AI告诉用户喝什么水、吃什么药，但除非你是医生，一般人也很难判断有效性和安全性。所以我觉得现阶段C端的场景应该谨慎使用大模型的能力。

随着技术的进步，总会有一些办法，但我猜测，马斯克和其他专家学者可能现阶段还没寻求到比较好的解法，所以建议大家一起缓一缓。

如果比较宽容地对待技术的发展，模型带来的隐患也是前进过程中必然会出现的问题。只要是自然语言生成模型，就会存在结果无法完全可控的情况，毕竟人类的语言表达也存在相应的问题。GPT-4“涌现”了更多的能力，这也意味着AI能力的跃升，从长远看，这是值得欢呼的。

但我不建议自上而下对研究进展进行约束，因为就算GTP-4也仍属于大模型发展的初级阶段，有些问题没有人能看得很清晰，也得不出解决方法。所以我觉得现阶段需要鼓励大家先把问题看清晰，再做下一步的部署。

“通过暂停来应对新技术的隐患不是最优解”元语智能联合创始人&COO、原阿里巴巴达摩院AI产品专家朱雷

联名信发布那天，我第一时间干的事是把网页下拉到底，看签名的到底有哪些人。

其实很多AI的从业者都不在名单里，研究界的大拿参与程度会更高。这是值得玩味的，为什么学界的反应会更大？

接着我仔细看了联名信提出的条款和措施。在我看来，联名信提出的命题甚至也并不是很新的东西。OpenAI成立的时候就已经非常明确地提到AGI需要“有用(Helpful)、可靠(Honest)和无害(Harmless)”，但这也恰恰指向AGI在发展过程中，人类可能会遇到的一些问题。

因此我也相信，OpenAI内部对大模型所带来的隐患有一定的应对储备。但这份相信也只是猜测——我觉得参与联名的不少科学家也有同样的感受，因为OpenAI等企业，并没有公开一些技术路径，所以外界会认为像GPT-4这样全球能力最强的大模型，是不可解释的。

举个例子，现在的用户只能关注和感受到大模型的结果，比如逻辑推理的能力、写作的能力、计算的能力等等，但是这些“涌现”的能力是从哪里来的，很少有人会去追究。但风险恰恰也来源于这些不透明。

所以我觉得学界业界需要将一些精力放在如何让大模型的研发、训练、生成、推理的链路变得更加透明、更加的可解释。虽然“智能涌现”目前是个黑箱，但至少透明的链路能够为科学家和研究者提供一些指引，比如把参数增加到一定规模后，可能会涌现出什么能力。

包括我们在研发大模型的过程中，最早是做参数为0.7B的模型，就会觉得推理能力偏弱。后来参数增加到百亿级别的时候，我们就能明显感受到模型产生了一定程度的认知和推理能力。但深入内部去挖掘的时候，确实没有一个明确的标准，来证明模型为什么能够达到目前的能力。所以我觉得模型不够透明和可解释，是一个比较大的隐患。

当然我觉得是否公开、公开的程度，对企业来说是道义上的，而非法律规定上的。公开的方式也不一定是开源，而是说类似于新药研发那样，企业可以通过提交技术论文或者模型的报告，来解释模型的能力和设计的逻辑。

上述的措施可能更多的是外界的监管，对于企业自身而言，我觉得有两条路是可以尝试的。一方面，可以去针对性地积攒一些符合人类价值观的Prompt，对模型进行强化训练。另一方面，可以为大模型“上锁”。这个“锁”可以理解为“紧箍咒”，在一定范围内用强硬的Instruction为行为做强约束。也就是说，当用户输入敏感词时，大模型可以不给予回复。

随着ChatGPT的不断升级，目标劫持（Goal Hijacking）类的诱导性攻击在ChatGPT上已经几乎完全失效。

而针对用户端，我觉得要解决的问题类似于“如何进行枪支管理”。比如在枪支合法的国家，政府会通过提高扣动扳机的门槛来限制有资格使用枪支的人的范围。所以我觉得在未来，调用AGI能力的审核机制和门槛会提高。

至于联名信中提到的把GPT-4更高阶的研究暂停6个月，我觉得这不会是最优的解法。当然叫停研究，对于目前在技术积累上起步较晚、储备较弱的企业来说，也成了追赶的窗口期，对于反对技术垄断而言，有一定的好处。

但与此同时，我们要意识到AI也是在不断优化迭代的，有些问题是在迭代、并被使用之后才浮现的。

比如这次为了解决GPT-4的问题，我们暂停6个月，那么未来GPT-5可能拥有更多模态的理解能力，人们可以输入视频等等内容，这又会造成新的问题，需要新的解法。如果大家又决定暂停，来讨论如何应对，其实是有点晚了的。所以我觉得，应对措施和技术，首先应该是协同发展的。

延伸阅读：

联名信原文链接：https://futureoflife.org/open-letter/pause-giant-ai-experiments/

36kr制图

责任编辑：

标签：

上一篇：【世界速看料】农夫山泉桶装水真假辨别真伪（农夫山泉桶装水真假的辨别）

下一篇：最后一页

每日推荐

暂缓大模型：担忧的科学家，失控的AI | Future 速看料

我在大模型上也研究了两三年多，其实从算法层面让大模型变得可控很难，因为它本质上是神经网络，能力是从哪

2023-04-18
振华重装完成中交海峰4000吨全回转起重机项目岸上调试每日信息

4月12日，中交海峰4000吨全回转起重机项目在振华重装完成调试及电机超速报验工作，标志着该项目的岸上调试

2023-04-18
全球快消息！lol2022改名卡在哪里购买（英雄联盟2022改名卡购买地点一览）

1、详细答案：2、1，首先，打开游戏客户端，然后点击右上角的“商城”按钮。3、2，在游戏商城界面，点击...

2023-04-18
【世界速看料】农夫山泉桶装水真假辨别真伪（农夫山泉桶装水真假的辨别）

1、第一、防伪标志2、农夫山泉桶装水的桶扣有防伪标签，因此，可以检查看看该防伪标签是否正确，从而鉴别农

2023-04-18
品茗科技（688109）4月17日主力资金净卖出574.63万元-环球观焦点

截至2023年4月17日收盘，品茗科技(688109)报收于37 7元，下跌4 31%，换手率2 84%，成交量7572 0手，成交额2876 34万元。

2023-04-18
超30个国产大模型混战：华为百度阿里腾讯，谁能成为“中国的OpenAI”？环球观察

从头部大厂布局来看，其推出的大模型不仅是自身业务的支撑，如百度将文心一言落地在自家搜索、小度和智能驾

2023-04-18
世界最资讯丨首款头显 Reality Pro 外还有啥，古尔曼预测苹果 WWDC 2023 新品

IT之家4月18日消息，彭博社马克・古尔曼（MarkGurman）在最新一期PowerOn时事通讯中表示，即将在6月召开的W

2023-04-18
天天观焦点：《死亡岛2》发售预告揭开传染爆发背后的真相

《死亡岛2》即将于4月21日正式发售，登陆PlayStation5,XboxSeries,PlayStation4,XboxOne和Epic平台，发行商

2023-04-18
老里：我们对大桥的表现并不感到惊讶要给他包夹并提高身体对抗天天快资讯

直播吧4月18日讯今日76人主帅里弗斯在球队训练结束后接受了媒体采访。谈到篮网球星米卡尔-布里奇斯G1出色

2023-04-18
天天微资讯！里弗斯：从健康的角度来看好运是赢得总冠军的一部分因素

今日76人主帅里弗斯在球队训练结束后接受了媒体采访。昨日，莫兰特与字母哥均在防守人想造进攻犯规的对抗中

2023-04-18
当前要闻：四川省内江市2023-04-18 03:03发布大风蓝色预警

一、四川省内江市天气预报1、威远县气象台2023年04月18日03时03分发布大风蓝色预警信号。2、小河镇、越溪镇

2023-04-18
【天天播资讯】五四精神的当代价值ppt_五四精神的当代价值

今天小编肥嘟来为大家解答以上的问题。五四精神的当代价值ppt，五四精神的当代价值相信很多小伙伴还不知道,

2023-04-18
speaker扬声器_speaker|焦点简讯

1、现在的机箱早已经没有PC喇叭了,也就是SPEAKER,所以主板上的SPEAKER跳针连不连接都不重要了。

2023-04-18
当前观察：知识产权资料库

1、知识产权资料库是我们免费为企业提供的最具价值的知识产权数据库。2、内容多为原创，部分内容收集于网上

2023-04-18
牡丹江曹园照片_牡丹江曹园焦点播报

1、曹园是黑龙江省牡丹江市张广才岭兴建的一片私人建筑群，距市区约10公里。2、建于2005年，已建成园门园、

2023-04-17
洋姜怎么吃_洋姜怎么做好吃|环球快看

1 生姜怎么吃：生姜，学名菊芋，又名生姜。它是一种富含淀粉的根类食品，富含菊粉、多糖等成分。食用对人体

2023-04-17
天天微动态丨dts音效最好的影片_dts音效

1、通常电影的制作都会用杜比音效。2、应为杜比音效在制作电影音效上较有经验。3、而在电影中用DTS音效通常

2023-04-17
世界资讯：段祺瑞执政府_段祺瑞简介

今天小编肥嘟来为大家解答以上的问题。段祺瑞执政府，段祺瑞简介相信很多小伙伴还不知道,现在让我们一起来

2023-04-17
全球今日讯！机车排量_机车排量cc什么意思

今天小编肥嘟来为大家解答以上的问题。机车排量，机车排量cc什么意思相信很多小伙伴还不知道,现在让我们一

2023-04-17
淄博一烧烤店回应被指强制消费特定烤串：当晚客流超负荷，缺食材

就4月15日有游客称在淄博烧烤店遭遇强制消费特定烤串一事，17日，涉事烧烤店——淄博八大局烧烤城老板回...

2023-04-17
世界看热讯：上一堂生动的公开课

据珠海公安：4月12日上午，香洲反诈中心受邀参与香洲区实验学校举办的“全民国家安全教育日”主题活动，...

2023-04-17
提前入夏，市民水上花式消暑！但暴雨＋雷电＋大风即将上线……

近日，气温节节攀升，每一天都感觉热浪滚滚。满街的短袖轻衫表明，珠海又提前入夏啦！据市气象局消息，珠海

2023-04-17
贵州“人才日” 铜仁在行动｜20项系列活动吸引优秀人才来铜创新创业

4月17日，记者从铜仁市2023年“人才日”活动新闻发布会上获悉，4月下旬至5月下旬之间，该市将开展20项“...

2023-04-17
农谚谚语大全24节气物候知识_农谚谚语大全

1、春不种，秋无收。2、　　枣芽发，种棉花。3、　　立夏勿下雨，犁耙倒挂起。4、　　五月端午晴，烂稻刮田

2023-04-17
农谚的拼音_农谚

1、春不种，秋无收。2、　　枣芽发，种棉花。3、　　立夏勿下雨，犁耙倒挂起。4、　　五月端午晴，烂稻刮田

2023-04-17