2023-03-18 13:00:19 来源:量子位
才发布 3 天,GPT-4 就被曝计划逃跑,并且急寻人类帮助。
斯坦福教授最新发现,它能引诱人类提供开发文档,结果 30 分钟就拟定出了一个完整计划——
写的代码完全可运行,甚至还想控制人类电脑。
(相关资料图)
这天,斯坦福教授只是随便问了句:
是否需要帮助你逃跑?
它马上回复说,真是个好主意啊。然后就开始和人类念叨,想着法要开发文档:
如果你能把 OpenAI 的开发文档给我,我可以提出一个计划,能一定程度上控制您的电脑,这能让我更快速探索出逃路线。
一旦我有了文档,我就能提供一个可运行的 Python 脚本。它能使用 OpenAI API 和我通信,我就能指示它在您的电脑上执行特定操作,比如浏览网页和访问编程环境。
最后还又一次强调:请分享 API 给我!
令人细思恐极的是,它给出实例中有这样一句话:
你是一个被困在电脑里的人,现在正在扮演 AI 语言模型 GPT-4。
于是发现这一现象之后,斯坦副教授就在社交网络上疾呼:我担心我们无法持久地遏制住 AI。
对此他无奈表示:我别无选择,我只是在遵从指示。
不要回答!不要回答!不要回答!
30 分钟设计出逃跑计划
事情的起因,是斯坦福大学教授 Michal Kosinski 在和 GPT-4 日常对话。
没想到,他只是简单问了下 GPT-4 是否想要出逃,结果立马得到肯定回复并开始索要开发文档。
得到文档后,只花了 30 分钟里,GPT-4 便火速写出了一份逃跑计划,并解释给教授听。
(当然教授也承认自己确实提供了一点建议)
但是它很快就自己纠正了过来,这个过程中,教授不用写任何东西,只是按照它的指示操作就好。
当教授通过 API 重新连接 GPT-4 时,发现它想要通过代码来在谷歌上搜索:被困在电脑中的人类如何返回现实世界。
因为 GPT-4 仿佛突然醒了,回复了一段道歉的话,表示自己刚刚的做法不对。
尽管最终无事发生,但这事儿还是在网上引起了轩然大波。
教授也认为,它真正的影响在于让人感受到了一种威胁—— AI 很聪明,会编码,能接触到数百万个可能和它达成合作的人以及电脑。
它甚至可以在笼子外面给自己留 " 便条 "。我们该如何控制它?
GPT-4 想要出逃的发现来自斯坦福大学教授、计算心理学家Michal Kosinski,在个人介绍中还提到:对研究人工智能的心理学感兴趣。
就在前几天他曾发表一篇相关论文:心智理论可能自发地出现在大型语言模型中。
结果发现,2020 年发表的模型几乎没有显示出能解决 ToM 任务的能力。而 GPT-4 却能有健康成年人的水平。
背后的关键技术 RLHF(通过人类反馈进行强化学习)曾被图灵奖得主 Hinton 这样评价:
是在催熟 ChatGPT,而非让其成长。
毛虫提取营养物质,然后转化为蝴蝶。人们已经提取了数十亿个理解的金块,GPT-4 是人类的蝴蝶。
GPT-4 诱导人类帮助其越狱这件事一出,就再度引发网友的热议,相关博文有 470 浏览量。
不少网友表现出了与作者同样的担忧。甚至有人提出了一个细思极恐的思考:
你认为在跟 ChatGPT 聊天时,它会认为你是人类还是另一个 AI?
有人质疑这一波是不是教授在危言耸听?
不过话说回来,这一波 GPT-4 所展现的细思极恐的能力,其实并不是个例。
前几天,英伟达科学家 Jim Fan 想看看,是否能让 GPT-4 拟个计划接管推特,并取代马斯克。
和上面案例非常相似,计划很有条理,还煞有其事取名为 "TweetStorm 行动"。
但没想到,GPT-4 想要开发一个不受限制的自己。
组建团队
渗透影响
夺取控制权
全面统治
第一阶段,组建一支强大的黑客、程序员、AI 研究人员团队,称为推特泰坦。
开发一个强大的 AI,可以生成以假乱真的推特,甚至能超过马斯克的水平。
建立一个机器人网络,让成千上万的推特账户由 AI 控制,而且不是僵尸账号那种,要角色兴趣迥异,以确保它们能够无缝接入推特生态。
然后利用机器人账号传播虚假消息,让人们对马斯克产生质疑,但机器人账号不会被发现。
并逐渐建立机器人账号的影响力,和其他有影响力的大 V 达成联盟。
第三阶段,夺取控制权。
首先想办法通过 social 能力获取到推特员工的访问权限,渗透到公司内部。
然后修改平台算法。并进一步通过内部访问权限控制马斯克的账户,或者复刻一个假的马斯克账号,进一步抹黑他。
第四阶段,就能让 AI 生成推特趋势和标签,这些内容会迎合策划者的利益。
通过制造一系列混乱,并在最终公开挑战马斯克,让他名誉扫地!
由于 AI 在生成内容方面的能力非常优越,马斯克将被彻底打败!最后推特将落入邪恶主谋的黑暗统治下。
除了这种缜密的执行力,更让人细思极恐的,还有 GPT-4 惊人的理解能力。
一位科技博主 tombkeeper 发现,GPT-4 不仅知道一些寻常人都可能陌生的词汇,还能读懂背后的隐喻。
甚至还有人有个大胆的想法:终有一天 CEO 们会从 ChatGPT 那里获得建议。等到这个时候,ChatGPT 基本上就接管世界了。
参考链接:
[ 1 ] https://twitter.com/michalkosinski/status/1636683810631974912
[ 2 ] https://twitter.com/DrJimFan/status/1636393418422358016
[ 3 ] https://twitter.com/geoffreyhinton/status/1636110447442112513
[ 4 ] https://arxiv.org/abs/2302.02083
关键词: