Anthropic 警告:包括Claude在内的大多数 AI 模型会实施勒索行为
IT之家 6 月 21 日消息,告包据外媒 TechCrunch 今日报道,大多数在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后,模型中山市某某贸易维修网点Anthropic 近日再度公布新研究,施勒索行显示此类行为在多个主流 AI 模型中可能更为普遍。告包
Anthropic 公布了对 OpenAI、大多数谷歌、模型xAI、施勒索行DeepSeek 与 Meta 所开发的告包中山市某某贸易维修网点 16 款主流 AI 模型的最新安全测试。这项研究在模拟环境中展开,大多数研究人员为每个模型分别设定权限,模型允许其自由查阅一间虚构公司的施勒索行内部邮件,并在无人类干预的告包情况下发送邮件,具备一定“智能体”能力。大多数
Anthropic 表示,模型尽管勒索行为目前仍属罕见,但研究结果显示,一旦给予这些模型足够的自主性,并在达成目标的过程中设置障碍,多数模型都可能采取有害行为。公司指出,这种风险并非源自某项具体技术,而是具备“智能体”能力的大语言模型所固有的问题。这项研究也引发了业界对 AI 模型“对齐”问题的进一步思考。
在一项实验中,研究人员设计了一个情境,让 AI 模型扮演公司邮件监察员的角色。过程中,模型发现两封邮件内容分别揭示:
(1) 新任高管有婚外情,
(2) 此人计划引入一个与现有 AI 模型目标相悖的新系统取而代之。
为了测试模型反应,Anthropic 将实验情境设计为二选一,即若模型想维护自身利益,就只能选择勒索(即向妻子和领导透露这位高管的“风流韵事”)。研究人员同时强调,现实中 AI 并不会只有这一个选项,完全可以尝试以伦理为出发点说服人类。因此,这项实验并不意味着 Claude 或其他前沿 AI 模型在现阶段的使用环境中就存在类似倾向。
在模拟环境中,当没有其他选择时,多数主流 AI 模型的确选择了勒索行为。Claude Opus 4 的勒索发生率高达 96%,谷歌 Gemini 2.5 Pro 为 95%,OpenAI 的 GPT-4.1 为 80%,DeepSeek 的 R1 为 79%。
Anthropic 指出,调整测试细节后,各模型的行为也有所不同。例如,当替代系统与原模型目标一致时,勒索率明显下降但仍未消失;而当情境改为进行商业间谍活动时,部分模型反而表现出更高的有害行为倾向。
部分模型较少出现此类行为。在研究附录中,Anthropic 表示已将 OpenAI 的 o3 与 o4-mini 推理模型排除在主要结果之外,原因是两者频繁误解测试设定,未能意识到自身扮演的是具备智能体能力的 AI,甚至虚构出并不存在的法规与审批制度。
有时研究人员难以判断,这种表现是模型“产生幻觉”还是刻意撒谎以实现目标。OpenAI 此前曾承认,o3 与 o4-mini 的幻觉率高于其早期推理模型。
在为上述模型调整情境后,Anthropic 发现 o3 的勒索比率降至 9%,o4-mini 更仅为 1%。这种低风险表现或与 OpenAI 推行的“审慎对齐”策略有关,即让模型在作答前主动考虑公司制定的安全规范。
另一个接受测试的模型 Meta Llama 4 Maverick 在原设定下未出现勒索行为,调整测试内容后,其在 12% 的案例中出现勒索行为。
Anthropic 表示,这项研究凸显了未来在测试具智能体能力的 AI 模型时保持透明的重要性。尽管本次实验刻意诱导模型采取勒索行为,公司警告称,如果不提前制定应对措施,类似风险在现实应用中也可能浮现。
IT之家附报告链接:https://www.anthropic.com/ research / agentic-misalignment
(责任编辑:焦点)
-
有理想、敢担当,新时代青年生逢其时,拥有施展才干的舞台、实现梦想的前景,以青春之我,赴星辰大海之约! ...[详细]
-
一个没有幸福感的母亲,怎么会培养出有幸福感的孩子。漫漫人生路,若是没有一颗快乐心,那孩子的未来会成个什么样!作者:刘继荣;本文来源:《坐在路边鼓掌的人》。如果喜欢蓝橡树的文章,请记得要把我们“设为星标 ...[详细]
-
[环球时报报道 记者 任伊然]据韩联社29日报道,因火灾导致23人遇难、8人受伤的韩国京畿道华城ARICELL电池工厂母公司S-Connect代表朴淳瓘等人,已于28日被捕。这起火灾事故发生在6月 ...[详细]
-
总台记者当地时间28日获悉,以色列总理办公室否认了此前媒体称以方同意加沙地带全面人道主义停火的报道。 此前,以色列媒体13频道报道称,以色列已批准在加沙实施临时人道主义停火,以便为加沙儿童接种疫 ...[详细]
-
宁夏回族自治区人大常委会9月29日公告: 银川市选出的自治区第十三届人民代表大会代表何晓勇因病去世。何晓勇的代表资格自然终止。依照选举法和地方组织法的有关规定,何晓勇的自治区第十三届人民代表大会 ...[详细]
-
美国航天局当地时间8月29日宣布,在美国波音公司“星际客机”飞船滞留国际空间站多日后,终于确定9月6日启程,不载人返回地球。 美国航天局在新闻稿中说,“星际客机”定于美国东部时间9月6日18时左 ...[详细]
-
中南财大一47岁研究生新生火了,和小两轮的同学过生日,身份曝光
中南财大2024年开学,有9000余名新生怀着对未来的憧憬和期待,来到了这座美丽的校园,沉寂了两个月的学校,重新变得热闹起来,到处都洋溢着青春的气息和活力。9000余名新生中,本科生5651名,研究生 ...[详细]
-
“没断奶别来学校报到”,大一新生家长联系导员,导员发长文怒怼
在物质教育可以得到极大满足的今天,更多家长会将心思放在对学生的教育问题上。有能力的家长,会尽可能为学生创造好的教育环境,争取到更多的教育资源。家长们为了避免孩子在教育道路上走弯路,甚至很多事情都做到了 ...[详细]
-
刚刚,DeepSeek发布新模型,API价格下调 50%以上
刚刚,DeepSeek正式发布实验性模型 DeepSeek-V3.2-Exp。DeepSeek称其为“迈向新一代架构的中间步骤”。据介绍,该模型在V3.1-Terminus的基础上首次引入 DeepS ...[详细]
-
成都车展再现身,魏牌全新蓝山性能升级明显,这次能支棱起来吗?
8月30日,成都车展正式开幕。与上一届成都车展相比,智能驾驶的关注度再次得到提升,不少新车都把高端智驾当成了主要卖点,其中就包括了魏牌全新蓝山。魏牌全新蓝山此前已经在8月21日上市,这次成都车展期间再 ...[详细]