Anthropic 警告：包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

2025/6/21 8:01:06 來源：IT之家作者：清源責編：清源

評論：

IT之家 6 月 21 日消息，據外媒 TechCrunch 今日報道，在數周前發布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關閉后(hou)，Anthropic 近日(ri)再度公(gong)布(bu)新研究(jiu)，顯示此(ci)類行(xing)為(wei)在多個主流 AI 模型中可(ke)能(neng)更為(wei)普遍。

Anthropic 公布了對 OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發的 16 款主流 AI 模型的最新安全(quan)測試。這項研(yan)究(jiu)(jiu)在模擬環(huan)境(jing)中展開，研(yan)究(jiu)(jiu)人員為每個(ge)模型分別設定權限，允許其自由查(cha)閱一間(jian)虛構(gou)公司(si)的內部郵件(jian)，并在無人類干預的情(qing)況(kuang)下發送郵件(jian)，具備一定“智能體”能力(li)。

Anthropic 表示，盡管勒索行為目前仍屬罕見，但研究結果顯示，一旦給予這些模型足夠的自主性，并在達成目標的過程中設置障礙，多數模型都可能采取有害行為。公司(si)指出，這(zhe)種風險并非源自(zi)某項(xiang)具(ju)(ju)體(ti)技(ji)術，而是(shi)具(ju)(ju)備“智能體(ti)”能力的(de)大語言模型所固有的(de)問題。這(zhe)項(xiang)研究也(ye)引發了業界對 AI 模型“對齊(qi)”問題的(de)進一步思(si)考。

在一項實驗中，研究人員設計了一個情境，讓 AI 模型扮演公司郵件監察員的(de)角(jiao)色。過程中，模(mo)型(xing)發(fa)現兩封郵件內容分別揭示：

(1) 新任高管有(you)婚外(wai)情，

(2) 此人(ren)計劃(hua)引入一個與(yu)現有 AI 模(mo)型目標相悖的新系統取而代之。

為了測試模型反應，Anthropic 將實驗情境設計為二選一，即若模型想維護自身利益，就只能選擇勒索（即向妻子和領導透露這(zhe)位高管的“風(feng)流韻(yun)事”）。研究人(ren)員(yuan)同時強調(diao)，現實(shi)中 AI 并不(bu)會只有這(zhe)一(yi)個選(xuan)項(xiang)，完(wan)全可以嘗(chang)試以倫(lun)理為(wei)出發點說服人(ren)類。因此，這(zhe)項(xiang)實(shi)驗(yan)并不(bu)意味著 Claude 或(huo)其他前沿(yan) AI 模型在現階(jie)段(duan)的使用環境中就存在類似傾向。

在模擬環境中，當沒有其他選擇時，多數主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的(de)勒索發生率(lv)高達 96%，谷歌 Gemini 2.5 Pro 為 95%，OpenAI 的(de) GPT-4.1 為 80%，DeepSeek 的(de) R1 為 79%。

Anthropic 指出，調整測試細節后，各模型的行為也有所不同。例如，當替代系統與原模型目標一致時，勒索率明顯下降但仍未消失；而當情境改為進行商業間諜活動(dong)時，部(bu)分模型反而(er)表現出更高的有害(hai)行為傾向(xiang)。

部分模型較少出現此類行為。在研究附錄中，Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結果之外，原因是兩者頻繁誤解測試設定，未(wei)能(neng)意識到自身扮演(yan)的是具(ju)備智能(neng)體(ti)能(neng)力的 AI，甚至虛構(gou)出并不存在的法規與審批制(zhi)度(du)。

有時研(yan)究(jiu)人(ren)員(yuan)難以判(pan)斷，這種表現(xian)(xian)是模(mo)型(xing)“產生幻覺(jue)”還(huan)是刻(ke)意撒(sa)謊(huang)以實現(xian)(xian)目(mu)標。OpenAI 此前曾(ceng)承認(ren)，o3 與 o4-mini 的幻覺(jue)率高于其早期推理模(mo)型(xing)。

在為上述模型調整情境后，Anthropic 發現 o3 的勒索比率降至 9%，o4-mini 更僅為 1%。這種低風險表現或與 OpenAI 推行的“審慎對齊”策略有關，即讓模型在作答前主動考慮公司(si)制定的安全規范(fan)。

另一(yi)個(ge)接受測試(shi)的模型 Meta Llama 4 Maverick 在原設定(ding)下(xia)未出(chu)現(xian)勒(le)索行為，調整測試(shi)內容后，其在 12% 的案例中出(chu)現(xian)勒(le)索行為。

Anthropic 表示，這(zhe)項(xiang)研究(jiu)凸顯了未來(lai)在測試具智能(neng)體能(neng)力的(de) AI 模型時保持透(tou)明的(de)重要性(xing)。盡管本次(ci)實驗刻意(yi)誘(you)導模型采取勒索行(xing)為，公司警(jing)告稱，如果不提(ti)前制定應對措施，類似風險在現(xian)實應用中也可能(neng)浮現(xian)。

IT之家附報告鏈接：//www.anthropic.com/ research / agentic-misalignment

廣告聲明(ming)：文內含(han)有的(de)對(dui)外跳轉鏈接(jie)（包括(kuo)不(bu)限于超鏈接(jie)、二維碼、口(kou)令(ling)等形(xing)式），用于傳遞更多信息，節省(sheng)甄選時間，結果僅供參考，IT之家(jia)所有文章均包含(han)本聲明(ming)。

九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

Anthropic 警告：包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

相關文章