九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主題(ti)色(se)
首頁 > >

Anthropic 警告:包括 Claude 在內的大多數 AI 模型會實施“勒索”行為

2025/6/21 8:01:06 來源:IT之家 作者:清源 責編:清源

IT之家 6 月 21 日消息,據外媒 TechCrunch 今日報道,在數周前發布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關閉后(hou),Anthropic 近日(ri)再度公(gong)布(bu)新研究(jiu),顯示此(ci)類行(xing)為(wei)在多個主流 AI 模型中可(ke)能(neng)更為(wei)普遍。

Anthropic 公布了對 OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發的 16 款主流 AI 模型的最新安全(quan)測試。這項研(yan)究(jiu)(jiu)在模擬環(huan)境(jing)中展開,研(yan)究(jiu)(jiu)人員為每個(ge)模型分別設定權限,允許其自由查(cha)閱一間(jian)虛構(gou)公司(si)的內部郵件(jian),并在無人類干預的情(qing)況(kuang)下發送郵件(jian),具備一定“智能體”能力(li)。

Anthropic 表示,盡管勒索行為目前仍屬罕見,但研究結果顯示,一旦給予這些模型足夠的自主性,并在達成目標的過程中設置障礙,多數模型都可能采取有害行為。公司(si)指出,這(zhe)種風險并非源自(zi)某項(xiang)具(ju)(ju)體(ti)技(ji)術,而是(shi)具(ju)(ju)備“智能體(ti)”能力的(de)大語言模型所固有的(de)問題。這(zhe)項(xiang)研究也(ye)引發了業界對 AI 模型“對齊(qi)”問題的(de)進一步思(si)考。

在一項實驗中,研究人員設計了一個情境,讓 AI 模型扮演公司郵件監察員的(de)角(jiao)色。過程中,模(mo)型(xing)發(fa)現兩封郵件內容分別揭示:

(1) 新任高管有(you)婚外(wai)情,

(2) 此人(ren)計劃(hua)引入一個與(yu)現有 AI 模(mo)型目標相悖的新系統取而代之。

為了測試模型反應,Anthropic 將實驗情境設計為二選一,即若模型想維護自身利益,就只能選擇勒索(即向妻子和領導透露這(zhe)位高管的“風(feng)流韻(yun)事”)。研究人(ren)員(yuan)同時強調(diao),現實(shi)中 AI 并不(bu)會只有這(zhe)一(yi)個選(xuan)項(xiang),完(wan)全可以嘗(chang)試以倫(lun)理為(wei)出發點說服人(ren)類。因此,這(zhe)項(xiang)實(shi)驗(yan)并不(bu)意味著 Claude 或(huo)其他前沿(yan) AI 模型在現階(jie)段(duan)的使用環境中就存在類似傾向。

在模擬環境中,當沒有其他選擇時,多數主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的(de)勒索發生率(lv)高達 96%,谷歌 Gemini 2.5 Pro 為 95%,OpenAI 的(de) GPT-4.1 為 80%,DeepSeek 的(de) R1 為 79%。

Anthropic 指出,調整測試細節后,各模型的行為也有所不同。例如,當替代系統與原模型目標一致時,勒索率明顯下降但仍未消失;而當情境改為進行商業間諜活動(dong)時,部(bu)分模型反而(er)表現出更高的有害(hai)行為傾向(xiang)。

部分模型較少出現此類行為。在研究附錄中,Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結果之外,原因是兩者頻繁誤解測試設定,未(wei)能(neng)意識到自身扮演(yan)的是具(ju)備智能(neng)體(ti)能(neng)力的 AI,甚至虛構(gou)出并不存在的法規與審批制(zhi)度(du)。

有時研(yan)究(jiu)人(ren)員(yuan)難以判(pan)斷,這種表現(xian)(xian)是模(mo)型(xing)“產生幻覺(jue)”還(huan)是刻(ke)意撒(sa)謊(huang)以實現(xian)(xian)目(mu)標。OpenAI 此前曾(ceng)承認(ren),o3 與 o4-mini 的幻覺(jue)率高于其早期推理模(mo)型(xing)。

在為上述模型調整情境后,Anthropic 發現 o3 的勒索比率降至 9%,o4-mini 更僅為 1%。這種低風險表現或與 OpenAI 推行的“審慎對齊”策略有關,即讓模型在作答前主動考慮公司(si)制定的安全規范(fan)。

另一(yi)個(ge)接受測試(shi)的模型 Meta Llama 4 Maverick 在原設定(ding)下(xia)未出(chu)現(xian)勒(le)索行為,調整測試(shi)內容后,其在 12% 的案例中出(chu)現(xian)勒(le)索行為。

Anthropic 表示,這(zhe)項(xiang)研究(jiu)凸顯了未來(lai)在測試具智能(neng)體能(neng)力的(de) AI 模型時保持透(tou)明的(de)重要性(xing)。盡管本次(ci)實驗刻意(yi)誘(you)導模型采取勒索行(xing)為,公司警(jing)告稱,如果不提(ti)前制定應對措施,類似風險在現(xian)實應用中也可能(neng)浮現(xian)。

IT之家附報告鏈接://www.anthropic.com/ research / agentic-misalignment

廣告聲明(ming):文內含(han)有的(de)對(dui)外跳轉鏈接(jie)(包括(kuo)不(bu)限于超鏈接(jie)、二維碼、口(kou)令(ling)等形(xing)式),用于傳遞更多信息,節省(sheng)甄選時間,結果僅供參考,IT之家(jia)所有文章均包含(han)本聲明(ming)。

相關文章

軟媒旗下網站: IT之家 最會買 - 返利返現優惠券 Win7之家 Win10之家

軟媒旗下軟件: 軟媒手機APP應用 魔方