九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

設置
  • 日夜間
    隨系統
    淺色
    深色
  • 主(zhu)題色
首頁 > >

研究顯示:AI 解 6x6 數獨都費勁,解釋決策時還答非所問

2025/8/7 9:42:47 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 8 月 7 日消息,科羅拉多大學博(bo)爾德分校的研(yan)究人員在《計算語言(yan)學協會研(yan)究發現》上發表(biao)了一篇論文,揭示了大型語言(yan)模(mo)型(LLM)在解決(jue)數獨問題時的局限性,尤其是(shi)其在解釋(shi)決(jue)策過程中(zhong)的不足。

研究(jiu)人員(yuan)發(fa)現(xian),即使是(shi)相(xiang)對簡單的(de) 6×6 數獨,大多數大型語言模(mo)型在沒有外(wai)部(bu)輔助(zhu)工具的(de)情況(kuang)下也難(nan)以(yi)解(jie)決。這一現(xian)象反(fan)映出(chu) LLM 在邏輯推(tui)理方(fang)(fang)面的(de)短板(ban)。數獨的(de)本質(zhi)并非數學運算,而是(shi)一種(zhong)符(fu)號(hao)邏輯游戲,需要從整體出(chu)發(fa),找到符(fu)合邏輯的(de)解(jie)題順序,而 LLM 往(wang)往(wang)會按照訓練數據中(zhong)類似情況(kuang)的(de)模(mo)式,逐(zhu)個填(tian)充空缺,這種(zhong)逐(zhu)個推(tui)理的(de)方(fang)(fang)式難(nan)以(yi)應(ying)對數獨的(de)復雜(za)邏輯。

而(er)且,當(dang)研究人(ren)員(yuan)要求(qiu)這些(xie)模(mo)(mo)型(xing)展示解(jie)題(ti)過程時,結果令人(ren)失望(wang)。大多(duo)數(shu)情(qing)況下,模(mo)(mo)型(xing)無(wu)法準(zhun)確、透明地解(jie)釋其(qi)決策過程。有時它們會給(gei)出看似合理的(de)(de)解(jie)釋,但(dan)這些(xie)解(jie)釋并不符合實際的(de)(de)解(jie)題(ti)步驟(zou);有時甚至(zhi)會給(gei)出與問(wen)(wen)題(ti)完(wan)全(quan)無(wu)關的(de)(de)回答,例如(ru)在一(yi)次測試中,OpenAI 的(de)(de) o4 推(tui)理模(mo)(mo)型(xing)在被問(wen)(wen)及數(shu)獨問(wen)(wen)題(ti)時,突然(ran)開始談(tan)論(lun)丹(dan)佛(fo)的(de)(de)天(tian)氣(qi)預報(bao)。

科羅拉多大學計算機科學教授(shou)阿舒托什?特里維迪(di)(Ashutosh Trivedi)指出,如(ru)果生成式(shi) AI 工(gong)具不(bu)能(neng)準確、透明(ming)地(di)解(jie)釋其決(jue)策過程,那么隨著我(wo)們越來越多地(di)將(jiang)生活和決(jue)策權交給這些工(gong)具,就(jiu)必須保(bao)持謹慎(shen)。他強調:“我(wo)們希望這些解(jie)釋能(neng)夠透明(ming)地(di)反映 AI 做出決(jue)策的原(yuan)因,而不(bu)是 AI 為了迎(ying)合人類(lei)而提供(gong)人類(lei)可能(neng)喜歡的解(jie)釋。”

IT之家注(zhu)意到,這(zhe)種解(jie)釋能力的缺失并(bing)非僅在數獨問(wen)(wen)題(ti)(ti)(ti)上體現(xian)。研究人(ren)員還發現(xian),LLM 在其他邏輯(ji)游戲(如國際象棋(qi)和漢諾塔問(wen)(wen)題(ti)(ti)(ti))中也存(cun)在類似問(wen)(wen)題(ti)(ti)(ti)。以國際象棋(qi)為(wei)例,LLM 雖(sui)然能夠(gou)找到合理的下一步(bu)棋(qi),但往往無法像(xiang)人(ren)類高手(shou)那樣提前規劃多步(bu)棋(qi)局(ju),甚至有時會違反(fan)規則(ze)移動棋(qi)子(zi),導致局(ju)面陷入(ru)混亂。

此(ci)外,研究人員還指出,解(jie)釋(shi)(shi)能(neng)力(li)對于 AI 的(de)應(ying)用至關重(zhong)要。隨著(zhu) AI 在駕駛、稅務處理、商業決策和重(zhong)要文(wen)件翻(fan)譯等領域的(de)應(ying)用逐漸增加(jia),其(qi)解(jie)釋(shi)(shi)能(neng)力(li)將成為(wei)衡量其(qi)可靠性的(de)關鍵(jian)因素。特里維迪教授警告說:“如果 AI 的(de)解(jie)釋(shi)(shi)是為(wei)了錯誤的(de)原因而進行(xing)的(de),那么(me)這種解(jie)釋(shi)(shi)就非常接(jie)近于操縱(zong)。我們必(bi)須非常謹慎地對待這些解(jie)釋(shi)(shi)的(de)透明度。”

廣告聲(sheng)明:文內含(han)有(you)的(de)對外(wai)跳(tiao)轉(zhuan)鏈接(jie)(包括不限于超鏈接(jie)、二(er)維碼(ma)、口令等(deng)形式(shi)),用(yong)于傳遞更(geng)多信息,節(jie)省甄選時間(jian),結果僅供參考,IT之(zhi)家所有(you)文章均包含(han)本聲(sheng)明。

相關文章

軟媒旗下網站: IT之家 最會買 - 返利返現優惠券 Win7之家 Win10之家

軟媒旗下軟件: 軟媒手機APP應用 魔方