九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

設置
  • 日夜(ye)間
    隨系統
    淺色
    深色
  • 主題色
首頁 > >

微軟亮劍智能辦公:解決“知行不一”難題,讓 AI 替你干活、老板還夸你效率高

2025/11/18 9:51:19 來源:IT之家 作者:故淵 責編:故淵

IT之家 11 月 18 日消息,微軟亞洲研究院于 11 月 16 日發布博文,介紹了名為 UI-Evol 的新組件,旨在解決計算機使用 AI 智能體(computer-use AI agents)因軟件界面頻繁變更而導致的準確性與可靠性不足問題。

IT之家援引博(bo)文介(jie)紹,計算機使用智(zhi)能體(ti)是一(yi)種新(xin)興的人工(gong)(gong)智(zhi)能系統,它能像人類一(yi)樣通過圖形用戶界面(GUI)自(zi)主操作各類軟件,以完成填寫表單(dan)、管理工(gong)(gong)作流等(deng)復雜(za)任務。

盡管前景廣闊,這類智能體在實際應用中卻表現不佳。它們通常依賴從網絡獲取的外部知識,來理解屏幕內容并執行操作,但常常無法將這些知識成功轉化為行動,這一難題被稱為“知識-行動鴻溝”(knowledge-action gap)。

微軟援引的一項研究凸顯了該問題的嚴重性:即便 AI 智能體獲得了高達 90% 的正確指令,其任務的最終成功率也僅有 41%。

此外,這些 AI 智能體的行為難以預測,每次執行(xing)相(xiang)同(tong)任務(wu)時(shi)都可能采(cai)用(yong)不同(tong)的(de)方(fang)式(shi),表(biao)現出極大(da)的(de)不穩(wen)定性,這嚴重阻礙了它們在實(shi)際場景中的(de)應(ying)用(yong)。

圖 1:上圖展示了正確的外部知識在實際應用中仍然無法發揮作用。下圖展示了 UI-Evol 如何通過將知識與軟件環境相結合來縮小這一差距,從而實現更可靠的性能。

微軟亞(ya)洲研究院為(wei)解決這一核心(xin)挑(tiao)戰,開發了一款名為(wei) UI-Evol 的(de)即用型組(zu)件(jian)。該(gai)組(zu)件(jian)能(neng)(neng)無(wu)縫集(ji)成(cheng)到智(zhi)能(neng)(neng)體(ti)(ti)的(de)工作(zuo)流(liu)程中,其設(she)計思路并非僅僅依(yi)賴外部的(de)靜態知識,而是讓智(zhi)能(neng)(neng)體(ti)(ti)直接從真實的(de)軟件(jian)界面中獲取(qu)指(zhi)導。

UI-Evol 能夠持續更新和優化其對(dui)界面的理解(jie),通過將知識與軟(ruan)件環境(jing)動態對(dui)齊,幫助智(zhi)能體更準(zhun)確、更可靠地完成任務(wu),從(cong)而有效彌合(he)理論知識與實際操作之間的差距(ju)。這項研(yan)究(jiu)成果已被 ICML 2025 計算機(ji)使用智(zhi)能體研(yan)討(tao)會接(jie)收(shou)。

UI-Evol 的(de)(de)工作原理(li)分(fen)為(wei)兩個關鍵(jian)(jian)階段(duan)。第一階段(duan)是“回溯”(retrace),系統會精確記錄下(xia)智(zhi)能體為(wei)完(wan)成某項任務所(suo)執行(xing)的(de)(de)每一步操作,包括所(suo)有的(de)(de)點擊、按鍵(jian)(jian)等具體行(xing)為(wei),從而捕獲(huo)一套完(wan)整的(de)(de)、可驗證(zheng)的(de)(de)行(xing)動軌跡。

圖 2:UI-Evol 的兩個階段通過智能體的實際行為來完善外部指令,從而產生在實踐中有效的指導。

第二(er)階(jie)段是“審(shen)校”(critique),系統會將這套(tao)實際行動(dong)軌跡與外部指令進行比對(dui)。一旦發現(xian)不匹配之(zhi)處(chu),UI-Evol 便會調(diao)整(zheng)知識(shi)庫(ku),使其反映真正在(zai)軟件中行之(zhi)有效的(de)操作步驟。通過(guo)這兩個階(jie)段的(de)循(xun)環,外部的(de)通用指令被(bei)逐步演化為經過(guo)實踐檢驗的(de)、高度可靠(kao)的(de)智能體(ti)行動(dong)指南。

研究團隊在頂尖水(shui)平的(de)計算機使(shi)用智(zhi)能體(ti) Agent S2 上,使(shi)用 OSWorld 基準測試對 UI-Evol 進行了(le)評估。OSWorld 專(zhuan)為(wei)評測多(duo)模態(tai)智(zhi)能體(ti)在真實(shi)軟件和工作流中的(de)開放式(shi)任(ren)務而設計。

結果表明,UI-Evol 不(bu)(bu)僅顯(xian)著提(ti)升了任務成(cheng)功率,還解決(jue)了一個(ge)長期存在(zai)(zai)的難(nan)題 ——“高行為(wei)標準差”,即(ji)智能體(ti)在(zai)(zai)執行相同(tong)任務時行為(wei)不(bu)(bu)一致的問題。集成(cheng) UI-Evol 后(hou),基于 GPT-4o 等先進(jin)大語言模(mo)型(xing)的智能體(ti)表現出更高的穩定性與可預測性。

OSWorld 上的實驗結果。“SR”表示成功率。結果表明,計算機用戶智能體的行為通常難以預測。采用 UI-Evol 后,性能得到提升,其行為也變得更加穩定。

以上圖源:微軟亞洲研究院

IT之(zhi)家附上(shang)參考地址

廣告聲明(ming):文內含(han)有(you)的對外跳轉鏈接(包括不限于超鏈接、二維碼(ma)、口令等形(xing)式),用于傳遞更多信息(xi),節(jie)省甄選時間(jian),結果僅供參(can)考,IT之(zhi)家所有(you)文章均包含(han)本聲明(ming)。

相關文章

關鍵詞:微軟AI

軟媒旗下網站: IT之家 最會買 - 返利返現優惠券 Win7之家 Win10之家

軟媒旗下軟件: 軟媒手機APP應用 魔方