IT之家 11 月 18 日消息,微軟亞洲研究院于 11 月 16 日發布博文,介紹了名為 UI-Evol 的新組件,旨在解決計算機使用 AI 智能體(computer-use AI agents)因軟件界面頻繁變更而導致的準確性與可靠性不足問題。
IT之家援引博(bo)文介(jie)紹,計算機使用智(zhi)能體(ti)是一(yi)種新(xin)興的人工(gong)(gong)智(zhi)能系統,它能像人類一(yi)樣通過圖形用戶界面(GUI)自(zi)主操作各類軟件,以完成填寫表單(dan)、管理工(gong)(gong)作流等(deng)復雜(za)任務。
盡管前景廣闊,這類智能體在實際應用中卻表現不佳。它們通常依賴從網絡獲取的外部知識,來理解屏幕內容并執行操作,但常常無法將這些知識成功轉化為行動,這一難題被稱為“知識-行動鴻溝”(knowledge-action gap)。
微軟援引的一項研究凸顯了該問題的嚴重性:即便 AI 智能體獲得了高達 90% 的正確指令,其任務的最終成功率也僅有 41%。
此外,這些 AI 智能體的行為難以預測,每次執行(xing)相(xiang)同(tong)任務(wu)時(shi)都可能采(cai)用(yong)不同(tong)的(de)方(fang)式(shi),表(biao)現出極大(da)的(de)不穩(wen)定性,這嚴重阻礙了它們在實(shi)際場景中的(de)應(ying)用(yong)。

微軟亞(ya)洲研究院為(wei)解決這一核心(xin)挑(tiao)戰,開發了一款名為(wei) UI-Evol 的(de)即用型組(zu)件(jian)。該(gai)組(zu)件(jian)能(neng)(neng)無(wu)縫集(ji)成(cheng)到智(zhi)能(neng)(neng)體(ti)(ti)的(de)工作(zuo)流(liu)程中,其設(she)計思路并非僅僅依(yi)賴外部的(de)靜態知識,而是讓智(zhi)能(neng)(neng)體(ti)(ti)直接從真實的(de)軟件(jian)界面中獲取(qu)指(zhi)導。
UI-Evol 能夠持續更新和優化其對(dui)界面的理解(jie),通過將知識與軟(ruan)件環境(jing)動態對(dui)齊,幫助智(zhi)能體更準(zhun)確、更可靠地完成任務(wu),從(cong)而有效彌合(he)理論知識與實際操作之間的差距(ju)。這項研(yan)究(jiu)成果已被 ICML 2025 計算機(ji)使用智(zhi)能體研(yan)討(tao)會接(jie)收(shou)。
UI-Evol 的(de)(de)工作原理(li)分(fen)為(wei)兩個關鍵(jian)(jian)階段(duan)。第一階段(duan)是“回溯”(retrace),系統會精確記錄下(xia)智(zhi)能體為(wei)完(wan)成某項任務所(suo)執行(xing)的(de)(de)每一步操作,包括所(suo)有的(de)(de)點擊、按鍵(jian)(jian)等具體行(xing)為(wei),從而捕獲(huo)一套完(wan)整的(de)(de)、可驗證(zheng)的(de)(de)行(xing)動軌跡。

第二(er)階(jie)段是“審(shen)校”(critique),系統會將這套(tao)實際行動(dong)軌跡與外部指令進行比對(dui)。一旦發現(xian)不匹配之(zhi)處(chu),UI-Evol 便會調(diao)整(zheng)知識(shi)庫(ku),使其反映真正在(zai)軟件中行之(zhi)有效的(de)操作步驟。通過(guo)這兩個階(jie)段的(de)循(xun)環,外部的(de)通用指令被(bei)逐步演化為經過(guo)實踐檢驗的(de)、高度可靠(kao)的(de)智能體(ti)行動(dong)指南。
研究團隊在頂尖水(shui)平的(de)計算機使(shi)用智(zhi)能體(ti) Agent S2 上,使(shi)用 OSWorld 基準測試對 UI-Evol 進行了(le)評估。OSWorld 專(zhuan)為(wei)評測多(duo)模態(tai)智(zhi)能體(ti)在真實(shi)軟件和工作流中的(de)開放式(shi)任(ren)務而設計。
結果表明,UI-Evol 不(bu)(bu)僅顯(xian)著提(ti)升了任務成(cheng)功率,還解決(jue)了一個(ge)長期存在(zai)(zai)的難(nan)題 ——“高行為(wei)標準差”,即(ji)智能體(ti)在(zai)(zai)執行相同(tong)任務時行為(wei)不(bu)(bu)一致的問題。集成(cheng) UI-Evol 后(hou),基于 GPT-4o 等先進(jin)大語言模(mo)型(xing)的智能體(ti)表現出更高的穩定性與可預測性。


IT之(zhi)家附上(shang)參考地址
廣告聲明(ming):文內含(han)有(you)的對外跳轉鏈接(包括不限于超鏈接、二維碼(ma)、口令等形(xing)式),用于傳遞更多信息(xi),節(jie)省甄選時間(jian),結果僅供參(can)考,IT之(zhi)家所有(you)文章均包含(han)本聲明(ming)。