微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

2025/11/18 9:51:19 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 11 月 18 日消息，微軟亞洲研究院于 11 月 16 日發布博文，介紹了名為 UI-Evol 的新組件，旨在解決計算機使用 AI 智能體（computer-use AI agents）因軟件界面頻繁變更而導致的準確性與可靠性不足問題。

IT之家援引博(bo)文介(jie)紹，計算機使用智(zhi)能體(ti)是一(yi)種新(xin)興的人工(gong)(gong)智(zhi)能系統，它能像人類一(yi)樣通過圖形用戶界面（GUI）自(zi)主操作各類軟件，以完成填寫表單(dan)、管理工(gong)(gong)作流等(deng)復雜(za)任務。

盡管前景廣闊，這類智能體在實際應用中卻表現不佳。它們通常依賴從網絡獲取的外部知識，來理解屏幕內容并執行操作，但常常無法將這些知識成功轉化為行動，這一難題被稱為“知識-行動鴻溝”（knowledge-action gap）。

微軟援引的一項研究凸顯了該問題的嚴重性：即便 AI 智能體獲得了高達 90% 的正確指令，其任務的最終成功率也僅有 41%。

此外，這些 AI 智能體的行為難以預測，每次執行(xing)相(xiang)同(tong)任務(wu)時(shi)都可能采(cai)用(yong)不同(tong)的(de)方(fang)式(shi)，表(biao)現出極大(da)的(de)不穩(wen)定性，這嚴重阻礙了它們在實(shi)際場景中的(de)應(ying)用(yong)。

微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

圖 1：上圖展示了正確的外部知識在實際應用中仍然無法發揮作用。下圖展示了 UI-Evol 如何通過將知識與軟件環境相結合來縮小這一差距，從而實現更可靠的性能。

微軟亞(ya)洲研究院為(wei)解決這一核心(xin)挑(tiao)戰，開發了一款名為(wei) UI-Evol 的(de)即用型組(zu)件(jian)。該(gai)組(zu)件(jian)能(neng)(neng)無(wu)縫集(ji)成(cheng)到智(zhi)能(neng)(neng)體(ti)(ti)的(de)工作(zuo)流(liu)程中，其設(she)計思路并非僅僅依(yi)賴外部的(de)靜態知識，而是讓智(zhi)能(neng)(neng)體(ti)(ti)直接從真實的(de)軟件(jian)界面中獲取(qu)指(zhi)導。

UI-Evol 能夠持續更新和優化其對(dui)界面的理解(jie)，通過將知識與軟(ruan)件環境(jing)動態對(dui)齊，幫助智(zhi)能體更準(zhun)確、更可靠地完成任務(wu)，從(cong)而有效彌合(he)理論知識與實際操作之間的差距(ju)。這項研(yan)究(jiu)成果已被 ICML 2025 計算機(ji)使用智(zhi)能體研(yan)討(tao)會接(jie)收(shou)。

UI-Evol 的(de)(de)工作原理(li)分(fen)為(wei)兩個關鍵(jian)(jian)階段(duan)。第一階段(duan)是“回溯”（retrace），系統會精確記錄下(xia)智(zhi)能體為(wei)完(wan)成某項任務所(suo)執行(xing)的(de)(de)每一步操作，包括所(suo)有的(de)(de)點擊、按鍵(jian)(jian)等具體行(xing)為(wei)，從而捕獲(huo)一套完(wan)整的(de)(de)、可驗證(zheng)的(de)(de)行(xing)動軌跡。

微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

圖 2：UI-Evol 的兩個階段通過智能體的實際行為來完善外部指令，從而產生在實踐中有效的指導。

第二(er)階(jie)段是“審(shen)校”（critique），系統會將這套(tao)實際行動(dong)軌跡與外部指令進行比對(dui)。一旦發現(xian)不匹配之(zhi)處(chu)，UI-Evol 便會調(diao)整(zheng)知識(shi)庫(ku)，使其反映真正在(zai)軟件中行之(zhi)有效的(de)操作步驟。通過(guo)這兩個階(jie)段的(de)循(xun)環，外部的(de)通用指令被(bei)逐步演化為經過(guo)實踐檢驗的(de)、高度可靠(kao)的(de)智能體(ti)行動(dong)指南。

研究團隊在頂尖水(shui)平的(de)計算機使(shi)用智(zhi)能體(ti) Agent S2 上，使(shi)用 OSWorld 基準測試對 UI-Evol 進行了(le)評估。OSWorld 專(zhuan)為(wei)評測多(duo)模態(tai)智(zhi)能體(ti)在真實(shi)軟件和工作流中的(de)開放式(shi)任(ren)務而設計。

結果表明，UI-Evol 不(bu)(bu)僅顯(xian)著提(ti)升了任務成(cheng)功率，還解決(jue)了一個(ge)長期存在(zai)(zai)的難(nan)題 ——“高行為(wei)標準差”，即(ji)智能體(ti)在(zai)(zai)執行相同(tong)任務時行為(wei)不(bu)(bu)一致的問題。集成(cheng) UI-Evol 后(hou)，基于 GPT-4o 等先進(jin)大語言模(mo)型(xing)的智能體(ti)表現出更高的穩定性與可預測性。

微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

OSWorld 上的實驗結果。“SR”表示成功率。結果表明，計算機用戶智能體的行為通常難以預測。采用 UI-Evol 后，性能得到提升，其行為也變得更加穩定。

微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

以上圖源：微軟亞洲研究院

IT之(zhi)家附上(shang)參考地址

廣告聲明(ming)：文內含(han)有(you)的對外跳轉鏈接（包括不限于超鏈接、二維碼(ma)、口令等形(xing)式），用于傳遞更多信息(xi)，節(jie)省甄選時間(jian)，結果僅供參(can)考，IT之(zhi)家所有(you)文章均包含(han)本聲明(ming)。

九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

微軟亮劍智能辦公：解決“知行不一”難題，讓 AI 替你干活、老板還夸你效率高

相關文章