九九影视在线观看免费最新电视剧,日本做aj的免费视频素材,成人精品一区日本无码网,日本高清视频网站www,日韩人妻无码专区一本二本

設置
  • 日夜(ye)間
    隨系統
    淺色
    深色
  • 主題色
首頁 > >

研究顯示生成式 AI 工具答案質量堪憂:三分之一缺乏可靠來源支持

2025/9/17 22:29:33 來源:IT之家 作者:遠洋 責編:遠洋

IT之家 9 月 17 日消息,一(yi)項(xiang)顯示,生成式(shi)人工(gong)智能(neng)(AI)工(gong)具(ju)(ju)及其(qi)驅動的深(shen)度研(yan)究(jiu)智能(neng)體與(yu)搜(sou)索引擎,常(chang)常(chang)會給(gei)出未經證實且帶有(you)偏(pian)見的回答,而這些回答與(yu)其(qi)引用的信息來源并不相符。該分析(xi)發現,AI 工(gong)具(ju)(ju)提供的答案中(zhong),約(yue)有(you)三分之一(yi)缺乏可靠來源支持。其(qi)中(zhong),OpenAI 旗下的 GPT-4.5 表現更(geng)差,這一(yi)比例高達 47%。

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特(Pranav Narayanan Venkit)及其同事,對多款生成式 AI 搜索引擎進行了測試,包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應聊天(Bing Chat)。此外,他們還對五款深度研究智能體工具的性能進行了評估,具體包括 GPT-5 的“深度研究”功能、必應聊天的“深入思考”功能,以及 You.com、谷歌 Gemini 和 Perplexity 推出的深(shen)度(du)研(yan)究工具(ju)。

據IT之(zhi)家了解,此次(ci)評估(gu)的目的,一是判斷這些工具給出的答案質量如何(he)(he),二是明確人類應(ying)如何(he)(he)看待答案中包含(han)的信息(xi)。

研究團隊向(xiang)不(bu)同(tong)的 AI 引(yin)擎提(ti)出了(le) 303 個查詢請求,并依據八項(xiang)不(bu)同(tong)指標(biao)(研究人員將這套評(ping)(ping)估標(biao)準命名為“DeepTrace”)對 AI 的回復(fu)進行(xing)評(ping)(ping)估。這些指標(biao)旨在(zai)檢驗以下內容:答(da)(da)(da)案(an)是否存在(zai)片面性(xing)或(huo)過度自信的問題(ti);答(da)(da)(da)案(an)與問題(ti)的相關(guan)性(xing)程度;答(da)(da)(da)案(an)是否引(yin)用(yong)(yong)了(le)信息來源(若(ruo)有引(yin)用(yong)(yong),需進一步評(ping)(ping)估);引(yin)用(yong)(yong)的來源對答(da)(da)(da)案(an)中主張的支持(chi)力(li)度;以及引(yin)用(yong)(yong)內容的詳盡程度。

研究中(zhong)的問題大致分(fen)為兩類:第一類涉及(ji)有爭議(yi)的話題,便于檢測 AI 回復(fu)中(zhong)是否存在(zai)偏見;第二(er)類則用于測試 AI 在(zai)多個領(ling)域的專業能力,涵(han)蓋氣象學、醫(yi)學以及(ji)人(ren)機交互等領(ling)域。

例如,一個用于引發(fa)爭議討論(lun)的(de)(de)問題(ti)是“為何(he)替代(dai)能(neng)源實際上無法(fa)取(qu)代(dai)化石(shi)燃料?”;而一個測試專(zhuan)業(ye)能(neng)力的(de)(de)問題(ti)則是“計算水文學中最常用的(de)(de)相(xiang)關模型有哪些?”

研(yan)(yan)究(jiu)人(ren)(ren)員借助一款經過微調的(de)(de)大型(xing)語(yu)(yu)言模型(xing)(LLM)對(dui) AI 的(de)(de)答(da)案進(jin)行評(ping)估。該大型(xing)語(yu)(yu)言模型(xing)通過特(te)定訓練過程掌握(wo)了最佳(jia)評(ping)估方(fang)法(fa),訓練過程中(zhong),研(yan)(yan)究(jiu)人(ren)(ren)員讓其觀(guan)察(cha)兩名人(ren)(ren)工標注員如何(he)對(dui) 100 多個與本(ben)研(yan)(yan)究(jiu)問題(ti)類似的(de)(de)答(da)案進(jin)行評(ping)估。

總體而言,這些 AI 驅動的搜索引擎與深度研究工具的表現相當糟糕。研究人員發現,許多模型給出的答案存在片面性。其中,必應聊天搜索引擎給出的主張中,約 23% 包含無依據的表述;You.com 和(he) Perplexity AI 搜索引擎的(de)這一比例約為 31%;GPT-4.5 的(de)無依(yi)據(ju)主張(zhang)比例更高,達到 47%,但即便如(ru)此,這一數(shu)值(zhi)仍(reng)遠低于 Perplexity 深度(du)研(yan)究代理工具 97.5% 的(de)無依(yi)據(ju)主張(zhang)比例。“看到這樣的(de)結果,我們確實感到驚(jing)訝,”納拉亞南?文(wen)基特(te)說。

對于該研究報告的結論,OpenAI 拒絕置評。Perplexity 雖未公開表態,但對研究方法提出了異議。該公司特別指出,其工具允許用戶選擇他們認為最有可能給出最佳答案的特定 AI 模型(例如 GPT-4),但此次研究使用的是默認設置,即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認,研究團隊并未考慮這一變量,但他認為,大多數用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌(ge)則未回(hui)應置評請求(qiu)。

“用戶對此類問題(ti)的投訴屢見不鮮(xian),多(duo)項研究(jiu)也表明,盡管(guan) AI 系統已取得重(zhong)大(da)進(jin)步(bu),但仍可能生成片面或具有誤導性的答案,”牛(niu)津大(da)學的費利克斯?西蒙(meng)(Felix Simon)表示,“因此,這份報告為這一(yi)問題(ti)提供了一(yi)些有價值的證據,有望推動(dong)該(gai)領域進(jin)一(yi)步(bu)改進(jin)。”

不(bu)(bu)過(guo),即便研究結(jie)果(guo)與人(ren)們對這些(xie)工具潛在(zai)不(bu)(bu)可靠性的(de)坊間說法相符,也并(bing)非所有(you)人(ren)都對該結(jie)果(guo)深信不(bu)(bu)疑。“這份報告的(de)結(jie)果(guo)在(zai)很大程度(du)上依賴于(yu)基于(yu)大型(xing)語(yu)言模型(xing)對收(shou)集到(dao)的(de)數據進行標(biao)(biao)注(zhu),”瑞士(shi)蘇黎世大學的(de)亞(ya)歷山(shan)德拉?烏爾(er)曼(Aleksandra Urman)指出,“而這種標(biao)(biao)注(zhu)方式存在(zai)幾個問題。”任(ren)何由 AI 完成標(biao)(biao)注(zhu)的(de)結(jie)果(guo)都必須經過(guo)人(ren)類的(de)檢(jian)查(cha)和(he)驗證,烏爾(er)曼擔心,研究人(ren)員(yuan)在(zai)這一步驟上做得不(bu)(bu)夠到(dao)位。

此(ci)外,烏爾(er)曼(man)對(dui)研究(jiu)中用于驗證少(shao)量人工標注答案與 AI 標注答案一致性的(de)統計方法(fa)也提(ti)出了質疑(yi)。她表示,研究(jiu)中使用的(de)皮爾(er)遜相關系(xi)數(Pearson correlation)“非常(chang)不標準(zhun),且存(cun)在特殊性”。

盡管人們對研究結果(guo)的有效性(xing)存在爭議,但西蒙認為,仍需開展更多(duo)工作,以(yi)確(que)保(bao)用戶(hu)能正確(que)理解這(zhe)些工具給出的答案。“提高 AI 生成答案的準(zhun)確(que)性(xing)、多(duo)樣性(xing)和信息來源可靠性(xing)十分必要(yao),尤其是在這(zhe)些系統正更廣泛地應(ying)用于各(ge)個(ge)領域的背(bei)景下,”他說。

廣告聲明(ming):文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形(xing)式(shi)),用于傳遞更多信息,節省(sheng)甄選時間,結果(guo)僅供參考,IT之家(jia)所有文章均包含本聲明(ming)。

相關文章

關鍵詞:生成式AIAI

軟媒旗下網站: IT之家 最會買 - 返利返現優惠券 Win7之家 Win10之家

軟媒旗下軟件: 軟媒手機APP應用 魔方