IT之家 1 月 9 日消息,據 TechCrunch 報道,馬斯克與其他人工智(zhi)能專家一(yi)致認為(wei),現實世(shi)界中用于訓(xun)練(lian) AI 模型的數據幾(ji)乎已經(jing)耗盡。

在周三(san)晚間與 Stagwell 董事(shi)會主席馬克?佩(pei)恩的直播對(dui)話(hua)中(zhong),馬斯克表示(shi):“我們現在基(ji)本(ben)上(shang)已(yi)經(jing)消耗掉了所有人類知識的積(ji)累…… 用于人工智能訓練(lian)的數據。這個現象基(ji)本(ben)上(shang)是去年(nian)發(fa)生的。”
馬斯克此番言論與前 OpenAI 首席科學家伊利亞?蘇茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 會議上的觀點相似。蘇茨克弗曾指出,AI 行業已經達到了所謂的“數據峰值”,并預測未來缺乏足夠的(de)訓練數據,將(jiang)迫使 AI 模(mo)型的(de)開發方(fang)式發生改變。
馬斯克認為,合成數據(IT之家注:即人工智能模型自我生成的數據)是未來的解決方案。“補充現實世界數據的唯一途徑是通過合成數據,也就是讓 AI 自己生成訓練數據。AI 會進行自(zi)我評估,并通過這一自(zi)我學習的過程不(bu)斷優化自(zi)己。”
目前,許多科技公司,包括微軟、Meta、OpenAI 和 Anthropic 等,已經開始使用合成數據來訓練他們的主力 AI 模型。據 Gartner 估計,到 2024 年,用于人工智能和數據分析項目的 60% 數據將是通過合成方式生成的。
使用合成數據的一個顯著優勢是降低成本。人工智能初創公司 Writer 表示,其 Palmyra X 004 模型幾乎完全依賴合成數據進行開發,開發成本僅為 70 萬美元,而一個規模相似的 OpenAI 模型的開發成本大約為 460 萬美元。
然而,合成數據也存在一定的風險。研究表明,合成數據可能會導致模型性能下降,輸出結果不僅缺乏創新性,而且可能變得更加偏頗,最(zui)終嚴重(zhong)影響其功能(neng)性。因(yin)為模型是(shi)通過自己(ji)生成合成數據進行訓練的,如果這些(xie)數據本身帶有偏(pian)見或局限性,那么最(zui)終模型的輸出也會受到這些(xie)因(yin)素的影響。
廣告聲明:文內含有的對外跳轉(zhuan)鏈(lian)(lian)接(包(bao)括不限于超(chao)鏈(lian)(lian)接、二維(wei)碼、口令等形式(shi)),用于傳遞更多信息,節省甄選時(shi)間,結果僅供參考,IT之家所(suo)有文章均包(bao)含本聲明。