IT之家 8 月 27 日消息,科技媒體 The Decoder 昨日(8 月 26 日)發布博文,報道稱谷歌 DeepMind 推出全新 Gemini 2.5 Flash 圖像編輯模型,在 Gemini 應用中可根據文字指令,在保持人物與動物的外觀一致的情況下,提高修改圖片的精度。
IT之家援引博文介(jie)紹,與此前的(de)原生圖像(xiang)生成工具(ju)相比,它在根據文字(zi)進(jin)行圖像(xiang)修改時的(de)準確率更高,甚至(zhi)在多項任務中優(you)于 ChatGPT 所用(yong)的(de) GPT-4o,讓其能(neng)更好地基于復雜文字(zi)編輯(ji)圖像(xiang)。
新模型的(de)亮點(dian)是“角(jiao)色(se)一致性”功能。在生成多(duo)(duo)張圖像后(hou),即便人(ren)物(wu)(wu)姿勢、背景或(huo)光線(xian)發生變(bian)化,也能保(bao)持同一人(ren)、動物(wu)(wu)或(huo)物(wu)(wu)體的(de)外觀一致。這對于創建系列(lie)照片、產品多(duo)(duo)角(jiao)度展示尤其有價值,適合品牌素材與(yu)產品目錄的(de)批量(liang)制作。

Gemini 2.5 Flash 支持精準的(de)局部(bu)文字編輯(ji),用戶(hu)無需(xu)手動圈選即可完(wan)成背景虛化、去除(chu)(chu)瑕疵(ci)、添加顏色或移除(chu)(chu)物體(ti)等操作(zuo)。

該(gai)模型能(neng)一(yi)次融(rong)合最多三(san)張圖(tu)像,例如將產品照(zhao)與室(shi)內照(zhao)片結(jie)合成逼真的場景。它還支持“風格遷移”,將一(yi)種紋(wen)理、顏色或圖(tu)案應用到另一(yi)物體上,同時保(bao)持形狀與細節完整。基于“現(xian)實(shi)推理”的功能(neng)更可(ke)模擬簡(jian)單因(yin)果(guo),如生成氣(qi)球(qiu)飛向(xiang)仙人掌及隨后的結(jie)果(guo)畫(hua)面。




Gemini 2.5 Flash 已在 Gemini 應(ying)用中上(shang)線,用戶(hu)需(xu)將模(mo)型切換(huan)至“Flash”才能使用圖(tu)像編輯功能,生成的圖(tu)像附有可(ke)見水印(yin)及(ji)不可(ke)見的 SynthID 數字水印(yin)。

開發者可通過(guo) Gemini API、Google AI Studio 與(yu) Vertex AI 試用,費用為每百萬輸出 token 30 美元,單張圖像成本約 0.039 美元。
廣告(gao)聲明(ming)(ming):文(wen)(wen)內含有的對外(wai)跳轉鏈(lian)接(包括不限于超鏈(lian)接、二(er)維碼、口令等(deng)形式),用于傳遞更(geng)多信息,節省甄選時間,結果僅供參(can)考,IT之家所有文(wen)(wen)章均包含本聲明(ming)(ming)。