8 月 27 日消息,科技媒體 The Decoder 昨日(8 月 26 日)發布博文,報道稱谷歌 DeepMind 推出全新 Gemini 2.5 Flash 圖像編輯模型,在 Gemini 應用中可根據文字指令,在保持人物與動物的外觀一致的情況下,提高修改圖片的精度。
援引博文介紹,與此前的原生圖像生成工具相比,它在根據文字進行圖像修改時的準確率更高,甚至在多項任務中優于 ChatGPT 所用的 GPT-4o,讓其能更好地基于復雜文字編輯圖像。
新模型的亮點是“角色一致性”功能。在生成多張圖像后,即便人物姿勢、背景或光線發生變化,也能保持同一人、動物或物體的外觀一致。這對于創建系列照片、產品多角度展示尤其有價值,適合品牌素材與產品目錄的批量制作。
Gemini 2.5 Flash 支持精準的局部文字編輯,用戶無需手動圈選即可完成背景虛化、去除瑕疵、添加顏色或移除物體等操作。
該模型能一次融合最多三張圖像,例如將產品照與室內照片結合成逼真的場景。它還支持“風格遷移”,將一種紋理、顏色或圖案應用到另一物體上,同時保持形狀與細節完整?;凇艾F實推理”的功能更可模擬簡單因果,如生成氣球飛向仙人掌及隨后的結果畫面。
Gemini 2.5 Flash 已在 Gemini 應用中上線,用戶需將模型切換至“Flash”才能使用圖像編輯功能,生成的圖像附有可見水印及不可見的 SynthID 數字水印。
開發者可通過 Gemini API、Google AI Studio 與 Vertex AI 試用,費用為每百萬輸出 token 30 美元,單張圖像成本約 0.039 美元。
本文鏈接:http://www.rrqrq.com/showinfo-45-27063-0.html谷歌 Gemini 2.5 Flash 升級 AI 修圖功能,多項表現優于 GPT-4o
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com