字節豆包通用圖像編輯模型SeedEdit開啓測試 用戶一句話輕鬆改圖

11月11日,字節在豆包大模型團隊官網上公佈最新通用圖像編輯模型SeedEdit。SeedEdit支持一句話輕鬆改圖,包括修圖、換裝、美化、轉化風格、在指定區域添加刪除元素等各類編輯操作,通過簡單的自然語言即可驅動模型編輯任意圖像。

目前,該模型已經在豆包PC端及即夢網頁端開啓測試。用戶可以在豆包生成圖片後,點擊繼續編輯按鈕,輸入簡單的文本指令對圖片背景或主體進行輕鬆調整,實現一句話改圖。例如,用戶在生成一張“小狗在草地奔跑”的圖片後,可以直接輸入“背景換成海邊”等指令,獲得一張基於原圖片的微調圖。

此外,用戶也可以嘗試在豆包PC或即夢的圖像生成功能中自行上傳參考圖並進行二次加工。

SeedEdit是國內首個實現產品化的通用圖像編輯模型。過往,學術界在文生圖和圖生圖領域已有較多研究,但做好生成圖片的指令編輯一直是難題,二次修改很難保證穩定性和生成質量。今年以來,Dalle3、Midjourney接連推出產品化的生圖編輯功能,相較業界此前方案,編輯生成圖片的質量大大改善,但仍缺乏對用戶編輯指令的精準響應和原圖信息保持能力。

字節跳動豆包大模型團隊表示:圖像編輯任務的關鍵在於取得「維持原始圖像」和「生成新圖像」之間的最優平衡,這一理念貫穿了整個模型的設計與優化過程。

據介紹,在模型數據生產中, SeedEdit 針對數據稀缺問題, 重新設計模型架構,並且採用多模型,多尺度,和多標準的數據製造方案很大程度上解決了數據量,數據多樣性和數據質量的問題。作爲一款專爲圖像編輯任務設計的模型,SeedEdit在通用性、可控性、高質量等方面取得了一定突破。

此前業界技術主要針對單個專家任務進行優化,比如針對表情、髮型、背景的刪除或替換,或專門配置工作流進行風格調配,每次出現新的編輯任務均需收集對應數據進行訓練開發。而SeedEdit作爲通用的圖像編輯模型,適用各類編輯任務,支持用戶腦洞大開的奇思妙想,無需再訓練微調即可快捷應用。 它與業界同類方法對比 (如EMU Edit和Ultra Edit),取得顯著更優的性能指標。

(HQ-Edit等基準測評顯示:SeedEdit能理解相對模糊的指令,且執行細緻編輯時具有更高的圖像保持率和成功率)

即便在常規任務中,相比專家模型,SeedEdit 也有一定優勢。比如,在“摳圖”換背景等用戶最常用到的圖像分割任務中,SeedEdit 編輯生成後的圖像風格自然,無“貼圖感”;在局部塗抹、編輯、添加和刪除元素等任務中,相比手動塗抹編輯, SeedEdit通過語言指定, 大大節省了用戶塗抹的時間,尤其針對裂紋、髮絲等相對精細的塗抹區域。

(要求圖片將草莓替換成檸檬)

同時,SeedEdit通過創新的模型架構,多尺度、多規則的數據獲取、構造和過濾方案,能更好地理解用戶意圖並對齊 diffusion 生圖模型,極大提高了圖像編輯的精準度,並保持了高質量的圖片生成效果。

(要求去掉裂紋,讓圖片變乾淨)

基於豆包文生圖大模型,目前SeedEdit支持中文和英文輸入,還可以對中文成語和專有名詞進行精準響應。下一步,SeedEdit還將開放多輪複雜編輯的功能。

豆包大模型團隊表示,現階段SeedEdit對模型生成圖片的編輯效果要好於輸入真實圖片,同時在更復雜和更精細的控制上仍有改進空間。未來,SeedEdit會在真實圖片保真、ID保持、編輯精確性、以及長時序的故事類、漫畫類生成方面做進一步的優化和探索,提升編輯可用率和用戶體驗,支持用戶更高效地創作有趣的內容。