以「垂直模型」引領AIGC商業化落地,FancyTech的技術路徑是什麼

機器之心原創

機器之心編輯部

兩年以來,AIGC 技術的發展速度超過所有人的想象,席捲了從文本、圖像到視頻的各個領域。關於 AIGC 商業化路徑的討論從來沒有停止過,其中,有共識也有路線分化。

一方面,通用模型的強大能力令人驚歎,在各行各業展示出應用潛力。特別是 DiT、VAR 等架構的提出,讓 Scaling Law 實現了從文本到視覺生成領域的跨越。在這一法則的指引下,很多大模型廠商朝着增加訓練數據、算力投入和堆積參數的方向持續前進。

另一方面,我們也看到,通用模型並不意味着「通殺」,面對很多細分賽道的任務,一個「訓練有素」的垂直模型反而能夠取得更好的效果。

隨着大模型技術進入落地加速期,後一種商業化路徑獲得的關注快速增長。

這個演進過程中,一家來自中國的創業公司 FancyTech 脫穎而出:它以面向商業類視覺內容生成的標準化產品快速拓展市場,比同行們更早一步驗證了「垂直模型」在產業落地層面的優越性。

環顧國內大模型創業圈,FancyTech 的商業化戰績是有目共睹的。但較少爲人所知的是,這家誕生僅幾年的公司,憑藉怎樣的垂直模型和技術優勢跑在了賽道前列。

在一次專訪中,機器之心和 FancyTech 聊了聊他們正在做的技術探索。

FancyTech 發佈視頻垂直模型 DeepVideo

如何突破行業壁壘?

一般來說,在通用模型的零樣本泛化能力達到某個水準後,在其之上做微調就可用於下游任務。這也是當下很多大模型產品落地的打法。但從實際效果來看,僅僅是「微調」還不能滿足產業應用需求,因爲各個行業的內容生成任務都有自己的特定而複雜的一套標準。

通用模型或許能完成好 70% 的常規任務,但客戶真正需要的是能 100% 滿足需求的「垂直模型」。以商業視覺設計爲例,以往的相關工作均由有長期積累的專業人士完成,且需要根據品牌方的具體需求進行設計和調整,其中涵蓋大量的人工經驗。比起美觀度和指令遵循程度等指標,「商品還原度」是這項任務中品牌方更爲重視的一點,也是品牌方是否願意付費的決定因素。

在自研面向商業圖像 / 視頻的垂直模型過程中,FancyTech 將核心挑戰拆解開來:如何讓商品足夠還原且融入背景,特別是在生成視頻中,實現商品的運動可控且不形變。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

大模型技術發展到今天,對於應用層來說,走開源或閉源的路線已經不是最核心的問題。FancyTech 的垂直模型基於開源的底層算法框架,疊加自有的數據標註重新訓練,僅需幾百張 GPU 持續訓練迭代即可取得好的生成效果。相比之下,「商品數據」和「訓練方式」這兩個因素對於最終的落地效果更爲關鍵。

FancyTech 在積累海量 3D 訓練數據的前提下,引入了空間智能的思路指導模型的 2D 內容生成。具體來說,在圖像類內容生成上,團隊提出「多模態特徵器」保證商品的還原,以特殊的數據採集保證商品與背景的自然融合;在視頻類內容生成上,團隊重建了視頻生成的底層鏈路,定向地設計框架和進行數據工程,從而實現以商品爲核心的視頻生成。

真・降維打擊:「空間智能」如何指導 2D 內容生成?

很多視覺生成類產品的效果之所以不盡如人意,核心原因就在於目前的圖像和視頻生成模型往往基於 2D 訓練數據進行學習,並沒有理解真正的物理世界。

這一點在領域內已形成共識,部分研究者甚至認爲,在自迴歸學習範式下,模型對世界的理解始終處於淺層。

但在商業視覺生成這項細分任務上,要想增強模型 3D 物理世界的理解、更好地生成 2D 內容,並非完全無解。

FancyTech 將「空間智能」領域的研究思路遷移到了視覺生成模型的構建中。與一般生成式模型不同,空間智能的思路是從大量傳感器獲取的原始信號中學習,對傳感器獲取的原始信號進行精確標定,以賦予模型感知和理解現實世界的能力。

因此,FancyTech 以激光雷達掃描替代傳統攝影棚拍攝,積累了大量的體現商品融入前後差異的高質量 3D 數據對,並將 3D 點雲數據與 2D 數據結合起來共同作爲模型訓練數據,增強模型對現實世界的理解。

我們知道,在任何視覺內容的生成中,光影效果的塑造都是極具挑戰性的任務。光照、發光體、逆光、光斑等元素能夠讓畫面的空間層次感更強,但這對於生成式模型來說是個很難理解的「知識點」。

爲了收集儘可能多的自然光影數據,FancyTech 在每個環境中建立了數十盞亮度和色溫均可調節的燈,意味着海量數據中的每一對都可以疊加多盞燈及不同亮度和色溫的變化。

這種高強度的數據收集模擬了真實拍攝場景的燈光,使其更加符合電商場景的特點。

結合高質量的 3D 數據積累,FancyTech 在算法框架上進行了一系列創新,將空間算法與圖像、視頻算法有機結合,讓模型更好地理解核心物體與環境的交互。

在訓練過程中,模型可以在一定程度上「涌現」出對物理世界的理解,對三維空間、深度、光的反射和折射,以及光在不同介質、不同材質中運行的結果都有更深的認知,最終實現了生成結果中商品的「強還原」和「超融合」。

「強還原」和「超融合」背後,有哪些算法創新?

面向常見的商品場景圖像生成任務,現階段的主流方法主要用貼圖的方式保證商品部分的還原度,然後基於 Inpainting 技術實現圖片場景的編輯。用戶選定需要改動的區域,輸入 Prompt 或者提供參考圖像,以引導商品場景生成。這種方法的融合效果較好,缺點是場景生成結果的可控性不高,比如不夠清晰或者過於簡單,保證不了單次輸出的高可用率。

針對當前方法無法解決的問題,FancyTech 提出了一種自有的「多模態特徵器」,在多種維度上提取商品特徵,然後使用這些特徵生成融入後的場景圖。

提取特徵的工作可分爲「全局特徵」和「局部特徵」,全局特徵包括商品的輪廓、顏色等要素,使用 VAE 編碼器提取;局部特徵包括各處商品細節,使用圖神經網絡提取。圖神經網絡的一大好處是可以提取商品中各關鍵像素的信息以及關鍵像素間的關係,提高對於商品內部的細節還原。

在柔性材質商品的內容生成中,這種方法獲得的效果提升顯著:

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

相比於圖像,視頻的生成還涉及商品本身的運動控制及其帶來的光影變化。對於通用的視頻生成模型來說,難點在於無法針對視頻中的某個部分進行獨立保護。爲了解決這個問題,FancyTech 將任務拆解爲「商品運動生成」和「視頻場景融入」兩條支線。

在數據層面,除了使用 FancyTech 的特有商品數據資源以提供控制訓練和商品保護之外,還加入了多個開源數據集以保證場景泛化能力。訓練方案結合了對比學習、課程學習,最終實現了對於商品的保護效果。

讓 AIGC 時代的紅利

從垂直模型開始走向更多普通人

無論是「通用」還是「垂直」,兩條路線的終點都是商業化問題。

FancyTech 垂直模型落地最直接的受益者是品牌方,以往,從策劃、拍攝、剪輯,一段廣告視頻的製作週期可能長達幾個星期。但在 AIGC 時代,創作這樣一段廣告視頻只需要十幾分鍾而已,成本甚至也只需要原來的五分之一。

憑藉着海量獨有數據和行業 Know-how 的優勢,FancyTech 通過垂直模型的優勢贏得國內外廣泛的認可,與韓國合作伙伴攜手簽約了三星和 LG;與東南亞的知名電商平臺 Lazada 開啓合作;在美國,受到了 Kate Sommerville 和 Solawave 等本土品牌的青睞;在歐洲,榮獲了 LVMH 創新大獎,並與歐洲客戶深入合作中。

在覈心的垂直模型之外,FancyTech 還提供了 AI 短視頻全鏈路自動發佈和數據反饋的能力,驅動商品銷售持續增長。

更重要的一點是,垂直模型讓普通大衆利用 AIGC 技術提高生產力的路徑具像化了。比如,一個街邊傳統照相館在不增加專業設備和專業人員的情況下,藉助 FancyTech 的產品,即可完成從簡單人像拍攝到專業級商業視覺素材製作的業務轉型。

視頻鏈接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

現在只要拿起手機,幾乎每個人都能拍視頻、錄音樂,並與全世界分享他們的創作。想象一個 AIGC 再一次釋放個人創造力的未來 ——

讓普通人跨越專業門檻,更輕鬆地將創意化爲現實,從而讓每個行業的生產力實現飛躍,併產生更多的新興產業,AIGC 技術帶來的時代紅利,從這一刻起開始真正走向普通人。