通義萬相視頻模型,再度迎來史詩級升級!處理復雜運動、還原真實物理規(guī)律等方面令人驚嘆,甚至業(yè)界首創(chuàng)了漢字視頻生成。現(xiàn)在,通義萬相直接以84.70%總分擊敗了一眾頂尖模型,登頂VBench榜首。
Sora、Veo2接連發(fā)布之后,AI視頻生成的戰(zhàn)場又熱鬧了起來。
就在昨天,通義萬相視頻生成模型迎來了重磅升級!
他們一口氣推出了兩個版本:注重高效的2.1極速版、追求卓越表現(xiàn)的2.1專業(yè)版。
剛一上線,就異常火爆,等待時間甚至一度達到了1小時
此次,全面升級的模型不僅在架構上取得創(chuàng)新,更是以84.70%總分登頂權威評測榜單VBench榜首。
通義萬相2.1的性能一舉超越了Gen-3、CausVid等全球頂尖模型。
在實用性方面,通義萬相2.1也得到了顯著的提升,尤其是在處理復雜運動、還原真實物理規(guī)律、提升影視質感、優(yōu)化指令遵循等方面。
以下都是我們實測出的Demos,就說夠不夠拍電影大片吧!
更令人驚嘆的是,它還在業(yè)界首次實現(xiàn)了中文文字視頻生成,讓AI視頻文字創(chuàng)作再無門檻。
以紅色新年宣紙為背景,出現(xiàn)一滴水墨,暈染墨汁緩緩暈染開來。文字的筆畫邊緣模糊且自然,隨著暈染的進行,水墨在紙上呈現(xiàn)「福」字,墨色從深到淺過渡,呈現(xiàn)出獨特的東方韻味。背景高級簡潔,雜志攝影感。
從今天起,所有人皆可在通義萬相官網體驗新模型,開發(fā)者則可以通過阿里云百煉直接調用API,阿里云也成為了國內第一家實現(xiàn)視頻生成模型商業(yè)化的云廠商。
那么,通義萬相2.1究竟給我們帶來了哪些驚喜?
我們經過一番實測后,總結出了5大要點。
1.首創(chuàng)中文文字生成
通常來說,文字生成是AI視頻模型進化的一大痛點。
我們已經看到Sora、Gen-3等模型,已經能夠生成很好的英文字母效果,不過截至目前,從未有一個模型能攻克漢字的生成難題。
為什么之前的AI視頻生成工具,都在「逃避」中文文字生成這個難題?
這是因為難點在于,中文文字的字體結構比英文更復雜,而且需要考慮筆畫的層次感。在布局方面,中文字體更講究,做成動態(tài)效果時對美感要求更高。
而阿里通義萬相,便是首個中文文字視頻生成的模型。從此,AI視頻生成邁入「中文時代」!
這一切,只需要你動動手指,輸入簡單的文字提示就夠了。
天空中飄著云朵,云朵呈現(xiàn)「新年快樂」的字樣,微風吹過,云朵隨著風輕輕飄動。
水彩透疊插畫風格,兩只不同顏色的可愛小貓咪手舉著一條超大的魚,從右邊走到左邊。它們分別穿著粉色和藍色的小背心,眼睛圓圓的,表情呆萌。充滿童趣,筆觸淡雅溫馨,簡筆畫風格。純白背景上逐漸顯示出來幾個字體,寫著:「摸魚一天快樂無邊」。
一只柯基坐在桌前冥想,背后一個「靜」字非常應景。
一只柯基面前擺放著一只小巧的木魚,仿佛在進行冥想儀式,背景出現(xiàn)字樣「靜」。
2.更穩(wěn)定的復雜運動生成
對于大多數(shù)AI視頻模型來說,無法逃脫「體操」魔咒。有人稱,這是AI視頻最新的「圖靈測試」。
你會經常看到,AI體操視頻生成中,扭曲的肢體、不協(xié)調的動作滿屏皆是。
這僅是復雜肢體運動的一種,因為涉及到精細細節(jié)和高水平動作協(xié)調,成為了AI視頻生成的一項重要評判標準。
生成一個人物復雜運動,對于AI來說就像是在解一道物理難題——
它不僅要做到身體各個部位精準配合,讓四肢保持協(xié)調,還要考慮重力、人體運動特點、平衡感等各種細節(jié)。
在最新升級中,通義萬相在多種場景下展示了驚人的「運動天賦」。
滑冰、游泳、跳水這些極易出錯的名場面,萬相2.1也通通Hold住,沒有出現(xiàn)任何詭異的肢體動作,和不符合物理規(guī)律的場景。
平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進行一個旋轉動作。她的手臂張開,身體向后傾斜,展現(xiàn)了她的技巧和優(yōu)雅。
在泳池中,一名男子正在奮力向前游動。近景俯拍鏡頭下,他穿著黑色泳衣,戴著白色泳帽和黑色泳鏡,正在水中劃動雙臂。他的頭部部分被泳帽和泳鏡遮擋,只露出嘴巴和鼻子。他的手臂在水中劃動,產生了一系列的水花和氣泡。隨著他的動作,水面上出現(xiàn)了漣漪,水花四濺。背景是藍色的泳池。
就看這個跳水動作,完全就是一個專業(yè)級選手的樣子。肌肉的精準控制、濺起的水花,都非常符合自然規(guī)律。
一名男子在跳臺上做專業(yè)跳水動作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態(tài),雙臂伸展,雙腿并攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍色的泳池。
特寫鏡頭下,女孩以手指輕觸紅唇,然后開懷大笑。這么近的懟臉特寫,表情肌的走向和分布都十分自然,臉部紋路和嘴角笑起的弧線,也逼真似真人。
特寫鏡頭下,一位美女面容精致,她先是以手指輕觸紅唇,微微抿嘴,眼神中透露出一絲俏皮。緊接著,她毫無保留地開懷大笑,笑容如同綻放的花朵,美麗動人,眼角彎成了月牙狀,展現(xiàn)出無比的快樂與感染力。
3.更靈活的運鏡控制
同一個場景下的視頻,為什么專業(yè)人士拍出來就是不一樣?某種程度上講,秘訣在于「運鏡」。
那么,對于AI來說,教它運鏡就相當于在教機器人當導演。
它需要理解跟隨拍攝節(jié)奏、快慢推進速度,還要保持協(xié)調性的問題,比如鏡頭移動時,主體不能丟失;運鏡速度變化要自然,不能忽快忽慢。
更重要的是,AI還得有藝術感,運鏡效果要符合視覺習慣,動態(tài)美感要恰到好處。
在通義萬相2.1版本中,AI展現(xiàn)出了專業(yè)級的運鏡效果。
穿著禪衣的小狐貍,在360度運鏡下歡快跳舞,這不,夢幻般的效果一下子就來了。
穿著禪意風服飾的可愛狐貍在林間空地上歡快地跳舞,身上的衣物隨風輕揚。狐貍有著蓬松的尾巴和靈動的眼神,嘴角帶著微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,陽光透過竹葉灑下斑駁光影。畫面采用旋轉拍攝,營造出夢幻般的動感效果。整體風格清新自然,充滿東方韻味。近景動態(tài)特寫。
此外,新模型還能自動根據(jù)場景需求,智能調整運鏡速度,完美把控了鏡頭的節(jié)奏。
海王在暴風雨中駕馭巨浪前行,這種級別的運鏡絕對經得起考驗,出現(xiàn)在大熒幕上也毫不違和。
暴風雨中的海面,海王駕馭巨浪前行,肌肉線條,灰暗天空,戲劇性照明,動態(tài)鏡頭,粗獷,高清,動漫風格
實驗室中女醫(yī)生精心設計的特寫鏡頭,細膩的表情刻畫,以及背后燈光、實驗器材等多種元素碰撞,讓整個角色立即具備了豐富的層次感。
富有電影感的鏡頭捕捉了一位身著暗黃色生化防護服的女醫(yī)生,實驗室慘白的熒光燈將她的身影籠罩其中。鏡頭緩緩推進她的面部特寫,細膩的橫向推移凸顯出她眉宇間深深刻畫的憂思與焦慮。她專注地俯身于實驗臺前,目不轉睛地透過顯微鏡觀察,手套包裹的雙手正謹慎地微調著焦距。整個場景籠罩在壓抑的色調之中,防護服呈現(xiàn)出令人不安的黃色,與實驗室冰冷的不銹鋼器械相互映襯,無聲地訴說著事態(tài)的嚴峻和未知的威脅。景深精確控制下,鏡頭對準她眼中流露的恐懼,完美傳達出她肩負的重大壓力與責任。
下面這個鏡頭中,穿過一條兩盤種滿樹木的郊區(qū)住宅街道,給人一種實時拍攝的感覺。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真實的物理規(guī)律模擬
AI視頻模型不理解物理世界,一直以來飽受詬病。
比如,Sora不僅會生成8條腿的螞蟻,而且眼瞧著手都要被切斷了,也切不開西紅柿,而通義萬相2.1切西紅柿就像發(fā)生在現(xiàn)實生活中一樣自然真實。
這一次,通義萬相在物理規(guī)律理解上,得到顯著提升。通過對現(xiàn)實世界動態(tài)和細節(jié)深入認知,就能模擬出真實感十足的視頻,避免「一眼假」情況的出現(xiàn)。
就看這個經典切牛排的視頻,刀刃沿著肉質紋理緩緩切入,表面上一層薄薄的油脂,在陽光下散發(fā)著誘人的光澤,每一處細節(jié)都盡顯質感與鮮美。
在餐廳里,一個人正在切一塊熱氣騰騰的牛排。在特寫俯拍下,這個人右手拿著一把鋒利的刀,將刀放在牛排上,然后沿著牛排中心切開。這個人手上涂著白色指甲油,背景是虛化的,有一個白色的盤子,里面放著黃色的食物,還有一張棕色的桌子。
它具備更強大的概念組合能力,能夠準確理解和整合元素級的概念,使其在生成內容時更加智能。
比如,柯基+拳擊,會碰撞出什么呢?
AI生成的柯基打斗的畫面,真給人一種人類拳擊的現(xiàn)場感。
兩只柯基狗在擂臺中央進行拳擊比賽。左邊的狗戴著黑色拳套,右邊的狗戴著紅色拳套。平拍鏡頭下,兩只狗都穿著拳擊短褲,身體肌肉線條明顯。它們互相揮動拳頭,進行攻防轉換。整個場景在固定視角下拍攝,沒有明顯的運鏡變化。
AI大牛Karpathy最愛考驗AI視頻的難題,就是「水獺在飛機上用wifi」。這道題,萬相2.1完美做出。
5.高級質感、多種風格、多長寬比
更值得一提的是,萬相2.1能夠生成「電影級」畫質的視頻。
同時,它還能支持各類藝術風格,比如卡通、電影色、3D風格、油畫、古典等等。
不論是哥特式電影風格,還是中國古典宮廷風格,AI將其特點呈現(xiàn)得淋漓盡致。
哥特式電影風格,亞當斯騎在一匹黑色駿馬上,馬蹄輕踏在古老的石板路上。她身穿黑色長裙,頭戴寬邊帽,眼神冷峻,嘴角微揚,透出一絲神秘。背景是陰暗的古堡和茂密的森林,天空中飄著烏云。鏡頭晃動,營造出一種不安與緊張的氛圍。近景動態(tài)騎馬場景。
這個中國古典宮廷風格的畫面,鏡頭由群臣向前推進,聚焦在身披龍袍的皇帝身上,好像正在上映的一部古裝劇。
中國古典宮廷風格,古代皇宮宮殿上正在進行皇帝的登基大典。群臣身著華麗朝服,表情肅穆,排列整齊。鏡頭從群臣視角出發(fā)快速向前推進,鎖定在身穿龍袍、頭戴皇冠的皇帝身影上。皇帝面容威嚴,眼神堅定,緩緩步入大殿。背景是金碧輝煌的大殿,雕梁畫棟,氣勢恢宏。畫面帶有濃厚的皇家氛圍,近景特寫與中景結合,快速推進和跟隨拍攝。
養(yǎng)蜂人手中的蜂蜜罐在陽光中折射出溫暖的光暈,背后的向日葵與鄉(xiāng)村老宅相映成趣,構筑出一幅充滿歲月與質感的畫面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「舉頭望明月,低頭思故鄉(xiāng)」,AI直接把氛圍感拉滿。
古風畫面,一位古人抬頭望著月亮,緩緩低頭,眼神中流露出深深的思鄉(xiāng)之情。
對于詞窮的創(chuàng)意者來說,通義萬相「智能體擴寫」功能非常友好。比如,我想生成一個「超快放大蒲公英,展現(xiàn)宏觀夢幻般的抽象世界」。
若想要細節(jié)更豐富的描述,直接交給AI就好了。它會自動生成一段文案,可以直接復用,也可以二次編輯修改。
且看,AI視頻中展現(xiàn)了蒲公英種子的驚人細節(jié),鏡頭慢慢放大至每根絨毛纖毫畢現(xiàn),仿佛進入了一個夢幻般的世界。
此外,萬相2.1還能支持5種不同的長寬比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配電視、電腦、手機等不同終端設備。
核心架構創(chuàng)新
那么,到底是什么讓通義萬相,能在激烈AI視頻生成競爭中脫穎而出?
它又藏著哪些讓人眼前一亮的「黑科技」?
接下來,讓我們逐一分解此次2.1版本的技術創(chuàng)新突破點。
自研VAE與DiT雙重突破
通過采用自研的高效VAE和DiT架構,阿里團隊在時空上下文關系建模方面取得重大突破。
模型基于線性噪聲軌跡的FlowMatching方案展開了深度設計,同時驗證了ScalingLaw在視頻生成任務中的有效性。
通義萬相2.1視頻生成架構圖
在視頻VAE層面,通過結合緩存機制和因果卷積,團隊提出了一個極具創(chuàng)新性的視頻編碼解決方案。
通過將視頻拆分為多個若干塊(Chunk)并緩存中間特征,替代長視頻的E2E編端到端解碼過程。顯存的使用僅與Chunk大小相關,與原始視頻長度無關。
由此,這一關鍵技術能夠支持無限長1080P視頻的高效編解碼,為任意時長視頻訓練開辟新途徑。
如下圖所示,展示了不同VAE模型的計算效率和視頻壓縮重構指標的結果。
值得一提的是,通義萬相VAE在較小的模型參數(shù)規(guī)模下,取得了業(yè)內領先的視頻壓縮重構質量。
通義萬相2.1視頻VAE和其他方法的結果對比
DiT架構的設計圍繞兩個核心目標展開:實現(xiàn)強大的時空建模能力,同時保持高效的訓練過程。
具體創(chuàng)新包括:
·時空全注意機制
為了提高時空關系建模能力,通義萬相團隊采用了「時空全注意機制」,讓模型能夠更準確地模擬現(xiàn)實世界的復雜動態(tài)。
·參數(shù)共享機制
團隊引入了「參數(shù)共享機制」,不僅提升了模型性能,還有效降低了訓練成本。
·優(yōu)化文本嵌入
針對文本嵌入進行了性能優(yōu)化,在提供更優(yōu)的文本可控性的同時,還降低了計算需求。
得益于這些創(chuàng)新,使得新模型在相同計算成本下,凸顯出收斂的優(yōu)越性,并更易實現(xiàn)ScalingLaw的驗證。
超長序列訓練和推理
通過結合全新通義萬相模型Workload的特點和訓練集群的硬件性能,團隊制定了訓練的分布式、顯存優(yōu)化的策略。
這一策略在保證模型迭代時間前提下,優(yōu)化訓練性能,在業(yè)界率先實現(xiàn)了100萬Tokens的高效訓練。
在分布式訓練策略上,團隊開發(fā)了創(chuàng)新的4D并行策略,結合了DP、FSDP、RingAttention、Ulysses混合并行,顯著提升了訓練性能和分布式擴展性。
通義萬相4D并行分布式訓練策略
在顯存優(yōu)化上,采用了分層顯存優(yōu)化策略優(yōu)化Activation顯存,解決了顯存碎片問題。
在計算優(yōu)化上,使用FlashAttention3進行時空全注意力計算,并結合訓練集群在不同尺寸上的計算性能,選擇合適的CP策略進行切分。
同時,針對一些關鍵模塊,去除計算冗余,使用高效Kernel實現(xiàn),降低訪存開銷,提升了計算效率。
在文件系統(tǒng)優(yōu)化上,結合了阿里云訓練集群的高性能文件系統(tǒng),采用分片Save/Load方式,提升了讀寫性能。
在模型訓練過程中,通過錯峰內存使用方案,能夠解決多種OOM問題,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所引起的問題。
規(guī)模化數(shù)據(jù)構建管線與模型自動化評估機制
規(guī)模化的高質量數(shù)據(jù)是大型模型訓練的基礎,而有效的模型評估,則指引著大模型訓練的方向。
為此,團隊建立了一套完整的自動化數(shù)據(jù)構建系統(tǒng)。
該管線在視覺質量、運動質量等方面與人類偏好分布高度一致,能夠自動構建高質量的視頻數(shù)據(jù),同時還具備多樣化、分布均衡等特點。
針對模型評估,團隊還開發(fā)了覆蓋多維的自動化評估系統(tǒng),涵蓋美學評分、運動分析和指令遵循等20多個維度。
與此同時,訓練出專業(yè)的打分器,以對齊人類偏好,通過評估反饋加速模型的迭代優(yōu)化。
AI視頻生成下一個里程碑
去年12月,OpenAI和谷歌相繼放出Sora、Veo2模型,讓視頻生成領域的熱度再一次升溫。
從創(chuàng)業(yè)新秀到科技巨頭,都希望在這場技術革新中尋找自己的位置。
但是相較于文本的生成,制作出令人信服的AI視頻,確實是一個更具挑戰(zhàn)性的命題。
Sora正式上線那天,奧特曼曾表示,「它就像視頻領域的GPT-1,現(xiàn)在還處于初期階段」。
若要從GPT-1通往GPT-3時刻,還需要在角色一致性、物理規(guī)律理解、文本指令精準控制等方面取得技術突破。
當AI真正打破現(xiàn)實創(chuàng)作的局限,賦予創(chuàng)意工作者前所未有的想象,新一輪的行業(yè)變革必將隨之而來。
此次,通義萬相2.1取得重大突破,讓我們有理由相信,AI視頻的GPT-3時刻正加速到來。