視頻可能不是OpenAI當下的第一優先級,但國產視頻大模型忙著降低門檻、讓人人用上。
OpenAI旗下文生視頻模型Sora推出時引發的行業爆炸仿佛還在昨日,但至今Sora也未對外正式開放使用。與之相對的是國內視頻大模型在2024年密集發布,雖然技術更新不斷,但成品多數仍需后期人工剪輯合成,影響技術在應用端的落地速度。
基于此,9月11日,生數科技披露功能更新,全球首發“主體參照”(SubjectConsistency)功能,實現對任意主體的一致性生成,讓視頻生成更加穩定與可控。所謂“主體參照”,就是允許用戶上傳任意主體的一張圖片,AI能夠鎖定該主體形象,通過描述詞任意切換場景,輸出主體一致的視頻。
在生數科技CEO唐家渝看來,短視頻、動畫作品、廣告片等影視作品,在敘事的藝術中均要求敘事體系“主體一致、場景一致、風格一致”,視頻模型要達到敘事的完整性,就必須在這些核心元素上實現全面可控。
一鍵生成32秒視頻
生數科技上一次對外發聲是在今年4月,清華大學人工智能研究院副院長、生數科技聯合創始人兼首席科學家朱軍教授發布了長時長、高一致性、高動態性視頻大模型Vidu,可以一鍵生成長達16秒的視頻。此次技術更新,Vidu視頻最長可以生成32秒。
2024年,整個大模型賽道經過前一年的瘋狂,逐漸冷靜,視頻大模型被視為邁向多模態大模型或AGI的必經之路。以快手、字節旗下抖音為代表的短視頻公司,以阿里、騰訊為代表的互聯網大廠,以生數科技、智譜AI、愛詩科技等為代表的創業公司,均先后發布視頻大模型產品。
據德邦證券統計,自Sora發布以來,國內外已有十多家公司發布或更新視頻生成模型。客觀來看,國內外之間的差距正在逐步縮小,視頻時長、分辨率等基礎功能具有復制性,未來競爭或向搶占用戶、提升黏性等方向遷移。從主觀角度對比,德邦證券認為大模型生成的視頻質量提升顯著,但離物理世界模擬器仍有距離。文生視頻領域視頻畫面普遍清晰,但在動作幅度與物理還原度方面差異較大。這也是此次生數進行功能升級的考慮之一。
唐家渝表示,目前Vidu生成時長32秒是一鍵端到端生成,不是拼接插幀生成的。不同之處在于模型對更長時間信息的壓縮,包括信息表現的能力更強,這實際上更本質地與物理世界的理解和語義輸入的關系相關。所以提高時長需要提升模型對世界的抽象理解能力、壓縮能力、理解能力,包括生成能力。
創作了動畫短片《夏日的禮物》AIGC藝術家石宇翔認為,目前行業目前對AI視頻的包容度比較高,細節上可提升的地方比如對復雜鏡頭的處理、對多人物鏡頭的處理,以及一些帶有場面調度的處理等。與基礎的圖生視頻功能相比,“主體參照”功能擺脫了靜態圖片的束縛,提升創作連貫性,節約了近七成的生圖工作量。
光馳矩陣的發起人、青年導演李寧利用Vidu預創作了一段電影男主的視頻片段,其中所有人物畫面僅通過男主近景、中景、遠景三張定妝照生成。李寧表示,之前的AI電影創作過程多采用傳統的文生圖、圖生視頻流程,在分鏡的連貫上很難掌控,人物的整體造型很難保持一致,前期需要耗費大量的精力去調試圖片,同時畫面還容易產生鏡頭光影失控、圖像模糊甚至變形等一系列問題,且隨著視頻篇幅的增加,這些問題被進一步放大。Vidu“主體參照”功能讓人物的整體一致性顯著提升,不再需要前期生成大量的圖片,人物運動和畫面過渡也更加自然,可助力長篇敘事創作。
本質上通過“主體參照”功能的升級是為了提高視頻大模型生成質量、技術結合具體產業落地效率,加速AI在具體應用上的落地。目前生數科技推出合作伙伴計劃,邀請廣告、影視、動漫、游戲等行業機構加入。
目前生數科技視頻模型的商業模式分為SaaS訂閱模式與API接口的方式,這也是目前大模型領域普遍采取的商業化試水方式。具體在B端與C端的分布占比情況,唐家渝稱,從收入角度來看,B端市場的收入更大。C端產品上線一個月以來,增長曲線非常高。綜合判斷下來,B端比較明確、比較直接,包含了較為穩定的需求,所以B端會是公司長期重點的方向。而C端產品目前還處在不斷探索過程中。
智譜CEO張鵬此前發布智譜清影(Ying)時談及行業商業化探索,他稱,從現在這個階段來說,無論ToC還是ToB,純粹走向大規模商業化還比較早期。所謂收費策略更多是一種早期嘗試,也觀察下市場和用戶的反饋,進行及時調整。
視頻大模型的下一步在哪里?
除了具體功能層面的升級更新,目前行業普遍共識于多模態是大勢所趨,而視頻大模型是階段性狀態。
對此,張鵬表示,視頻生成并非孤立存在,而是放到整個技術和產品發展路線當中,智譜認為它是多模態或者AGI多模態路徑當中的一環。從產品角度來講,視頻生成也會單獨成為一個獨立產品去實現商業化落地,進而產生價值。唐家渝也對記者表示,生數的底層是通用大模型,視頻生成只是一個中間階段。
邁向多模態的過程中,多款視頻模型密集發布的狀態會否造成同質化問題?對此,唐家渝對記者稱,在技術路線上,生數現在處于收斂狀態,但同質化并不代表所有進展與能力都相同。如現在的語言模型都會涉及Transformer架構,但現實來看,OpenAI還是明顯領先的。因為在架構基礎上,中間仍有非常多環節,如如何有效進行Scaleup、視頻如何有效壓縮等,都存在非常多技巧與實踐經驗。算法技巧、算法難點,包括算法工程化難點等,都是導致目前視頻大模型差異性的原因。
至于商業化方面,唐家渝認為行業在商業選擇上比較類似,即便是像Sora、Runway等企業也都在積極擁抱好萊塢,或進行廣告合作等,因為這些領域屬于技術天然容易落地的領域。整個行業正在利用自身特點向前走,整體AI生成視頻領域還在發展的前期,國際頭部玩家在齊頭并進,共同擴大市場。
對于視頻模型領域的密集發布情況,張鵬認為可控性是行業需要花大力氣去做的事情。一方面在技術層面,視頻本身的可控是非常大的要求。其次從安全性角度來看,因為視頻信號里包括的內容和細節更多,需要保證生成出來的東西符合要求;最后,生成的內容要做到商業化應用,可控也是必要的條件——既要精準表達創作者意圖,且讓大家買單。
在基礎條件滿足之后,目前行業自Sora面世后,對視頻大模型的期待更多聚焦于AI取代長視頻拍攝手段。張鵬認為從技術發展角度來看,這是一個重要方向,對影視行業的變化也有積極意義。但目前來講,視頻大模型還不足以直接用在面向觀眾的生產過程中,但可以用來做輔助工作,甚至是小規模創作,距離真正改變電影制作等高要求還有一段路要走。
至于出場即高潮、至今未對外開放的Sora,行業仍將其視為追趕標的,但由于技術細節上不透明,很多地方需要企業自己摸索。至于Sora的“銷聲匿跡”,唐家渝對記者分析稱,原因可能在幾方面:視頻不是OpenAI目前的主線;部分數據版權問題未得到解決;生成過程中產生了其他問題,需要花費一定時間與成本解決,不符合公司的優先級。
張鵬與智譜一直客觀正視與世界頂級水平之間的差距,同時他認為這條路還是得自己走,很多時候中國企業也是在用自己的方式向前追趕,比如如何將視頻生成算力成本降下來,將響應速度提升上去,讓所有人可以用等。“我們在追求技術高度的同時,也在同步追求技術的可普及性。”張鵬稱。