Sora炸圈后啞火，國產視頻大模型接棒降門檻

來源：第一財經作者：呂倩2024-09-12 08:16

視頻可能不是OpenAI當下的第一優先級，但國產視頻大模型忙著降低門檻、讓人人用上。

OpenAI旗下文生視頻模型Sora推出時引發的行業爆炸仿佛還在昨日，但至今Sora也未對外正式開放使用。與之相對的是國內視頻大模型在2024年密集發布，雖然技術更新不斷，但成品多數仍需后期人工剪輯合成，影響技術在應用端的落地速度。

基于此，9月11日，生數科技披露功能更新，全球首發“主體參照”（SubjectConsistency）功能，實現對任意主體的一致性生成，讓視頻生成更加穩定與可控。所謂“主體參照”，就是允許用戶上傳任意主體的一張圖片，AI能夠鎖定該主體形象，通過描述詞任意切換場景，輸出主體一致的視頻。

在生數科技CEO唐家渝看來，短視頻、動畫作品、廣告片等影視作品，在敘事的藝術中均要求敘事體系“主體一致、場景一致、風格一致”，視頻模型要達到敘事的完整性，就必須在這些核心元素上實現全面可控。

一鍵生成32秒視頻

生數科技上一次對外發聲是在今年4月，清華大學人工智能研究院副院長、生數科技聯合創始人兼首席科學家朱軍教授發布了長時長、高一致性、高動態性視頻大模型Vidu，可以一鍵生成長達16秒的視頻。此次技術更新，Vidu視頻最長可以生成32秒。

2024年，整個大模型賽道經過前一年的瘋狂，逐漸冷靜，視頻大模型被視為邁向多模態大模型或AGI的必經之路。以快手、字節旗下抖音為代表的短視頻公司，以阿里、騰訊為代表的互聯網大廠，以生數科技、智譜AI、愛詩科技等為代表的創業公司，均先后發布視頻大模型產品。

據德邦證券統計，自Sora發布以來，國內外已有十多家公司發布或更新視頻生成模型。客觀來看，國內外之間的差距正在逐步縮小，視頻時長、分辨率等基礎功能具有復制性，未來競爭或向搶占用戶、提升黏性等方向遷移。從主觀角度對比，德邦證券認為大模型生成的視頻質量提升顯著，但離物理世界模擬器仍有距離。文生視頻領域視頻畫面普遍清晰，但在動作幅度與物理還原度方面差異較大。這也是此次生數進行功能升級的考慮之一。

唐家渝表示，目前Vidu生成時長32秒是一鍵端到端生成，不是拼接插幀生成的。不同之處在于模型對更長時間信息的壓縮，包括信息表現的能力更強，這實際上更本質地與物理世界的理解和語義輸入的關系相關。所以提高時長需要提升模型對世界的抽象理解能力、壓縮能力、理解能力，包括生成能力。

創作了動畫短片《夏日的禮物》AIGC藝術家石宇翔認為，目前行業目前對AI視頻的包容度比較高，細節上可提升的地方比如對復雜鏡頭的處理、對多人物鏡頭的處理，以及一些帶有場面調度的處理等。與基礎的圖生視頻功能相比，“主體參照”功能擺脫了靜態圖片的束縛，提升創作連貫性，節約了近七成的生圖工作量。

光馳矩陣的發起人、青年導演李寧利用Vidu預創作了一段電影男主的視頻片段，其中所有人物畫面僅通過男主近景、中景、遠景三張定妝照生成。李寧表示，之前的AI電影創作過程多采用傳統的文生圖、圖生視頻流程，在分鏡的連貫上很難掌控，人物的整體造型很難保持一致，前期需要耗費大量的精力去調試圖片，同時畫面還容易產生鏡頭光影失控、圖像模糊甚至變形等一系列問題，且隨著視頻篇幅的增加，這些問題被進一步放大。Vidu“主體參照”功能讓人物的整體一致性顯著提升，不再需要前期生成大量的圖片，人物運動和畫面過渡也更加自然，可助力長篇敘事創作。

本質上通過“主體參照”功能的升級是為了提高視頻大模型生成質量、技術結合具體產業落地效率，加速AI在具體應用上的落地。目前生數科技推出合作伙伴計劃，邀請廣告、影視、動漫、游戲等行業機構加入。

目前生數科技視頻模型的商業模式分為SaaS訂閱模式與API接口的方式，這也是目前大模型領域普遍采取的商業化試水方式。具體在B端與C端的分布占比情況，唐家渝稱，從收入角度來看，B端市場的收入更大。C端產品上線一個月以來，增長曲線非常高。綜合判斷下來，B端比較明確、比較直接，包含了較為穩定的需求，所以B端會是公司長期重點的方向。而C端產品目前還處在不斷探索過程中。

智譜CEO張鵬此前發布智譜清影（Ying）時談及行業商業化探索，他稱，從現在這個階段來說，無論ToC還是ToB，純粹走向大規模商業化還比較早期。所謂收費策略更多是一種早期嘗試，也觀察下市場和用戶的反饋，進行及時調整。

視頻大模型的下一步在哪里？

除了具體功能層面的升級更新，目前行業普遍共識于多模態是大勢所趨，而視頻大模型是階段性狀態。

對此，張鵬表示，視頻生成并非孤立存在，而是放到整個技術和產品發展路線當中，智譜認為它是多模態或者AGI多模態路徑當中的一環。從產品角度來講，視頻生成也會單獨成為一個獨立產品去實現商業化落地，進而產生價值。唐家渝也對記者表示，生數的底層是通用大模型，視頻生成只是一個中間階段。

邁向多模態的過程中，多款視頻模型密集發布的狀態會否造成同質化問題？對此，唐家渝對記者稱，在技術路線上，生數現在處于收斂狀態，但同質化并不代表所有進展與能力都相同。如現在的語言模型都會涉及Transformer架構，但現實來看，OpenAI還是明顯領先的。因為在架構基礎上，中間仍有非常多環節，如如何有效進行Scaleup、視頻如何有效壓縮等，都存在非常多技巧與實踐經驗。算法技巧、算法難點，包括算法工程化難點等，都是導致目前視頻大模型差異性的原因。

至于商業化方面，唐家渝認為行業在商業選擇上比較類似，即便是像Sora、Runway等企業也都在積極擁抱好萊塢，或進行廣告合作等，因為這些領域屬于技術天然容易落地的領域。整個行業正在利用自身特點向前走，整體AI生成視頻領域還在發展的前期，國際頭部玩家在齊頭并進，共同擴大市場。

對于視頻模型領域的密集發布情況，張鵬認為可控性是行業需要花大力氣去做的事情。一方面在技術層面，視頻本身的可控是非常大的要求。其次從安全性角度來看，因為視頻信號里包括的內容和細節更多，需要保證生成出來的東西符合要求；最后，生成的內容要做到商業化應用，可控也是必要的條件——既要精準表達創作者意圖，且讓大家買單。

在基礎條件滿足之后，目前行業自Sora面世后，對視頻大模型的期待更多聚焦于AI取代長視頻拍攝手段。張鵬認為從技術發展角度來看，這是一個重要方向，對影視行業的變化也有積極意義。但目前來講，視頻大模型還不足以直接用在面向觀眾的生產過程中，但可以用來做輔助工作，甚至是小規模創作，距離真正改變電影制作等高要求還有一段路要走。

至于出場即高潮、至今未對外開放的Sora，行業仍將其視為追趕標的，但由于技術細節上不透明，很多地方需要企業自己摸索。至于Sora的“銷聲匿跡”，唐家渝對記者分析稱，原因可能在幾方面：視頻不是OpenAI目前的主線；部分數據版權問題未得到解決；生成過程中產生了其他問題，需要花費一定時間與成本解決，不符合公司的優先級。

張鵬與智譜一直客觀正視與世界頂級水平之間的差距，同時他認為這條路還是得自己走，很多時候中國企業也是在用自己的方式向前追趕，比如如何將視頻生成算力成本降下來，將響應速度提升上去，讓所有人可以用等。“我們在追求技術高度的同時，也在同步追求技術的可普及性。”張鵬稱。

責任編輯：李志強

機構

視頻

證券

聲明：證券時報力求信息真實、準確，文章提及內容僅供參考，不構成實質性投資建議，據此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態，洞察政策信息，把握財富機會。

網友評論

登錄后可以發言

發送

網友評論僅供其表達個人看法，并不表明證券時報立場