在3D生成大模型賽道,騰訊跑在了大廠的最前面。
1月22日,騰訊上線了首個一站式3D內容AI創作平臺——混元3D AI創作引擎2.0,并正式宣布開源。新版本包含基礎模型生成、3D功能矩陣、3D編輯、3D生成工作流、創作素材庫等功能,目前已面向用戶和開發者開放。
該引擎支持文生及圖生3D。用戶輸入中/英文提示詞,描述主體內容、特征、風格等,即可快速生成生成4個3D模型,同時,也支持上傳單圖生成3D模型。效果上,可以選擇不同紋理風格進行生成。對比去年11月發布的1.0版本,2.0版本在生成效果上有明顯提升。
AI正在3D模型生成中扮演日漸重要的角色。游戲制作、社交、電商廣告、工業制造、具身智能、自動駕駛、AR/VR、三維打印等多個領域都已開始應用AI能力輔助3D內容生產。以游戲制作為例,3D管線(即將 3D 場景數據轉化為最終呈現在屏幕上的 2D 圖像)是最為核心的環節之一,但同時也最考驗時間和資金成本。
美術成本往往占一款游戲開發總成本的50%,而3D模型成本占美術總成本的30%~40%。錦秋基金報告中也提及,一個十萬面以上的3D高模資源,廠商如果委托外包團隊生產,價格至少需要3萬元,時間需要30-45天。如果在3D資產庫購買,除了存在可選資產有限的問題,通常也需要5-10人/天進行清洗才可以使用。
而3D生成大模型能夠在很大程度上改變這種現狀。騰訊游戲在研項目研發制作人王智剛提到,混元3D AI創作引擎已經開始支持騰訊游戲、地圖、元寶等業務的部分需求。以游戲為例,在混元的支持下,騰訊游戲業務3D資產制作時間成本可從5-10天級別下降到分鐘級。對于微信小游戲這類輕度游戲的3D生成需求,也基本可以實現覆蓋。
對3D模型生成有高頻需求的不止是游戲行業。當AI走向更高階的水平,它將不僅限于對文本、圖像、視頻等1D或者2D內容的理解,而是不斷發展成理解真實物理世界的三維空間,這也是具身智能、自動駕駛等廠商的剛需。它們很難在現實中采集到全面、多樣的訓練數據,而AI生成的3D模型則能夠補充這種能力。
騰訊混元3D負責人郭春超透露,目前已經有一批具身智能、自動駕駛廠商來尋求合作。
不過,相比起文生圖等較為成熟的生成式AI應用,3D模型的技術成熟度還遠遠不夠。郭春超認為,3D模型面臨的主要挑戰之一是數據量不足。相較于文本和2D圖像數據,可供訓練的3D數據并不多,且經過標注和語義匹配的3D數據則更為稀缺。對于3D數據的積累,也將是未來3D模型生成企業的一項核心競爭力。
“3D模型生產的視覺合格率僅用一年時間就從20%提升到60%的水平,發展非常快。但是相比于生文達到95%,生圖達到90%以上,它的成熟度、可用性仍然處在前半賽場。”郭春超說。
在此前大廠紛紛重注的文生圖、文生視頻等領域,騰訊的動作在國內互聯網大廠中相對較慢,但卻是最早下場做3D生成大模型的互聯網大廠。原因或許在于,騰訊自身的業務具有大量相關需求,這同時也讓騰訊對其中的商業價值更為敏銳。郭春超認為,3D生成大模型面向游戲行業的商業價值確定性非常高,國內有百萬級游戲從業者,背后是百億乃至千億級的市場。
其他大廠也開始在3D領域排兵布陣。今年年初,美團旗下龍珠資本與字節跳動聯手領投了一家名為影眸科技的3D生成大模型公司,后者目前已經獲得數百萬元企業端商業化訂單。除了影眸之外,國內另一家備受資本追捧的國內廠商是VAST,創始人宋亞宸曾在商湯科技及MiniMax任職,目前公司超過400家。
郭春超認為,騰訊與上述廠商的區別在于,它不僅僅定位于專業的3D工具,更想成為一款低門檻、覆蓋面廣的一站式創作引擎,用戶可以在上面自由創作、生成、編輯,相當于3D版的“秒剪”。在他看來,目前的2.0版本還遠未達到上限。春節過后,它還將開放類似三維場景漫游等更大的場景生成,可應用于AR、VR、線上展館等領域。
相較于初創公司,騰訊的優勢在于能夠以更低的成本從自身業務中積累數據,也能從中找到大量應用場景。但不同行業對3D生成效果的要求也大不相同,騰訊需要拿出更多資源來應對初創公司對細分行業的針對性打磨。
不過,AI生成3D模型賽道還遠未到達“Sora”時刻。技術角逐才剛剛開始,這些公司仍然有足夠的時間和金錢來應對挑戰。