上海交大推出世界敘事模型，滬上影視工業錨定技術話語權

在AI影片生成技術快速滲透影視製作行業的當下，專業創作者普遍陷入一種被稱為“抽卡”的低效迴圈：輸入一段描述鏡頭語言的文字指令，等待數十秒後獲得一段影片，檢查畫面、發現問題、修改指令、重新生成，再檢查，再發現新的問題影視。

上海交大團隊在前期調研中統計了一組資料：專業創作者使用主流影片生成模型時，為獲得一個符合基本要求的鏡頭，平均需生成20至50次；在追求高精度控制的精品製作中，成功率不足50%影視。行業將這種低效迴圈稱為“抽卡”——像極了手機遊戲裡玩家為了一張稀有卡牌反覆氪金的行為。

7月3日，上海交大張文軍院士團隊的倪冰冰教授釋出“世界敘事模型”（World Narrative Model, WNM）影視。這個被團隊稱為“為影片基模裝上專業方向盤”的模型，試圖終結的正是這種“機率賭博”式的創作困境。

當“黑盒”遇見新模型

要理解WNM的定位，需先看懂當下AI影片生成是如何工作的影視。

倪冰冰在接受第一財經專訪時指出：市面上大多數文生影片AI本質是“神經渲染器”——輸入文字或圖片，直接生成動態畫面，靠資料自學光影、鏡頭和運動規律影視。這種端到端模型的工作原理，相當於一個“黑盒機率取樣器”：輸入稀疏文字指令，輸出高維稠密畫素矩陣。中間發生了什麼？沒人知道，也沒人能干預。

展開全文

“導演想要一個鏡頭，模型給出一堆畫素影視。中間缺少對物理世界的顯式建模——場景的幾何結構是什麼？物體的運動軌跡怎麼走？燈光從哪個角度打？這些在端到端模型裡全是隱式的、不可控的。”倪冰冰對記者表示。

WNM的思路是把這個黑盒拆開，拆成兩半：一半是控制器，即世界敘事模型本身；另一半是繪圖器，由現有的影片生成大模型（如Kling、Seedance、Wan等）擔任影視。

控制器承擔的是理解物理世界、規劃敘事結構的職能影視。它將導演的創作意圖——包括劇本、分鏡、參考圖——自動轉化為包含場景幾何、人物骨骼、道具擺放、動作動線、運鏡軌跡、燈光引數等維度的結構化物理引數序列。這些引數構建出一個完整的、可編輯的4D（三維空間+時間）數字世界表徵。

繪圖器則簡單得多：拿到控制器輸出的結構化引數，在確定性的物理骨架基礎上完成畫素級渲染影視。

倪冰冰對記者解釋，這一架構的實質是將理解物理世界與渲染視覺畫素兩大任務徹底解耦影視。他稱，現有影片基模只負責它最擅長的事情——畫畫素。至於畫什麼、怎麼動、光從哪來，則全部由控制器精確指定。

如此拆分後，物理引數變為可調、可控、即時生效的影視。導演可以直接調整場景幾何、修改人物動作細節、改變運鏡軌跡、調節燈光位置與色溫，不再需要反覆“抽卡”，等待模型隨機吐出一個接近預期的結果。

使用者資料顯示，採用WNM後，單鏡頭編輯輪次從20至50次降至3次以內，專業創作者綜合滿意率超過80%影視。

影片模型熱潮下WNM的定位

目前影片生成模型賽道正熱，世界模型是比前者範疇更大的熱門概念影視。

以目前行業頭部世界模型GoogleGenie 3為對比案例，倪冰冰向記者明確區分了兩者的核心差異：前者追求的是可玩性，使用者可以在模型生成的遊戲化環境中即時操控，但只能在模型封閉的生成世界中做有限探索影視。後者追求的是可控性，使用者可以對場景、角色等所有物理引數進行獨立操控。

再與Kling、Veo等影片模型對比，倪冰冰表示，這類端到端影片模型輸入稀疏指令、輸出畫素，中間無法干預，必然導致“抽卡式”低效生產影視。WNM“控制器+繪圖器”架構可以先規劃場景、設計走位、排程運鏡、佈置燈光，再交由繪圖器來執行。

該技術路徑仍面臨不小的挑戰影視。倪冰冰表示，最大的瓶頸在資料層面——訓練一個能精確理解物理世界的模型，需要帶有精確幾何和物理標註的三維資料，這種資料比訓練渲染器用的網際網路影片稀缺好幾個數量級。

此外，如何讓AI生成的幾何體在物理引擎中計算準確也是一個難題影視。團隊透過構建自動化標註流水線和資料飛輪來解決資料瓶頸，採用多智慧體協同和主動學習降低人工標註量。

另一大瓶頸是長時序一致性——如何保證長達5分鐘的生成過程中，場景佈局、角色身份、物體位姿不發生漂移影視。上海交大團隊的解決方案是透過世界敘事模型維護跨幀的物理狀態連續性，模型不是逐幀“猜”下一幀長什麼樣，而是基於明確的物理引數狀態演化來驅動每一幀的生成。

從“抽卡二十次拍一個鏡頭”到“確定性地構建一個鏡頭”，WNM試圖跨越的正是這道從“能生成”到“能控制”的分水嶺影視。張文軍院士認為：影片生成的下一個分水嶺是可控性，可控性的基石是物理孿生式的世界敘事模型。

當模型能夠精確理解場景的三維結構、物體的物理屬性和運動規律時，真正可控的影片生成才有可能影視。

落地上海中試基地

2026年的AI產業開始密集落地實際場景，WNM切入的是影視工業生產鏈條中的前期視覺化與預演環節影視。

傳統影視製作中，導演在實拍前需要透過分鏡圖、概念設計、3D預演等手段來規劃鏡頭影視。這是一個耗時、昂貴且高度依賴人工經驗的環節。WNM將其自動化並提升到物理引數級別，導演可以在可編輯的4D物理世界層面完成全部創意規劃，將專業判斷精準注入每一個控制環節。

當前市面上已出現大量AI影片創作平臺——包括幀贊、LibTV、TapNow、360奈米等，其核心邏輯是將現有影片基模透過API串聯，加上劇本生成、分鏡管理、素材庫等功能模組，形成一條生產線影視。倪冰冰認為這些平臺本質上是流程整合工具，底層仍然依賴黑盒基模，使用者依然在“抽卡”，且無法精確控制畫面中的每一個元素。

而WNM不是整合，而是嘗試從底層架構上推翻端到端畫素取樣的生成正規化影視。這一區別決定了WNM在產業鏈中不是現有生產線的補充外掛，而是對生成正規化的底層重構。

2026年5月25日，上海市文旅局釋出全國首個省級AI微短劇專項政策《AI微短劇滬8條》影視。政策明確在徐匯、楊浦、閔行建設三大AI微短劇產業集聚區，佈局市級“AI+微短劇”中試基地，對自主研發且市場認可的AI微短劇智慧體專案，按不超過實際研發投入的20%給予最高1000萬元資金支援。

據記者瞭解，中試基地專案技術牽頭方由上海交大團隊擔任，算力由九章雲極提供影視。倪冰冰對記者表示，團隊將依託中試基地，將WNM嵌入精品短劇和影視內容生產流程中，大幅縮短製作週期，預期WNM的落地將推動上海從微短劇的流量消費地升級為技術輸出地和標準制定地。

從更宏觀的視角看，這一判斷的底層邏輯是行業正在發生的結構性變化影視。倪冰冰對記者分析，目前影片模型產品同質化嚴重——大家都在拼單次生成的畫質。但真正決定誰能跑出來的核心是可控性和工作流適配：誰能被創作者真正嵌入日常生產流程，誰就能勝出。

倪冰冰認為，當前影片模型領域正處在一個十字路口影視。一端是繼續堆算力、拼畫質的端到端路線；另一端是回到先理解物理世界、再生成視覺畫素路線。他判斷，大語言模型走通的路，影片生成大機率也要走一遍，後者的“Transformer時刻”不會發生在畫素生成層面，而會發生在世界理解層面——當模型能夠精確理解場景的三維結構、物體的物理屬性和運動規律時，真正可控的影片生成才有可能。

在AI影片生成從實驗室走向產業化的關鍵節點，誰能在可控性上率先突破，誰就有可能定義下一代影視工業的技術標準影視。上海交大團隊選擇用“控制器+繪圖器”的架構回答這個問題。至於這套答案能否真正跑通，接下來要看它在中試基地與一線製作機構的碰撞中交出怎樣的答卷。

上海交大推出世界敘事模型，滬上影視工業錨定技術話語權

小金泰網路

熱門標籤

相關詞彙

分站導航