中國的Sora在哪？何時到來？

近日，OpenAI的Sora可謂炸裂登場，OpenAI再次成為頂流。

這不得不讓“紅衣教主”、360集團創始人周鴻祎感嘆，OpenAI的CEO奧特曼（Sam Altman）是個營銷大師。能夠在合適的節點推出現象級產品，吸引全球流量，抬高公司估值……

“我相信OpenAI手里應該還藏著一些秘密武器，無論是GPT-5，還是機器自我學習自動產生內容，包括AIGC。奧特曼是個營銷大師，知道怎樣掌握節奏，他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。”周鴻祎表示。

在AIGC領域，“文生視頻”最難，難度排序是文本＜靜態圖像＜聲音＜視頻。

小冰公司CEO李笛曾在2023年上半年接受媒體采訪時表示，文本生成視頻當前主要短板是可控性。生成的質量不穩定，需要調整的時候不容易調整，這導致它可以用來Demo（演示），但很難實際落地。所以從這個角度看，文生視頻應用空間遠沒有文生文本大，而且難度與成本也要高得多。

如今，Sora的出現標志著“文生視頻”應用開始落地。

因為，OpenAI的Sora能在多角度的鏡頭切換中，就能實現對象的一致性，這是個奇跡！這種級別的多鏡頭一致性，是當前市面上“文生視頻”模型無法企及的……更重要的是，在Sora身上，竟已經有了世界模型的雛形。通過觀察大量數據，它竟然學會了許多關于世界的物理規律（當然，還不完善，比如，某人咬餅干，但餅干沒有咬痕）。

專家預測，未來某天，Sora將沖擊“文生3D視頻”領域。

“文生視頻”不是新鮮事

2022年下半年開始，谷歌、Meta以及一些創業公司相繼發布了文本生成視頻的系統，但這些系統效果并不理想，當時業界就等著OpenAI公司發布“文生視頻”模型，看看領頭羊的武器有多先進。

2022年10月Meta公布了文生視頻工具Make-A-Video，這個工具可以把文字生成視頻，也可以將靜態圖片生成連續圖片，然后將這些圖片連接成一段視頻。盡管Make-A-Video尚顯“生澀”，但當時還是引起業界“騷動”。

之后，谷歌公司CEO Sundar Pichai親自發布了該公司的兩個文生視頻工具——Imagen Video與Phenaki，前者主打視頻品質，后者主要挑戰視頻長度。

2023年2月6日，Runway發布Gen-1模型，這個模型可以通過應用文本提示或者參考圖像所指定的任意風格，將現有視頻轉換為新視頻。今年的奧斯卡將7項大獎頒給了《瞬息全宇宙》，在影片的制作過程中，就采用了這家公司的技術。

中國的Sora在哪？

從2023年初，“文生視頻”賽道在中國漸熱。

3月22日阿里達摩院在AI模型社區“魔搭”（ModelScope）悄悄放出“文本生成視頻大模型”，在開源模型平臺低調對外測試。

3月16日，百度發布文心一言也提供文字生成視頻功能，在去年8月又上線了文本轉視頻原生插件。

現在，ICT茶館掌柜在華為云官網上查找，可以發現華為盤古多模態大模型有視頻生成功能選項，但寫著“敬請期待”。

可以說，無論是國外的Runway，還是國內的基礎大模型公司，各自都在做“文生視頻”模型，但與Sora相比還有一定差距，一方面是體現在持續時長上，絕大多數視頻時長還在4-10秒左右，其連貫性也有所不足。另一方面是鏡頭的組合，絕大多數視頻都是單鏡頭；而Sora已實現了在一個視頻里面，多角度鏡頭的組合。例如，在剪影動畫中，視頻從一只狼對著月亮嚎叫，直到它找到狼群，切換了不同景別的多個鏡頭。

這就是現實！人家目前仍是“學霸”！

但不管怎樣，AI文生視頻工具逐步增強，未來將會改變電商直播、產品廣告、影視制作等多個行業的生態，下游應用的加速時刻也將到來。當然，技術是把雙刃劍，以后版權侵權、色情視頻泛濫、視頻詐騙等問題也會層出不窮。

正如資深人工智能專家郭濤所說，AI文生視頻、圖生視頻等賽道將會繼續保持快速發展的趨勢，未來一兩年內，AI生成視頻領域將會出現更多的創新和突破，包括更加智能的視頻生成技術、更加豐富和多樣化的應用場景和更加完善、成熟的技術標準和商業模式等。同時，這個領域也將會面臨一些挑戰和難點，例如數據安全和隱私保護、商業化模式和市場接受度等問題。

當然，在中美角力的當下，AI是主戰場之一，我們還是期待著中國的Sora盡快到來！