近日,OpenAI的Sora可謂炸裂登場,OpenAI再次成為頂流。
這不得不讓“紅衣教主”、360集團創始人周鴻祎感嘆,OpenAI的CEO奧特曼(Sam Altman)是個營銷大師。能夠在合適的節點推出現象級產品,吸引全球流量,抬高公司估值……
“我相信OpenAI手里應該還藏著一些秘密武器,無論是GPT-5,還是機器自我學習自動產生內容,包括AIGC。奧特曼是個營銷大師,知道怎樣掌握節奏,他們手里的武器并沒有全拿出來。這樣看來中國跟美國的AI差距可能還在加大。”周鴻祎表示。
在AIGC領域,“文生視頻”最難,難度排序是文本<靜態圖像<聲音<視頻。
小冰公司CEO李笛曾在2023年上半年接受媒體采訪時表示,文本生成視頻當前主要短板是可控性。生成的質量不穩定,需要調整的時候不容易調整,這導致它可以用來Demo(演示),但很難實際落地。所以從這個角度看,文生視頻應用空間遠沒有文生文本大,而且難度與成本也要高得多。
如今,Sora的出現標志著“文生視頻”應用開始落地。
因為,OpenAI的Sora能在多角度的鏡頭切換中,就能實現對象的一致性,這是個奇跡!這種級別的多鏡頭一致性,是當前市面上“文生視頻”模型無法企及的……更重要的是,在Sora身上,竟已經有了世界模型的雛形。通過觀察大量數據,它竟然學會了許多關于世界的物理規律(當然,還不完善,比如,某人咬餅干,但餅干沒有咬痕)。
專家預測,未來某天,Sora將沖擊“文生3D視頻”領域。
“文生視頻”不是新鮮事
2022年下半年開始,谷歌、Meta以及一些創業公司相繼發布了文本生成視頻的系統,但這些系統效果并不理想,當時業界就等著OpenAI公司發布“文生視頻”模型,看看領頭羊的武器有多先進。
2022年10月Meta公布了文生視頻工具Make-A-Video,這個工具可以把文字生成視頻,也可以將靜態圖片生成連續圖片,然后將這些圖片連接成一段視頻。盡管Make-A-Video尚顯“生澀”,但當時還是引起業界“騷動”。
之后,谷歌公司CEO Sundar Pichai親自發布了該公司的兩個文生視頻工具——Imagen Video與Phenaki,前者主打視頻品質,后者主要挑戰視頻長度。
2023年2月6日,Runway發布Gen-1模型,這個模型可以通過應用文本提示或者參考圖像所指定的任意風格,將現有視頻轉換為新視頻。今年的奧斯卡將7項大獎頒給了《瞬息全宇宙》,在影片的制作過程中,就采用了這家公司的技術。
中國的Sora在哪?
從2023年初,“文生視頻”賽道在中國漸熱。
3月22日阿里達摩院在AI模型社區“魔搭”(ModelScope)悄悄放出“文本生成視頻大模型”,在開源模型平臺低調對外測試。
3月16日,百度發布文心一言也提供文字生成視頻功能,在去年8月又上線了文本轉視頻原生插件。
現在,ICT茶館掌柜在華為云官網上查找,可以發現華為盤古多模態大模型有視頻生成功能選項,但寫著“敬請期待”。
可以說,無論是國外的Runway,還是國內的基礎大模型公司,各自都在做“文生視頻”模型,但與Sora相比還有一定差距,一方面是體現在持續時長上,絕大多數視頻時長還在4-10秒左右,其連貫性也有所不足。另一方面是鏡頭的組合,絕大多數視頻都是單鏡頭;而Sora已實現了在一個視頻里面,多角度鏡頭的組合。例如,在剪影動畫中,視頻從一只狼對著月亮嚎叫,直到它找到狼群,切換了不同景別的多個鏡頭。
這就是現實!人家目前仍是“學霸”!
但不管怎樣,AI文生視頻工具逐步增強,未來將會改變電商直播、產品廣告、影視制作等多個行業的生態,下游應用的加速時刻也將到來。當然,技術是把雙刃劍,以后版權侵權、色情視頻泛濫、視頻詐騙等問題也會層出不窮。
正如資深人工智能專家郭濤所說,AI文生視頻、圖生視頻等賽道將會繼續保持快速發展的趨勢,未來一兩年內,AI生成視頻領域將會出現更多的創新和突破,包括更加智能的視頻生成技術、更加豐富和多樣化的應用場景和更加完善、成熟的技術標準和商業模式等。同時,這個領域也將會面臨一些挑戰和難點,例如數據安全和隱私保護、商業化模式和市場接受度等問題。
當然,在中美角力的當下,AI是主戰場之一,我們還是期待著中國的Sora盡快到來!
Anna艷娜
Andrew
FreeBuf
Anna艷娜
Andrew
X0_0X
X0_0X
007bug
Andrew
ManageEngine卓豪
一顆小胡椒
Anna艷娜
安全俠