剛剛過去的國(guó)慶假期,將視頻生成領(lǐng)域的技術(shù)競(jìng)賽推向全新高度。
OpenAI率先拋出重磅炸彈,旗艦視頻生成模型Sora 2,直言其正“直奔視頻領(lǐng)域的GPT-3.5時(shí)刻”,并隨之推出Sora應(yīng)用程序。憑“Cameo(引用角色功能)”首周下載量超ChatGPT;隨后,馬斯克xAI亮出Imagine v0.9,以20秒內(nèi)快速生成、全用戶免費(fèi)開放的優(yōu)勢(shì)予以回應(yīng);本月底,國(guó)內(nèi)AI視頻創(chuàng)業(yè)公司生數(shù)科技的Vidu Q2參考生功能也即將重磅亮相……
在這一系列密集的行業(yè)動(dòng)向中,其中尤為突出的是Sora應(yīng)用的Cameo和Vidu的參考生功能,我們可以窺探到視頻生成賽道的新共識(shí),“引用角色形象”正成為技術(shù)探索與應(yīng)用落地的關(guān)鍵方向。
相比于OpenAI,生數(shù)科技在參考生視頻領(lǐng)域的布局更早。作為全球“參考生視頻”概念的首個(gè)提出者和開創(chuàng)者,早在2024年9月Vidu就已提出了參考生視頻功能。而隨著Sora應(yīng)用程序的落地,中美在AI視頻領(lǐng)域的技術(shù)與產(chǎn)品較量,也正式進(jìn)入正面PK的關(guān)鍵階段。
本月底,Vidu Q2參考生視頻即將登場(chǎng),不僅對(duì)于To C小白用戶友好,使用門檻大幅降低,而且作為生產(chǎn)力工具,其對(duì)于專業(yè)、半專業(yè)創(chuàng)作者也非常能打,同時(shí)對(duì)于一致性、精準(zhǔn)性、性價(jià)比要求較高的廣告電商、影視動(dòng)漫等To B領(lǐng)域的要求也能滿足。
下面是創(chuàng)作者陳暢率先借助Vidu Q2參考生功能生成的高燃大片,已經(jīng)讓我們提前感受了Vidu Q2參考生的技術(shù)實(shí)力。
一、直擊視頻生成核心痛點(diǎn),“角色引用”成主流解法,Vidu早有布局
不同于文字、圖像生成技術(shù)已實(shí)現(xiàn)高穩(wěn)定性、高可控性的生成效果,當(dāng)前視頻生成技術(shù)雖正在快速迭代,卻仍受多個(gè)核心痛點(diǎn)制約,尚未迎來大規(guī)模商業(yè)化落地的爆發(fā)時(shí)刻。
首先,文字之間的連接可通過語(yǔ)法、上下文,圖像只需明確單一場(chǎng)景的核心信息,而視頻的核心價(jià)值在于通過連續(xù)畫面?zhèn)鬟f完整敘事,往往視頻時(shí)長(zhǎng)增加,就會(huì)出現(xiàn)情節(jié)割裂、角色行為矛盾、空間錯(cuò)位等問題。
其次,可控性缺失。若視頻生成包含元素過多,會(huì)受限于模型的理解能力和記憶能力等,再加上普通用戶難以通過提示詞傳達(dá)準(zhǔn)確的專業(yè)術(shù)語(yǔ),會(huì)進(jìn)一步導(dǎo)致生成內(nèi)容出現(xiàn)偏差。
從當(dāng)下主流視頻生成模型企業(yè)的布局來看,引用角色形象這一核心思路,成為解決上述痛點(diǎn)的有效路徑,也就是Sora App中的Cameo以及Vidu的參考生功能。
其共同點(diǎn)是支持上傳參考圖生成視頻,能在一定程度上使得最后視頻生成都圍繞這一元素展開,避免中間出現(xiàn)較大的情節(jié)偏差。再加上其有固定的角色特征作為參照,用戶可以以畫面中內(nèi)容為核心結(jié)合提示詞生成同一角色不同的視頻畫面。
但不同之處在于,Vidu的參考生功能范疇覆蓋更為廣泛。
Sora App中的Cameo功能,允許用戶在應(yīng)用中進(jìn)行一次簡(jiǎn)短的音視頻錄制,即可以將自己或者授權(quán)的其他人直接帶入任何Sora生成的場(chǎng)景中。一定程度上可以認(rèn)為,Cameo的功能是使生成視頻中的主體角色與上傳圖片的主體保持一致,也就是“角色參考”。