快手可靈大模型推出圖生視頻功能
2024年過半,圍繞視頻和圖片內(nèi)容,快手大模型應用落地加速。
6月21日,在計算機視覺領(lǐng)域盛會CVPR2024上,快手可靈大模型正式推出圖生視頻功能,支持將任意靜態(tài)圖像轉(zhuǎn)化為5秒動態(tài)視頻,其間可以搭配創(chuàng)作者輸入的文本,生成多種運動效果。
此次可靈大模型還同步發(fā)布了視頻續(xù)寫功能,支持對已生成的視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫,單次可讓視頻延續(xù)約5秒,最長可生成約3分鐘視頻。
這意味著,可靈大模型可以通過多次續(xù)寫的功能,在AI視頻生成的時長上超越Sora。
快手可靈視頻生成大模型于6月6日發(fā)布,可支持生成最高達120s的視頻,對標Sora。
如今國內(nèi)的AI競賽,已經(jīng)從去年卷數(shù)據(jù)、算力和算法,爭相發(fā)布基礎大模型的狀態(tài),演變成了驗證大模型應用落地能力的比拼。
而掀起這一浪潮的節(jié)點性事件,仍舊源于Open AI。其于2月16日發(fā)布了文生視頻模型Sora,并首次由AI生成了長達1分鐘的多鏡頭長視頻,展現(xiàn)出了對于真實世界的高度模擬和細節(jié)還原,被視作科技行業(yè)的革命。
隨后,國內(nèi)各大廠商也競相追趕。快手作為國內(nèi)頭部的內(nèi)容平臺自然也不會落下。
在今年Q1的財報電話會上,快手CEO程一笑表示,今年一季度,快手會穩(wěn)步推進自研大模型各項性能的迭代提升,并且加快大模型在各業(yè)務場景的應用。更早之前,快手還發(fā)布了文生圖和圖生圖大模型產(chǎn)品“可圖”。
可靈大模型演示使用圖片
快手以外,字節(jié)跳動從去年開始就已經(jīng)成立了Flow部門,致力于大模型應用的研發(fā),但至今尚未有成熟產(chǎn)品落地。
此前,曾有傳聞表示,字節(jié)跳動在Sora引爆文生視頻領(lǐng)域之前,已經(jīng)在研發(fā)對標Sora的名為Boximator的創(chuàng)新性視頻模型。隨后字節(jié)跳動辟謠表示,Boximator是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目,還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。
今年4月和3月,國內(nèi)AI賽道中的學院派選手還分別推出了視頻生成AI模型“Vidu”和“Follow-Your-Click”,但生成視頻的時長在10s-20s的區(qū)間,且畫面質(zhì)量也相對較低,與Sora仍存在較大差距。
在AI視頻生成的競爭中,時長和畫面質(zhì)量已經(jīng)成為了國內(nèi)廠商爭相突破的兩個重要維度。如今,快手快了一步。
發(fā)表評論
登錄 | 注冊