人工智能公司OpenAI宣布推出文生視頻大模型Sora
發(fā)布時(shí)間:2024-02-18
瀏覽:
人工智能公司OpenAI宣布推出文生視頻大模型Sora
北京時(shí)間2月16日凌晨,全球人工智能模型的領(lǐng)先者、AI時(shí)代的開創(chuàng)者OpenAI推出了一款能根據(jù)文字指令即時(shí)生成短視頻的模型,并將之命名為Sora。Sora的出現(xiàn),讓科技界為之驚嘆。相較于此前生成式AI所生產(chǎn)的動(dòng)畫內(nèi)容,Sora展示的全新影像畫面讓人瞠目結(jié)舌,其所公示的影像光影、細(xì)節(jié)等,讓人直呼震撼,真可謂AI版的“神筆馬良”。

OpenAI官網(wǎng)
早在2022年11月30日,OpenAI發(fā)布名為ChatGPT的全新聊天機(jī)器人模型時(shí),大多數(shù)人就已經(jīng)預(yù)料到AI將引發(fā)一場(chǎng)新的技術(shù)革命。Sora的推出意味著什么,可能并不像人們想象的那么簡(jiǎn)單。多名業(yè)內(nèi)專家告訴南方+記者,目前的Sora仍未完全進(jìn)化,因此會(huì)存在“不可靠”的地方,但毋庸置疑,AI的步伐會(huì)越來(lái)越快。
從文本到影像
“AI的一大步,但還無(wú)法稱為跨越式發(fā)展”
北京大深圳研究院5G課題組組長(zhǎng)、廣東省前沿科技研究院院長(zhǎng)胡國(guó)慶認(rèn)為,根據(jù)目前Sora官方所發(fā)布的樣片來(lái)看,其將文本直接生成圖像的能力在某種程度上確實(shí)能達(dá)到以假亂真的效果,這對(duì)藝術(shù)家、電影制作人等制作視頻的人來(lái)說(shuō),算得上一個(gè)很大的進(jìn)步。同時(shí),相較于此前的AI產(chǎn)品,這無(wú)疑是一次巨大的飛躍。
然而,將文本生成60秒短視頻的能力,實(shí)際上之前已有其他模型能夠?qū)崿F(xiàn)幾秒鐘的視頻。
“要說(shuō)這是跨越式的進(jìn)步,目前來(lái)看,還為時(shí)過(guò)早?!焙鷩?guó)慶指出,根據(jù)OpenAI發(fā)布的視頻來(lái)看,AI通過(guò)將文本逐幀生成圖像,再串聯(lián)組合生成視頻的技術(shù)路線,為其他模型訓(xùn)練從文本到影像的能力提供了一個(gè)很好的思路。

官方所公布的原理圖釋。
同時(shí),目前官方也公布了一些Sora的“硬傷”。騰訊機(jī)器學(xué)習(xí)平臺(tái)部專家工程師姚軍解釋道,因?yàn)槠淠P筒皇且揽績(jī)?nèi)在的物理仿真引擎,所以所生成的視頻常常顯得“不可靠”,會(huì)出現(xiàn)不符合真實(shí)物理規(guī)律的地方,這是當(dāng)下這類依賴大規(guī)模數(shù)據(jù)驅(qū)動(dòng)的大規(guī)模參數(shù)模型迭代的技術(shù)思路難以根除的問(wèn)題。
在姚軍看來(lái),目前該應(yīng)用所能使用的場(chǎng)景仍比較有限?!皬脑砩弦膊浑y得出,這類模型不具備世界模型,沒(méi)有真正的一套知識(shí)框架內(nèi)核,只是依賴數(shù)據(jù)中體現(xiàn)的‘大數(shù)原理’,與現(xiàn)實(shí)世界有一定的重合,但遠(yuǎn)達(dá)不到‘世界模型’的門檻。”
AGI實(shí)現(xiàn)可能縮短至一年?
“謹(jǐn)慎看待,但時(shí)間會(huì)大幅縮短”
針對(duì)此次Sora所帶來(lái)的討論,360創(chuàng)始人周鴻祎在社交網(wǎng)絡(luò)上發(fā)布看法,他甚至認(rèn)為,Sora的誕生意味著AGI(通用人工智能)實(shí)現(xiàn)可能從10年縮短至一兩年。
談到Sora最大的優(yōu)勢(shì),周鴻祎表示,以往文字視頻軟件都是在2D平面上對(duì)圖形元素進(jìn)行操作,可以把視頻看成多個(gè)真實(shí)圖片的組合,并沒(méi)有真正掌握這個(gè)世界的知識(shí)。但Sora產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會(huì)出現(xiàn)汽車撞毀坦克這樣的情況,“一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube和TikTok的視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過(guò)文字學(xué)習(xí)。一幅圖勝過(guò)千言萬(wàn)語(yǔ),而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過(guò)一張圖,這就離AGI真的就不遠(yuǎn)了,不是10年20年的問(wèn)題,可能一兩年很快就可以實(shí)現(xiàn)?!?/span>
然而,業(yè)內(nèi)專家則向南方+記者表示,相信AI發(fā)展的速度會(huì)越來(lái)越快,但僅一年內(nèi)是否可以實(shí)現(xiàn)AGI仍需謹(jǐn)慎看待。胡國(guó)慶表示,此前OpenAI的總裁確實(shí)提到過(guò)2024年會(huì)重點(diǎn)發(fā)展AGI,但是,能否在一年內(nèi)實(shí)現(xiàn),仍屬于未知?!癝ora問(wèn)世后,相信谷歌等科技企業(yè)也會(huì)迅速跟進(jìn),預(yù)計(jì)今年各家都會(huì)推出類似的公測(cè)版本,越多廠商競(jìng)爭(zhēng),意味著該領(lǐng)域也會(huì)加速走向成熟?!?/span>
對(duì)于公眾何時(shí)能夠大規(guī)模使用此類產(chǎn)品,姚軍則告訴記者,“預(yù)計(jì)很快?!币姳硎?,在未見到嚴(yán)肅論文的情況下,僅憑感覺(jué)目前Sora是在吸取了很多大語(yǔ)言模型和文生圖的迭代經(jīng)驗(yàn),部分解決了訓(xùn)練數(shù)據(jù)的約束,據(jù)說(shuō)是用到了游戲引擎生成的視頻數(shù)據(jù),同時(shí),由于傳聞該模型的規(guī)模并不大,所以其成果預(yù)計(jì)可以很快進(jìn)行應(yīng)用落地。
但有一件事毋庸置疑,后續(xù)該模型的優(yōu)化速度會(huì)越來(lái)越快,就像當(dāng)時(shí)文生圖技術(shù)所出現(xiàn)后一樣,一個(gè)季度一次升級(jí),一年一個(gè)大變樣。
影視行業(yè)會(huì)因AI受沖擊?
業(yè)內(nèi)人士:AI生成成本低,但“比較假”
由于Sora所具備的影像能力,讓人不得不聯(lián)想AI產(chǎn)業(yè)是否會(huì)沖擊到影視行業(yè),對(duì)此,記者聯(lián)系到北京一家影視公司相關(guān)負(fù)責(zé)人心一(化名),在她看來(lái),相比與此前的AI影像,此次Sora帶來(lái)的畫質(zhì)內(nèi)容讓人驚艷,但是對(duì)于直接參與到影視生產(chǎn)過(guò)程中,卻并不看好。
“單純從畫質(zhì)上來(lái)說(shuō),sora呈現(xiàn)出的大部分視頻不論是清晰度或者畫面細(xì)節(jié)都讓人驚嘆,但與當(dāng)下主流影視作品卻相距甚遠(yuǎn)。”心一解釋道,因?yàn)楫?dāng)下影視作品中很少有單個(gè)鏡頭呈現(xiàn)的作品,Sora能給到觀眾相對(duì)真實(shí)感更強(qiáng)的動(dòng)物、風(fēng)景等畫面,但涉及人物和城市的鏡頭還是讓人感覺(jué)到一種虛擬感,這種虛擬感不是畫面質(zhì)量的問(wèn)題,而是和實(shí)拍的畫面質(zhì)感有一定的差距,“簡(jiǎn)而言之,就是看起來(lái)還是比較假?!?/span>

OpenAI所發(fā)布的Sora所生成的影像。
相較于傳統(tǒng)影視行業(yè),AI生產(chǎn)成本上確實(shí)遠(yuǎn)低于傳統(tǒng)實(shí)拍或者后期制作的特效鏡頭。心一表示,例如女生在街道上走路的那段視頻,如果要實(shí)拍的話,場(chǎng)地、置景、燈光、攝影、演員及后期特效制作等都是需要考慮的問(wèn)題,攝制成本規(guī)模會(huì)從幾十人到幾百人不等。但是這些都是針對(duì)Sora生產(chǎn)出的某一個(gè)畫面的成本對(duì)比,具體Sora是否能完成連續(xù)性的長(zhǎng)篇幅畫面仍需驗(yàn)證,例如此前的Midjourney文生圖產(chǎn)品,它會(huì)給你一些意外之喜,但無(wú)法準(zhǔn)確呈現(xiàn)用戶所期待的畫面。
至于網(wǎng)友所熱議的,是否擔(dān)心影視業(yè)被AI搶飯碗?對(duì)此,心一則表示并不擔(dān)心,“要用AI去拍電視劇,實(shí)操上還會(huì)面臨AI產(chǎn)品的可控性、畫面和視頻版權(quán)等等問(wèn)題。”
想要AI“拍出”人們所期待的畫面,仍需讓子彈再飛一會(huì)。