逗游網(wǎng):值得大家信賴的游戲下載站!
發(fā)布時(shí)間:2024-02-16 15:59:57來源:逗游作者:逗游網(wǎng)
ChatGPT開發(fā)團(tuán)隊(duì)OpenAI發(fā)布了最新的視頻生成模型“Sora”,此模型可以根據(jù)文字指令能生成長(zhǎng)達(dá)1分鐘的高清視頻,并且有一定的“現(xiàn)實(shí)模擬”能力,相比制作游戲的物理引擎,其上限要高得多,下面帶來詳細(xì)介紹。
1.他們能訓(xùn)練出這個(gè)模型的基礎(chǔ)是:找到了一種統(tǒng)一的用文本描述視頻材料的范式,得以讓大量的視頻以及對(duì)應(yīng)的描述材料去訓(xùn)練模型,得到這個(gè)模型能力就是文本和視覺呈現(xiàn)之間的某種互相生成關(guān)系(能力),那如何得到大量帶有相應(yīng)文本字幕的視頻呢?
他們應(yīng)用了 DALL·E 3 中的重構(gòu)字幕技術(shù)(原來是針對(duì)圖片的)到視頻。首先訓(xùn)練一個(gè)高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中的所有視頻生成文本字幕。 可以想見,訓(xùn)練及使用模型耗費(fèi)的算力驚人,所以不太可能在短期內(nèi)大范圍開放;
2.大的框架是:擴(kuò)散模型+時(shí)空補(bǔ)丁,基于深度學(xué)習(xí)的擴(kuò)散模型,讓一個(gè)隨機(jī)噪聲分布(指向圖像的)轉(zhuǎn)變成有意義的圖像或視頻內(nèi)容,而時(shí)空補(bǔ)丁,定義了一個(gè)時(shí)間序列,使畫面的的變化符合時(shí)間邏輯;
3.Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。因?yàn)槭侵苯由啥皇遣眉粢曨l,在取景,動(dòng)態(tài)效果上也有一定優(yōu)勢(shì);
4.這個(gè)模型還有幾個(gè)出人意料但合理的能力:
a.它可以從一個(gè)時(shí)間點(diǎn),向前或者向后去延伸視頻,也就是說以某個(gè)畫面為基點(diǎn),生成這個(gè)時(shí)點(diǎn)之前的一段視頻或之后的一段視頻;
b.自如改變視頻的風(fēng)格和環(huán)境;
c.通過插值方式自然的將兩個(gè)視頻連接起來;
d.這一點(diǎn)非常重要,就是這個(gè)模型涌現(xiàn)出了一定的“現(xiàn)實(shí)模擬”能力,在展示視頻中我們看到的不同的鏡頭運(yùn)用,包括 3D畫面的一致性(比如同一物體因?yàn)殓R頭變化,呈現(xiàn)出的在視覺上保持形狀的一致),還包括現(xiàn)實(shí)物體的交互(比如要面包后面包上的咬痕)并非刻意設(shè)計(jì),或者“建?!钡慕Y(jié)果,而是自然涌現(xiàn)的,這點(diǎn)我們?cè)诩冋Z(yǔ)言模型上已經(jīng)見識(shí)過了。
而在這個(gè)模型上面涌現(xiàn)出的能力,用文章中的原話來描述“是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的強(qiáng)大模擬器的一條有前途的道路。”
上一篇: 夸克網(wǎng)盤在哪里退出登錄
下一篇: 韓劇tv如何投屏到電視上面播放
最強(qiáng)蝸牛特工攻略大全 特工選項(xiàng)匯總
動(dòng)物餐廳海德薇信件解鎖配方全攻略【最新版】
羊了個(gè)羊第二關(guān)通關(guān)技巧攻略
瘋狂騎士團(tuán)釣魚攻略大全
劍與遠(yuǎn)征破碎之墟平民通關(guān)攻略
紙嫁衣2第四章圖文攻略
紙嫁衣2第二章圖文攻略
迷室往逝攻略大全 迷室往逝通關(guān)圖文攻略匯總
我功夫特牛攻略大全 秘籍、武器及副本玩法匯總
崩壞星穹鐵道
角色扮演
天使之戰(zhàn)
角色扮演
幻塔
動(dòng)作格斗
迷你世界0.44.2版本可聯(lián)機(jī)
冒險(xiǎn)解謎
無畏契約源能行動(dòng)
槍戰(zhàn)射擊
螢火突擊先行服
槍戰(zhàn)射擊
蛋仔派對(duì)快手服
休閑益智
穿越火線云游戲
槍戰(zhàn)射擊
蛋仔派對(duì)云游戲
休閑益智
登錄
請(qǐng)為游戲評(píng)分: