1. 首頁
  2. 資訊
  3. 技術(shù)
  4. SORA真的要來了,同行都準備好了嗎?

SORA真的要來了,同行都準備好了嗎?

第一電動永娟

美國人工智能初創(chuàng)公司OpenAI于今日宣布,將從周四太平洋時間早晨10點(北京時間周五凌晨2點)開始,開啟為期12天的創(chuàng)新發(fā)布周期。公司在推文中寫道:“12天、12場直播,一堆大大小小的新東西,OpenAI的12天活動期從明天開始?!?/p>

image.png

OpenAI的首席執(zhí)行官山姆·奧特曼(Sam Altman)透露,這次活動將以每日一場直播的形式展開,每個工作日發(fā)布一個新產(chǎn)品或樣品。據(jù)科技媒體 The Verge 援引知情人士透露,這些新產(chǎn)品中包含用戶們期待已久的文字轉(zhuǎn)視頻工具 Sora 和一款新的推理模型。前 OpenAI 首席技術(shù)官 Mira Murati 在 3 月份告訴?《華爾街日報》  ,Sora 將于今年年底上市。

除此之外,OpenAI 可能會給 ChatGPT 語音模式增加一個「圣誕老人」語音,已經(jīng)有用戶在代碼里發(fā)現(xiàn)語音模式的按鈕可以變成雪花的形狀。

image.png

圖片來源于山姆·奧特曼 X官方

核心亮點:可能發(fā)布的產(chǎn)品及功能

根據(jù)熟悉OpenAI內(nèi)部計劃的消息人士及外界推測,本次活動可能推出以下產(chǎn)品和功能:

l Sora:文本轉(zhuǎn)視頻工具,支持高質(zhì)量視頻生成,為創(chuàng)作者帶來新可能性。

l O1推理模型:增強版推理模型,或成為GPT-4的繼任者。

l 新圖像模型:可能替代現(xiàn)有的DALL-E技術(shù),進一步提升圖像生成能力。

l 語音模式增強:包括高品質(zhì)語音合成和更自然的語音交互功能。

l 開發(fā)者工具升級:通過改進API接口,拓展AI在軟件開發(fā)中的應(yīng)用。

l 全新代理框架:“操作員”框架,或支持用戶在日常操作中使用AI進行自動化管理。

image.png

圖片來源于網(wǎng)絡(luò) 

Sora發(fā)布:開創(chuàng)AI內(nèi)容創(chuàng)作新范式

綜合 OpenAI 的創(chuàng)新歷史和用戶反饋,此次活動的亮點之一就是Sora的推出。這款文本轉(zhuǎn)視頻工具此前已進入Alpha測試階段,并受到數(shù)百名藝術(shù)家的試用。盡管Sora此前因測試過程中的版權(quán)爭議而受到一些批評,其正式發(fā)布仍備受關(guān)注。

Sora通過結(jié)合圖像、音頻和動態(tài)場景的生成能力,Sora為藝術(shù)創(chuàng)作者、教育機構(gòu)和影視制作團隊提供了全新的工具,可生成長達1分鐘的高清視頻,將顯著提升了內(nèi)容制作的效率與創(chuàng)意空間。

更多生成式AI視頻工具:是否準備好

自從今年SORA發(fā)布之后,就在生成式AI視頻賽道產(chǎn)生了很大的波瀾,甚至不斷有AI視頻工具在發(fā)布新功能時要和SORA產(chǎn)生關(guān)聯(lián)。Sora在生成長度、多樣性和技術(shù)創(chuàng)新方面具有顯著優(yōu)勢,促使其他工具之后在特定功能和應(yīng)用場景中不斷增加自己獨特的優(yōu)勢來迎接SORA帶來的沖擊。

目前主流的AI視頻工具:

1. 谷歌 Veo

谷歌于12月3日推出了Veo,宣稱是谷歌版“SORA”,官方稱其是谷歌最強大的視頻生成模型,生成的視頻更精準、更逼真。從放出的視頻來看,圖生視頻和文生視頻的效果都很高清并且細節(jié)上處理的很細致。 

image.png

圖片來源于谷歌

2. Meta Movie Gen

Meta于10月5日發(fā)布了Movie Gen,這是一款A(yù)I視頻生成工具,號稱META版Sora,Sora有的它都有,可創(chuàng)建不同寬高比的高清長視頻,支持1080p、16秒、每秒16幀。Sora沒有的它還有,能生成配套的背景音樂和音效、根據(jù)文本指令編輯視頻,以及根據(jù)用戶上傳的圖像生成個性化視頻。Meta表示,這是“迄今為止最先進的媒體基礎(chǔ)模型(Media Foundation Models)”。只需一句“把燈籠變成飛向空中的泡泡”,就能替換視頻中的物體,同時透明的泡泡正確反射了背景環(huán)境。與Sora只有演示和官網(wǎng)博客不同,Meta在92頁的論文中把架構(gòu)、訓(xùn)練細節(jié)都公開了。

3. Adobe Firefly Video Model

Adobe于10月宣布即將發(fā)布其生成式AI視頻創(chuàng)作工具Firefly Video Model。將與今年早些時候推出的OpenAI的Sora競爭,該工具可根據(jù)文本描述和靜態(tài)圖像生成短視頻片段,并提供可定制的攝像機控制。Adobe強調(diào),F(xiàn)irefly經(jīng)過訓(xùn)練,可避免版權(quán)問題。

雖然Adobe目前沒有宣布任何正式客戶,但百事可樂旗下的佳得樂公司將在一個網(wǎng)站上使用它的圖像生成模型為客戶定制瓶子,美泰公司也一直在使用Adobe工具輔助設(shè)計其芭比娃娃系列的包裝。

4. Runway Gen-3

Runway的Gen-3模型可以根據(jù)文本、圖像或視頻提示生成短視頻片段,支持多種風(fēng)格和場景。該模型自主學(xué)習(xí)3D動態(tài),能夠生成照片級真實的視頻,特別適用于藝術(shù)家的創(chuàng)作過程。是目前用戶使用最廣泛的主流AI工具,目前Runway還推出相機控制(Camera Control)功能,現(xiàn)在視頻能以任意角度運鏡,模擬像人拍攝一樣的手法

5. Pika

Pika Labs推出的Pika工具允許用戶通過文本或圖像提示生成3D動畫、動漫、卡通或電影風(fēng)格的視頻。Pika 1.5版本引入了"Pikaffects"特效庫,增強了視頻內(nèi)容的專業(yè)質(zhì)感和創(chuàng)意效果。

6. PixVerse

愛詩科技的PixVerse支持文本生成視頻、圖片轉(zhuǎn)視頻等功能,用戶可以快速制作短視頻片段。PixVerse V2版本采用Diffusion+Transformer架構(gòu),提升了視頻的分辨率、細節(jié)和動作幅度。

7. 字節(jié)跳動的即夢AI

字節(jié)跳動的即夢AI應(yīng)用能夠根據(jù)文本提示生成視頻,提供訂閱服務(wù),用戶每月可生成約168個AI視頻。該應(yīng)用由字節(jié)跳動旗下的Faceu Technology開發(fā),已在多個平臺上線。但目前在寫實畫面上還是相對弱一些還不能和RUNWAY的效果相比。

8. 智譜AI的清影

智譜AI的視頻模型清影不但支持生成5秒和10秒的視頻,分辨率可達768P,并支持16幀生成能力。背后的CogVideoX模型更懂復(fù)雜prompt,能夠保持人物等主體的連貫性,效果更逼真。該模型在11月的新版本還集成了CogSound音效模型,可生成與畫面匹配的音效。如此一來,AI已經(jīng)具備了制作像上面這樣微電影(或短視頻)的全要素,而且在操作上也是非常簡單。該功能在SORA上甚至還沒有實現(xiàn)。

9. Luma AI的Dream Machine

Luma AI在今天發(fā)布了最新的視頻生成模型Luma Ray 2,同樣和SORA一樣最高支持生成1分鐘的一致性視頻,營銷點也是新LUMA版SORA,生成速度只需10秒。本次Luma AI的新模型,已被亞馬遜Amazon Bedrock平臺搶先集成。從效果上看也是非常震撼,嘴唇的紋路、頭發(fā)絲的質(zhì)感、一根根睫毛、甚至是皮膚表皮細胞都很清晰。

image.png

圖片來源于LUMA X官方 

10. Stable Diffusion

Stable Diffusion是Stability AI推出的開源文本生成圖像模型,廣泛應(yīng)用于藝術(shù)創(chuàng)作和設(shè)計領(lǐng)域。通過擴散模型,Stable Diffusion能夠生成高質(zhì)量、風(fēng)格多樣的圖像,但在視頻生成SVD目前能力還比較有限,主要還是在圖片生成和控制領(lǐng)域。

11. VIDO

VIDO是生數(shù)科技推出的文生視頻模型,支持文本生成視頻和圖片轉(zhuǎn)視頻功能,提供寫實和動畫兩種風(fēng)格。VIDO采用Diffusion Transformer架構(gòu),能夠生成4秒至8秒的視頻片段,生成速度較快,界面設(shè)計具有電影放映機的風(fēng)格。

其在11月增加了多主體一致性的功能,這個功能支持上傳1~3張參照,來實現(xiàn)對多主體的控制??梢愿鶕?jù)明確地點、人物、行為、形象,就能實現(xiàn)精準控制和編輯。未來“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

image.png

圖片來源于VIDU X官方

12. 騰訊混元大模型

騰訊混元大模型是騰訊推出的多模態(tài)AI模型,其在12月3日開源了所有功能并宣稱為騰訊版SORA,130億參數(shù),成為目前參數(shù)量最大的開源視頻生成模型。官方描述其有超寫實畫質(zhì),模型生成的視頻內(nèi)容具備高清質(zhì)感、真實感,可用于工業(yè)級商業(yè)場景例如廣告宣傳、創(chuàng)意視頻生成等商業(yè)應(yīng)用。目前用戶真實反饋還不是很多。

13. 可靈

可靈是快手推出的文生視頻大模型,能夠生成大幅度合理運動,模擬物理世界特性,生成的視頻分辨率達1080p,時長最長可達2分鐘。并在最新的1.5版本增加了運動筆刷功能和RUNWAY的筆刷功能類似??伸`采用類似Sora的DiT結(jié)構(gòu),對模型中的隱空間編/解碼、時序建模等模塊進行升維,實現(xiàn)部分絕對真實世界觀的數(shù)據(jù)支持。是目前國內(nèi)用戶反饋相對比較高的AI視頻生成工具。

image.png

圖片來源:量子位

在激烈的行業(yè)競爭背景下,不難看出大部分公司都在更新產(chǎn)品的功能來突出優(yōu)勢增加產(chǎn)品力,但似乎很多公司被束縛在SORA的框架里,更新功能也要和SORA產(chǎn)生關(guān)聯(lián)來證明自己的產(chǎn)品競爭力,這次SORA似乎真的要來了,是不是可以真實的PK一下了。

來源:第一電動網(wǎng)

作者:永娟

本文地址:http://autopag.com/news/jishu/256278

返回第一電動網(wǎng)首頁 >

收藏
85
  • 分享到:
發(fā)表評論
新聞推薦
熱文榜
日排行
周排行
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進行報價!

第一電動網(wǎng)
Hello world!
-->