技術(shù) Open AI

SORA真的要來了，同行都準備好了嗎？

第一電動永娟 2024-12-05 16:03

美國人工智能初創(chuàng)公司OpenAI于今日宣布，將從周四太平洋時間早晨10點（北京時間周五凌晨2點）開始，開啟為期12天的創(chuàng)新發(fā)布周期。公司在推文中寫道：“12天、12場直播，一堆大大小小的新東西，OpenAI的12天活動期從明天開始?！?/p>

OpenAI的首席執(zhí)行官山姆·奧特曼（Sam Altman）透露，這次活動將以每日一場直播的形式展開，每個工作日發(fā)布一個新產(chǎn)品或樣品。據(jù)科技媒體 The Verge 援引知情人士透露，這些新產(chǎn)品中包含用戶們期待已久的文字轉(zhuǎn)視頻工具 Sora 和一款新的推理模型。前 OpenAI 首席技術(shù)官 Mira Murati 在 3 月份告訴?《華爾街日報》，Sora 將于今年年底上市。

除此之外，OpenAI 可能會給 ChatGPT 語音模式增加一個「圣誕老人」語音，已經(jīng)有用戶在代碼里發(fā)現(xiàn)語音模式的按鈕可以變成雪花的形狀。

圖片來源于山姆·奧特曼 X官方

▍核心亮點：可能發(fā)布的產(chǎn)品及功能

根據(jù)熟悉OpenAI內(nèi)部計劃的消息人士及外界推測，本次活動可能推出以下產(chǎn)品和功能：

l Sora：文本轉(zhuǎn)視頻工具，支持高質(zhì)量視頻生成，為創(chuàng)作者帶來新可能性。

l O1推理模型：增強版推理模型，或成為GPT-4的繼任者。

l 新圖像模型：可能替代現(xiàn)有的DALL-E技術(shù)，進一步提升圖像生成能力。

l 語音模式增強：包括高品質(zhì)語音合成和更自然的語音交互功能。

l 開發(fā)者工具升級：通過改進API接口，拓展AI在軟件開發(fā)中的應(yīng)用。

l 全新代理框架：“操作員”框架，或支持用戶在日常操作中使用AI進行自動化管理。

圖片來源于網(wǎng)絡(luò)

▍Sora發(fā)布：開創(chuàng)AI內(nèi)容創(chuàng)作新范式

綜合 OpenAI 的創(chuàng)新歷史和用戶反饋，此次活動的亮點之一就是Sora的推出。這款文本轉(zhuǎn)視頻工具此前已進入Alpha測試階段，并受到數(shù)百名藝術(shù)家的試用。盡管Sora此前因測試過程中的版權(quán)爭議而受到一些批評，其正式發(fā)布仍備受關(guān)注。

Sora通過結(jié)合圖像、音頻和動態(tài)場景的生成能力，Sora為藝術(shù)創(chuàng)作者、教育機構(gòu)和影視制作團隊提供了全新的工具，可生成長達1分鐘的高清視頻，將顯著提升了內(nèi)容制作的效率與創(chuàng)意空間。

▍更多生成式AI視頻工具：是否準備好

自從今年SORA發(fā)布之后，就在生成式AI視頻賽道產(chǎn)生了很大的波瀾，甚至不斷有AI視頻工具在發(fā)布新功能時要和SORA產(chǎn)生關(guān)聯(lián)。Sora在生成長度、多樣性和技術(shù)創(chuàng)新方面具有顯著優(yōu)勢，促使其他工具之后在特定功能和應(yīng)用場景中不斷增加自己獨特的優(yōu)勢來迎接SORA帶來的沖擊。

目前主流的AI視頻工具：

1. 谷歌 Veo

谷歌于12月3日推出了Veo，宣稱是谷歌版“SORA”，官方稱其是谷歌最強大的視頻生成模型，生成的視頻更精準、更逼真。從放出的視頻來看，圖生視頻和文生視頻的效果都很高清并且細節(jié)上處理的很細致。

圖片來源于谷歌

2. Meta Movie Gen

Meta于10月5日發(fā)布了Movie Gen，這是一款A(yù)I視頻生成工具，號稱META版Sora，Sora有的它都有，可創(chuàng)建不同寬高比的高清長視頻，支持1080p、16秒、每秒16幀。Sora沒有的它還有，能生成配套的背景音樂和音效、根據(jù)文本指令編輯視頻，以及根據(jù)用戶上傳的圖像生成個性化視頻。Meta表示，這是“迄今為止最先進的媒體基礎(chǔ)模型（Media Foundation Models）”。只需一句“把燈籠變成飛向空中的泡泡”，就能替換視頻中的物體，同時透明的泡泡正確反射了背景環(huán)境。與Sora只有演示和官網(wǎng)博客不同，Meta在92頁的論文中把架構(gòu)、訓(xùn)練細節(jié)都公開了。

3. Adobe Firefly Video Model

Adobe于10月宣布即將發(fā)布其生成式AI視頻創(chuàng)作工具Firefly Video Model。將與今年早些時候推出的OpenAI的Sora競爭，該工具可根據(jù)文本描述和靜態(tài)圖像生成短視頻片段，并提供可定制的攝像機控制。Adobe強調(diào)，F(xiàn)irefly經(jīng)過訓(xùn)練，可避免版權(quán)問題。

雖然Adobe目前沒有宣布任何正式客戶，但百事可樂旗下的佳得樂公司將在一個網(wǎng)站上使用它的圖像生成模型為客戶定制瓶子，美泰公司也一直在使用Adobe工具輔助設(shè)計其芭比娃娃系列的包裝。

4. Runway Gen-3

Runway的Gen-3模型可以根據(jù)文本、圖像或視頻提示生成短視頻片段，支持多種風(fēng)格和場景。該模型自主學(xué)習(xí)3D動態(tài)，能夠生成照片級真實的視頻，特別適用于藝術(shù)家的創(chuàng)作過程。是目前用戶使用最廣泛的主流AI工具，目前Runway還推出相機控制（Camera Control）功能，現(xiàn)在視頻能以任意角度運鏡，模擬像人拍攝一樣的手法

5. Pika

Pika Labs推出的Pika工具允許用戶通過文本或圖像提示生成3D動畫、動漫、卡通或電影風(fēng)格的視頻。Pika 1.5版本引入了"Pikaffects"特效庫，增強了視頻內(nèi)容的專業(yè)質(zhì)感和創(chuàng)意效果。

6. PixVerse

愛詩科技的PixVerse支持文本生成視頻、圖片轉(zhuǎn)視頻等功能，用戶可以快速制作短視頻片段。PixVerse V2版本采用Diffusion+Transformer架構(gòu)，提升了視頻的分辨率、細節(jié)和動作幅度。

7. 字節(jié)跳動的即夢AI

字節(jié)跳動的即夢AI應(yīng)用能夠根據(jù)文本提示生成視頻，提供訂閱服務(wù)，用戶每月可生成約168個AI視頻。該應(yīng)用由字節(jié)跳動旗下的Faceu Technology開發(fā)，已在多個平臺上線。但目前在寫實畫面上還是相對弱一些還不能和RUNWAY的效果相比。

8. 智譜AI的清影

智譜AI的視頻模型清影不但支持生成5秒和10秒的視頻，分辨率可達768P，并支持16幀生成能力。背后的CogVideoX模型更懂復(fù)雜prompt，能夠保持人物等主體的連貫性，效果更逼真。該模型在11月的新版本還集成了CogSound音效模型，可生成與畫面匹配的音效。如此一來，AI已經(jīng)具備了制作像上面這樣微電影（或短視頻）的全要素，而且在操作上也是非常簡單。該功能在SORA上甚至還沒有實現(xiàn)。

9. Luma AI的Dream Machine

Luma AI在今天發(fā)布了最新的視頻生成模型Luma Ray 2，同樣和SORA一樣最高支持生成1分鐘的一致性視頻，營銷點也是新LUMA版SORA，生成速度只需10秒。本次Luma AI的新模型，已被亞馬遜Amazon Bedrock平臺搶先集成。從效果上看也是非常震撼，嘴唇的紋路、頭發(fā)絲的質(zhì)感、一根根睫毛、甚至是皮膚表皮細胞都很清晰。

圖片來源于LUMA X官方

10. Stable Diffusion

Stable Diffusion是Stability AI推出的開源文本生成圖像模型，廣泛應(yīng)用于藝術(shù)創(chuàng)作和設(shè)計領(lǐng)域。通過擴散模型，Stable Diffusion能夠生成高質(zhì)量、風(fēng)格多樣的圖像，但在視頻生成SVD目前能力還比較有限，主要還是在圖片生成和控制領(lǐng)域。

11. VIDO

VIDO是生數(shù)科技推出的文生視頻模型，支持文本生成視頻和圖片轉(zhuǎn)視頻功能，提供寫實和動畫兩種風(fēng)格。VIDO采用Diffusion Transformer架構(gòu)，能夠生成4秒至8秒的視頻片段，生成速度較快，界面設(shè)計具有電影放映機的風(fēng)格。

其在11月增加了多主體一致性的功能，這個功能支持上傳1～3張參照，來實現(xiàn)對多主體的控制?？梢愿鶕?jù)明確地點、人物、行為、形象，就能實現(xiàn)精準控制和編輯。未來“只要上傳一張角色圖+一張環(huán)境圖”就可以創(chuàng)作連續(xù)的視頻故事。

圖片來源于VIDU X官方

12. 騰訊混元大模型

騰訊混元大模型是騰訊推出的多模態(tài)AI模型，其在12月3日開源了所有功能并宣稱為騰訊版SORA，130億參數(shù)，成為目前參數(shù)量最大的開源視頻生成模型。官方描述其有超寫實畫質(zhì)，模型生成的視頻內(nèi)容具備高清質(zhì)感、真實感，可用于工業(yè)級商業(yè)場景例如廣告宣傳、創(chuàng)意視頻生成等商業(yè)應(yīng)用。目前用戶真實反饋還不是很多。

13. 可靈

可靈是快手推出的文生視頻大模型，能夠生成大幅度合理運動，模擬物理世界特性，生成的視頻分辨率達1080p，時長最長可達2分鐘。并在最新的1.5版本增加了運動筆刷功能和RUNWAY的筆刷功能類似?？伸`采用類似Sora的DiT結(jié)構(gòu)，對模型中的隱空間編/解碼、時序建模等模塊進行升維，實現(xiàn)部分絕對真實世界觀的數(shù)據(jù)支持。是目前國內(nèi)用戶反饋相對比較高的AI視頻生成工具。

圖片來源：量子位

在激烈的行業(yè)競爭背景下，不難看出大部分公司都在更新產(chǎn)品的功能來突出優(yōu)勢增加產(chǎn)品力，但似乎很多公司被束縛在SORA的框架里，更新功能也要和SORA產(chǎn)生關(guān)聯(lián)來證明自己的產(chǎn)品競爭力，這次SORA似乎真的要來了，是不是可以真實的PK一下了。

來源：第一電動網(wǎng)

作者：永娟

本文地址：http://autopag.com/news/jishu/256278

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。