企業(yè) 人工智能模型

AI早報 | 文本、圖像、音視頻、3D互相生成是什么體驗？

Ballad 2023-05-19 09:17

1631684464880_.pic.jpg

當?shù)貢r間5月9日，Meta宣布開源了一種可以將可以橫跨6種不同模態(tài)的全新AI模型ImageBind，包括視覺（圖像和視頻形式）、溫度（紅外圖像）、文本、音頻、深度信息、運動讀數(shù)（由慣性測量單元或IMU產(chǎn)生）。目前，相關源代碼已托管至GitHub。

何為橫跨6種模態(tài)？

即以視覺為核心，ImageBind可做到6個模態(tài)之間任意的理解和轉換。Meta展示了一些案例，如聽到狗叫畫出一只狗，同時給出對應的深度圖和文字描述；如輸入鳥的圖像+海浪的聲音，得到鳥在海邊的圖像。

相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對的圖像生成器，ImageBind 更像是廣撒網(wǎng)，可以連接文本、圖像/視頻、音頻、3D 測量（深度）、溫度數(shù)據(jù)（熱）和運動數(shù)據(jù)（來自 IMU），而且它無需先針對每一種可能性進行訓練，直接預測數(shù)據(jù)之間的聯(lián)系，類似于人類感知或者想象環(huán)境的方式。

640 (2).png

研究者表示 ImageBind 可以使用大規(guī)模視覺語言模型（如 CLIP）進行初始化，從而利用這些模型的豐富圖像和文本表示。因此，ImageBind 只需要很少的訓練就可以應用于各種不同的模態(tài)和任務。

ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分，從而實現(xiàn)從所有相關類型數(shù)據(jù)中學習。隨著模態(tài)數(shù)量的增加，ImageBind 為研究人員打開了嘗試開發(fā)全新整體性系統(tǒng)的閘門，例如結合 3D 和 IMU 傳感器來設計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式，即組合使用文本、視頻和圖像來搜索圖像、視頻、音頻文件或文本信息。

640 (3).png

該模型目前只是一個研究項目，沒有直接的消費者和實際應用，但是它展現(xiàn)了生成式 AI 在未來能夠生成沉浸式、多感官內(nèi)容的方式，也表明了 Meta 正在以與 OpenAI、Google 等競爭對手不同的方式，趟出一條屬于開源大模型的路。

最終，Meta 認為 ImageBind 這項技術最終會超越目前的六種“感官”，其在博客上說道，“雖然我們在當前的研究中探索了六種模式，但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。”

ImageBind的用途

如果說 ChatGPT 可以充當搜索引擎、問答社區(qū)，Midjourney 可以被用來當畫畫工具，那么用 ImageBind 可以做什么？

根據(jù)官方發(fā)布的 Demo 顯示，它可以直接用圖片生成音頻：

640 (8).png

也可以音頻生成圖片：

640 (7).png

亦或者直接給一個文本，就可以檢索相關的圖片或者音頻內(nèi)容：

640 (9).png

也可以給出音頻，生成相應的圖像：

640 (10).png

正如上文所述， ImageBind 給出了未來生成式 AI 系統(tǒng)可以以多模態(tài)呈現(xiàn)的方式，同時，結合 Meta 內(nèi)部的虛擬現(xiàn)實、混合現(xiàn)實和元宇宙等技術和場景結合。用 ImageBind 這樣的工具會在無障礙空間打開新的大門，譬如，生成實時多媒體描述來幫助有視力或聽力障礙的人更好地感知他們的直接環(huán)境。

關于多模態(tài)學習還有很多待發(fā)掘的內(nèi)容。人工智能研究界尚未有效地量化只出現(xiàn)在較大模型中的擴展行為并理解其應用。ImageBind是朝著以嚴格的方式評估它們并展示在圖像生成和檢索方面的新應用的一步。

來源：第一電動網(wǎng)

作者：Ballad

本文地址：http://autopag.com/news/qiye/202963

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權請聯(lián)系admin#d1ev.com（#替換成@）刪除。