當(dāng)?shù)貢r(shí)間5月9日,Meta宣布開源了一種可以將可以橫跨6種不同模態(tài)的全新AI模型ImageBind,包括視覺(jué)(圖像和視頻形式)、溫度(紅外圖像)、文本、音頻、深度信息、運(yùn)動(dòng)讀數(shù)(由慣性測(cè)量單元或IMU產(chǎn)生)。目前,相關(guān)源代碼已托管至GitHub。
何為橫跨6種模態(tài)?
即以視覺(jué)為核心,ImageBind可做到6個(gè)模態(tài)之間任意的理解和轉(zhuǎn)換。Meta展示了一些案例,如聽(tīng)到狗叫畫出一只狗,同時(shí)給出對(duì)應(yīng)的深度圖和文字描述;如輸入鳥的圖像+海浪的聲音,得到鳥在海邊的圖像。
相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣將文字與圖像配對(duì)的圖像生成器,ImageBind 更像是廣撒網(wǎng),可以連接文本、圖像/視頻、音頻、3D 測(cè)量(深度)、溫度數(shù)據(jù)(熱)和運(yùn)動(dòng)數(shù)據(jù)(來(lái)自 IMU),而且它無(wú)需先針對(duì)每一種可能性進(jìn)行訓(xùn)練,直接預(yù)測(cè)數(shù)據(jù)之間的聯(lián)系,類似于人類感知或者想象環(huán)境的方式。
研究者表示 ImageBind 可以使用大規(guī)模視覺(jué)語(yǔ)言模型(如 CLIP)進(jìn)行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓(xùn)練就可以應(yīng)用于各種不同的模態(tài)和任務(wù)。
ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分,從而實(shí)現(xiàn)從所有相關(guān)類型數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind 為研究人員打開了嘗試開發(fā)全新整體性系統(tǒng)的閘門,例如結(jié)合 3D 和 IMU 傳感器來(lái)設(shè)計(jì)或體驗(yàn)身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文本、視頻和圖像來(lái)搜索圖像、視頻、音頻文件或文本信息。
該模型目前只是一個(gè)研究項(xiàng)目,沒(méi)有直接的消費(fèi)者和實(shí)際應(yīng)用,但是它展現(xiàn)了生成式 AI 在未來(lái)能夠生成沉浸式、多感官內(nèi)容的方式,也表明了 Meta 正在以與 OpenAI、Google 等競(jìng)爭(zhēng)對(duì)手不同的方式,趟出一條屬于開源大模型的路。
最終,Meta 認(rèn)為 ImageBind 這項(xiàng)技術(shù)最終會(huì)超越目前的六種“感官”,其在博客上說(shuō)道,“雖然我們?cè)诋?dāng)前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺(jué)、語(yǔ)音、嗅覺(jué)和大腦 fMRI 信號(hào)——將使更豐富的以人為中心的人工智能模型成為可能?!?nbsp;
ImageBind的用途
如果說(shuō) ChatGPT 可以充當(dāng)搜索引擎、問(wèn)答社區(qū),Midjourney 可以被用來(lái)當(dāng)畫畫工具,那么用 ImageBind 可以做什么?
根據(jù)官方發(fā)布的 Demo 顯示,它可以直接用圖片生成音頻:
也可以音頻生成圖片:
亦或者直接給一個(gè)文本,就可以檢索相關(guān)的圖片或者音頻內(nèi)容:
也可以給出音頻,生成相應(yīng)的圖像:
正如上文所述, ImageBind 給出了未來(lái)生成式 AI 系統(tǒng)可以以多模態(tài)呈現(xiàn)的方式,同時(shí),結(jié)合 Meta 內(nèi)部的虛擬現(xiàn)實(shí)、混合現(xiàn)實(shí)和元宇宙等技術(shù)和場(chǎng)景結(jié)合。用 ImageBind 這樣的工具會(huì)在無(wú)障礙空間打開新的大門,譬如,生成實(shí)時(shí)多媒體描述來(lái)幫助有視力或聽(tīng)力障礙的人更好地感知他們的直接環(huán)境。
關(guān)于多模態(tài)學(xué)習(xí)還有很多待發(fā)掘的內(nèi)容。人工智能研究界尚未有效地量化只出現(xiàn)在較大模型中的擴(kuò)展行為并理解其應(yīng)用。ImageBind是朝著以嚴(yán)格的方式評(píng)估它們并展示在圖像生成和檢索方面的新應(yīng)用的一步。
來(lái)源:第一電動(dòng)網(wǎng)
作者:Ballad
本文地址:http://www.healthsupplement-reviews.com/news/qiye/202963
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。