1. 首頁(yè)
  2. 資訊
  3. 技術(shù)
  4. 李飛飛與World Labs的3D AI革命:從單圖到沉浸式3D世界的跨越

李飛飛與World Labs的3D AI革命:從單圖到沉浸式3D世界的跨越

第一電動(dòng)永娟

12 月 3 日,在人工智能領(lǐng)域,World Labs首席執(zhí)行官李飛飛博士突然宣布了一項(xiàng)突破性進(jìn)展:一個(gè)能夠從單張圖像生成完整3D世界的AI系統(tǒng)。這一系統(tǒng)的核心在于其生成的3D世界不僅具有交互性,而且遵循基本的物理幾何規(guī)則。

image.png

圖片來(lái)源于:量子位

3D世界生成:從圖像到沉浸式體驗(yàn)

World Labs的AI系統(tǒng)通過(guò)單張輸入圖像生成一個(gè)完全交互式的3D世界,支持?jǐn)z像機(jī)移動(dòng)、深景控制、光影調(diào)整及物體插入等操作。與傳統(tǒng)AI模型著眼于像素預(yù)測(cè)不同,這套系統(tǒng)直接預(yù)測(cè)并生成3D幾何結(jié)構(gòu)。這意味著場(chǎng)景在用戶改變視角或重新審視時(shí)依然保持一致,解決了以往模型缺乏持久性和穩(wěn)定性的缺陷。

用戶可以通過(guò)瀏覽器實(shí)時(shí)探索生成的3D場(chǎng)景,如同玩游戲般直觀自由。從淺景深到希區(qū)柯克變焦等專業(yè)攝像效果,該技術(shù)將攝影級(jí)別的操作融入生成式AI系統(tǒng),顯著提升了交互體驗(yàn)。此外,系統(tǒng)還能動(dòng)態(tài)調(diào)整光照、修改物體形狀及插入新對(duì)象,為創(chuàng)作者提供了前所未有的工具。目前不足在于交互的邊界范圍很窄,活動(dòng)范圍還不夠。

image.png

圖片來(lái)源于World Labs X官方

技術(shù)亮點(diǎn):

l 實(shí)時(shí)瀏覽器渲染:用戶可以直接在瀏覽器中探索生成的3D場(chǎng)景,實(shí)現(xiàn)類似電子游戲的自由視角控制。

l 專業(yè)攝影效果:支持淺景深、搖鏡頭變焦等3D攝像機(jī)效果。

l 深度感知:通過(guò)深度圖技術(shù),精確呈現(xiàn)場(chǎng)景中物體與攝像機(jī)的距離關(guān)系。

l 場(chǎng)景交互:支持改變光照、修改幾何形狀,以及插入新對(duì)象等功能。

l 創(chuàng)意整合:與文本生成圖片等AI工具結(jié)合,支持藝術(shù)創(chuàng)作和工作流優(yōu)化。

此外,之前大多數(shù)生成模型預(yù)測(cè)的是像素,而這個(gè)AI系統(tǒng)直接預(yù)測(cè)3D場(chǎng)景。所以場(chǎng)景在你移開視線再回來(lái)時(shí)不會(huì)發(fā)生變化。官方則表示“這僅僅是3D原生生成AI未來(lái)的一個(gè)縮影”:“我們正在努力盡快將這項(xiàng)技術(shù)交到用戶手中!”

image.png圖片來(lái)源于World Labs X官方


從隱身到聚焦:World Labs的發(fā)展路徑

World Labs成立于2024年1月,是李飛飛首次創(chuàng)業(yè)創(chuàng)立的空間智能公司,專注于構(gòu)建“大世界模型”(LWM)來(lái)感知、生成3D世界并與之交互。公司在2024年9月正式結(jié)束隱身狀態(tài),并宣布過(guò)去兩輪融資共籌得2.3億美元,估值達(dá)10億美元,投資方包括a16z、英偉達(dá)、領(lǐng)英創(chuàng)始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。預(yù)計(jì)公司將在2025年推出首款產(chǎn)品,從世界模型的生成開始逐步支持AR技術(shù)、機(jī)器人技術(shù)及自動(dòng)駕駛等領(lǐng)域。

image.png

圖片來(lái)源:量子位

李飛飛在《經(jīng)濟(jì)人》的內(nèi)容也強(qiáng)調(diào)了“計(jì)算機(jī)要想擁有人類的空間智能,就需要能夠模擬世界、推理事物和地點(diǎn),并在時(shí)間和三維空間中互動(dòng)。簡(jiǎn)而言之,我們需要從大型語(yǔ)言模型轉(zhuǎn)向大型世界模型?!?/p>

從2D到3D:定義生成式AI的新方向

如果說(shuō)Stable Diffusion 是 2D 快照。Sora 是 2D + 時(shí)間快照。那么World Labs 是一個(gè) 3D、完全沉浸式快照。在生成式 AI 快速發(fā)展的今天,能夠從單張圖像生成完整 3D 世界的 AI 系統(tǒng)。

這一突破式創(chuàng)新超越了現(xiàn)有生成式AI模型的控制力與一致性局限,為創(chuàng)作者提供了更多可能性。正如李飛飛在《經(jīng)濟(jì)人》文章中所強(qiáng)調(diào)的,“從大型語(yǔ)言模型轉(zhuǎn)向大型世界模型是AI發(fā)展的下一個(gè)前沿,也是以人為本的人工智能的核心所在?!?/p>

image.png

圖片來(lái)源:量子位

技術(shù)應(yīng)用場(chǎng)景:3D多領(lǐng)域場(chǎng)景

World Labs的技術(shù)不僅在技術(shù)層面上實(shí)現(xiàn)了突破,也展現(xiàn)了其在數(shù)字創(chuàng)作領(lǐng)域的廣泛應(yīng)用潛力。例如,團(tuán)隊(duì)成功將愛(ài)德華·霍普的名畫《夜游者》轉(zhuǎn)化為一個(gè)可探索的3D環(huán)境,為藝術(shù)創(chuàng)作提供了全新視角和工具。

盡管目前生成3D場(chǎng)景的活動(dòng)范圍和交互邊界仍有限,但李飛飛團(tuán)隊(duì)表示,這僅是3D原生生成AI未來(lái)的縮影。隨著技術(shù)的進(jìn)一步發(fā)展,World Labs的AI系統(tǒng)有望在影視制作、游戲設(shè)計(jì)、AR/VR體驗(yàn)、建筑設(shè)計(jì)等領(lǐng)域產(chǎn)生深遠(yuǎn)影響。目前該技術(shù)正在向部分創(chuàng)作者開放測(cè)試,有望為數(shù)字創(chuàng)作帶來(lái)革命性的改變。

image.png

圖片來(lái)源于李飛飛 X官方

在AI技術(shù)快速發(fā)展的當(dāng)下,李飛飛和她的World Labs團(tuán)隊(duì)正在為人類與機(jī)器之間的交互創(chuàng)造更自然、更高效的方式。正如李飛飛所說(shuō),“無(wú)論如何理論化這一想法,與3D場(chǎng)景交互的體驗(yàn)難以用語(yǔ)言形容?!?/p>

來(lái)源:第一電動(dòng)網(wǎng)

作者:永娟

本文地址:http://www.healthsupplement-reviews.com/news/jishu/256146

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
97
  • 分享到:
發(fā)表評(píng)論
新聞推薦
熱文榜
日排行
周排行
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!
-->