12 月 3 日,在人工智能領域,World Labs首席執行官李飛飛博士突然宣布了一項突破性進展:一個能夠從單張圖像生成完整3D世界的AI系統。這一系統的核心在于其生成的3D世界不僅具有交互性,而且遵循基本的物理幾何規則。
圖片來源于:量子位
▍3D世界生成:從圖像到沉浸式體驗
World Labs的AI系統通過單張輸入圖像生成一個完全交互式的3D世界,支持攝像機移動、深景控制、光影調整及物體插入等操作。與傳統AI模型著眼于像素預測不同,這套系統直接預測并生成3D幾何結構。這意味著場景在用戶改變視角或重新審視時依然保持一致,解決了以往模型缺乏持久性和穩定性的缺陷。
用戶可以通過瀏覽器實時探索生成的3D場景,如同玩游戲般直觀自由。從淺景深到希區柯克變焦等專業攝像效果,該技術將攝影級別的操作融入生成式AI系統,顯著提升了交互體驗。此外,系統還能動態調整光照、修改物體形狀及插入新對象,為創作者提供了前所未有的工具。目前不足在于交互的邊界范圍很窄,活動范圍還不夠。
圖片來源于World Labs X官方
▍技術亮點:
l 實時瀏覽器渲染:用戶可以直接在瀏覽器中探索生成的3D場景,實現類似電子游戲的自由視角控制。
l 專業攝影效果:支持淺景深、搖鏡頭變焦等3D攝像機效果。
l 深度感知:通過深度圖技術,精確呈現場景中物體與攝像機的距離關系。
l 場景交互:支持改變光照、修改幾何形狀,以及插入新對象等功能。
l 創意整合:與文本生成圖片等AI工具結合,支持藝術創作和工作流優化。
此外,之前大多數生成模型預測的是像素,而這個AI系統直接預測3D場景。所以場景在你移開視線再回來時不會發生變化。官方則表示“這僅僅是3D原生生成AI未來的一個縮影”:“我們正在努力盡快將這項技術交到用戶手中!”
圖片來源于World Labs X官方
▍從隱身到聚焦:World Labs的發展路徑
World Labs成立于2024年1月,是李飛飛首次創業創立的空間智能公司,專注于構建“大世界模型”(LWM)來感知、生成3D世界并與之交互。公司在2024年9月正式結束隱身狀態,并宣布過去兩輪融資共籌得2.3億美元,估值達10億美元,投資方包括a16z、英偉達、領英創始人Reid Hoffman、谷歌前CEO Eric Schmidt及AI教父Geoffery Hinton等。預計公司將在2025年推出首款產品,從世界模型的生成開始逐步支持AR技術、機器人技術及自動駕駛等領域。
圖片來源:量子位
李飛飛在《經濟人》的內容也強調了“計算機要想擁有人類的空間智能,就需要能夠模擬世界、推理事物和地點,并在時間和三維空間中互動。簡而言之,我們需要從大型語言模型轉向大型世界模型。”
▍從2D到3D:定義生成式AI的新方向
如果說Stable Diffusion 是 2D 快照。Sora 是 2D + 時間快照。那么World Labs 是一個 3D、完全沉浸式快照。在生成式 AI 快速發展的今天,能夠從單張圖像生成完整 3D 世界的 AI 系統。
這一突破式創新超越了現有生成式AI模型的控制力與一致性局限,為創作者提供了更多可能性。正如李飛飛在《經濟人》文章中所強調的,“從大型語言模型轉向大型世界模型是AI發展的下一個前沿,也是以人為本的人工智能的核心所在。”
圖片來源:量子位
▍技術應用場景:3D多領域場景
World Labs的技術不僅在技術層面上實現了突破,也展現了其在數字創作領域的廣泛應用潛力。例如,團隊成功將愛德華·霍普的名畫《夜游者》轉化為一個可探索的3D環境,為藝術創作提供了全新視角和工具。
盡管目前生成3D場景的活動范圍和交互邊界仍有限,但李飛飛團隊表示,這僅是3D原生生成AI未來的縮影。隨著技術的進一步發展,World Labs的AI系統有望在影視制作、游戲設計、AR/VR體驗、建筑設計等領域產生深遠影響。目前該技術正在向部分創作者開放測試,有望為數字創作帶來革命性的改變。
圖片來源于李飛飛 X官方
在AI技術快速發展的當下,李飛飛和她的World Labs團隊正在為人類與機器之間的交互創造更自然、更高效的方式。正如李飛飛所說,“無論如何理論化這一想法,與3D場景交互的體驗難以用語言形容。”
來源:第一電動網
作者:永娟
本文地址:http://www.155ck.com/news/jishu/256146
文中圖片源自互聯網,如有侵權請聯系admin#d1ev.com(#替換成@)刪除。