商超大模型機器人把具身智能大模型從“溫馨的桌面實驗室”拉進了“硬核的商超前線”。它不僅是一套測試集,更是一個揭示當前大模型在復雜擁擠空間中有多“笨拙”的照妖鏡。
商超大模型機器人的核心設計圍繞如何高效、逼真地在仿真器中復現一個極度擁擠且充滿變數的零售商超環境。其實現聚焦三個關鍵模塊:程序化商店與動態消耗模擬(環境構建)、海量資產與幾何物理優化(底層加速)、長程任務與基準評測體系(驗證閉環)。
關鍵模塊一:程序化“暗店”環境生成
這個模塊要解決的,是“如何源源不斷地生成不重樣的復雜超市”。
1、動態陳列與貨架消耗 (Shelf Depletion) :真實的超市貨架不是永遠填滿的,商品會被不斷拿走。如圖 3 所示,仿真器不僅能程序化地排列商品,還能模擬隨時間推移商品被拿走后的“缺貨(Depletion)”狀態,這迫使機器人需要學會在散亂、非規則排列的物品中進行目標識別和抓取,極大提升了任務的隨機性和真實感。
2、物理材質與光影多樣性:如圖 5 所示,管線內置了多種天花板、墻壁和地板的高質量紋理,結合不同的光照條件,確保生成的每一家“暗店”在視覺分布上都有所區別,從而強化模型視覺特征提取的泛化能力。
關鍵模塊二:海量資產與幾何物理優化
解決“成千上萬個商品導致的物理碰撞計算爆炸”問題。
1、豐富的高保真 3D 資產:如圖 4 所示,團隊收集并清理了海量的日常雜貨、食品包裝等商品 3D 資產,這些物品在形狀、尺寸和抓取難度上各不相同。
2、幾何近似與物理加速 (Geometry Approximation) :這是保證該基準測試可用性的核心工程 Trick。
由于貨架上的商品極其密集,使用原始的復雜三角網格計算碰撞會導致極高的延遲。如圖 6 和圖 7 所示,系統為每一個高精模型生成了高度簡化的凸包幾何體(Convex Hull / Simplified Geometries)。在渲染時,相機看到的是精美的原始網格;但在物理引擎計算碰撞時,使用的是這些極簡模型。
3、極致的性能跨越:圖 10 的仿真時間對比有力地證明了這一點。當場景中貨架和商品數量激增時,使用了優化網格的場景(藍色柱)其仿真速度比使用原始網格(紅色柱)快了三倍以上,出色解決了大規模復雜擁擠環境仿真的算力瓶頸。
關鍵模塊三:任務錨點規劃與大模型“水土不服”驗證
驗證目前在桌面任務上大殺四方的通用大模型,在這個新基準里有多脆弱。
1、啟發式錨點姿態 (Anchor Poses) :為了在擁擠的貨架中自動化生成專家的示范軌跡,如圖 8 所示,運動規劃器(Motion Planner)利用商品附近的啟發式錨點姿態,引導機械臂避開貨架層板的遮擋,成功規劃出在逼仄空間內的安全抓取和放置路徑。
2、視覺輸入與模型評測:如圖 9 所示,系統會提取多視角的相機畫面(包括頭D、腕部等)輸入給模型。實驗結果令人警醒:目前許多號稱能夠泛化通用任務的 SOTA 具身大模型,在 RoboBenchMart 中面對貨架上的密集商品時,由于缺乏對深度和高度空間幾何的理解,極易發生碰撞或抓空,這揭示了現有模型在感知擁擠三維環境時的致命缺陷。
![]() |
| 機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 具身智能教育機器人 智能配送機器人 導覽機器人 |