☰

李飛飛「數字表兄弟」破解機器人訓練難題！零樣本sim2real成功率高達90%

新智元報道

編輯：編輯部 HXZ

【新智元導讀】在用模擬環境訓練機器人時，所用的數據與真實世界存在着巨大的差異。爲此，李飛飛團隊提出「數字表親」，這種虛擬資產既具備數字孿生的優勢，還能補足泛化能力的不足，並大大降低了成本。

如何有效地將真實數據擴展到模擬數據，進行機器人學習？

最近，李飛飛團隊提出一種「數字表親」的新方法，可以同時降低真實到模擬生成的成本，同時提高學習的普遍性。

項目主頁：https://digital-cousins.github.io/

論文地址：https://arxiv.org/abs/2410.07408

目前，論文已被CORL2024接收。

你可能會問，什麼是「數字表親」，有啥用呢？

讓我們把它跟數字孿生比較一下。

的確，數字孿生可以準確地對場景進行建模，然而它的生成成本實在太昂貴了，而且還無法提供泛化功能。

而另一方面，數字表親雖然沒有直接模擬現實世界的對應物，卻仍然能夠捕獲相似的幾何和語義功能。

這樣，它就大大降低了生成類似虛擬環境的成本，同時通過提供類似訓練場景的分佈，提高了從模擬到真實域遷移的魯棒性。

共同一作Tianyuan Dai表示，既然有免費的「數字表親」了，何必再去手工設計數字孿生？

亮眼的是，「數字表親」能同時實現——

單幅圖像變成交互式場景

全自動（無需註釋）

機器人策略在原始場景中的零樣本部署

簡單拍一張照片，就能搞定了

模擬數據難題：與現實環境差異過大

在現實世界中訓練機器人，存在策略不安全、成本高昂、難以擴展等問題；相比之下，模擬數據是一種廉價且潛在無限的訓練數據來源。

然而，模擬數據存在一個難以忽視的問題——與現實環境之間的語義和物理差異。

這些差異可以通過在數字孿生中進行訓練來最小化，但數字孿生作爲真實場景的虛擬複製品，同樣成本高昂且無法跨域泛化。

正是爲了解決這些限制，論文提出了「數字表親」（digital cousion）的概念。

「數字表親」是一種虛擬資產或場景，與數字孿生不同，它不明確模擬現實世界的對應物，但仍然展現類似的幾何和語義功能。

因此，數字表親既具備了數字孿生的優勢，能夠補足現實數據的不足，同時降低了生成類似虛擬環境的成本，並能更好地促進跨域泛化。

具體而言，論文引入了一種自動創建數字表親（Automatic Creation of Digital Cousins，ACDC）的新方法，並提出了一個完全自動化的，從真實到模擬再到真實的流程，用於生成交互式場景和訓練策略。

實驗結果發現，ACDC生成的數字表親場景能夠保留幾何和語義功能，訓練出的策略也優於數字孿生（90% vs. 25%），而且可以通過零樣本學習直接部署在原始場景中。

方法概述

與數字孿生不同，數字表親並不苛求在所有微小細節上都要重建給定場景，而是專注於保留更高級別的細節，例如空間關係和語義。

ACDC是一個完全自動化的端到端流程，從單個RGB圖像生成完全交互式的模擬場景，由三個連續步驟組成：

信息提取：首先，從輸入的RGB圖像中提取對象信息。

數字表親匹配：利用第一步提取的信息，結合預先準備的3D模型資產數據集，爲檢測到的每個對象匹配相應的數字表親。

場景生成：對選擇的數字表親進行後處理並編譯在一起，生成一個物理上合理且完全交互式的模擬場景。

通過這三個步驟，ACDC能夠自動創建與輸入圖像語義相似但不完全相同的虛擬場景，爲機器人策略訓練提供多樣化的環境。

策略學習

構建了一組數字表親後，就可以這些環境中訓練機器人策略。

雖然這種方法適用於多種訓練範式，例如強化學習或模仿學習，但本文選擇聚焦于于腳本演示（scripted demonstrations）的模仿學習，因爲這種範式不需要人類演示，與完全自主化的ACDC流程更加適配。

爲了能在模擬環境中自動實現演示的收集，作者首先實施了一組基於樣本的技能，包括Open（開）、 Close（關）、 Pick（拿）和Place（放）四種。

雖然技能的種類數仍然有限，但已經足夠收集各種日常任務的演示，例如對象重新排列和傢俱鉸接。

實驗

通過實驗，團隊回答了以下研究問題：

Q1：ACDC能否生成高質量的數字表親場景？給定單張RGB圖像，ACDC能否捕捉原始場景中固有的高級語義和空間細節？

Q2：在原始的環境設置上評估時，在數字表親上訓練的策略能否匹配數字孿生的性能？

Q3：在分佈外設置上評估時，在數字表親上訓練的策略是否表現出更強的穩健性？

Q4：在數字表親上訓練的策略能否實現零樣本的sim2real策略遷移？

首先團隊需要論證的最重要的問題，就是ACDC能生成高質量的數字表親場景嗎？

從表格中的數據來看，結果十分令人滿意。

以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。

在sim2sim場景中對ACDC進行場景重建的定量和定性評估

評估指標包括：

「Scale」：輸入場景中兩個對象邊界框之間的最大距離。

「Cat.」：正確分類對象佔場景總對象總數的比例。

「Mod.」：正確建模對象佔場景中對象總數的比例。

「L2 Dist.」：輸入和重建場景中邊界框中心間歐幾里得距離的均值和標準差。

「Ori. Diff.」：每個中心對稱對象方向幅度差異的均值和標準差。

「Bbox IoU」：資產3D邊界框的交併比（IoU）。

以下是ACDC實景到模擬場景的重建結果。

在給定場景中，會顯示多個數字表親。

ACDC真實到模擬場景重建結果的定性評估，展示了爲給定場景生成的多個數字表親

基於這些結果，研究者可以肯定地回答Q1了——

ACDC確實能夠保留輸入場景的語義和空間細節，從單張RGB圖像生成真實世界對象的數字表親，並能準確定位和縮放以匹配原始場景。

sim2sim的策略學習

這部分的實驗主要是爲了回答上述研究中的Q2和Q3，在3個任務上分析ACDC訓練策略的能力，包括「開門」、「打開抽屜」和「收起碗」，每項任務都與數字孿生設置進行了對比。

不同設置中的總體成功率如下圖所示。

可以發現，在數字表親上訓練的策略通常可以匹配，甚至優於數字孿生的設置。

作者假設，由於數字表親的策略是在不同環境設置的數據上進行訓練的，因此可以覆蓋廣泛的狀態空間，從而很好地推廣到原始數字孿生設置。

然而，在另一個極端，針對所有可行資產（All Assets）進行訓練場的策略要比數字孿生差得多，這表明樸素的領域隨機化並不總是有用的。

此外，隨着DINO嵌入距離的增加，即評估設置與原始設置的差異逐漸增大，數字孿生的策略性能通常會出現成比例的顯著下降，但數字孿生策略整體表現更加穩定，證明了在分佈外設置上的魯棒性。

sim2real的策略學習

隨後，研究者對數字孿生和數字表親策略進行了零樣本現實世界評估。

任務是給宜家櫃子上開門。

評估指標就是成功率。

結果顯示，模擬結果平均超過50次試驗，真實結果平均超過20次試驗。

real2sim2real的場景生成和策略學習

無論是數字孿生還是數字表親，最終的落腳點還是要在真實環境中對比性能。

因此實驗的最後，團隊在完全真實（in-the-wild）的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學習框架。

在經過數字表親的專門模擬訓練後，機器人可以成功打開廚房櫥櫃，證明了ACDC方法遷移到真實環境中的有效性。

以下Demo展示了完全自動化的數字表親生成過程。

左右滑動查看

零樣本的sim2real策略遷移實驗表明，僅從上述生成的四個數字表親訓練的模擬策略，可以直接遷移到相應的真實廚房場景。

基於這些結果，研究者可以肯定地回答Q2、Q3和Q4了——

使用數字表親訓練的策略，表現出了與在數字孿生上訓練策略相當的分佈內性能，以及更強的分佈外魯棒性，並且可以實現零樣本從模擬到現實的策略遷移。

失敗案例

即使ACDC方法表現出了整體上的優越性能，研究團隊也在實驗中觀察到了幾個失敗案例，例如：在打開櫃子的任務中，機器人未能完全移動到把手所在位置——

或者移動時錯過把手——

即使正確找到了把手所在位置，也有可能手滑——

可以觀察到，ACDC經常在以下幾種情況下陷入困境：

a. 高頻深度信息

b. 遮擋

c .語義類別差異

d. 缺乏相應類別的資產

e. 除「位於頂部」之外的對象關係

前三個限制，與ACDC的參數化方式直接相關。

比如對於(a)，由於ACDC依賴於相對準確的深度估計，來計算預測的對象3D邊界框，因此不準確的深度圖可能會導致ACDC對物體模型的估計相應較差。

原生深度傳感器在物體邊界附近可能難以產生準確的讀數，這是因爲深度圖在這些區域可能出現不連續性。當物體具有許多精細邊界時（例如植物和柵欄），這個問題會變得更加複雜。

此外，由於研究者依賴現成的基礎模型（DepthAnything-v2）來預測合成深度圖，因此也承襲了模型自身的一系列限制，例如對特殊物體或在不利的視覺條件下的預測較差。

結論

最終，研究者得出了以下結論。

ACDC是一個全自動化管線，能夠快速生成與單張真實世界RGB圖像相對應的完全交互式數字表親場景。

研究發現：

1. 魯棒性

在這些數字表親設置上訓練的策略，比在數字孿生上訓練的策略表現出更強的魯棒性。

爲了進一步檢查數字表親對樸素域隨機化的相對影響，研究者根據其他基線在 DoorOpening任務上重新運行了sim2sim實驗

2. 性能對比

領域內性能：數字表親訓練的策略與數字孿生訓練的策略相當。

領域外泛化：數字表親訓練的策略展現出優越的領域外泛化能力。

3. 零樣本學習

數字表親訓練的策略能夠實現零樣本從模擬到現實的策略遷移。

作者介紹

Tianyuan Dai

Tianyuan Dai本科畢業於香港科技大學，獲得了計算機科學和數學學士學位，目前在斯坦福攻讀碩士學位，隸屬於斯坦福SVL實驗室（Vision and Learning Lab）和PAIR研究小組（People, AI & Robots Group），由李飛飛指導。

他的長期願景是將人類對現實世界環境的理解融入到機器人算法中，使用數據驅動的方法幫助人們完成日常任務；最近研究的重點是開發real2sim2real範式，以實現穩健的操控策略學習（manipulation policy learning）。

Josiah Wong

Josiah Wong目前在斯坦福大學攻讀機械工程博士學位，導師是李飛飛，同樣在SVL和PAIR組工作。

此前，他在斯坦福大學獲得碩士學位，在加利福尼亞大學聖迭戈分校獲得學士學位。

他致力於利用仿真技術來拓展機器人操作能力，目標是推動日常通用機器人的發展，從而改善我們的日常生活。

參考資料：

https://x.com/RogerDai1217/status/1844411408374693941

李飛飛「數字表兄弟」破解機器人訓練難題！零樣本sim2real成功率高達90%

相關資訊