李飛飛「數字表兄弟」破解機器人訓練難題!零樣本sim2real成功率高達90%

新智元報道

編輯:編輯部 HXZ

【新智元導讀】在用模擬環境訓練機器人時,所用的數據與真實世界存在着巨大的差異。爲此,李飛飛團隊提出「數字表親」,這種虛擬資產既具備數字孿生的優勢,還能補足泛化能力的不足,並大大降低了成本。

如何有效地將真實數據擴展到模擬數據,進行機器人學習?

最近,李飛飛團隊提出一種「數字表親」的新方法,可以同時降低真實到模擬生成的成本,同時提高學習的普遍性。

項目主頁:https://digital-cousins.github.io/

論文地址:https://arxiv.org/abs/2410.07408

目前,論文已被CORL2024接收。

你可能會問,什麼是「數字表親」,有啥用呢?

讓我們把它跟數字孿生比較一下。

的確,數字孿生可以準確地對場景進行建模,然而它的生成成本實在太昂貴了,而且還無法提供泛化功能。

而另一方面,數字表親雖然沒有直接模擬現實世界的對應物,卻仍然能夠捕獲相似的幾何和語義功能。

這樣,它就大大降低了生成類似虛擬環境的成本,同時通過提供類似訓練場景的分佈,提高了從模擬到真實域遷移的魯棒性。

共同一作Tianyuan Dai表示,既然有免費的「數字表親」了,何必再去手工設計數字孿生?

亮眼的是,「數字表親」能同時實現——

單幅圖像變成交互式場景

全自動(無需註釋)

機器人策略在原始場景中的零樣本部署

簡單拍一張照片,就能搞定了

模擬數據難題:與現實環境差異過大

在現實世界中訓練機器人,存在策略不安全、成本高昂、難以擴展等問題;相比之下,模擬數據是一種廉價且潛在無限的訓練數據來源。

然而,模擬數據存在一個難以忽視的問題——與現實環境之間的語義和物理差異。

這些差異可以通過在數字孿生中進行訓練來最小化,但數字孿生作爲真實場景的虛擬複製品,同樣成本高昂且無法跨域泛化。

正是爲了解決這些限制,論文提出了「數字表親」(digital cousion)的概念。

「數字表親」是一種虛擬資產或場景,與數字孿生不同,它不明確模擬現實世界的對應物,但仍然展現類似的幾何和語義功能。

因此,數字表親既具備了數字孿生的優勢,能夠補足現實數據的不足,同時降低了生成類似虛擬環境的成本,並能更好地促進跨域泛化。

具體而言,論文引入了一種自動創建數字表親(Automatic Creation of Digital Cousins,ACDC)的新方法,並提出了一個完全自動化的,從真實到模擬再到真實的流程,用於生成交互式場景和訓練策略。

實驗結果發現,ACDC生成的數字表親場景能夠保留幾何和語義功能,訓練出的策略也優於數字孿生(90% vs. 25%),而且可以通過零樣本學習直接部署在原始場景中。

方法概述

與數字孿生不同,數字表親並不苛求在所有微小細節上都要重建給定場景,而是專注於保留更高級別的細節,例如空間關係和語義。

ACDC是一個完全自動化的端到端流程,從單個RGB圖像生成完全交互式的模擬場景,由三個連續步驟組成:

信息提取:首先,從輸入的RGB圖像中提取對象信息。

數字表親匹配:利用第一步提取的信息,結合預先準備的3D模型資產數據集,爲檢測到的每個對象匹配相應的數字表親。

場景生成:對選擇的數字表親進行後處理並編譯在一起,生成一個物理上合理且完全交互式的模擬場景。

通過這三個步驟,ACDC能夠自動創建與輸入圖像語義相似但不完全相同的虛擬場景,爲機器人策略訓練提供多樣化的環境。

策略學習

構建了一組數字表親後,就可以這些環境中訓練機器人策略。

雖然這種方法適用於多種訓練範式,例如強化學習或模仿學習,但本文選擇聚焦于于腳本演示(scripted demonstrations)的模仿學習,因爲這種範式不需要人類演示,與完全自主化的ACDC流程更加適配。

爲了能在模擬環境中自動實現演示的收集,作者首先實施了一組基於樣本的技能,包括Open(開)、 Close(關)、 Pick(拿)和Place(放)四種。

雖然技能的種類數仍然有限,但已經足夠收集各種日常任務的演示,例如對象重新排列和傢俱鉸接。

實驗

通過實驗,團隊回答了以下研究問題:

Q1:ACDC能否生成高質量的數字表親場景?給定單張RGB圖像,ACDC能否捕捉原始場景中固有的高級語義和空間細節?

Q2:在原始的環境設置上評估時,在數字表親上訓練的策略能否匹配數字孿生的性能?

Q3:在分佈外設置上評估時,在數字表親上訓練的策略是否表現出更強的穩健性?

Q4:在數字表親上訓練的策略能否實現零樣本的sim2real策略遷移?

首先團隊需要論證的最重要的問題,就是ACDC能生成高質量的數字表親場景嗎?

從表格中的數據來看,結果十分令人滿意。

以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。

在sim2sim場景中對ACDC進行場景重建的定量和定性評估

評估指標包括:

「Scale」:輸入場景中兩個對象邊界框之間的最大距離。

「Cat.」:正確分類對象佔場景總對象總數的比例。

「Mod.」:正確建模對象佔場景中對象總數的比例。

「L2 Dist.」:輸入和重建場景中邊界框中心間歐幾里得距離的均值和標準差。

「Ori. Diff.」:每個中心對稱對象方向幅度差異的均值和標準差。

「Bbox IoU」:資產3D邊界框的交併比(IoU)。

以下是ACDC實景到模擬場景的重建結果。

在給定場景中,會顯示多個數字表親。

ACDC真實到模擬場景重建結果的定性評估,展示了爲給定場景生成的多個數字表親

基於這些結果,研究者可以肯定地回答Q1了——

ACDC確實能夠保留輸入場景的語義和空間細節,從單張RGB圖像生成真實世界對象的數字表親,並能準確定位和縮放以匹配原始場景。

sim2sim的策略學習

這部分的實驗主要是爲了回答上述研究中的Q2和Q3,在3個任務上分析ACDC訓練策略的能力,包括「開門」、「打開抽屜」和「收起碗」,每項任務都與數字孿生設置進行了對比。

不同設置中的總體成功率如下圖所示。

可以發現,在數字表親上訓練的策略通常可以匹配,甚至優於數字孿生的設置。

作者假設,由於數字表親的策略是在不同環境設置的數據上進行訓練的,因此可以覆蓋廣泛的狀態空間,從而很好地推廣到原始數字孿生設置。

然而,在另一個極端,針對所有可行資產(All Assets)進行訓練場的策略要比數字孿生差得多,這表明樸素的領域隨機化並不總是有用的。

此外,隨着DINO嵌入距離的增加,即評估設置與原始設置的差異逐漸增大,數字孿生的策略性能通常會出現成比例的顯著下降,但數字孿生策略整體表現更加穩定,證明了在分佈外設置上的魯棒性。

sim2real的策略學習

隨後,研究者對數字孿生和數字表親策略進行了零樣本現實世界評估。

任務是給宜家櫃子上開門。

評估指標就是成功率。

結果顯示,模擬結果平均超過50次試驗,真實結果平均超過20次試驗。

real2sim2real的場景生成和策略學習

無論是數字孿生還是數字表親,最終的落腳點還是要在真實環境中對比性能。

因此實驗的最後,團隊在完全真實(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學習框架。

在經過數字表親的專門模擬訓練後,機器人可以成功打開廚房櫥櫃,證明了ACDC方法遷移到真實環境中的有效性。

以下Demo展示了完全自動化的數字表親生成過程。

左右滑動查看

零樣本的sim2real策略遷移實驗表明,僅從上述生成的四個數字表親訓練的模擬策略,可以直接遷移到相應的真實廚房場景。

基於這些結果,研究者可以肯定地回答Q2、Q3和Q4了——

使用數字表親訓練的策略,表現出了與在數字孿生上訓練策略相當的分佈內性能,以及更強的分佈外魯棒性,並且可以實現零樣本從模擬到現實的策略遷移。

失敗案例

即使ACDC方法表現出了整體上的優越性能,研究團隊也在實驗中觀察到了幾個失敗案例,例如:在打開櫃子的任務中,機器人未能完全移動到把手所在位置——

或者移動時錯過把手——

即使正確找到了把手所在位置,也有可能手滑——

可以觀察到,ACDC經常在以下幾種情況下陷入困境:

a. 高頻深度信息

b. 遮擋

c .語義類別差異

d. 缺乏相應類別的資產

e. 除「位於頂部」之外的對象關係

前三個限制,與ACDC的參數化方式直接相關。

比如對於(a),由於ACDC依賴於相對準確的深度估計,來計算預測的對象3D邊界框,因此不準確的深度圖可能會導致ACDC對物體模型的估計相應較差。

原生深度傳感器在物體邊界附近可能難以產生準確的讀數,這是因爲深度圖在這些區域可能出現不連續性。當物體具有許多精細邊界時(例如植物和柵欄),這個問題會變得更加複雜。

此外,由於研究者依賴現成的基礎模型(DepthAnything-v2)來預測合成深度圖,因此也承襲了模型自身的一系列限制,例如對特殊物體或在不利的視覺條件下的預測較差。

結論

最終,研究者得出了以下結論。

ACDC是一個全自動化管線,能夠快速生成與單張真實世界RGB圖像相對應的完全交互式數字表親場景。

研究發現:

1. 魯棒性

在這些數字表親設置上訓練的策略,比在數字孿生上訓練的策略表現出更強的魯棒性。

爲了進一步檢查數字表親對樸素域隨機化的相對影響,研究者根據其他基線在 DoorOpening任務上重新運行了sim2sim實驗

2. 性能對比

領域內性能:數字表親訓練的策略與數字孿生訓練的策略相當。

領域外泛化:數字表親訓練的策略展現出優越的領域外泛化能力。

3. 零樣本學習

數字表親訓練的策略能夠實現零樣本從模擬到現實的策略遷移。

作者介紹

Tianyuan Dai

Tianyuan Dai本科畢業於香港科技大學,獲得了計算機科學和數學學士學位,目前在斯坦福攻讀碩士學位,隸屬於斯坦福SVL實驗室(Vision and Learning Lab)和PAIR研究小組(People, AI & Robots Group),由李飛飛指導。

他的長期願景是將人類對現實世界環境的理解融入到機器人算法中,使用數據驅動的方法幫助人們完成日常任務;最近研究的重點是開發real2sim2real範式,以實現穩健的操控策略學習(manipulation policy learning)。

Josiah Wong

Josiah Wong目前在斯坦福大學攻讀機械工程博士學位,導師是李飛飛,同樣在SVL和PAIR組工作。

此前,他在斯坦福大學獲得碩士學位,在加利福尼亞大學聖迭戈分校獲得學士學位。

他致力於利用仿真技術來拓展機器人操作能力,目標是推動日常通用機器人的發展,從而改善我們的日常生活。

參考資料:

https://x.com/RogerDai1217/status/1844411408374693941