李飛飛「數字表兄弟」破解機器人訓練難題!零樣本sim2real成功率高達90%
新智元報道
編輯:編輯部 HXZ
【新智元導讀】在用模擬環境訓練機器人時,所用的數據與真實世界存在着巨大的差異。爲此,李飛飛團隊提出「數字表親」,這種虛擬資產既具備數字孿生的優勢,還能補足泛化能力的不足,並大大降低了成本。
如何有效地將真實數據擴展到模擬數據,進行機器人學習?
最近,李飛飛團隊提出一種「數字表親」的新方法,可以同時降低真實到模擬生成的成本,同時提高學習的普遍性。
項目主頁:https://digital-cousins.github.io/
論文地址:https://arxiv.org/abs/2410.07408
目前,論文已被CORL2024接收。
你可能會問,什麼是「數字表親」,有啥用呢?
讓我們把它跟數字孿生比較一下。
的確,數字孿生可以準確地對場景進行建模,然而它的生成成本實在太昂貴了,而且還無法提供泛化功能。
而另一方面,數字表親雖然沒有直接模擬現實世界的對應物,卻仍然能夠捕獲相似的幾何和語義功能。
這樣,它就大大降低了生成類似虛擬環境的成本,同時通過提供類似訓練場景的分佈,提高了從模擬到真實域遷移的魯棒性。
共同一作Tianyuan Dai表示,既然有免費的「數字表親」了,何必再去手工設計數字孿生?
亮眼的是,「數字表親」能同時實現——
單幅圖像變成交互式場景
全自動(無需註釋)
機器人策略在原始場景中的零樣本部署
簡單拍一張照片,就能搞定了
模擬數據難題:與現實環境差異過大
在現實世界中訓練機器人,存在策略不安全、成本高昂、難以擴展等問題;相比之下,模擬數據是一種廉價且潛在無限的訓練數據來源。
然而,模擬數據存在一個難以忽視的問題——與現實環境之間的語義和物理差異。
這些差異可以通過在數字孿生中進行訓練來最小化,但數字孿生作爲真實場景的虛擬複製品,同樣成本高昂且無法跨域泛化。
正是爲了解決這些限制,論文提出了「數字表親」(digital cousion)的概念。
「數字表親」是一種虛擬資產或場景,與數字孿生不同,它不明確模擬現實世界的對應物,但仍然展現類似的幾何和語義功能。
因此,數字表親既具備了數字孿生的優勢,能夠補足現實數據的不足,同時降低了生成類似虛擬環境的成本,並能更好地促進跨域泛化。
具體而言,論文引入了一種自動創建數字表親(Automatic Creation of Digital Cousins,ACDC)的新方法,並提出了一個完全自動化的,從真實到模擬再到真實的流程,用於生成交互式場景和訓練策略。
實驗結果發現,ACDC生成的數字表親場景能夠保留幾何和語義功能,訓練出的策略也優於數字孿生(90% vs. 25%),而且可以通過零樣本學習直接部署在原始場景中。
方法概述
與數字孿生不同,數字表親並不苛求在所有微小細節上都要重建給定場景,而是專注於保留更高級別的細節,例如空間關係和語義。
ACDC是一個完全自動化的端到端流程,從單個RGB圖像生成完全交互式的模擬場景,由三個連續步驟組成:
信息提取:首先,從輸入的RGB圖像中提取對象信息。
數字表親匹配:利用第一步提取的信息,結合預先準備的3D模型資產數據集,爲檢測到的每個對象匹配相應的數字表親。
場景生成:對選擇的數字表親進行後處理並編譯在一起,生成一個物理上合理且完全交互式的模擬場景。
通過這三個步驟,ACDC能夠自動創建與輸入圖像語義相似但不完全相同的虛擬場景,爲機器人策略訓練提供多樣化的環境。
策略學習
構建了一組數字表親後,就可以這些環境中訓練機器人策略。
雖然這種方法適用於多種訓練範式,例如強化學習或模仿學習,但本文選擇聚焦于于腳本演示(scripted demonstrations)的模仿學習,因爲這種範式不需要人類演示,與完全自主化的ACDC流程更加適配。
爲了能在模擬環境中自動實現演示的收集,作者首先實施了一組基於樣本的技能,包括Open(開)、 Close(關)、 Pick(拿)和Place(放)四種。
雖然技能的種類數仍然有限,但已經足夠收集各種日常任務的演示,例如對象重新排列和傢俱鉸接。
實驗
通過實驗,團隊回答了以下研究問題:
Q1:ACDC能否生成高質量的數字表親場景?給定單張RGB圖像,ACDC能否捕捉原始場景中固有的高級語義和空間細節?
Q2:在原始的環境設置上評估時,在數字表親上訓練的策略能否匹配數字孿生的性能?
Q3:在分佈外設置上評估時,在數字表親上訓練的策略是否表現出更強的穩健性?
Q4:在數字表親上訓練的策略能否實現零樣本的sim2real策略遷移?
首先團隊需要論證的最重要的問題,就是ACDC能生成高質量的數字表親場景嗎?
從表格中的數據來看,結果十分令人滿意。
以下是在sim-to-sim場景中對ABCD場景重建進行的定量和定性評估。
在sim2sim場景中對ACDC進行場景重建的定量和定性評估
評估指標包括:
「Scale」:輸入場景中兩個對象邊界框之間的最大距離。
「Cat.」:正確分類對象佔場景總對象總數的比例。
「Mod.」:正確建模對象佔場景中對象總數的比例。
「L2 Dist.」:輸入和重建場景中邊界框中心間歐幾里得距離的均值和標準差。
「Ori. Diff.」:每個中心對稱對象方向幅度差異的均值和標準差。
「Bbox IoU」:資產3D邊界框的交併比(IoU)。
以下是ACDC實景到模擬場景的重建結果。
在給定場景中,會顯示多個數字表親。
ACDC真實到模擬場景重建結果的定性評估,展示了爲給定場景生成的多個數字表親
基於這些結果,研究者可以肯定地回答Q1了——
ACDC確實能夠保留輸入場景的語義和空間細節,從單張RGB圖像生成真實世界對象的數字表親,並能準確定位和縮放以匹配原始場景。
sim2sim的策略學習
這部分的實驗主要是爲了回答上述研究中的Q2和Q3,在3個任務上分析ACDC訓練策略的能力,包括「開門」、「打開抽屜」和「收起碗」,每項任務都與數字孿生設置進行了對比。
不同設置中的總體成功率如下圖所示。
可以發現,在數字表親上訓練的策略通常可以匹配,甚至優於數字孿生的設置。
作者假設,由於數字表親的策略是在不同環境設置的數據上進行訓練的,因此可以覆蓋廣泛的狀態空間,從而很好地推廣到原始數字孿生設置。
然而,在另一個極端,針對所有可行資產(All Assets)進行訓練場的策略要比數字孿生差得多,這表明樸素的領域隨機化並不總是有用的。
此外,隨着DINO嵌入距離的增加,即評估設置與原始設置的差異逐漸增大,數字孿生的策略性能通常會出現成比例的顯著下降,但數字孿生策略整體表現更加穩定,證明了在分佈外設置上的魯棒性。
sim2real的策略學習
隨後,研究者對數字孿生和數字表親策略進行了零樣本現實世界評估。
任務是給宜家櫃子上開門。
評估指標就是成功率。
結果顯示,模擬結果平均超過50次試驗,真實結果平均超過20次試驗。
real2sim2real的場景生成和策略學習
無論是數字孿生還是數字表親,最終的落腳點還是要在真實環境中對比性能。
因此實驗的最後,團隊在完全真實(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學習框架。
在經過數字表親的專門模擬訓練後,機器人可以成功打開廚房櫥櫃,證明了ACDC方法遷移到真實環境中的有效性。
以下Demo展示了完全自動化的數字表親生成過程。
左右滑動查看
零樣本的sim2real策略遷移實驗表明,僅從上述生成的四個數字表親訓練的模擬策略,可以直接遷移到相應的真實廚房場景。
基於這些結果,研究者可以肯定地回答Q2、Q3和Q4了——
使用數字表親訓練的策略,表現出了與在數字孿生上訓練策略相當的分佈內性能,以及更強的分佈外魯棒性,並且可以實現零樣本從模擬到現實的策略遷移。
失敗案例
即使ACDC方法表現出了整體上的優越性能,研究團隊也在實驗中觀察到了幾個失敗案例,例如:在打開櫃子的任務中,機器人未能完全移動到把手所在位置——
或者移動時錯過把手——
即使正確找到了把手所在位置,也有可能手滑——
可以觀察到,ACDC經常在以下幾種情況下陷入困境:
a. 高頻深度信息
b. 遮擋
c .語義類別差異
d. 缺乏相應類別的資產
e. 除「位於頂部」之外的對象關係
前三個限制,與ACDC的參數化方式直接相關。
比如對於(a),由於ACDC依賴於相對準確的深度估計,來計算預測的對象3D邊界框,因此不準確的深度圖可能會導致ACDC對物體模型的估計相應較差。
原生深度傳感器在物體邊界附近可能難以產生準確的讀數,這是因爲深度圖在這些區域可能出現不連續性。當物體具有許多精細邊界時(例如植物和柵欄),這個問題會變得更加複雜。
此外,由於研究者依賴現成的基礎模型(DepthAnything-v2)來預測合成深度圖,因此也承襲了模型自身的一系列限制,例如對特殊物體或在不利的視覺條件下的預測較差。
結論
最終,研究者得出了以下結論。
ACDC是一個全自動化管線,能夠快速生成與單張真實世界RGB圖像相對應的完全交互式數字表親場景。
研究發現:
1. 魯棒性
在這些數字表親設置上訓練的策略,比在數字孿生上訓練的策略表現出更強的魯棒性。
爲了進一步檢查數字表親對樸素域隨機化的相對影響,研究者根據其他基線在 DoorOpening任務上重新運行了sim2sim實驗
2. 性能對比
領域內性能:數字表親訓練的策略與數字孿生訓練的策略相當。
領域外泛化:數字表親訓練的策略展現出優越的領域外泛化能力。
3. 零樣本學習
數字表親訓練的策略能夠實現零樣本從模擬到現實的策略遷移。
作者介紹
Tianyuan Dai
Tianyuan Dai本科畢業於香港科技大學,獲得了計算機科學和數學學士學位,目前在斯坦福攻讀碩士學位,隸屬於斯坦福SVL實驗室(Vision and Learning Lab)和PAIR研究小組(People, AI & Robots Group),由李飛飛指導。
他的長期願景是將人類對現實世界環境的理解融入到機器人算法中,使用數據驅動的方法幫助人們完成日常任務;最近研究的重點是開發real2sim2real範式,以實現穩健的操控策略學習(manipulation policy learning)。
Josiah Wong
Josiah Wong目前在斯坦福大學攻讀機械工程博士學位,導師是李飛飛,同樣在SVL和PAIR組工作。
此前,他在斯坦福大學獲得碩士學位,在加利福尼亞大學聖迭戈分校獲得學士學位。
他致力於利用仿真技術來拓展機器人操作能力,目標是推動日常通用機器人的發展,從而改善我們的日常生活。
參考資料:
https://x.com/RogerDai1217/status/1844411408374693941