近日,人工智能研究院朱松純、朱毅鑫教授團隊在IJCV 2022發表論文《Scene Reconstruction with Functional Objects for Robot Autonomy》,提出了一個全新的場景重建問題和場景圖表征,為機器人自主規劃提供必要的信息,并為其仿真測試提供了與現實場景功能相近的可交互的虛拟場景。同時,這一工作也開發了一個完整的機器視覺系統,以實現所提出的場景重建問題。實驗證明了所提出的場景重建方法的有效性,以及場景圖表征在機器人自主規劃方面的潛力。
感知三維環境并理解其中包含的信息是人類智能的重要體現,也是人類與環境随心交互的前提。在環境的幾何特征與物體的語義信息之外,我們還能“感知”到與環境的潛在交互方式,我們稱之為環境中動作信息(actionable information)。例如,當我們看到圖1(a) 中的門把手時,我們腦海裡會自然地出現轉動門把手并拉開門的潛在動作,而在圖1(b) 的場景裡,我們能夠輕松地觀測到堆疊的茶杯和碗碟的約束關系(相互支撐),以及不同的動作對它們狀态的影響(直接抽取下面的碗碟會打翻上面碗碟和茶杯,而逐一移走最上面的物體後則可以安全地拿取下面的碗碟)。理解潛在動作對場景的影響,構成了我們在場景中執行任務并與之交互的基礎。相應地,智能機器人也需要類似的感知能力,才能使其在環境中自主地完成複雜的長時程(long-horizon)規劃。
圖1 (a) 門把手,(b) 堆疊的茶杯和碗碟(圖片來源于網絡,版權歸原作者所有)
随着三維場景重建(3D scene reconstruction)與語義建圖(semantic mapping)技術漸趨成熟,機器人已經能夠有效地建立包含幾何與語義信息的三維地圖,例如包括物體與房間結構的語義全景地圖(panoptic map),如圖2(b)。然而這些傳統場景重建的場景表征(scene representation)與實現機器人自主規劃之間,仍然有難以逾越的鴻溝。那麼問題來了,我們如何能構造一種通用于機器人感知(perception)和規劃(planning)的場景表征,以提高機器人的自主規劃能力呢?機器人如何能利用自身傳感器輸入(例如RGB-D相機)在真實場景中建立這樣的場景表征?
在這篇論文[1]中,研究人員提出了一個全新的研究問題:重建與現實場景功能相同的(functionally-equivalent)、可交互的(interactive)虛拟場景,以保留原場景的潛在動作信息。重建後的虛拟場景可以被用于機器人自主規劃的仿真訓練與測試。為實現這一重建任務,研究人員提出了一種基于物理支撐(supporting relation)與緊鄰(proximal relation)關系的場景圖表征,如圖2(a);它的每個節點代表場景中的一個物體或者一種房間結構(牆/地面/房頂)。這一場景圖表征将重建後的場景以及其中包含的物理約束有機組織起來,以保證得到的虛拟場景是符合物理常識的。同時,它可以直接被轉換成環境的樹狀運動鍊(kinematic tree),完整地描述了環境的運動學關系狀态,并支持前向預測機器人動作對環境的影響,可被直接用于機器人規劃任務中。這篇論文也提出了一個完整的機器視覺系統來實現這一重建任務,并為重建後的場景設計了輸出接口,使其能夠被無縫接入機器人仿真器(例如Gazebo)和VR環境中。這一論文的部分前期工作[2]曾發表在ICRA 2021上。
圖2(a) 基于支撐與緊鄰關系的場景圖,(b) 體積式語義全景建圖,(c) 與現實場景功能相同的、可交互的虛拟場景,可用于機器人自主規劃的仿真測試
在虛拟環境中重建真實場景以支持機器人仿真并非一個簡單的問題。主要的難點有三:一是如何在雜亂的真實場景中準确重建并分割出每個物體與結構的幾何,并估計物體間的物理約束(比如支撐關系等);二是如何将重建出的不完整的幾何形狀替換成完整的、可交互的物體(例如CAD模型);三是如何将所有的這些信息有機融入某種通用的場景表達,同時幫助場景重建和機器人自主規劃。
這項工作提出利用一種特殊的場景圖作為連接場景重建與機器人交互的橋梁,在幫助重建出符合物理常識的虛拟場景的同時,為機器人自主規劃提供必要的信息。一方面,這一場景圖将場景中感知到的物體、房間結構以及它們之間的關系組織起來,如圖3(a) 所示。它的每個節點代表識别并重建出的真實場景中的物體或者房間結構,包括了它的幾何(例如重建出的三維網格(mesh)、三維最小包圍盒、提取出的平面特征等)與語義信息(如實例與語義标簽);而每條邊則表示節點之間的支撐關系【見圖3 (a) 中的有向邊】或者緊鄰關系【圖3 (a)中的無向邊】,代表着某些物理約束信息。比如對支撐關系來說,父節點需要包含水平的支撐面來實現對子節點的穩定支撐;再如對緊鄰關系來說,相互接近的兩個節點的三維幾何不應該有相互的重疊等。另一方面,根據語義與幾何的形似性并綜合考慮節點間的約束,圖3 (a) 中的節點被替換成幾何完整的、可交互的CAD模型【包括多關節(articulated)的CAD模型】,進而得生成可用于機器人仿真交互的虛拟場景,如圖3 (b)。這樣的虛拟場景在感知能力允許的範圍内盡可能保留了真實場景的功能(functionality),也就是潛在動作信息,可以有效實現對現實場景中與物體交互結果的仿真。而相應地,得到的場景圖表征也包含了對環境運動學以及約束狀态的完整描述,可用來預測機器人動作對運動學狀态的短期定量影響并幫助機器人運動規劃,以及估計機器人動作對約束關系造成的長期定性影響并支持機器人任務規劃。
圖3 (a) 直接重建出的場景圖,(b) 替換CAD模型後的可交互場景圖
圖4 用于重建任務的機器視覺系統流程圖
為實現上述的重建任務,論文作者設計并實現了一個多模塊的機器視覺系統:一個體積式語義全景建圖模塊【圖4 (A)】,和一個基于物理常識與幾何的CAD模型替換推理模塊【圖4 (B)】。前者被用于魯棒地在複雜真實環境中借助RGB-D相機識别、分割并重建出物體與房間結構的稠密幾何,并估計它們之間的約束關系,以得到如圖3 (a) 中的場景圖;而後者聚焦于如何根據重建物體的幾何特征與識别出的約束關系從CAD模型庫中選擇最合适的CAD模型,并估計其位姿與尺度,以達到與原物體盡可能準确的對齊,進而生成圖3 (b) 所示的可交互的場景圖。圖5展示了論文作者借助Kinect2相機對真實辦公室場景的重建結果,包括體積式全景重建【圖5 (a)】、可交互虛拟場景常見【圖5 (b) 】以及将虛拟場景導入機器人仿真器後機器人交互的樣例【圖5 (c)】。我們可以看到,即使在複雜、多遮擋的真實場景中,論文提出的重建系統能較好地建立可交互的虛拟場景。圖5 (d-f) 展示了這一實驗中的一些有趣的例子:圖5 (d) 中,由于椅子對桌子的遮擋,同一個桌子被重建成兩個相對短小的桌子;圖5 (e) 展示的工位得到了比較高質量的重建,所有的物體都被替換成了外表相近的CAD模型;圖5 (f) 中的椅子未能被識别出來,其對後面桌子的遮擋造成了與圖5 (d) 相似的情況,而場景中的冰箱與微波爐被重建出來并替換成了多關節、可承載複雜交互的CAD模型。
圖5 在真實環境中用Kinect2相機的重建結果
圖6 在重建的虛拟場景中的機器人任務與動作規劃
在重建得到的可交互虛拟場景裡,借助場景圖反映的運動鍊以及約束信息,機器人可以進行任務與動作規劃[3,4],其仿真效果如圖6所示。在最近的相關的工作[5]中,基于上文所述的場景圖表征,機器人可以直接根據圖編輯距離(graph editing distance)進行複雜的任務規劃,并高效地生成動作。
這項工作提出了一個全新的場景重建問題和場景圖表征,為機器人自主規劃提供必要的信息,并為其仿真測試提供了與現實場景功能相近的可交互的虛拟場景。同時,這一工作也開發了一個完整的機器視覺系統,以實現所提出的場景重建問題。實驗證明了所提出的場景重建方法的有效性,以及場景圖表征在機器人自主規劃方面的潛力。
未來,我們期待這項工作的進一步拓展:如何更魯棒、更精準地實現剛體與多關節CAD模型與重建幾何的匹配、如何在場景圖中融合更複雜的潛在動作信息、以及如何更好地利用場景提進行機器人規劃。場景圖重建助力自主規劃,更智能的機器人就在不遠的将來。
參考文獻:
[1] Han, Muzhi, et al. “Scene Reconstruction with Functional Objects for Robot Autonomy.” 2022 International Journal of Computer Vision (IJCV), link.springer.com, 2022.
[2] Han, Muzhi, et al. “Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model Alignments.” 2021 IEEE International Conference on Robotics and Automation (ICRA), ieeexplore.ieee.org, 2021, pp. 12199–206.
[3] Jiao, Ziyuan, et al. “Consolidating Kinematic Models to Promote Coordinated Mobile Manipulations.” 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), IEEE, 2021, doi:10.1109/iros51168.2021.9636351.
[4] Jiao, Ziyuan, et al. “Efficient Task Planning for Mobile Manipulation: A Virtual Kinematic Chain Perspective.” 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), ieeexplore.ieee.org, 2021, pp. 8288–94.
[5] Jiao, Ziyuan, et al. “Sequential Manipulation Planning on Scene Graph.” 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), ieeexplore.ieee.org, 2022.
地址:北京市海澱區頤和園路5号(62755617) 反饋意見:its@pku.edu.cn
Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.