當前位置: 首頁 > 學習專區 > 閱讀專區 > 正文

閱讀專區

朱松純:計算機視覺應以大任務為導向

時間:2021-06-16    點擊數:


“當前計算機視覺研究過于集中在少數任務, 而且各個任務是預設的、相互割裂的,例如圖像分割、搜索、推薦、識别、三維點雲重建等。計算機視覺應該服務于通用人工智能所需要的“大任務”,不同任務的需求的結果與精度是不同的,一個通用的視覺系統必須能夠根據智能體(AI Agents)實時變化的任務來動态調整其損失函數,調度計算的進程。”


  6月12日,北京通用人工智能研究院院長朱松純教授應邀為首屆中國三維視覺大會(China3DV),做題為《面    向大任務的三維場景重建與理解》的首場主旨報告。朱教授強調了大量的幾何常識在三維重建中的重要作用,      指出三維視覺的路徑應該是由三維重建到任務導向的三維場景理解,并展示了面向任務的場景表達和類人推理      在三維場景中的功能性、物理性和實用性之間的關系,為三維視覺如何推動通用人工智能的發展指明了方向。
China3DV大會由中國圖像圖形學學會(CSIG)三維視覺專委會創建,聚焦三維視覺領域前沿熱點問題,旨在全方位展現最新技術及未來發展趨勢。beat365教授、CSIG三維視覺專委會主任陳寶權在大會開幕緻辭中表示:本次會議旨在探讨人工智能時代三維視覺的新理論和新技術,打破計算機視覺、計算機圖形學、大數據以及機器人等領域的邊界,推動三維視覺理論和方法體系的構建和發展、加快三維視覺技術的實用化和産業落地。鑒于朱松純教授在計算機視覺領域前沿的國際地位和人工智能領域的前瞻性,特别是他在建立計算機視覺領域華人學者影響力方面的領導作用,大會特邀請朱教授作為首屆China3DV大會的第一位主旨報告嘉賓。  

在主旨報告中,朱松純教授向在場聽衆提出了四個值得思考的問題:如何實現單視角三維重建?三維視覺的任務是什麼?決定三維場景的認知暗物質是什麼?三維視覺能為通用人工智能做什麼?

單視角三維重建并非不可能    
 
1990年代以來的三維視覺研究聚焦于從多視角圖像中重建場景模型。雖然人類的雙目視覺能夠通過視差推理出深度信息,但是當觀測目标超過手臂能觸達的距離,雙目視覺計算出的深度并不準确,而且人類的很多任務對環境的認知并不依賴于對三維場景的精确建模。于是,朱教授提出“八分理解、兩分重建”的理念。當前三維重建的研究結果是點雲或者深度圖,仍然是圖像,還需要經過理解這個階段。人的視覺系統應該是理解先于重建,理解可以大大幫助三維重建。   
圖像是三維世界的二維投影,不可避免地損失了一些立體信息。所以理論上講,很多研究者認為從單張二維圖像中重建三維場景是不可能的。要解決這個問題我們需要大量先驗知識作為約束條件來彌補損失的信息。這些先驗知識就包含生活環境中的大量的幾何常識、物理常識等。  
朱教授在報告中介紹了從單張二維圖像,通過描繪原始草圖(Primal Sketch)的方式進行三維場景重建的方法。以椅子為例,我們之所以能從椅子的二維圖紙中重建出三維物體,正是因為我們對椅子有幾何常識作為先驗知識。先有理解、再做重建,基于先驗知識我們可以從單視角圖像中重建出不同精确程度的三維模型。具體的重建精度則取決于任務,不同任務則需要不同的先驗知識。  
圖片  
朱教授做主旨演講  
三維視覺需要以任務為導向  
朱松純教授進一步介紹了以任務為導向的三維重建工作。  

心理學研究表明,人的視覺體驗比“是什麼”和“在何處”要豐富得多。在嬰兒時期,人類就能迅速有效地感知因果關系、智能體的意圖、以及物理力的後果等一系列“大任務”。過去二十年來,CVPR的研究主要聚焦于視頻監控、圖像搜索,也包含圖像處理和多媒體等。朱教授認為,這些“并不是生物視覺系統在進化中負責的主要任務,計算機視覺應該服務于“大任務”。由于不同任務對于視覺系統的需求是不同的,因此視覺研究需要以任務為導向。以三維場景重建為例,朱教授演示了在不同任務導向下,所重建的不同的三維場景。以任務為導向即目的論,無論是第一視角(即智能體執行任務),還是第三視角(即觀察、理解人類的意圖),目的論的思想都發揮了重要作用。人腦的很多知識是按照任務來組織的, 所以智能是以任務為中心的。因此,面向任務的場景重建和理解具有重要的實用價值,也是三維視覺應該重點關注的研究方向。

三維場景的認知 : 從知其然,到知其所以然  
除了重建場景幾何與外觀,我們更想探索場景背後的視覺上不可見的信息。朱教授借用天體物理學領域“暗物質”的概念來解釋“暗”的高階認知概念:功能性(Functionality),直覺物理(Physics),意圖和目标(Intent),主觀因果(Causality)和效用(Utility),這五個認知領域是“不可見”的“暗物質”。這些不可直接觀測的因素決定着場景的三維布局,驅動人類在場景中的行為,而現有的計算機視覺研究中嚴重缺失這些主觀的因素。由于沒有數據,現有的“大數據深度學習”範式下的人工智能算法對這些領域無能為力,而人類在這些領域的認知非常高效。所以,朱教授提出,實現通用的人工智能系統,其實是“九分主觀、一分客觀”,需要研究大量的“主觀表達與模型。”  
朱教授演示了場景的深層次理解如何支持各種各樣的應用,包括基于物理和功能判斷物體掉落的風險性,通過人類活動建模場景等。對時間、空間、因果和文字的共同解析可以實現智能視覺問答系統。  

總的來說,結合先驗知識,我們需要從視覺可見的場景外觀中推理出看不見的場景信息(暗物質),從而實現從視覺感知(重建)到認知(理解)的過程,也就是從知其然到知其所以然。

三維視覺能為通用人工智能做什麼?  
三維視覺将幫助構建“大任務”的訓練和測試平台,對現實場景進行重建,從而構建虛拟世界供人工智能訓練和測試。幫助AI泛化各類知識與常識,讓AI實現在日常生活環境下的仿真模拟與訓練。在報告的最後,朱教授指出,三維視覺将為實現可解釋的通用AI智能體産生重要的積極作用。  
在會後的“3DV面對面”交流環節,衆多老師同學圍上來進一步交流,朱教授對三維視覺的研究者寄予厚望:“三維視覺研究與人工智能的發展緊密相關,三維視覺科研者應該成為人工智能研究的主力軍;做科研要抓住核心問題,避免追逐熱點,不能拘泥于隻是當前有用,而要做5年10年後有用的東西。”  
圖片    
 

朱教授與衆多青年學者交流

朱教授的精彩報告和現場交流在與會者中引起了極大的反響。陳寶權教授表示,三維視覺處在一個新的發展時期,新型傳感器、雲端邊計算和移動顯示設備的普及帶來了前所未有的機遇,它不是已有研究的線性延續,而應該跳出現有問題框架,瞄準通用人工智能目标,着眼新的研究方向;朱教授的報告給大會帶來的新視野和新觀點,為三維視覺的研究者提出了新的目标和任務,将會激發更多學者和學生投入到這一個生機勃勃的領域,加快三維視覺的理論創新、技術突破和産業落地。  


關閉

地址:北京市海澱區頤和園路5号(62755617)   反饋意見:its@pku.edu.cn

Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.