2022年7月14日,Science Robotics發表了來自beat365人工智能研究院朱松純教授、朱毅鑫課題組的“In-situ bidirectional human-robotvalue alignment”研究論文,闡述了一種機器實時理解人類價值觀的計算框架,并展示了與人類完成的一系列複雜人機協作任務。
本篇論文同時登上了Science及 Science Robotics兩個官方主頁頭條
上世紀50年代,美國科幻作家阿西莫夫出版了科幻小說集《我,機器人》,勾勒了在未來世界中人類與機器人共存的圖景。理想的人機協作應該是什麼樣的?在人工智能發展方興未艾之時,控制論之父諾伯特-維納(Norbert Wiener)就提出了人機協作的基礎:“如果我們使用一個機器來實現我們的目标,但又不能有效地幹預其運作方式...那麼我們最好能笃定,輸入給機器的目标是我們真正所預期的。”近幾年來,一系列研究進展都表明:高效的人機協作依賴于團隊之間擁有一緻的價值觀、目标,以高效地建立整個團隊對任務的共識。
這就要求機器能夠通過與人的有效溝通來完成協作,即每個成員都要推測隊友的價值需求,并最大可能向隊友展示自己當前的價值需求。同時,人類也要為AI提供反饋,逐漸地教會AI理解自己的價值目标。這個人機價值目标逐漸統一的過程被稱為價值對齊。然而,當今的智能音箱等AI系統是一種被動的智能,隻能機械地接受人類具體的一條條指令來行事,而缺乏對人類價值觀(價值目标)的理解。隻有當機器通過觀察人類的行為,讀懂了人類的價值觀,靠“價值”自主驅動,才算是實現自主智能,從而做到“察言觀色”,更好地服務于人類。
與已有的大部分可解釋人工智能(XAI)系統不同的是:當前的XAI系統通常強調的是對“模型如何産生決策過程“的解釋。然而,不管用戶有多少主動的輸入或互動,都隻能影響機器“生成解釋”的過程,而不影響機器“做出決策”的過程。這是一種單向的價值目标對齊,被稱為靜态機器-動态用戶的交流,即在這種協作過程中隻有用戶對機器或任務的理解發生了變化。為了完成人與機器之間價值觀的雙向對齊,需要一種人類價值主導的、動态機器-動态用戶的交流模式。在這樣一種新的模式中,機器人除了揭示其決策過程外,還将根據用戶的價值目标即時調整行為,從而使機器和人類用戶能夠合作實現一系列的共同目标。為了即時掌握用戶信息,團隊采用通訊學習取代了傳統數據驅動的機器學習方法,機器将根據所推斷出的用戶的價值目标進行合理解釋。這種合作導向的人機協作要求機器具有心智理論(ToM),即理解他人的心理狀态(包括情緒、信仰、意圖、欲望、假裝與知識等)的能力。該計算框架(理論、計算機視覺上的應用)有以下幾個特征:需要建立在共同語境之上(你知道我知道你知道),需要心智理論表征(能從别人的角度看問題),統一的學習框架(統一了各類機器學習方法)。
人機價值觀對齊過程總覽
朱松純、朱毅鑫團隊長期從事XAI相關工作,此次是團隊第二篇發表在Science Robotics的XAI論文(上一篇)。該項工作的共同一作是袁璐遙(UCLA)、高曉豐(UCLA)、鄭子隆(北京通用人工智能研究院),通訊作者是袁璐遙(UCLA)、Mark Edmonds(UCLA)、呂宏靜(UCLA)、朱毅鑫(beat365人工智能研究院)、朱松純(beat365人工智能研究院)。項目曆時三年,其中一半時間由朱松純回國後在國内繼續開展。
附其他官方媒體對本篇論文的報導:
新華網科技日報:http://www.xinhuanet.com/tech/20220714/4d46925b0def47f0914aae9c030bd36b/c.html
地址:北京市海澱區頤和園路5号(62755617) 反饋意見:its@pku.edu.cn
Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.