導讀
本文是beat365人工智能研究院朱松純教授、朱毅鑫助理教授團隊在NeurIPS 2022 論文 Emergent Graphical Conventions in a Visual Communication Game 的介紹。
本文共同一作為邱淑雯、謝思銳,其他作者範麗鳳、高濤、jungseock joo、朱毅鑫、朱松純。
論文鍊接:
https://yzhu.io/publication/teaming2022neurips/
01文字系統的形成
認知科學研究認為文字系統的形成是一個從象形圖标到抽象符号的過程[1]。如圖所示,人類祖先在描述太陽時,會使用草圖來盡可能貼近自然中太陽的樣子[2]。在這個過程中,人們逐漸将視覺概念和象形圖标建立起聯系。在接下來的溝通中,每當人們需要描述太陽,都會重複使用這些圖标。為了提高溝通效率,這些圖标會變的簡單而抽象,逐漸形成我們今天的象形文字系統。
研究過程中,認知科學家使用“你畫我猜”遊戲來模拟這個過程[3]。人們在遊戲初始階段必須使用草圖進行溝通,随着遊戲進行,人們會不斷見到之前已經溝通過的内容,最後實驗結果表明人們會在不斷地溝通疊代之後,形成兩個人之間的新的符号系統。如下圖中,在表述英國議會時(Parliament),玩家首先會詳細畫出議會的場所和國家旗幟,在通過磨合和精煉之後,會直接表示為曲線和圓。同樣在表述歌劇時(Soap Opera),草圖首先具象地描述了“Soap”和“Opera”,簡化之後變成了正方形和一條線。這篇論文将通過訓練兩個智能體玩“你畫我猜”遊戲,來模拟圖形符号系統的形成過程,探索準确與效率在抽象文字形成中的調和與平衡,并驗證符合人類圖形符号系統形成的必要環境因素。
02遊戲建模
如圖所示,我們将“你畫我猜”描述為一個多智能體時序決策遊戲,每輪遊戲中都有兩個玩家,一個是發送者,能夠觀察到這次要溝通的目标(一個常見視覺概念,如兔子,杯子),一個是接收者,可以觀察到一組圖片(其中一張圖片符合要溝通的類别),需要通過發送者的畫來猜出哪張圖是這次遊戲要溝通的目标。在每個時間步長,發送者會基于目标繼續完成畫布上的畫;接受者觀察到新添加的筆畫後,決定請求發送者繼續畫畫,還是作出判斷。當接收者作出判斷,或者等待時間超出遊戲的最大步長,該輪遊戲終止。遊戲終止後,雙方會得到+1/-1的獎勵/懲罰,為了鼓勵玩家提高溝通效率,獎勵/懲罰同時會乘上根據總遊戲步長得到的衰減系數,最終兩玩家将得到作為回報。發送者和接收者的訓練目标是最大化最終的遊戲得分。同時我們通過資格迹[4]來平滑整個收斂過程。
03實驗設置
1)是否合作訓練;
2)接收者是否能選擇終止遊戲;
3)二者是否進行交互式的時序溝通。
固定每個因素,我們設計了一個實驗組complete和四個對照組:
1)sender-fixed:發送者的模型參數不更新,控制合作訓練因素;
2)max-step:接收者不能提前結束遊戲,控制接收者能夠選擇終止遊戲因素;
3)one-step:每次兩個玩家隻能溝通一個時間步長,控制交互式的時序溝通因素;
4)retrieve:發送者的模型參數不更新,同時接收者不能提前結束遊戲,等效雙方沒有溝通的情況。
由于第四種設置沒有溝通,草圖不會發生簡化,這種設置下産生的草圖具有最高的象形性,我們将它的實驗結果設置為溝通能達到的上界。
04可視化演化過程
我們同時展示了繪畫在訓練過程中的變化(每張圖片從左到右為疊代次數從0到30000的草圖)。可以看出,草圖經曆了由複雜變簡單的過程,同時對于同一個類别的繪畫,發送者能夠一緻地強調類别中最明顯的特征。如圖中草圖會強調兔子的耳朵;即使圖片中長頸鹿是不同的姿态,尤其在第三幅圖中,長頸鹿彎下脖子,但草圖中依然會強調長頸鹿豎直的長脖子。
05定量結果與指标
我們首先通過溝通成功率和溝通效率來驗證所設計的訓練框架的有效性。
1. 溝通成功率:我們假設當溝通準确率大于80%時,智能體間形成了新的溝通系統。如圖(a)所示,除one-step以外,智能體在其他實驗設置下都形成了新的溝通系統,這表明了我們的訓練框架能夠使智能體成功溝通,同時說明了交互式的時序溝通因素的重要性。
2. 溝通長度:人類實驗結果中,在反複溝通後,繪圖所需筆畫數會越來越少。如圖(b)所示,對于能夠改變溝通長度的設置(complete, sender-fixed),溝通長度會逐漸下降,這表示我們設計的隐性獎勵和懲罰能夠促使智能體減少溝通長度來提高溝通效率。
3. 準确 vs 效率:智能體溝通長度減少可能有兩個原因:一是為了在保證準确率的情況下提高溝通效率,二是在長溝通中學習困難因而向短溝通收斂。其中第一個才是符合我們預想的原因。我們在訓練過程中,測試接收者對發送者畫的筆畫數為1,3,5,7的草圖的判斷準确率。如圖(c)cumulative的測試結果(使用REINFORCE訓練作為比較基準),筆畫越多的草圖準确率越低,說明溝通長度減少是因為無法在較長的溝通中學習更新。相比較之下,我們提出的訓練框架,筆畫越多的草圖準确率首先達到最高(保證準确率),筆畫較少的草圖的準确率接着也逐漸上升到筆畫數為7的準确率(降低筆畫數來提高溝通效率),表示智能體在積極平衡準确率和效率。
結果分析:三個屬性
為了比較新形成的溝通系統的優劣,我們設計了三個圖形符号系統的屬性和其對應的衡量方法。
象形性(Iconicity):我們定義為在一個映射空間上,草圖臨近它對應的自然圖片。如圖1所示,在空間Psi,繪畫的距離與它對應的圖片較近,與其他圖片的距離較遠。為了衡量象形性,我們測試了各個實驗設置下智能體對沒有見過的圖片或類别的溝通準确率。如表格所示,complete和sender-fixed能夠根據對溝通内容的熟悉程度,來控制溝通的長度,當遇到陌生的圖片和類别時,智能體能夠通過增加溝通長度來提高繪畫的象形性。
符号性(Symbolicity):我們定義為屬于同一個類别的草圖能夠在一個高維映射空間上比較容易得區别開。如圖2所示,不同的類别之間有清晰的界限。為了衡量符号性,我們對已經訓練好的VGGNet[5]進行微調,用于分類屬于不同類别的繪畫。如條形圖所示,complete設置下形成的符号系統具有最高的一緻性。
語義性(Semanticity):我們定義為草圖在高維度映射空間的拓撲結構與它對應的圖像的拓撲結構相似。如圖3所示,語義相近的概念如貓和狗,草圖和圖像的距離都相對較近,杯子距離他們較遠。我們首先用word2vec[6]将每個類别的名字投射到向量空間作為特征A,同時用在屬性2中訓練好的VGG将最終演化出的草圖投射到向量空間作為特征B。我們計算所有特征B中能夠組成的向量距離和所有特征A中的向量距離之間的相關系數。從表格結果中我們可以看出,complete設置能夠最好的保留語義性。我們同時使用t-SNE[7]将complete的特征B投射到一個二維平面,可以看出各類别間的邊界非常清晰,同時語義相似的類别如牛、鹿、馬互相臨近,同時距離漢堡、蘋果等類别較遠。
在這項工作中,我們利用你畫我猜遊戲模拟了新的圖形符号系統的形成過程。我們驗證了訓練框架的有效性,同時提出了三個圖形符号屬性--象形性、符号性和語義性。實驗結果表明玩家雙方的合作訓練、接收者允許提前終止遊戲與二者進行交互式的時序溝通能夠鼓勵新形成的圖形符号系統在具有較高符号性的同時,保留象形性和語義性。希望這項工作能夠為研究象形文字的演化提供思路。
地址:北京市海澱區頤和園路5号(62755617) 反饋意見:its@pku.edu.cn
Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.