高維複雜數據一方面呈現出多子空間、非線性流形等複雜結構,導緻難以刻畫數據的統計特性,另一方面往往含有強噪聲、缺失值等幹擾信息,導緻下遊任務出錯甚至無法執行。如何打造既能刻畫數據的内在結構又能排除幹擾信息的數學工具,是長期困擾數據分析領域的核心難題之一,也是人工智能及其相關領域的基礎問題。
針對以上核心難題,林宙辰項目組注意到低維子空間和低維流形對應于低秩的數據矩陣,因此使用秩約束将有助于分離數據的低維主體結構和零散的噪聲結構,于是以秩為基礎數學工具,結合譜圖理論、拉格朗日乘子法等技術,提出了可以魯棒地提取多子空間與流形結構的低秩模型、理論及高效優化算法,在高維複雜數據分析的理論和算法方面做出了創造性貢獻。
主要發現點為:
一、針對帶強噪聲的魯棒子空間聚類問題,發現秩是刻畫數據多子空間結構的有效工具,由此提出了低秩表示模型(Low-Rank Representation, LRR),同時解決了子空間結構提取和數據去噪的問題;進一步為LRR提供了深入完善的理論分析,包括強化表達系數矩陣塊對角結構的條件及正則化子,和LRR能精确恢複内在多子空間的條件,為LRR的應用提供了堅實的理論保障。該發現引領了基于低秩的子空間聚類這一研究方向。
二、針對現實中更為複雜的數據,對發現點一做了關鍵性的推廣,大大拓寬了低秩模型的應用範圍:提出了潛在低秩表示模型,解決了數據不足時的子空間聚類問題;提出了非負稀疏拉普拉斯低秩表示模型,消除了LRR不适用于非線性流形數據的缺陷;定義了新的張量秩和張量核範數,重新完整構建了張量情形的數據補足、去噪和子空間聚類理論,美國科學院院士、壓縮傳感發明人E. Candès提出的矩陣情形的魯棒主成分分析理論成為我們的特例。
三、針對求解低秩模型計算量大的問題,充分利用低秩模型的結構特點,提出了結合自适應懲罰系數、線性化和并行分裂等技巧的若幹拉格朗日乘子法類型的算法,以及疊代重加權核範數收縮算法,求解不同問題收斂速度提升3-1000倍不等。
代表性論文谷歌學術引用近萬次,被100餘位中外院士和ACM、IEEE等主流學會Fellow積極評價,所提模型和算法被應用到100多個實際問題的建模和求解中,産生了巨大的國際影響。成果獲評2020年度中國計算機學會科學技術獎自然科學一等獎(林宙辰排名第一)。
地址:北京市海澱區頤和園路5号(62755617) 反饋意見:its@pku.edu.cn
Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.