聲學環境是人類最熟悉的環境之一,和環境交互是具身智能的一個重要特征。在三維聲場的分析方法中,由于聲球諧函數分解能實現聲源信息與環境信息的解耦,基于球形陣列的三維聲場分析得到廣泛應用。本研究基于球型陣列接收到的信号,進行球諧域展開,采用一種疊代式的反演模型訓練方法,通過聲學環境與目标信号耦合建模,把球諧域信号在多聲源,早期混響,晚期混響及噪聲幾個維度上進行分離,分離後的聲場球諧函數信号可實現聲源分析、聲場環境描述等任務。相關技術成果已應用于三維聲場的錄制與重放、三維聲場控制、聲源檢測,定位與增強、多通道音頻編解碼等領域。
本研究獲國家重點研發計劃、國家高技術發展計劃(863)、國家自然科學基金等項目支持,多項研究成果發表在國内外著名期刊和頂級會議上,包括IEEE TASLP、JAES、ICASSP、Interspeech、AAAI、AES Convetion等,并申請國家發明專利。部分專利技術被3GPP IVAS标準,AVS3-P3标準采納,編解碼器落地華為大屏,耳機等産品,2022年中秋晚會及2022年卡達爾世界杯直播都采用AVS3-P3編解碼器。
圖:音樂會錄制現場
地址:北京市海澱區頤和園路5号(62755617) 反饋意見:its@pku.edu.cn
Copyright 版權所有©beat·365(中国)唯一官方网站 All Rrights Reserved.