我校计算机学院(软件学院)刘瑞研讨员和张学良教授研讨团队3篇论文被语音信号处理范畴尖端世界会议ICASSP选用
ICASSP(International Conference on Acoustics, Speech and Signal Processing) 即世界声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其运用方面的尖端会议,在世界上享有盛誉并具有广泛的学术影响力。我校计算机学院(软件学院)“语音了解与生成研讨组”(刘瑞研讨员团队)和“语音信号处理组”(张学良教授团队)共有3篇论文被ICASSP2023选用,以下为论文简述。
多模态情感辨认运用跨模态的互补信息完结多模态交融。可是,在实践场景中,模态缺失问题都会存在。在进行缺失模态猜测时,不同模态之间的固有差异(Modality Gap)带来了很大应战。未处理这个问题,咱们模仿人类的多模态隐含信息推理才能,提出将模态不变特征用于缺失模态幻想网络(IF-MMIN),这中心还包含两种立异机制:1)依据全模态场景下CMD间隔的模态不变特征学习战略;2)交融不变特征的缺失模态幻想模块(IF-IM),以减轻缺失模态猜测期间的Modality Gap问题,然后改进了多模态联合特征标明的鲁棒性。基准数据集IEMOCAP上的试验标明,所提出的模型优于一切基线办法,而且明显改进了不确定缺失模态条件下的全体情感辨认功能。咱们将代码发布在以下网址:
依据语音发生的机理,声道将缓慢改变的语义信息调制到声带宣布的宽带载波上,这在频谱上别离表现为包络和谐波结构,它们在倒谱域中能够被更稀疏地标明。依据这一机制,咱们提出了一种在时频倒谱空间中进行联合降噪的倒谱频率增强模块(CFB)。该办法不运用倒谱作为输入特征,而是隐式的完结频域特征和倒谱空间的彼此改换,并在时频域和倒谱空间进行联合增强。终究咱们将该CFB模块整合到了咱们之前的原地卷积循环网络(ICRN)中,成功的将该模型的适用场景从多通道拓宽到了单通道场景。试验依据成果得出,提出的ICCRN模型明显优于基线体系,而且在谐波结构增强方面具有共同优势。
大多数依据神经网络的语音增强办法挑选直接映射傅里叶改换域频谱或波形,然后疏忽语音发生的数学模型,约束了语音增强的功能。在这项工作中,咱们提出了一种用于语音增强的神经源-滤波器网络。具体来说,个人会运用同态信号处理和倒谱分析来获得带噪语音的鼓励和声道,与传统信号处理的办法不同,个人会运用留意递归网络(ARN)模型猜测比率掩码来替代提高别离函数。然后,别离运用两个卷积留意递归网络(CARN)来猜测洁净语音的鼓励和声道。体系的输出由估量的鼓励和声响组成。试验证明,咱们提出的办法功能更好,与FullSubNet比较,SI-SNR提高了1.363dB。
个人简介:2018年考入内蒙古大学计算机学院(软件学院),在张学良教授课题组攻读硕士学位。2020年请求硕博连读攻读博士学位,研讨方向为多通道语音增强。该生已在此范畴的尖端会议ICASSP和INTERSPEECH宣布论文5篇,一起参加预研和落地了很多工业界关键性课题,包含多通道降噪、去混响、声学回声消除、双耳助听增强等。
个人简介:2019年在内蒙古大学计算机学院(软件学院)获得学士学位。攻读学士学位期间曾担任“内蒙古大学精英学生开发者联盟(IMUDGES)”第5任联合主席。同年考入内蒙古大学计算机学院(软件学院)张学良教授课题组攻读硕士学位,2021年请求硕博连读,跟从张学良教授攻读博士学位。研讨方向是方针说话人抽取、单通道语音增强。截止现在,该生在语音范畴尖端会议ICASSP和INTERSPEECH共宣布5篇论文。
个人简介:2020年考入内蒙古大学计算机学院(软件学院),跟从高光来教授攻读硕士学位,2022年请求硕博连读,跟从刘瑞研讨员攻读博士学位。研讨方向为多模态情感辨认。截止现在,左昊麟在语音范畴尖端会议ICASSP宣布论文一篇,申报并完结校级研讨生科研立异项目一项。