Search
Close this search box.
Search
Close this search box.

昆杜大四学生论文被顶级声学国际会议收录

文 | 高歌

近日,全球语音、声学顶级会议 ICASSP 2022 公布了论文入选名单,昆山杜克大学数据科学专业大四学生张昊哲作为第一作者、由电子与计算机工程副教授李明博士指导完成的研究论文被收录。作者将受邀参与会议、面向学术和工业界进行研究报告。会议分为线上与线下两部分,线上会议于5月7日至13日进行,线下会议于5月22日至27日分别在主会场新加坡和分会场深圳举行。  

张昊哲

被收录的论文题为《一个说话人信息指引的同时面向人与机器的零样本语音转换系统》(A Speaker Information Guided Zero-shot Voice Conversion System for Both Human Beings and Machines)。该论文主要面向语音转换任务。文中所指的“语音转换“ (voice conversion) 技术指的是在不改变语音文本内容的前提下,改变说话人的音色,即说话人A所说的话经过这个系统处理,可以变为由说话人B所说的声音。   

在语音处理领域里,一段音频材料同时包含了说话人信息和文本信息,而语音转换系统的工作原理是提取一段音频材料中的高纯度文本信息,从而将其与另一位说话人的说话人信息相结合,从而合成转换后的语音。传统的语音转换系统通常需要包括几百句目标说话人语音样本用以训练,在缺少足够数据情况下转换的效果往往不理想。   

在这篇论文中,李明博士和张昊哲独到地使用了两个预训练模型作为监督系统,分别提取一段语音中的说话人信息(即说话人音色)和文本信息(即说的内容)来完成零样本(zero-shot)语音转换的任务。该系统从原始音频材料中提取以梅尔谱图(一种音频信息的数字形式)为形式的数据,通过一个编码器/解码器(encoder/decoder)的结构去除其中的源说话人信息以获取纯净文本信息,之后再通过预训练模型的辅助添加目标说话人的音色信息,从而完成语音转换的任务。以提纯文本信息为目标的思路提高了模型的普适性,可以更好地应对低数据量带来的挑战。   

据张昊哲介绍,此系统的设计或许可以帮助改善真实生活中语音转换工具在一些极端情况下的表现,例如要替换成说话人B的声音,但缺少说话人B的语音素材。    

这项研究从去年五月份开始,经过半年多的努力完成,这也是张昊哲在李明博士指导下第一次独立完成自己的科研工作。他表示,研究的灵感部分来自李明博士领导的实验室团队里的师兄们。张昊哲补充道:“我之所以使用双预训练模型是基于师兄们之前一些工作所产生的灵感,不仅如此,在这次研究的进行过程中他们也提供了许多帮助。除了感谢李明老师对我的悉心指导,在此,我也要感谢实验室一起科研的师兄们,没有他们,我也无法完成这项研究。”  

李明实验室举办2019声纹识别研究与应用学术研讨会

虽然张昊哲的科研之路在大四的最后一个学期开花结果,他在语音处理领域的探索早在大一时期就已开始。一向喜爱编程的他在大一暑期就进入了李明博士的实验室学习,并在之后的两年内一边观摩并辅助实验室里前辈们的工作,一边在课堂上积累相应的知识。   

据他表示,实验室里的良好氛围是能获得成果的关键:“我很喜欢我们实验室的环境。相较于科研中可能有的竞争,李明老师在对我们的指导中更加强调合作的重要性。师兄们对我很有耐心,即使在我对一些研究细节没有完全理解的时候也会尊重我的意见和想法,使得我可以在独立思考中成长。”    

李明实验室与图书馆在2019年4月2日联合举办的校内科普活动

指导这次研究的李明博士评价道:“张昊哲同学的这项工作在短视频和娱乐领域很有意义,减少了声音克隆对目标人注册语音的数量要求,同时也驱动合成与变声语音检测模块进一步提升鲁棒性和准确性。昊哲在标志性成果研究期间还积极参加实验室的相关项目,把变声这个技术用于电子喉语音增强,这有助于提升声带切除病人使用电子喉时的语音质量,得到了我们合作方昆山第一人民医院五官科医生们的肯定。”   

李明博士领导的实验室团队一向崇尚学生的自主创新精神与团队合作能力。在实验室的日常工作中,本科生们作为学生工作者辅助做研究、参与组会和学术讨论的现象非常普遍。通过参与前辈工作的过程中,低年级的本科生可以逐步锻炼自己的科研能力并获得自己的科研机会。  

即将毕业的张昊哲也是昆山杜克大学首届本科毕业生班级的一员。得益于学业上出色的表现和科研道路上杰出的成果,他成功获得了卡耐基梅隆大学硕士项目的录取,并将继续从事语音技术领域的研究。张昊哲表示,获得计算机领域卡耐基梅隆大学的录取与认可是一个值得庆祝的“胜利”,并希望能够继续在语音技术领域做出自己的贡献。    此外,李明博士指导的实验室团队还有其他5篇论文也被ICASSP 2022收录,分别涉及声纹识别、说话人日志、多模态唤醒和语音转换领域。

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.

Add our
WeChat

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.