作者:高歌
李明博士(左一)在实验室
在的线上国际语音科技盛会 Interspeech 2020 上,昆山杜克大学的学者和学子们在这场业界顶级的学术交流活动中大放异彩。研究团队不仅在大会上设立的无畏挑战赛中斩获奖项,也与来自许多知名研究机构的学者们在不同技术领域分享自己的学术成果。此外,昆山杜克大学电子与计算机工程副教授李明博士和许多学生志愿者们在多个层面上参与了大会的组织,贡献了不可缺少的力量。
大会上,来自微软、亚马逊、滴滴和牛津大学等各大业界研发型企业与 学术机构的1950余名研究者们呈现并交流他们的最新学术成果。为了使学者们聚焦于领域内一些重点研究方向,大会的组织者们还举办了九项覆盖不同技术领域的挑战赛以评选各个团队构建的语音识别系统。
在其中强手如云的无畏挑战赛第二阶段中,李明博士带领的 DKU SMIIP Lab (Speech and Multimodal Intelligent Information Processing 语音与多模式智能信息处理实验室) 团队提出的基于深度残差网络 (ResNet) 和长短期记忆网络 (Long Short Term Memory) 的系统,击败了德国帕德博恩大学和 Vivo 等六名强劲对手的竞争并获得了说话人识别模块的第一名和说话人活动检测模块的第三名。
此次会议共接收有效论文投稿总数2140篇,录取1022篇,覆盖语音、信号处理、口语语言处理等多个方面。 在会议期间设立的各项赛事中都有亚马逊、中国科学院、微软、卡耐基梅隆大学和牛津大学等知名研究机构参与。
什么是Interspeech?
Interspeech 是由国际语音通信协会 ISCA (International Speech Communication Association)组织的语音研究领域的顶级会议之一, 在计算机语音信号处理领域与 ICASSP (International Conference on Acoustics, Speech and Signal Processing) 并列被广泛认为是全球水平最高的盛会。以往每年都有来自超过一千名学者和研发人员的六百多份论文在这项大会上发表,被业界广泛认可的专家也会参与大会交流。今年由于疫情的原因,原本计划在上海举办的 Interspeech2020 改为线上举行。
什么是无畏挑战赛?
无畏挑战赛 (Fearless Steps Challenge) 是 Interspeech2020 设立的数种赛事之一,最早由德州大学达拉斯分校的鲁棒语音研究中心 (Center for Robust Speech System) 创立。这项从2019年开始举办的赛事注重对于自然性的大数据语料库的数字化、恢复、和差异化处理。在今年的第二阶段挑战赛上,参赛者们被要求在单通道监督式学习策略这一方法的基础上搭建出优质的语音处理系统。
我们通常所说的语音处理在技术上分为几个板块。如果要把一段音频分析成可用的信息,我们不仅需要把语音转换成文本的能力,也需要区分不同说话人、有人声音频段与无人声音频段、人声和背景音等等技术。由李明博士带领的团队在这次无畏挑战赛中赢得了说话人识别和说话人活动检测这两个子赛事的奖项。
与作为基准的长短期记忆网络系统相比,DKU SMIIP Lab 团队所构建的将深度残差网络与长短期记忆融合的系统,可以在后端更容易地捕捉语音里的连续信息,并能把最小检测代价降低到基准系统的62%。
其他赛事参与与发表
远场说话人确认挑战赛是这次学术会议里的另一项重量级赛事,由李明博士在内的多名学术专家组成的委员会负责组织和制定赛事规则以及设定基准系统。远场声纹识别技术是指当说话人与机器处于1-10米间的距离时由机器识别人类身份的技术,常见的场景有车载音响、会议室和智能家居等。 由于在远场条件下一般会出现收音效果不理想、说话人数量多、背景音过重等困难,如何提高远场人机交互的效率一向是个很有挑战性的任务。
由李明博士带领的昆山杜克团队一直致力于基于深度学习的远场识别关键技术研究。从2019年开始,团队与澜起电子科技(昆山)有限公司进行合作,在自身的高性能远场语音唤醒算法基础上共同进行了嵌入式系统验证,硬件 FPGA 架构设计,定点方案对比等方面的研究工作。双方的有关远场环境内小足迹关键词识别技术提升的合作成果,也在这次 Interspeech 2020 上成功发表。
除此之外,昆山杜克大学的研究团队还在这次会议上发表了另外两项研究成果。在语音分段标记这一领域,团队与中山大学的研究人员合作提出了两种基于自注意力机制的方法来寻找语音序列中相似的说话人嵌入,从而大大提高系统的准确度与效率。另外,团队还开发了基于自注意力机制的深度卷积神经网络来处理在现实环境下的目标说话人分离,即能使机器具备人类在嘈杂环境中专注于一个特定人的谈话的“鸡尾酒会效应” 。
多层次的参与,多彩的热情
在这次 Interspeech 2020 举办期间,不同的昆杜人展现了不一样的风采。数据科学研究中心的李明博士不仅参与组织了远场说话人确认挑战赛这一重要赛事,还代表昆山杜克大学与滴滴出行、天津大学联合打造了在 线上举行的 Interspeech 2020 Satellite Workshop (Spoken Language Interaction for Mobile Transportation System, SLIMTS2020)。除此之外,李明博士还担任了会议上说话人与语种识别方向的领域主席。
对于这次特殊形势下举办的国际语音盛会和昆杜学子的表现,李明博士这样评价:“本次 Interspeech2020 学术会议经历了线下举办、线下线上融合举办、到纯线上举办的一波三折,不过在大会组委会的卓越工作和辛苦努力之下,我们得以如期和全球的语音界学者相会,交流工作,非常的难得。也非常高兴看到除了研究团队之外,昆山杜克的本科生也越来越多地参与到了国际一流学术会议中,期待未来更多的昆杜DKU学子在国际一流的学术舞台上绽放光彩”。
在这次大会上,不仅 SMIIP Lab 的研究生们展示了他们的研究结果,昆山杜克大学的本科生们也积极做出了他们的贡献。我校大三学生朱庭龙在附属工作坊上发表了自己关于计算机视觉模型在声纹领域应用的研究。作为极少数能在本科阶段就能在业界顶级的学术会议上发表论文的学生,他感慨道:“在这个精英云集的大会上不仅能学到为语音识别量身定做的一些技术方法,甚至还能看到 CV (计算机视觉)、NLP (自然语言处理) 还有物理的一些偏基础的知识回顾。新想法的诞生和新技术背景下旧想法的再讨论在会场上交相辉映。我很幸运能从这次大会接触到业界最前沿的研究趋势。”
幕后英雄
在参与学术讨论之外,昆杜学子们还积极参与了会议的组织与运转。在本次会议中,昆山杜克派出了龚绪晨、储黄瑞、居然等十名学生担任大会志愿者。在经历了漫长的会前准备和会议时期繁忙的工作后,储黄瑞有感而发 :“很荣幸能在本科阶段就接触这种国际顶尖的大会。在做志愿者的过程中,我理解了举办一场大会背后是许多人的付出。为了让大会的质量和效果都达到最好,需要志愿者对投递的视频进行严格的审核,以及与演讲者积极的沟通。非常感谢这次志愿者活动给我带来接触行业大牛的机会。”
龚绪晨也说道:“很荣幸能作为志愿者亲历 Interspeech 的举办。视频的审核整理、和作者及主席的预演、会议进行中对主席的后台支持,这一系列工作让我了解到一场会议对流程精准度的严格要求,以及会议筹备所需要的严谨。同时,在会上能有和业界大牛对话的机会,这对我来说是很大的眼界的拓展。”
希望在明年的 Interspeech 大会上,我们依然能看到昆山杜克大学的研究团队在会场上创造佳绩,也希望更多的昆山杜克人能参与到此类的学术盛会。