Search
Close this search box.
Search
Close this search box.

昆杜团队在全球规模最大的说话人识别挑战赛获得多个赛道冠军

近日,昆山杜克大学团队携手马上消费金融股份有限公司,联合取得全球最权威、规模最大的说话人识别竞赛– VoxSRC 2023说话人识别挑战赛半监督领域自适应声纹及说话人日志赛道冠军。

参加本届赛事的DKU团队核心成员,自左到右:覃晓逸、林宇珂、程铭、励泽。

VoxSRC(VoxCeleb Speaker Recognition Challenge)说话人识别挑战赛由牛津大学发起,挑战的目的是探索现有方法下如何从真实场景获得的语音中识别说话人。数据集来自 YouTube 上的数千个名人的上百万条访谈视频,包括专业编辑和红毯访谈的音频,以及在一系列背景噪音、笑声和其他环境下的对话音频。

昆山杜克团队由电子和计算机工程长聘副教授、昆杜语音与多模态智能信息处理实验室(DKU SMIIP Lab)负责人李明带队;团队成员有林宇珂、程铭、覃晓逸、励泽,均为昆山杜克大学语音与多模态智能信息处理实验室成员,来自武汉大学与昆山杜克大学的校际研究生联合培养合作项目。

电子和计算机工程副教授,DKU SMIIP Lab负责人李明

李明教授表示:“基于深度学习的声纹识别关键技术在智能家居、智能客服和智慧城市等人们的日常生活场景中有着广泛的应用。昆山杜克SMIIP团队一直专注于该领域的研究,并多次在声纹识别相关领域赢得国际顶级比赛的冠军。我期待着团队再创佳绩,并以科技服务人民的生活。”

值得一提的是,昆山杜克大学团队在去年的VoxSRC2022比赛中获得了说话人日志赛道的冠军,在前年的VoxSRC2021比赛中获得了自监督声纹和说话人日志两个赛道的冠军。本次比赛昆山杜克团队的合作伙伴 — 马上消费金融股份有限公司是一家由原中国银监会批准成立并持有消费金融牌照的科技驱动型金融机构,在比赛中与昆山杜克团队联合制作了VoxBlink数据集并提供了强大的算力资源。

VoxSRC系列评测竞赛已经举办了五届,近年来吸引了来自微软、三星、华为、搜狗、腾讯、字节跳动等企业以及约翰霍普金斯大学、根特大学、布尔诺理工大学、加泰罗尼亚理工大学、延世大学、中科院声学所、上海交通大学、厦门大学等高校研究机构的参与。第一届、第二届和第三届由牛津大学著名的VGG实验室组织,最近两届由韩国KAIST主办。

VoxSRC 2023有四组赛道,赛道一、二、三的任务分别是限定训练数据的说话者确认、不限定训练数据的说话人确认、半监督领域自适应声纹,参赛者需确定两个语音样本是否来自同一个人。赛道四是说话人日志任务,目的是将多个未知个数说话人参与互动的单通道音频打上“一共有几个说话人以及每个人分别在什么时候说话”的标签。

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.

Add our
WeChat

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.