在美国创业,把水印藏进声音里

世界上最重要的东西,往往是你听不见的。

在美国加州洛杉矶,一家名叫OfSpectrum的初创公司正在做一件“让水印隐形、让侵权现形”的事:把语音水印藏进音频里,人耳听不见,但系统能追踪。

近日,这家创业公司获得了全球创业加速器Techstars的投资,已与多家唱片公司和音乐行业协会进行技术验证,还获得了多家生成式AI企业的应用。

From DKU lab to startup Tracking audio with hidden watermarks 2 1

李林羲,王烨宸,黄逸淑(从左至右)

而创业故事的起点,还要从昆山杜克大学的课堂、实验室和研究项目说起,因为这家初创公司的创始人王烨宸、黄逸淑和李林羲,都是昆山杜克大学首届本科毕业生。

听不见的语音水印

“我们做的事情,就是在语音里藏个人耳听不见的水印,目的是保护语音。”

From DKU lab to startup Tracking audio with hidden watermarks 5

王烨宸

王烨宸的语气像在解释一道作业题,但他举的例子却很现实:假设你是一家音乐公司,你的歌被人拿去配自己的视频,视频赚了钱。按版权法,侵权者要么下架,要么付费——问题在于,你怎么“发现”它?

他们要做的,就是把“发现”这一步从“靠人等”变成“靠系统追”。水印被嵌进每一段音频之后,一旦有人把这段音频挪到别的地方——比如塞进短视频、二次剪辑、甚至经过压缩和再录制——他们的系统仍然能把它识别出来,再把“它是谁家的、从哪来的”解码出来。

王烨宸是2022届数据科学与大数据技术专业的毕业生,也是OfSpectrum的联合创始人兼CEO,他向我们拆解了语音水印的原理。

“人耳并不是个很精细的系统,两个数值完全不一样的声学信号,人耳听起来可能毫无差别。我们用生成式AI来训练模型,生成隐形的身份标签,藏在语音里。它不影响人的听感,能够抵抗噪音、混响、压缩甚至二次录制等常见音频变换,还能被我们快速检测到。传统技术或许要十天半月才能监测到盗版,但我们在半小时内就能发现。”

根据国际反盗版监测公司MUSO的2024年数据,全球盗版网站每年获得超过2150亿次访问。为此,唱片公司和音乐协会一直在积极寻求解决方案。

王烨宸在本科时就加入了昆杜电子与计算机工程系教授李明博士的昆杜语音与多模态智能信息处理实验室(DKU SMIIP Lab),与团队成员长期致力于智能语音和多模态行为分析技术的探索与创新。毕业后,他进入南加州大学深造,从事的仍然是语音研究。

硕士毕业前,他和两位本科同学李林羲、黄逸淑一起成立了OfSpectrum,在几番尝试与验证后,最终确定了现在的创业方向。

“生成式AI这几年一直很火,大家都在研究怎么用AI替代人,但我们想的是,怎么用AI技术去保护人。”

他们机缘巧合认识了一些美国国家配音演员协会的成员,了解到音乐版权保护的重重困难,又被推荐给音乐公司,开始研发语音水印技术。之后投入了大量时间与专业人士合作,包括歌手、音乐家、配音演员、音频工程师和研究人员,以确保水印符合专业标准。

目前已经有多家企业在使用他们的技术,他们也与美国唱片公司和音乐行业协会完成了技术验证,计划进一步协商技术使用的细节。

王烨宸的目光放得很长远,“我们希望为整个音频内容生态建立一套基础设施。通过这项技术,音乐行业能够发现和定位未经授权的盗版音频,AI公司也能为所有生成的内容打上可验证的标签,让用户知道这个音频的来源和归属。”

但作为初创公司,他们也面临着许多考验。

刚注意到AI语音水印这个细分领域时,市场里只有OfSpectrum在做这件事,但最近几个月,有新的公司也在研究这项技术。虽然作为先行者,他们建立起了“技术壁垒”,但技术壁垒通常也只有六到九个月的时效。如何将技术壁垒转化为市场壁垒,在音乐市场站稳脚跟,甚至参与制定行业标准,是他们正面临的问题。

不过创业本就不是件“毕其功于一役”的事,他们都做好了准备,要为建立更健康的音乐行业生态、更安全可信的生成式AI环境添砖加瓦。

跃入风口

OfSpectrum是王烨宸第一次创业,但早在初中时,他身上就涌动着蓬勃的创造欲。

那时他很喜欢打游戏,会在《我的世界》这种创建类的游戏里,用别人编写的模板去构造世界。但玩得久了,他发现别人编写的模板不足以满足自己的需求,萌生了编写属于自己的模板的想法,于是在中考后的暑假,他开始了自学编程。

读大学时,他发现许多同学都对学习基础的编程知识感兴趣,便和志同道合的伙伴们一起创建了当时昆杜最大的科技社团——DKU Technical Artisans(技术工匠),开设了面对面的编程基础课,还提出了以项目组为基本单元的社团组织形式,包括算法竞赛、机器人竞赛、论坛开发、游戏开发等,鼓励成员们不断进步。

从提出创立社团的想法,到接受培训正式成立社团,再到在社团内开课教同学们学习编程,他只用了短短七周的时间

大三时,他和同伴在李明教授的带领下,与通力电梯有限公司进行合作研究项目。项目申请了三项合作技术专利,相关论文还在多模态人机交互旗舰学术会议上发表了。

比起技术的使用者,王烨宸更想当技术的创造者,“在本科时我就想着,我以后一定要去创业。”

萌生创业的想法后,他联系了黄逸淑和李林羲,三人同是昆杜的首届本科生,作为第一批“吃螃蟹的人”,他们骨子里都有着开拓创新、敢想敢做的冒险精神

2023年底共度圣诞时,他们深入讨论了创业的可行性,最终决定一起把这件事做下去。

From DKU lab to startup Tracking audio with hidden watermarks 4 1

黄逸淑

黄逸淑想尝试创业,主要是因为家庭的影响。父母的工作都与经济相关,后来白手起家开了公司,她从小在充满经济学术语的环境中长大,上下学时车载的广播都是“经济之声”,自然而然地对经济学产生了兴趣,本科和研究生都选择了这个专业。

创业对她而言是发挥所学的机会,也是一次新奇的体验。她了解过市场情况,相信这是个“有趣也有前景”的方向,也见证过父母创业中的辛劳和凶险,做好了心理准备,“人或早或晚总是要吃点苦的。”

父母尊重她的选择,但也基于人生经验,建议她先去工作,了解公司架构和管理方法后,再去创业。黄逸淑心里清楚他们的建议或许是对的,但“机会都已经来了,我想先抓住它。”

李林羲对创业的前景没考虑那么多,他说自己不喜欢一成不变的工作,而王烨宸又是他“很信得过的人”,他们本科时关系就非常好,经常一起打游戏,“王烨宸特别聪明,头脑灵活,一起打游戏时,都是他来指挥。所有问题他永远反应最快,是我见过最聪明的人之一。”

李林羲做的是计算机视觉,后来进入伊利诺伊大学厄巴纳-香槟分校(UIUC)攻读硕士学位。因为之前打下的基础,转做语音研究也不难,他甚至觉得,做语音技术比视觉有趣多了。

而作为发起者,王烨宸的想法一直非常坚定,在前期一年多的摸索时间里,他也从未考虑过中止创业,退一步先去上班积攒经验。

“最近三到五年,AI都是风口,我们作为昆杜第一批学数据科学的学生,正好赶上了这个风口,如果有能力,肯定要去试一试。时间不等人,晚几年进场,市场未必还有机会。”

曲折中前进

创业不同于在学校的小组作业或科研项目,有明确的课题,有老师指导、文献参考,而是在竞争激烈、日新月异的环境里,找到市场的空白。它还得有真实的市场需求,而不只是单纯的技术突破。

三个20来岁的年轻人,在寻找方向这件事上,就花了一年多的时间。

他们一开始想做反AI加密,在人声音频里加一段噪音,让它无法被用于克隆和合成新音频,来保护个人隐私和信息安全。但市面上的语音克隆算法非常多,技术难以攻破每种算法,而且即使技术成熟了,也没有应用场景,普通人不会在发出每条音频时都使用它,也不会为此付费。

后来他们想做真假语音鉴别,用AI技术迅速判断一条音频的真假,银行、保险、通信公司可用它预防金融诈骗、身份盗窃。但这类有极高行业准入门槛的公司,很难与一个普通初创公司合作。他们努力了一段时间,最后还是放弃了。

大概尝试了三四次,他们才找到语音水印这个可落地的方向。这是2025年4月,距离他们开始创业已经过去一年半了。

王烨宸说创业中最大的困难是,“你不知道自己不会什么。”

“你以为自己的想法都很好,但浪费了很多时间,最终结局都是失败。这特别考验人的心态,但其实这再正常不过。就连Netflix刚创建时,创始团队也有段时间不知道该怎么往下走,每周在网站上放一个新想法,看哪个是用户需要的,再做下去。”

“创业的本质不是想出一个绝佳的创意,而是在实践中否定掉一个个想法后,把可行的那个想法坚持到底。”

From DKU lab to startup Tracking audio with hidden watermarks 8 1

李林羲

李林羲是OfSpectrum的CTO,主要负责技术开发,在语音水印技术取得突破时,他当时就有种看到曙光的感觉。因为这项技术很前沿,他们研发的语音水印不仅鲁棒性强,在多轮攻击和传播后,仍能留存,而且完全不影响听感。

“跑了几次程序后,我当时就确信这是真正的世界级的产品,我说,我们就来玩这个。”

一项新技术、一个新产品是否真正有需求,是否值得继续做下去,都要在市场里去验证。负责这部分工作的,是公司的CFO黄逸淑。

创业前期联系客户时,黄逸淑经常发出去几十封邮件,但都得不到回复。她会换个表达再发邮件给另一批客户,如果多次主动联络都完全没有回应,会考虑是不是方向出了点问题,“就是看事实说话。”

准备转换方向时,她会和目标客户一对一地聊,采访相关人员,旁敲侧击地问他们对于新产品有没有需求。有时她会使用些谈话技巧,引导对方说出真正的想法,而不是出于社交礼仪的捧场套话。

这个过程对她而言并不容易,“我不是天生适合做销售的人,在发几十封邮件都石沉大海后难免会有些沮丧灰心,所以得经常复盘,调整心态,思考问题究竟出在哪,而不是蒙头蛮干或索性放弃。”

因为公司在起步阶段,资金有限,作为创始团队的非技术成员,黄逸淑要管技术之外的所有事,不管是客户触达、市场营销,还是法律文件、用户协议。这些都是她在读书时不曾接触过的,都得从零自学。

她过去从未认真看完过一份用户协议,注册时顺手打个钩就行了,但自己去写一份协议,就不得字斟句酌,全面考虑所有法律风险、隐私保护、权责声明,非常耗时耗力,是个极大的挑战。

“肯定有很多琐碎的事,是我不太喜欢干的,但为了把创业项目做成,我会强迫自己去学,一点点拓宽舒适区的边界。”

两年的时间里,她像海绵一样如饥似渴地吸收着新知识,又把它们输出为公司的骨架,每一年回顾时,看到自己的快速成长,看到公司的进步,她都会由衷地感到开心和满足,“好像实现了一部分自己的价值”。

李林羲承认自己在创业没有起色时想过放弃,但他没有做出过行动,因为搞技术创新“很带劲”,他喜欢为自己工作的主动感,“一天干十几个小时都不觉得累”,也享受在一个有前景的行业做出成果的快乐,那种“头脑颤栗,身上好像起了鸡皮疙瘩一样”的感觉,他希望能一直维持下去。

在摸索和调整中,带给王烨宸信心的,一是市场给出的正向反馈,二是他对未来的展望——未来五到十年,这个世界会变成什么样子,这种技术是否一定存在?

“如果是的话,我希望是我们把它做出来的。”

保持专注,接受改变

回顾这两年的创业之路,三人总结了几点经验,分享给同样拥有创业想法的学弟学妹们。

一是确保投入度。

昆杜为学生们提供了许多学生工作、社团活动、科研的机会,大家也都习惯了身兼数职,拓展多项技能。但如果边上班边创业,或者在两者之间摇摆不定,或者有好几个创业想法在同步进行,都可能因为投入度不够,无法快速试错后找到对的方向。

OfSpectrum团队成立的这两年,一直有人员变动,最后留下来的,都是最愿意去为它花时间,最能够接受风险和失败的人。

二是执行比想法更重要。

创业时,一定会遇到很多困难,超出一个人的“能力舒适区”,只有坚持做下去,才能找到突破口

在黄逸淑看来,想法很重要,它决定了创业的上限,但专注地执行会制造新的想法,从而刷新上限。

三是尊重市场。

在学校做科研时,关注的是自己想做什么、能做什么。但创业的底层逻辑是,市场需要什么,我就去做什么。

李林羲理解做技术的人开发出好产品时的狂喜与自豪,他也常有这样的时刻。但几次更换产品方向后,李林羲清楚地意识到,产品的市场需求比技术突破更重要,“如果没有人愿意为你的产品付钱,它是没法继续做下去的。”

四是保持开放,保持谦卑。

OfSpectrum是在美国创立的,美国的不同城市——硅谷、纽约、洛杉矶——有各自的创业生态,创始人的想法、投资人的偏好都不一样。

From DKU lab to startup Tracking audio with hidden watermarks 6 1

团队成员常与各个生态里的创业者交流,吸纳他人的想法,来改进自己的创业策略。

加速器项目的创业者之间常保持着很友好的关系,不把对方当作竞争对手来防范,不自满、攀比,而是互相帮助,一起克服创业路上的艰难险阻,把事情做成。

五是愿意改变自己。

王烨宸以前是个性格相对内向的人,更喜欢把时间花在技术上。但创业中谈合作,少不了要与不同立场、不同性格的人打交道,得不断去思考怎么才能说服对方。

也因此,他开始看历史剧,《康熙王朝》《雍正王朝》《大明王朝1566》,去理解每个角色说话做事的逻辑,看他们如何与人博弈,在困境中保全自己。“以前我对这些完全不感兴趣,但创业有需要,那我就去学。”

“创业中,我经常意识到自己的不足,然后反思该如何改变自己。如果发现问题后只是掩盖起来,那问题会永远存在。”

王烨宸想起本科时自己曾参与过一个游戏科研项目,了解过搞创意的同学们的经历与想法,也在这个过程中,意识到和认可了创意与艺术的价值。

所以在开始AI创业时,他没有走“用AI技术替代人去画画写歌”的那条路,而是想该怎么最大程度去保护知识产权,共建一个健康的可持续的行业生态。

他几度犹豫过要不要先走学术路线,读完博士再创业,最终还是听从了内心的声音:

“如果我能直接改变世界,那为什么不马上去做呢?”

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.

Add our
WeChat

If you are a journalist looking for information about the University or for an expert to interview for a story, our team can help.