曲忠航:用机器学习为人类的进步做出贡献

“我认为机器学习的未来是充满无限可能的。在读博的这几年里,我将致力于在这个领域做出有革命意义的研究成果,为人类的进步做贡献。”在加州大学伯克利分校的博士申请线上面试时,昆山杜克大学2023届数据科学与大数据技术专业本科毕业生曲忠航如是答道。

曲忠航

2岁拥有自己的第一台电脑、11岁尝试写简单的程序、高中连续两年参加全国奥林匹克信息学竞赛,曲忠航在与计算机的博弈中一次又一次感到喜悦与兴奋。在这股热情的驱使下,他选择报读了昆山杜克大学数据科学与大数据技术专业,并在与导师做科研的过程中萌发了对机器学习的研究兴趣。此后,他以读博深造为目标持续深耕,最终收到了加州大学伯克利分校、麻省理工学院和威斯康星大学麦迪逊分校三所海外知名高校的计算机科学专业全奖直博Offer。

邂逅科研:一作发文SCI

大一上学期,一次协助组装实验室电脑的契机让曲忠航结识了自己的第一位导师——昆山杜克大学化学助理教授张凯博士。曲忠航对计算机很感兴趣,了解电脑硬件原理,动手能力也强,很快就安装好了实验室的电脑。随后,他主动提出希望跟着张凯做科研,这个“话不多但做事认真”的学生给张凯留下了深刻印象。

不久后,曲忠航便和张凯合作了一个关于聚合物纳米复合材料特性的研究项目。该项目通过开发人工智能模型,改进量化纳米粒子分布的能力,有助于揭示有机材料的特性,从而让其在实际应用中拥有更优良的性能。曲忠航作为项目负责人主要进行透射电子显微镜图像预处理、标注、数据库建立及机器学习模型的搭建和训练等工作,几乎独自完成了整个研究的方法实现和结果收集。当时由于新冠防疫措施,他常在学校宿舍里工作,并通过在线视频电话与研究团队成员交流,经常在电脑前一坐就是一整天。

疫情期间曲忠航和团队一起开组会。

这是曲忠航的第一个正式项目,此前他对张凯所研究的化学和机器学习领域并不了解,加之还未进行正式的科研训练,看相关外文文献的速度也很慢,一时无从下手。他便从科研小白做起,一个单词一个单词地查,一篇文献一篇文献地啃,大量查阅相关领域资料。张凯则手把手教他科研基本功,教授阅读文献、做数据测试和画数据图的方法,培养科研思维。随着阅读量和知识的积累,他从中总结了规律,看文献的速度越来越快,对研究也渐渐上手。

“他有很强的自学能力,大一暑假就自学了远早于课程进度的内容。平时还会通过读文献提出新的科研思路,身为本科生却已达到了博士研究生的科研水平。”张凯如此评价道。

昆杜采用“通识博雅”的教育理念,本科生大二时再根据兴趣自主选择专业。曲忠航的自学能力和对计算机的热情也感染到了身边的同学。据同专业好友金哲煦回忆,曲忠航常会分享自己关于科研和计算机科技的相关经验,“大一还在上通识课时,我就在他身上学到了很多数学和计算机知识,如Python、LaTeX、Markdown和命令行使用等基本的计算机知识。”

曲忠航的研究成果发表在高分子化学顶级期刊之一的《大分子》(Macromolecules)上。

大二暑假期间,曲忠航和张凯合作的第一个项目“用深度学习量化聚合物基质中纳米颗粒的组装态”(Quantifying Nanoparticle Assembly States in a Polymer Matrix through Deep Learning)发表在了美国化学学会期刊《大分子》(Macromolecules)上,曲忠航为第一作者。

“这个项目对我本科阶段的成长至关重要,不仅帮我掌握了做科研的基本功,也让我从中发现了对机器学习的兴趣。”曲忠航回忆道。

孜孜以求:打磨科研基本功

张凯博士在昆山杜克大学任教化学,在机器学习领域主要做与物理化学相结合的应用。他认为像曲忠航这样“有天分”的学生应该打好理论基础,对机器学习有更深刻的理解和探索,于是便把曲忠航推荐给了学校图神经网络领域(计算机算法模型)的专家——数据科学助理教授邹东勉博士。与此同时,曲忠航也在跟导师做科研的过程中产生了对机器学习的浓厚兴趣,决定未来申请国外的博士学位深造,走学术科研之路。

加入邹东勉团队后,曲忠航仍保持着一贯的学习劲头。假期发邮件找导师推荐专业书籍和论文资料;通过公开课自学微分几何;选修多门毕业计划外的数学课;同导师同学分享新知,主动参与讨论交流;用一周时间便理解了以往同学需要一个月才能吃透的图神经网络和MCTS(蒙特卡罗树搜索,一种计算机算法模型)……

通过导师指导和自学,曲忠航学习了大量解析几何和深度学习的相关知识,积累了理论研究经验。在此基础上,他开始阅读机器学习中关于图神经网络的内容,并萌发了一个新的想法——构造一个稳定的大型深度双曲神经网络生成模型。国庆假期,他一连几日待在教室做研究,敲出了数千行代码。然而由于想法不够成熟,文章先后被人工智能三大顶级会议拒稿。

在邹东勉的指导下,曲忠航重新梳理思路,把投稿辩论时补充的实验单独摘录成文,以短文章的形式投稿。文章中提出了很多双曲神经网络的运算符,并用其构造了一个全新的神经网络架构。该架构可以应用到拓扑图生成,生产此前未曾发现的、具有优良性质的分子。这篇文章最终顺利在NIPS(机器学习领域的顶级学术会议)中的研讨会(workshop)上发表,为曲忠航后续申请博士学位奠定了基础。

“邹教授给了我很多学术指导,当我学术能力较弱、专业知识不足时,他很有耐心地带着我做科研。当我在实习单位忙得抽不出身时,他也会在我们的共同项目里为我分担更多的工作。”曲忠航说道。

在邹东勉看来,曲忠航身上有一种对研究的内驱力,“他把对问题的研究和未知的探索变成了习惯,这即便是放在研究生身上也是难能可贵的。”

曲忠航在昆山杜克大学的校内健身房健身。

在生活上,曲忠航也常会给朋友们带来惊喜。他平时会通过健身释放工作和学业压力,与他一同健身的同窗好友、2023届应用数学专业的赵津辰称有时一个假期未见,他的健身杠铃就会加重几倍。“每隔一段时间他就会‘震惊’我一下,让我有种‘士别三日当刮目相待’的感觉”。

本科期间除了在校内跟着导师做科研,曲忠航也有着丰富的校外实践经历。从大三暑假至今,他长期在微软亚洲研究院(以下简称“亚研院”)实习,同世界各地很多一线研究员交流,接触到了前沿的科技成果,更是在亚研院导师的指导下受益良多。“导师们很重视我的想法,也与我分享了很多做科研的观点与方式,进一步完善了我的‘科研价值观’。”

实习期间,曲忠航主要负责用机器学习和人工智能解决生物基因组方面的问题。项目过程中,他想出了一个改进序列类深度学习模型的方法,并在组会中提出了该想法。亚研院导师李东胜敏锐察觉到了这个方法的潜力,并指导曲忠航继续推广该方法,进行更大规模的测试。这个“灵光乍现”的成果最终发表在了机器学习领域的顶级学术会议ICLR 2023上,并被选为了会议中值得推荐的前25%亮点成果(Spotlight Notable Top 25%)。

ICLR全称为国际学习表征会议,被认为是深度学习领域的顶级会议之一,本届会议共接收了近5000篇投稿,整体接收率为31.8%。曲忠航参加了在卢旺达首都基加利举办的ICLR 2023,并在会上进行了15分钟的成果展示。

在亚研院接触到的大型语言模型(ChatGPT系列)则让曲忠航进一步领略了AI的能力和魅力,“每次开组会就像看科幻电影一样”。这段经历也激发了他在博士毕业后去科技公司研发部门继续进行学术研究的兴趣。

厚积薄发:伯克利全奖直博

曲忠航申请的加州大学伯克利分校和麻省理工学院同卡内基梅隆大学、斯坦福大学在历年的全世界最佳计算机科学专业院校排名中并列第一,被誉为美国计算机科学专业的“四大”。“四大”计算机科学专业的直博申请竞争极为激烈,其中曲忠航选择入读的加州大学伯克利分校在该项目上的全球录取比例仅为5%左右。

曲忠航在杜克大学交换时的生活照

曲忠航申请博士学位是在大四上学期,此时他正在美国杜克大学交换。一边承受着学业压力,一边在亚研院做实验、写论文,最忙的一周有20多个待办事项,留给申请博士学位的时间并不算多。

“当时相对突出的学术成果仅有一篇在NIPS研讨会上的文章,我一度以为申请无望,曾打算先去工作积累经验,日会有机会再申请博士学位。”

回顾面试经过,他仍记忆犹新。面试官们的提问既会关注计算机领域本身的话题,也会问及个人的研究旨趣和成果,但导师们更看重的还是学生扎实的基本功及科研潜力。面试官曾提问VAE和GAN(深度学习领域用于生成数据的技术)的原理及实际应用的缺点。该问题看似基础,但需要对相关模型有深度思考和实际运用才能回答出来,而这对有丰富实践经验的曲忠航来说并不在话下。

这次申请博士学位的经历让曲忠航感悟道,“对本科生来说要打好基础,保持学术热情,多产出一些更有意义的研究成果,这比论文数量更重要。”

“Congratulations!I am delighted to offer you admission to graduate study in the Computer Science PhD program, beginning Fall 2023.”经过为期几周的等待,曲忠航陆续收到了加州大学伯克利分校、麻省理工学院和威斯康星大学麦迪逊分校计算机科学专业的全奖直博Offer,经综合考虑,他选择入读加州大学伯克利分校。

六篇一作论文,分别在机器学习三大顶级会议发文,曲忠航的大学四年沿着科研之路大步迈进,成果颇丰。而回顾这些成果的取得,他认为离不开昆杜的平台和独具特色的育人模式。

“我性格比较内向,而昆杜优越的师生比和本科生参与科研的机制让我有更多机会直接和教授们沟通交流,从而找到自己的学术兴趣以及培养了自己的能力。”

提及对学弟学妹们的建议,曲忠航认为“一定要树立明确的目标,并向着这个目标努力。同时利用好资源,抓住机会,相信自己,最终一定能实现自己的梦想。”

加州大学伯克利分校

今年夏天,曲忠航将带着对机器学习的热忱前往加州大学伯克利分校攻读博士学位,与同仁在伯克利AI研究实验室探讨前沿科技,继续探索用机器学习和人工智能解决科学问题。

“我希望通过进一步学习,做一些能够给人们的生产生活带来一定影响的成果,为人类的进步做一点贡献。”

如果您是一名记者,正在寻找有关大学的信息或专家采访故事,我们的团队可以提供帮助。

媒体关系

中国传播

李怡
联系电话: (+86) 0512-3665 7720

邮箱: yi.li@dukekunshan.edu.cn

Add our
WeChat