在计算机视觉领域顶级会议 ICCV 2021 中,来自微软亚洲研究院的论文 “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows” 荣获最佳论文奖(马尔奖,Marr Prize)。马尔奖每两年评选一次,被看作是计算机视觉研究方面的最高荣誉之一。
在这项研究工作中,来自微软亚洲研究院的三位实习生——联合培养博士生刘泽、林宇桐、韦毅轩做出了重要贡献。以此为契机,三位同学在研究院内为实习生们进行了专场分享。我们也在分享会后对三位同学进行了深度访谈,为大家揭秘“马尔奖”背后的更多故事,了解他们的科研成长体悟:
如何确定一个好的选题?他们是如何将灵感一步步落地的?
他们如何进行团队合作,从而产出了如此高质量的成果?
他们各自的科研经历是怎样的?在科研道路上,他们有怎样的诀窍和法门?
马尔奖对于他们的意义是什么?第一篇发表的论文就斩获马尔奖,对于他们有什么巨大价值?
让我们带着这些问题一起走进马尔奖得主们的独家故事!
刘泽
中国科学技术大学-微软亚洲研究院
联合培养博士生三年级
导师:王永教授、郭百宁教授
林宇桐
西安交通大学-微软亚洲研究院
联合培养博士生二年级
导师:郑南宁教授、郭百宁教授
韦毅轩
清华大学-微软亚洲研究院
联合培养博士生二年级
导师:温江涛教授、郭百宁教授
马尔奖的背后故事:默契合作,一步步调高期望、拓展边界
Q:关于 Swin Transformer 的科研灵感是怎么获得的?在一步步完成这项获得“马尔奖”的科研课题的过程中,有哪些关键点?
刘泽:我们几个虽然来自不同的学校,但在微软亚洲研究院的导师都是郭百宁副院长,为了更好地指导我们博士生学习,百宁老师为我们指定了几位 mentor 具体指导我们的研究工作和学习。Swin Transformer 最早的 idea 就是我们的 mentor 们提出的,我们首先在图像分类任务中进行了尝试,得到了非常好的效果。之后,考虑到 Swin Transformer 本身是针对通用视觉任务进行的设计,所以就有必要在下一阶段在更广泛的视觉任务中验证它的作用。经过考虑,我们选择了目标检测和语义分割这两个很重要的任务。我们对于 Swin Transformer 的期待也从“奏效”转变成了在各种任务上都“做好”,这是我们第一次调整目标。在这之后,宇桐加入到了我们的工作中来,也获得了很好的结果;我们再次希望做更多尝试,同时毅轩也加入到项目中。
总体来说,整个项目是我们不断调高科研期望、触碰更高科研边界的过程。回头来看,不止步于现有成果的态度,可能是我们最终得以高质量完成这篇论文的关键。
林宇桐:是的,当时刘泽已经基本完成了图像分类的任务,开始着手去做语义分割;而我因为在目标检测上的经验相对而言更丰富一些,所以主要负责这个部分。随着实验的推进,我们发现 Swin Transformer 在这三种任务上都取得了非常好的表现。其实,这个时候的成果已经基本可以完成一篇质量不错的论文了,但我们又提出了更高的要求——希望在更大规模的数据集上检验 Swin Transformer 的有效性,这是我们第二次调高期望。
韦毅轩:我在项目中主要负责大数据集的实验,和宇桐一起去做一些目标检测和目标分割的任务,并尝试在不同的框架上进行实验。在过程中我们也遇到了资源不足的问题,这时候我们会把有限的资源留给更重要的实验,如何在有限的时间里协调资源和任务优先级我认为是比较重要的。
Q:三位同学都提到了自己在项目中承担的工作,你们觉得彼此在科研中的哪些特点对于实验推进特别重要?
韦毅轩:主观能动性很强是我们这个项目组成员的共同特点。记得当时实验推进是在疫情期间,大家都不太方便线下见面,于是我们会每天都做线上讨论,分享昨天到今天的进展并安排今天到明天的任务。正是因为保持着这样一个高密度的沟通,我们整体实验的推进得以不断迭代并且速度很快。
刘泽:刚才说的“不断调高”期望是从项目宏观进度上来讲;而如果从我们各自的性格这个微观角度来说,我们三个人都不会只满足于做好手头的任务。这样来看,也许后者是前者的内在原因。我们三个交流中发现,其实彼此的导师们都常常教育我们要 aim high,如果看到机会就一定要试着把工作做得更上一层楼。
此外,宇桐和毅轩做事非常踏实、靠谱,你有什么问题去找他们,如果他们手头没有正在忙的事情,基本都能随时过来,而且因为大家能力和理解力都很强,也有一些合作经验,我们团队基本不会浪费什么时间在无效的沟通上。合作过程是非常愉快的。
林宇桐:是这样,我们每次讨论完布置了任务,刘泽和毅轩不只会完成分配给自己的事情,而且会努力做更多的尝试。我们整个团队都是以如何更好地完成项目为最高目标的。比如在我们冲击最高点数的时候,毅轩就主动地做了许多尝试。刘泽也是在完成了图像分类后,积极主动地承担语义分割的任务。
寻找科研题目:打下好科研样版,做有价值的科研
Q:在科研成长的道路上,获得马尔奖对你有什么帮助和价值?
韦毅轩:这篇论文是我发表的第一篇论文,所以对我意义重大。在马尔奖这个项目之前,我没有和组里的其他同学非常紧密地去做同一个项目的经历,很感谢我的导师和 mentor 让我有机会参与其中,我的收获很多。第一点收获是团队高效协作,因为整个项目体量很大,如何在一个时间点内,通过大家分头行动来把所有元素补齐,这对我来说是一个很大的锻炼。第二点收获是保持开放的心态,我的方向是视觉语言联合建模,这个项目和我的领域并不严格契合。但是,在项目中,我时刻处于边学习边工作的状态,接触到很多我之前自己欠缺的短板知识,回头来看,对我有很大帮助。所以,保持开放,各领域之间不是严格分裂的。
林宇桐:这篇工作感觉更像是给我们打下一个样版,让我们知道怎样的研究是好的研究,我们以后也要不断向这个方向靠近。
刘泽:正如毅轩提到的,参与这样一个高质量项目能收获很多经验,这可能是之前一些项目没办法带给你的,例如如何与人合作、灵感的思考、项目的推进等等,从里面能学到很多东西。很高兴有机会参与其中。
Q:在选题方向上,结合马尔奖与此前的科研经历,你们是否有一些心得和体会?是否有给予你们一些启发?
刘泽:我觉得有三种方式去寻找灵感。
第一是来源于对自己所在领域的认识和思考。在做一项研究时,你需要考虑领域本身所处的状态和位置,什么东西是它真正需要的。这也是我的 mentor 胡瀚老师所说的“位置意识”。在做一项工作前,我们要去思考所做的东西的价值是什么,这样我们才能更好去发现一些更有意义的 idea 。
第二是从之前的连续性研究中寻找灵感。我们组很多工作都具有连续性,此次获奖的 Swin Transformer 项目中的许多灵感也是来源于之前做过的相关研究,我会去思考我们之前积累的经验可以在这个新的领域做怎样的事情。
第三是广泛阅读思考前人优秀的工作,并从中寻找灵感。我们组做项目通常会在最初定一个大的方向,在这个大方向下,我们会去思考具体要做怎样的研究。这其中一个重要任务就是阅读已有论文,尤其是论文的实验部分——它往往能让我们发现一些非常有趣的点。例如,实验中有没有什么反常的现象、这些现象背后的本质是什么、他们的实验将为我们提供怎样推进的机会。
最后,需要指出的是,想出好的灵感是很困难的一件事,有些时候在不确定自己的想法是否是正确的时候,可以先行动起来,通过实验反馈来寻找灵感。
林宇桐:可能我们每个人在最开始都会有相对抽象一点的想要解决的问题。我认为可以在最开始把目标设置地高一些,选一个自己觉得真的有价值的、值得研究的问题。虽然最后是否能够做成是另一件事,但至少研究是令你自己满意的。
韦毅轩:每个人在做科研的过程中都会有各种想法,那么应当如何判断一个想法是否有价值?我想分享一下我的导师给予我的建议:你心里需要清楚,在三到五年的时间里,你希望去实现一个怎样的宏观目标,你的每一个具体选题对于这个宏观目标的实现是否有价值,如果有,这就是值得你去做的选题。当然,我们在最初想到一个灵感之后会觉得很兴奋,但随着你对它的一步步验证、开始接触各种技术细节,这个灵感在你的心中会逐渐变得平淡,这个时候要回到最开始,去想它之于你宏观目标的意义以及你最初的心情。这时,你会发现此前的所有工作都是在印证你想法的新意和正确性。
科研成长:不同路径皆可成,要主动与导师沟通
Q:三位同学都是微软亚洲研究院与高校联合培养的博士生,当时为什么选择联培项目?在你的科研历程中,是否碰到过瓶颈期?是如何度过的?
刘泽:想做科研,这是我选择联培项目的初心,学校的导师王永教授非常支持我,也在未来科研方向上给了我很多建议。我在这里也遇到了很好的伙伴和 mentor,在科研之路上给了我更大的信仰。
最初来到研究院开始做科研的时候,我尝试的是组里相对新的一个方向,所以需要判断哪些是真的值得去做的东西。当时我的两位导师给予了我很多帮助,比如怎么选题、怎么推进实验。同时我的 mentor 胡瀚老师的“位置意识”对我影响很深,经历了快一年的不断思索和摸爬滚打,在导师的指导下,我最终在研一的时候投出了自己的第一篇 ECCV 论文。
林宇桐:联培无疑是非常好的机会,所以我当时就想试一下。学校和研究院的双边培养让我接触到不同领域,给了我很宽阔的学术视野。我感觉在两位导师的指导下,我在学校这边能看到 AI 落地的实践方向,比较兴奋;而在研究院这边,可以接触到很前沿、很热门的研究。
读联培博士的前两年我还一直有师兄指导,所有带过我的师兄都能力很强,而且非常有耐心。现在我也在自己独立地去探索,虽然许多尝试是失败的,但是两位导师和 mentor 一直给予我各种帮助和鼓励,会帮我一起想解决办法,而且会适时地开导我。所以,到目前为止,我在科研上的心态还是很好的。
韦毅轩:我选择联培的原因和两位同学也比较像,无论是学校的温老师和研究院的导师、mentor,都给了我很好的指导。科研方面我和刘泽比较像,都是进到组里来的时候,选择了一个相对不熟悉的领域。我进组的时候,之前做视觉语言联合建模的两位同学一位毕业了、一位实习结束,所以当时组里除了导师,没有同学和我的方向一致。不过,在和导师认真讨论后,我们一致觉得这个方向在学术领域具有一定的重要性和价值,就决定继续做下去。
Q:三位同学的科研生活模式虽然有一些差异,但都提到了导师指导的重要性。那么对于即将攻读博士的学弟学妹,就“如何与导师保持良性互动”这个话题,你们有怎样的建议呢?
刘泽:与导师沟通是读博道路上的不二法门。作为学生,自己要积极主动一点,要多向导师们请教,同时不要害羞表达自己的想法,在交流过程中获得进步。
韦毅轩:是的,我和师兄们会主动与导师构架起一种合作者的关系,学生要逐步变得主动和独立,而不是什么都靠导师。开会后、吃饭时、茶歇时都可以去跟导师聊一聊,我在科研上的很多进步与体悟是在和导师交流的过程中取得的。
林宇桐:我很同意前面两位的说法,很多同学害怕导师给很大压力。而我个人觉得导师给予一些压力通常是非常有正向引导作用的;如果导师没有时刻要求你,你甚至可以主动去找导师,向他汇报你的情况。同时,不要隐瞒,交代给自己的工作做到哪里就如实汇报到哪里,没有完成也没有关系,导师知道你的进展情况才能更具针对性地给予你建议。