编者按:科学研究与技术创新的过程总是充满了不确定性,科研人员无法提前计算创新的周期,也无法预料每个灵感所带来的最终结果。若想将一项研究成果落地并通过产品化的方式让更多人感受到前沿技术所带来的便利,研究工程师的参与尤为重要,他们需要全面掌握终端用户的需求,深入了解技术应用的深度与广度,打通各个环节的流程,有效地将算法模型与产品应用连接起来。然而知易行难,这一过程中的艰辛与技术落地时的成就感也只有亲身经历的人才能体会。在“父亲节”来临之际,让我们从微软亚洲研究院研究工程师+“超级奶爸”夏炎的故事中,获取一份十年陈酿的科研成果落地经!
2018年,夏炎的生命中多了一个重要的角色——成为一名父亲,四年多的育儿经历,让他不仅习得全新的语言体系“婴语”,也看见了育儿中的大学问。夏炎发现,育儿与工作中竟然有很多互通的理念,对彼此都有着积极的促进作用。比如通过教练式管理的方法,以身作则,关心孩子的想法和兴趣,激发孩子的潜能;再比如,《如何说孩子才会听,怎么听孩子才会肯说》中的理念,与“倾听员工/团队成员的意见和心声”如出一辙。作为微软亚洲研究院育儿群中的活跃分子,夏炎经常会热情、耐心地与同事们分享自己学到的知识,也因此成为了研究院“享誉盛名”的“超级奶爸”。
如今,拥有首席开发经理与“超级奶爸”双重身份的夏炎,对科研转化和技术落地也有了更深入的思考,而在与众多跨领域专家,包括与儿子这个“儿童专家”的交流,也让他从不同学科中汲取着研究开发的灵感。
微软亚洲研究院的“骨灰级实习生”
2008年,还在读研究生的夏炎希望可以找一份实习工作,积累社会经验。很快,与微软亚洲研究院一直保持合作的导师为他做了推荐。凭借自身过硬的履历以及与研究院需求的完美匹配,夏炎顺利开启了他在微软亚洲研究院的实习之旅。而这个实习一做就是两年,早已超过一般实习生的实习周期,夏炎也成为了大家口中的“骨灰级实习生”。
实习期间,夏炎的主要工作是围绕着当时还处于早期发展阶段的互联网搜索技术而展开的。其中一个项目是关于企业的内部搜索,另一个项目则与学术搜索相关。尽管现在大家对搜索技术的应用已经习以为常,但这两个项目在当时都属于非常超前的技术研究与应用。
在跟随研究员们做基于论坛的问答机器人项目时,夏炎第一次接触到了机器学习。问答机器人的主要功能是在同一问题的众多回答中,自动提取最优质的回答进行配对。十几年前,推荐系统、机器学习尚在萌芽期,用户基于搜索引擎输入关键词后,还需花费大量时间阅读搜索结果才能筛选出可用信息,而此时微软亚洲研究院已经将机器学习技术转化到了微软的产品中,大幅提升了搜索的速度和精度。原本专业更偏向于软件工程的夏炎,在经历了将研究算法成功落地于实际场景的项目后,深切地感受到了前沿科技对人们工作生活所带来的巨大影响。两年的实习经历也让夏炎更加系统地了解了如何将研究员论文中的算法转化成对用户有用的工具和产品,为他之后从事的其他技术转化项目奠定了基础。
“在研究院实习的两年,我不仅接触到了最前沿的技术,还有机会和很多聪明人共事。无论是其他实习生还是一起合作的研究员,很多都是领域中的大牛,我可以和他们一起做对社会有意义的技术和产品。对一个在校学生来说,微软亚洲研究院极大地开阔了我的见识和眼界,这也是研究院最吸引我的地方”,夏炎说。
“既专又广”是做科研转化的必要能力之一
正是这份吸引力让夏炎在研究生毕业后,直接选择加入了微软亚洲研究院。从实习生到正式员工,夏炎并没有感到很大的不同,但是需要从更多做辅助性的工作,逐渐成长为整个项目的负责人。而在一次次将研究成果转化为产品的项目历练中,夏炎愈发意识到科学探索的挑战性和技术转化的重要性。
夏炎曾与微软必应(Bing)产品团队的同事合作,将研究院以图搜图的算法集成到必应搜索中。为了实现这一功能,身为研究工程师的夏炎既要知晓底层索引技术的实现机制,了解中间的运行过程以推荐最合适的内容,还要熟悉最上层的前端交互设计。此外,开发过程中还会涉及到跨团队、跨语言的沟通与协作。在这项技术功能化的过程中,夏炎意识到要想把研究成果成功转化进产品,需要把研究模型、产品功能、交互界面等各个环节全部打通,这对开发人员的综合能力提出了很高的要求。
此后,夏炎又和研究院自然语言计算组的研究员一起对必应的搜索场景进行了优化。当用户在输入诸如“世界上最高的人是谁?”、“全球最富有的人是谁?”这类问题时,搜索引擎可以借助这一功能在海量的数据中自动找出答案并直接呈现出来。在这个项目中,作为科学研究与产品落地的连接人,夏炎不仅要理解自然语言处理(NLP)算法模型的实现原理,还要了解用户对产品的需求。比如,在研究中模型进行计算的耗时在产品端是不可接受的时长。这时工程人员就需要重新解析代码,或者更换另一种编程语言,在实现同样功能的同时,精细地甄别、选择最有价值的特征,减少不必要的计算,并且尽量让模块进行并行处理以达到最短的返回结果时长。只有不断对算法模型进行裁剪、优化、提升性能,产品才能达到上线标准,满足用户的体验。
聊天机器人的落地是夏炎参与的另一项重要工作。要打造一个既可以闲聊又可以提供问答等进阶功能的对话机器人,需要整合多种技术,包括 NLP 领域的语义匹配、文本质量分析、知识图谱、情感分析,以及语音识别、语音合成技术等等。因此,夏炎与各个研究团队都保持着紧密的联系,即时了解各团队的研究方向和成果,以及这些技术发展的最新动态,从而可以在面对产品需求时有备无患。
在对聊天机器人研究的过程中,夏炎和同事们又有了新想法——将 AI 与语言学习相融合,这也是他近几年的工作重点。尽管彼时包括必应词典在内的语言工具可以通过查找释义和例句帮助人们学习单词,但语言学习还有听、说、读、写等更丰富的内容。从技术角度看,语言学习与对话系统、聊天机器人有很强的关联性。于是,夏炎和同事们着手将微软亚洲研究院领先的语音识别、NLP 等 AI 技术引入到了必应词典的功能中。
2016年,夏炎和团队将研究院高准确率的语音评测和语音打分等模型结合,开发了个性化英语学习助手“微软小英”。通过模拟日常生活中的对话场景,“微软小英”可以为英语学习者提供沉浸式的口语练习体验。而在解决了英语学习的“听”、“说”难题之后,夏炎和团队又推出了可提供英文写作指导与反馈的微软“爱写作”,通过 NLP 技术完成语法纠错、词语替换、写作评分等功能,从而改善英文写作的准确度和流畅度。
基于在英语学习方面的经验,夏炎和同事们不断探索、尝试,于2021年与华东师范大学联合推出了中文写作智能辅导系统“小花狮”。“小花狮”利用现有的中文教学知识的研究成果,结合 AI 技术,在帮助学生们提升中文写作与阅读能力的同时,也辅助老师实施更有针对性的教学。“语言学习并不是纯技术导向的任务,我们需要紧密地与教育专家合作,获取更专业的教学理念和方法,以不断提升学习者的学习效果和使用满意度”,夏炎认为。
从搜索查询到对 NLP、语音技术的探索,从以图搜图,到聊天机器人、AI 语言学习项目的打磨,夏炎对科学研究与技术转化有了更深层的理解。他说“研究工作要既专又广,专的是技术领域,就像有的研究员专注于语音识别、有的专注于自然语言处理或计算机视觉等,广则是指潜在的应用范围,每一项研究工作都是在解决通用任务中的一个核心问题,是为了拿下更泛用问题下技术挑战中最难啃的骨头。工程与产品团队同样也需要又专又广,专的是用户需求和场景,让技术在当前场景中奏效,广则是让技术的适用范围广,解决同一个场景的用户需求时要使用众多不同技术。总之,我们要在具体场景中找到通用研究成果,来解决终端用户的问题,并收集具体场景数据与研究团队一起进行领域研究,使技术更好地满足现实中的场景需求。”
跨领域成功合作的关键在跨语言体系的沟通
随着微软亚洲研究院创新技术的成熟,越来越多的技术成果开始在更广泛的行业中应用,科学研究也呈现出跨领域交叉融合的趋势。对此,夏炎表示在跨领域合作中,成功的关键是跨语言体系的沟通。
“所谓跨语言体系指的是合作交流中不同领域人员对专业术语、领域知识的不同认知,”夏炎介绍道。比如,在进行 AI 语言学习项目的研究中,计算机领域的科研人员与教育领域的专家在前期的交流中就遇到了障碍:研究员们会从计算机技术的角度介绍算法的实现、效果、准确率等,更多考虑的是后验概率和物理量;而教育专家们则会从教育理念、学生和教师以及家长使用的不同角度出发,关注技术转化成产品后是否对终端用户有实际的帮助。合作过程中,夏炎和同事们也在逐步摸索如何连通不同的话语体系,“保持开放的心态以及谦虚的学习精神,可以促进更加高效地跨领域沟通。”
升级为“奶爸”后的夏炎,还在自己的跨语言体系中加入了“婴语”的沟通。为了更好地理解孩子的行为与孩子交流,夏炎阅读了大量的科学育儿书籍。例如,育儿领域的权威书籍《儿童及青少年发展心理学》,除了可以让家长更深入地了解孩子的心理,更有效地和孩子沟通外,还可以作为判断其它育儿书籍好坏的标尺;《PET父母效能训练》让父母与孩子发生冲突时,遵循问题就近原则;《认知天性》可借助心理学理解孩子的所思所想,减少父母不切实际的期望等等。尽管这些育儿理念不会直接影响到项目中模型的设计和功能,但它们会潜移默化地帮夏炎做出更符合孩子天性和学习规律的相关产品。
“在跨领域合作中,研究工程师要成为编码和解码的中间人,通过学习并理解合作领域的知识,一方面将研究员的话语翻译成领域专家的语言体系,另一方面也要把领域专家的需求解释成具体模型的输入输出逻辑,找到大家共同的兴趣点,只有这样才能推动跨领域项目的成功实施”,夏炎说。