机器学习组强化学习算法研究实习生

招聘人数：2-4

工作地点：北京

研究组简介：

我们关注深度强化学习在算法，应用，以及理论中的研究。在算法研究方面，我们的研究兴趣包括但不限于distributional RL，offline RL， causal RL，imitation learning，non-stationary RL, Bayesian RL, generalization in deep RL等研究方向。在应用研究方面，我们关注与微软的产品业务相关的各种实际应用问题，包括但不限于RL for game playing & testing，RL for logistics, RL for congestion control。在理论研究方面，我们关注deployment efficient RL和tiered RL等研究问题。在过去的几年里，我们在顶级国际会议和期刊上发表了多篇论文，与微软的产品部门保持着密切的合作并且转化了核心技术。我们的研发的麻将 AI 系统 Suphx 成为首个在国际知名专业麻将平台 “天凤”上荣升十段的 AI 系统，其实力超越该平台公开房间顶级人类选手的平均水平。我们既关注如何把deep RL的能力发挥到极致，并且在实际的应用中取得巨大的成功，比如Suphx以及各种RL应用研究；也关注如何从实际应用场景中抽取新的抽象研究问题，在顶级国际会议和期刊上发表高质量的研究工作。

工作职责：

参与强化学习算法在game testing，logistics，congestion control等领域的落地。在这里，你有机会接触工业级的数据，接触并研发实际业务中的核心技术，并且让强化学习在实际问题中发挥巨大的影响力。
从上述应用中抽象研究问题，进行算法研究。在这里，你有机会接受科研方面的指导和训练，接触研究院提供的各种学术交流机会，在顶级国际会议和期刊上发表高质量的研究工作。

任职要求：

计算机或相关专业博士，有志于科研的本科生或硕士也欢迎申请；
具有较强的编程实现能力，良好的沟通能力和团队协作精神；
具备一定的强化学习基础，能够读懂顶级国际会议强化学习方面的论文；
加分项：有数学/物理/信息学竞赛方面的成绩；有强化学习算法的开发和研究经历；在顶级国际会议和期刊上发表过强化学习方面的工作。

工作时间要求：

能获得导师许可并保证至少三个月的实习。

请务必下载并填写申请表（申请表链接：https://aka.ms/InternApplication）并将其与完整的中英文简历（PDF/Word/Txt/Html形式）一同发送至：[email protected] 和 [email protected]，邮件标题中注明：深度强化学习组_强化学习算法实习生。