机器学习组强化学习算法研究实习生

Date de publication: July 20, 2024

招聘人数:2-4

工作地点:北京

研究组简介:

我们关注深度强化学习在算法,应用,以及理论中的研究。在算法研究方面,我们的研究兴趣包括但不限于distributional RL,offline RL, causal RL,imitation learning,non-stationary RL, Bayesian RL, generalization in deep RL等研究方向。在应用研究方面,我们关注与微软的产品业务相关的各种实际应用问题,包括但不限于RL for game playing & testing,RL for logistics, RL for congestion control。在理论研究方面,我们关注deployment efficient RL和tiered RL等研究问题。在过去的几年里,我们在顶级国际会议和期刊上发表了多篇论文,与微软的产品部门保持着密切的合作并且转化了核心技术。我们的研发的麻将 AI 系统 Suphx 成为首个在国际知名专业麻将平台 “天凤”上荣升十段的 AI 系统,其实力超越该平台公开房间顶级人类选手的平均水平。我们既关注如何把deep RL的能力发挥到极致,并且在实际的应用中取得巨大的成功,比如Suphx以及各种RL应用研究;也关注如何从实际应用场景中抽取新的抽象研究问题,在顶级国际会议和期刊上发表高质量的研究工作。

工作职责:

  1. 参与强化学习算法在game testing,logistics,congestion control等领域的落地。在这里,你有机会接触工业级的数据,接触并研发实际业务中的核心技术,并且让强化学习在实际问题中发挥巨大的影响力。
  2. 从上述应用中抽象研究问题,进行算法研究。在这里,你有机会接受科研方面的指导和训练,接触研究院提供的各种学术交流机会,在顶级国际会议和期刊上发表高质量的研究工作。

任职要求:

  1. 计算机或相关专业博士,有志于科研的本科生或硕士也欢迎申请;
  2. 具有较强的编程实现能力,良好的沟通能力和团队协作精神;
  3. 具备一定的强化学习基础,能够读懂顶级国际会议强化学习方面的论文;
  4. 加分项:有数学/物理/信息学竞赛方面的成绩;有强化学习算法的开发和研究经历;在顶级国际会议和期刊上发表过强化学习方面的工作。

工作时间要求:

能获得导师许可并保证至少三个月的实习。

请务必下载并填写申请表(申请表链接:https://aka.ms/InternApplication)并将其与完整的中英文简历(PDF/Word/Txt/Html形式)一同发送至:[email protected] 和 [email protected],邮件标题中注明:深度强化学习组_强化学习算法实习生