招聘人数:2-3
工作地点:北京
组别简介:
微软亚洲研究院网络与基础设施组(Networking Infrastructure Group)致力于计算机网络各个方面的基础研究。小组成员的研究涵盖云计算,数据中心网络,硬件网络系统和机器学习网络系统。我们希望可以通过理论分析和工程经验结合的方法来不断改进和优化网络系统。
工作职责:
- 设计并实现新型分布式训练集合通信算法,在大规模集群上进行验证和性能优化
- 探索并设计分布式训练集合通信在复杂网络环境下的高可用机制
- 探索并设计能够兼容多种加速器、网卡及其间互联方式的统一分布式训练集合通信库
任职要求:
- 了解 NCCL, MPI 等集合通信库
- 了解 PyTorch 等机器学习系统框架,有相关项目经验
- 熟悉 C/C++ 和 Python,有较强的工程能力,代码格式清晰规范,善于团队协作
- 有一定英文学术论文阅读能力,能够根据论文进行系统实现和优化
- 较强的沟通能力和逻辑表达能力
- 熟悉常用集合通信算法的实现者优先
- 熟悉PyTorch等机器学习框架的实现,或具有大参数量模型训练经验者优先
- 发表过学术论文,可以连续实习不少于六个月者优先
工作时间要求:
能获得导师许可并保证至少三个月的实习。
请务必下载并填写申请表(申请表链接:https://aka.ms/InternApplication)并将其与完整的中英文简历(PDF/Word/Txt/Html形式)一同发送至:[email protected],邮件标题中注明:网络与基础设施组_机器学习系统通信库设计与优化研究实习生。