January 6, 2022

2022微软亚洲研究院人工智能与系统专题讨论——软硬件优化专场

Lieu: 上海西岸国际人工智能中心

徐宁仪

上海交通大学

AI在过去几年中在互联网、媒体娱乐、医学和生物学、安全以及自动驾驶等各个应用领域引发了突飞猛进的进展。新应用，新算法，以及5G和边缘计算带来了大量数据，进对AI计算的算力、灵活性、存储以及互联提出了更高的要求。在摩尔定律减速的背景下，计算业界从通用架构向领域专用架构（DSA – Domain Specific Architecture）以及相应的编程框架演进。通过算法、系统、架构以及电路等各个层次的联合优化，DSA可以取得超过通用架构的10x～100x的性能优势。不过，DSA也面临着应用范围窄、无法应对算法灵活升级、先进工艺开发费用高昂、依赖传统CPU进行调度、应用和开发生态弱等挑战。所以，为了应对集成电路技术趋势和深度学习等计算应用带来的挑战，需要重新思考现行的计算系统、计算架构以及编程框架，结合深度学习算法以及芯片技术进展，提出创新性的“芯片+算法”的计算架构，满足编程生态、能量效率、伸缩性等方面的要求。本次报告会针对高效AI芯片设计的研究进展和挑战问题进行深入分析。

徐宁仪，上海交通大学清源研究院长聘教授。清华大学学士、硕士、博士。研究方向为领域专用计算、计算机体系结构、并行计算、机器学习系统。曾任微软亚洲研究院硬件计算组主任研究员、百度智能芯片部技术委员会主席、主任架构师等职。主导的微软数据中心定制加速系统是世界首次应用于超大规模数据中心、应用在价值数十亿美元的产品和服务中，主导的百度昆仑AI芯片（2017 – 2018）是中国第一款云端全功能人工智能芯片、首次在工业领域大规模应用的中国自研AI芯片，主持科研经费超过3亿元，在顶会及期刊发表相关论文50余篇，近五年引用1600余次，获得相关专利8项。

陈迟晓

复旦大学

Communication-Aware Cross-Layer Codesign Strategy for Energy Efficient Machine Learning SoC

As the great success of artificial intelligence algorithms, machine learning SoC are becoming a significant type of high-performance processors recently. However, the limited power budget of edge devices cannot support GPUs and intensive DRAM access. The talk will discuss two energy efficient codesign examples to avoid power hungry hardware. First, on-chip incremental learning is performed on an SoC without dedicated backpropagation computing, where algorithm-architecture codesign is involved. Second, low bit-width quantization schemes are applied to computing-in-memory based SoC, where algorithm-circuit codesign is investigated.

2010年毕业于复旦大学微电子学与固体电子学专业，获理学学士学位，期间于美国加州大学戴维斯大学交流；2016年毕业于复旦大学微电子学院集成电路设计、测试与CAD专业，从事高性能数模混合集成电路设计研究，获理学博士学位。2016年至2018年于美国华盛顿大学电子工程系任博士后研究员，从事高能效数模混合集成电路与人工智能处理器芯片研究。2019年1月加入复旦大学工程与应用技术研究院任青年副研究员。

陈迟晓博士参与项目包括国家科技重大专项“面向IMT-Advanced宽带无线通信系统的数模混合集成电路研发”、科技部863计划（现更名为国家重点研发计划）“下一代光传输系统中的高速模数转换器/数模转换器芯片和关键技术研究”，国家自然科学基金面上项目“适用于20-80MHz的高频超声相控阵的MEMS压电换能器与高能效模数转换器研究”，上海市科委基础研究项目“类脑芯片与片上系统研究”等。陈迟晓博士已发表论文40余篇，授权专利10余项。陈迟晓博士于2014年获得ISSCC STGA奖，并任IEEE JSSC/TCAS-I/TCAS-II/JETCAS审稿人。

陈迟晓博士也是知名半导体公众号“矽说”的共同创始人与主笔。

Jingwen Leng

上海交通大学

Compiler Design and Optimization for DNN Model Serving

Deep neural network has achieved enormous success in many tasks including computer vision and natural language processing. Despite of their high accuracies, DNN models have significant computational cost, as evident by the recent enormous large NLP models such as GPT-3. Thus, it is crucial to provide high-performance serving for these DNN models. In this talk, we will present our work on optimizing the DNN serving from the compiler’s perspective. In particular, we will demonstrate how to compile the interference and conflict tolerant codes in the multi-model serving scenario. Meanwhile, we will also present our thoughts on extending the current DNN system with the instrumentation interface, which opens up the new opportunities for analyzing and optimizing DNN models.

Jingwen Leng is a tenure-track Associate Professor in the CS Department and John Hopcroft CS Center at Shanghai Jiao Tong University. He is currently interested at taking a holistic approach to optimizing the performance, efficiency, and reliability for computer systems, with a focus on the deep learning application. He received his Ph.D. from the University of Texas at Austin, where he focused on improving the efficiency and resiliency of general-purpose GPUs.

徐辰

华东师范大学

面向分布式迭代矩阵运算的混合计算策略

矩阵计算广泛存在于机器学习等应用中，在ALS、GNMF等迭代式矩阵运算中，矩阵中各个元素的收敛速度往往不同。现有系统通常利用增量计算的方式提升性能，即在运行过程中仅计算数值发生变化的元素。然而，增量计算需要额外的操作（如提取增量），导致在部分情况下增量计算会慢于全量计算。本报告将介绍一种混合计算策略，在迭代计算过程中交替使用全量计算和增量计算。为了验证策略的有效性，我们通过修改SystemDS实现了HyMac原型系统，HyMac执行迭代计算与SystemDS,、ScaLAPACK和SciDB相比可达显著的性能提升。

徐辰，华东师范大学数据科学与工程学院副教授。2014年-2018年担任德国柏林工业大学高级研究助理，在Volker Markl教授课题组从事博士后研究，参与Apache Flink系统的研发。2014年获华东师范大学计算机应用技术博士学位，曾于2011年赴澳大利亚昆士兰大学短期访问。主要研究兴趣是大规模分布式数据处理系统。