朱宏林阿里云程序语言与编译器研发工程师
具有 Python 运行时、Python 科学/AI计算库研发经验,熟悉机器学习、深度学习。
目前进行线性代数库 OpenBLAS和深度学习库 PyTorch 在 ARM 平台的优化、适配工作。
当今开发者们大量使用 Python 语言编写的 AI 程序。过去这些程序总跑在 GPU 或者 x86 架构的 CPU 上。然而综合考虑到功耗、成本、性能等因素,云厂商们开始建设 ARM 架构的服务平台,如何整合 Python+AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。
矩阵乘法是深度学习计算的重要组成部分,我们利用 ARM 架构新提供的矩阵扩展对 bf16 类型的矩阵乘法计算进行优化,该优化将纯矩阵乘法的运算速度提升约2倍,对深度学习推理任务性能提升明显。目前,该成果已经被集成进 OpenBLAS 和 PyTorch 中。
本次演讲,将向大家介绍我们在倚天710 ARM 芯片上开展的 Python+AI 优化工作,以及在 ARM 云平台上部署 Python+AI 任务的最佳实践。