返回 职位详情 登录/注册
深度学习训练系统开发专家-北京,杭州
3.5-6.5万元/月
定位 北京朝阳区朝阳科技园阿里中心
更新 2025-12-08 17:19:29 浏览 306
职位详情
高性能计算工程师 3-5年 机器学习 · 大模型算法 · 模型加速/性能优化 · C/C++ · Python · Java · Golang
职位描述
●承担PAI平台深度学习框架的开发工作,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,服务于通义实验室、阿里集团等多业务场景;参与基模型Pretrain、SFT等关键阶段的训练性能调优;
●专注于提升各阶段模型训练任务的峰值吞吐能力,系统性分析不同负载在训练过程中的耗时瓶颈,并提出针对性优化方案,包括但不限于算子层面改进、通信机制增强、分布式策略调整等技术路径;
●主导超大规模训练系统的稳定性建设,通过多种技术手段提高训练有效吞吐,打造高效的故障发现与自动恢复机制,保障大规模训练任务运行平稳顺畅;
●参与训练框架对多种硬件后端的适配与性能优化工作。

职位要求
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++及常见设计模式,拥有复杂软件系统的设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的核心特性;
●精通PyTorch等常用深度学习框架,深入掌握Megatron、DeepSpeed、JAX等训练框架的技术差异与底层细节;
●具有良好的沟通协作能力和团队意识,学习能力强,能够持续深入探索技术难题;
●掌握计算机体系结构基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信调优、分布式训练策略优化等方面有实际项目经验;
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
大渡口人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!