返回 职位详情 登录/注册
阿里云智能-深度学习训练系统研发专家
3-6万元/月
定位 北京朝阳区阿里巴巴·朝阳科技园1
更新 2025-12-08 14:51:56 浏览 922
职位详情
高性能计算工程师 3-5年 机器学习 · 自然语言处理算法 · Python · 分布式训练 · 算法工程化经验
阿里云智能-深度学习训练系统研发专家-北京,杭州
职位描述
基础平台开发-机器学习岗位
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,支撑通义实验室及阿里集团内多个业务场景的技术需求;参与基模型Pretrain、SFT等关键阶段的训练性能调优工作;

●专注于提升各阶段模型训练任务的峰值吞吐能力,能系统化分析不同负载下各环节的时间消耗,并提出针对性优化方案,包括但不限于算子层面改进、通信机制优化、分布式策略调整等技术手段;

●主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际产出效率,打造高效的故障感知与自动恢复机制,保障大规模训练过程的流畅性与可靠性;

●参与推进训练框架对多样化硬件后端的支持与适配优化。

职位要求
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂软件系统的设计、开发与调试经验;

●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型和多模态模型的核心特性;

●熟练使用PyTorch等常用框架,深入理解Megatron、DeepSpeed、JAX等训练框架的技术差异与实现细节;

●具有良好的沟通表达能力和团队协作经验;具备快速学习新技术的能力,以及持续深入探索技术难题的韧性;

●掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信优化、分布式训练策略优化等方面有实际项目经验;
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
大渡口人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!