返回 职位详情 登录/注册
AI集群通信优化高级技术专家-北京/杭州
8-10万元/月
定位 北京朝阳区阿里巴巴·朝阳科技园园
更新 2025-12-11 14:26:56 浏览 628
职位详情
其他技术职位 10年以上
职位描述:
1、技术方案设计
•调研AI大模型训练及推理的前沿技术发展,分析计算通信协同优化的技术方案;
•分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化;
2、技术实现
•负责AI计算系统的通信优化方案设计,包括计算通信协同优化、通信库研发测试、以及交付与支持;
•基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
•负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等;
•对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署;
•对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。
3、稳定性和性能优化
•制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠;
•运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
4、技术预研
•分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能。
5、技术规划
•理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

职位要求
•熟悉GPU/NPU的底层架构,熟练掌握类CUDA程序的代码编写,能够基于业务逻辑和底层硬件的特性进行计算和通信算子的性能优化;
•强烈的自我驱动力,对新技术有求知欲望和自学动力,可以理论结合实践的方式,快速的上手新的知识;
•严谨的工作态度,尤其在面对实验和测试数据和理论分析时,始终保持批判性思维,消除实验误差,保证实验和理论相符;
•有较强的对外沟通意愿,可以和上下游团队形成良好的协作关系,共同解决技术问题,推动项目落地;
•8年以上Coding经验;
•对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地;
•熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享;
•熟悉竞对和对标产品的核心技术指标、优劣势对比,对我们如何追赶和保持优势有一定的理解;
•在架构设计中能够梳理明确模块的增删改,并据此分解开发工作项和相互依赖,考虑技术投入产出比(ROI)、性能优化;
•精通工作中使用的技术栈,在设计、架构、并发、分布式、数据等一个或多个技术领域达到专家水平,能够识别并准确解决问题;
•对自己负责的研发模块具备快速上线、响应、应急处理能力。
公司信息
阿里云计算有限公司
明细
浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
大渡口人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!