阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
更新 2025-12-08 14:51:50
浏览 213
职位详情
高性能计算工程师
3-5年
深度学习 · 大模型算法 · 模型加速/性能优化 · 自然语言处理算法 · 多模态算法 · C/C++ · Python · 算法工程化经验 · 发表算法相关优秀论文 · 参加算法相关竞赛/获奖
任职要求:
●设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIAGPU,AMDGPU,NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。
●探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。
●设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。
●持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
任职要求:
●扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力。
●熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch、TensorFlow等框架。
●优良的沟通表达能力和团队合作经验,具备快速学习的能力,以及深入钻研技术问题的耐心。
●熟悉计算机体系结构基础知识,有扎实的高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI计算资源调度优化等方面的经验。
加分项:
●有突出的学术背景和创新研究能力,发表过相关领域的高水平论文或专利。
●有基于cutlass/cute开发和极致优化高性能Kernel并在实际生产环境落地的经验。
●对大型语言模型(LLM)等重点场景的系统优化或前沿算法有深入务实的经验。
●作为核心成员开发实际应用的大规模AI系统,或参与业界流行的开源项目,具备丰富的实战经验和成功案例。
●设计和实现高效的分布式推理架构,提升多节点、多GPU环境下的推理速度和资源利用率。开发智能的请求调度算法,确保高并发场景下的最优响应时间和吞吐量。对推理引擎的运行时环境进行深度优化,减少延迟,提高整体性能。针对多种异构AI加速硬件(如NVIDIAGPU,AMDGPU,NPU等),对核心算子进行极致性能优化,最大化算力和访存带宽利用率。
●探索并实现极低bit量化技术和稀疏化,减少模型存储和计算资源消耗,同时保持推理精度。探索更高效的解码算法,提升生成任务的推理速度。
●设计并实现能够处理大规模并发请求的系统架构,确保极端负载下的稳定性和性能。引入容错机制、自动恢复和监控报警系统,保证系统的高可用性和稳定性。构建灵活的系统架构,支持动态扩展,以应对未来业务增长和技术演进的需求。
●持续关注并跟进业界技术发展,尤其是超长上下文、COT思维链、多模态融合等方向。积极尝试和探索新的推理优化方向,提出并验证创新性的解决方案。
任职要求:
●扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力。
●熟悉深度学习的基础理论概念,了解主流模型算法,能够熟练应用PyTorch、TensorFlow等框架。
●优良的沟通表达能力和团队合作经验,具备快速学习的能力,以及深入钻研技术问题的耐心。
●熟悉计算机体系结构基础知识,有扎实的高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI计算资源调度优化等方面的经验。
加分项:
●有突出的学术背景和创新研究能力,发表过相关领域的高水平论文或专利。
●有基于cutlass/cute开发和极致优化高性能Kernel并在实际生产环境落地的经验。
●对大型语言模型(LLM)等重点场景的系统优化或前沿算法有深入务实的经验。
●作为核心成员开发实际应用的大规模AI系统,或参与业界流行的开源项目,具备丰富的实战经验和成功案例。
相似职位
很抱歉,暂无相似职位!