运维专家-云平台运维-北京/杭州
1.5-3万元/月
更新 2025-12-11 14:36:56
浏览 369
职位详情
运维工程师
3-5年
Golang · Java · 大数据运维经验 · 运维开发/DevOps · 运维开发经验 · 自动化运维 · Python/Shell
职位描述:
1)承担阿里云AI人工智能平台(PAI)的运维职责,构建超大规模GPU集群的稳定性保障体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效率,实现交付与变更的CICD流程、GPU节点的快速交付与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型和智能体Agent的运维场景落地
4)主导稳定性架构的设计与实施,推动相关项目落地执行,涉及基础架构云原生转型、跨AZ高可用方案设计、产品可运维性架构持续演进等工作
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,有AIIaaS&PaaS平台或GPU集群运维开发背景者优先考虑
2)熟练使用Golang/Python/Java中至少一种编程语言,具有运维平台开发经历,具备AIOps智能运维实践经验者更佳
3)拥有稳定性保障和生产环境实战经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等关键环节
4)具备良好的沟通协调能力和项目推动力,工作态度认真细致,抗压能力强,具备较强的责任心与执行力
1)承担阿里云AI人工智能平台(PAI)的运维职责,构建超大规模GPU集群的稳定性保障体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效率,实现交付与变更的CICD流程、GPU节点的快速交付与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型和智能体Agent的运维场景落地
4)主导稳定性架构的设计与实施,推动相关项目落地执行,涉及基础架构云原生转型、跨AZ高可用方案设计、产品可运维性架构持续演进等工作
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,有AIIaaS&PaaS平台或GPU集群运维开发背景者优先考虑
2)熟练使用Golang/Python/Java中至少一种编程语言,具有运维平台开发经历,具备AIOps智能运维实践经验者更佳
3)拥有稳定性保障和生产环境实战经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等关键环节
4)具备良好的沟通协调能力和项目推动力,工作态度认真细致,抗压能力强,具备较强的责任心与执行力
相似职位
很抱歉,暂无相似职位!