运维专家-云端系统维护
3-6万元/月
更新 2025-12-11 14:18:55
浏览 932
职位详情
运维工程师
5-10年
CI/CD
职位描述
1)承担阿里云AI人工智能平台(PAI)的运维职责,构建超大规模GPU集群的稳定性保障体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用性指标优化等
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,包括基础架构向云原生演进、跨可用区高可用架构建设、产品可运维性架构升级等工作
职位要求
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统原理及Linux底层机制,拥有AIIaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,有运维平台开发实际经验,具备AIOps智能运维实践经验者更佳
3)具有稳定性生产环境实战经历,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈技术等
4)具备良好的沟通能力和项目推动力,工作细致严谨,抗压能力强
1)承担阿里云AI人工智能平台(PAI)的运维职责,构建超大规模GPU集群的稳定性保障体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用性指标优化等
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,包括基础架构向云原生演进、跨可用区高可用架构建设、产品可运维性架构升级等工作
职位要求
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统原理及Linux底层机制,拥有AIIaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,有运维平台开发实际经验,具备AIOps智能运维实践经验者更佳
3)具有稳定性生产环境实战经历,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈技术等
4)具备良好的沟通能力和项目推动力,工作细致严谨,抗压能力强
相似职位
很抱歉,暂无相似职位!