云智能集团-CTO线-云平台运维
2-4万元/月
更新 2025-12-11 14:08:57
浏览 375
职位详情
运维工程师
3-5年
运维开发/DevOps · 运维开发经验 · Python/Shell · 计算机相关专业 · 运维经验 · Kubernetes
职位描述
1.运维体系构建与优化:负责设计并落地云平台的运维组织结构、工具链及运营体系,确保云环境及其中的公共组件高度稳定且可用。
2.统一平台与工具整合:为解决业务入口不统一导致的资源管理问题,推动使用统一的运维操作平台,整合各类工具,提供清晰的操作指引,提升效率和管理一致性。
3.账号权限与资源管理:通过细化账号权限管理体系,精细管理策略,加强资源使用的水位管理和配额控制,确保访问隔离,资源合理高效利用。
4.监控与告警体系建设:针对监控与告警能力的不完善,推动产品和资源的全方位监控能力建设,及时发现并预警潜在问题,减少故障发生概率和影响范围。
5.标准SOP与知识库:沉淀常见问题排查SOP和基础知识文档,逐步形成体系化知识库,提升运维协作效率。
6.稳定性相关技改项目:通过协同产研,SRE,业务侧等部门,完成稳定性高可用解决方案的建设交付项目推进和持续提供技术支持。
职位要求
1、5年以上IT、互联网、云计算行业运维工作经验,有阿里云ACP/ACE认证,有海外工作经验等优先。
2、能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢。
3、熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性经验的优先。
4、具有跨产品、中型复杂系统的研发安全生产经验优先,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地。
5、针对部门级的疑难故障问题,能够提出创新的解决思路与方案。
6、具备智能化/自动化运维的理念,牵头负责自动化运维平台的建设,提升人效、降低单位成本、提升稳定性。
7、通过数字化能力的建设,识别运营、人员管理的风险或问题,搭建完整的风险管理体系和执行机制。
1.运维体系构建与优化:负责设计并落地云平台的运维组织结构、工具链及运营体系,确保云环境及其中的公共组件高度稳定且可用。
2.统一平台与工具整合:为解决业务入口不统一导致的资源管理问题,推动使用统一的运维操作平台,整合各类工具,提供清晰的操作指引,提升效率和管理一致性。
3.账号权限与资源管理:通过细化账号权限管理体系,精细管理策略,加强资源使用的水位管理和配额控制,确保访问隔离,资源合理高效利用。
4.监控与告警体系建设:针对监控与告警能力的不完善,推动产品和资源的全方位监控能力建设,及时发现并预警潜在问题,减少故障发生概率和影响范围。
5.标准SOP与知识库:沉淀常见问题排查SOP和基础知识文档,逐步形成体系化知识库,提升运维协作效率。
6.稳定性相关技改项目:通过协同产研,SRE,业务侧等部门,完成稳定性高可用解决方案的建设交付项目推进和持续提供技术支持。
职位要求
1、5年以上IT、互联网、云计算行业运维工作经验,有阿里云ACP/ACE认证,有海外工作经验等优先。
2、能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢。
3、熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性经验的优先。
4、具有跨产品、中型复杂系统的研发安全生产经验优先,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地。
5、针对部门级的疑难故障问题,能够提出创新的解决思路与方案。
6、具备智能化/自动化运维的理念,牵头负责自动化运维平台的建设,提升人效、降低单位成本、提升稳定性。
7、通过数字化能力的建设,识别运营、人员管理的风险或问题,搭建完整的风险管理体系和执行机制。
相似职位
很抱歉,暂无相似职位!