返回 职位详情 登录/注册
大模型研发工程师
1.2-1.8万元/月
定位 武汉武昌区阿里中心·T1办公楼阿里中心
更新 2025-12-21 14:06:16 浏览 846
职位详情
Python 3-5年 Golang · Java · Python
岗位职责
1、搭建AI运维平台核心架构,支持大模型训练与推理任务的资源调度及性能监控能力
2、基于Genkit框架开发AI工作流引擎,融合RAG增强技术与多模态数据处理功能
3、设计可观测性数据采集方案,集成OpenTelemetry实现对LLM推理过程的多维度指标追踪
4、优化分布式任务间通信机制,保障千卡规模集群的加速比不低于90%
5、开发智能故障预测组件,利用时序数据分析实现硬件异常的提前预警
6、构建高效对接矢量数据库(如Pinecone)的交互层,满足知识库实时检索需求

岗位要求
1、具备3年以上Go/Python开发经验,掌握Beego/Gin等框架的源码级定制与扩展
2、精通微服务治理机制,拥有生产环境中Kubernetes集群的实际运维经验
3、熟悉Genkit/Firebase等AI框架的集成开发,了解Dotprompt模板设计标准
4、有AI系统可观测性平台建设经验,熟练使用Prometheus与AlertManager构建监控告警体系
5、掌握大模型训练相关技术栈(如PyTorch分布式训练),具备通信效率优化能力
6、理解向量数据库工作原理,具备RAG场景下的工程落地实践经验

优先条件
1、参与过LLM训练集群运维系统的开发工作(如资源弹性调度、故障自愈等功能)
2、熟悉GPU监控关键指标(如显存占用率、SM利用率等)
3、有AI工作流可视化编排工具的实际开发经历
4、了解LangChain等大模型应用框架的监控集成方式
公司信息
浩鲸云计算科技股份有限公司
明细
南京市雨花台区安德门大街50号B座6楼
大渡口人才网温馨提示
求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
相似职位
很抱歉,暂无相似职位!