大模型算法资深专家
4.5-7万元/月
更新 2025-12-17 14:35:42
浏览 67
职位详情
大模型算法
1-3年
大模型
【岗位职责】
1.模型架构设计与调优:
主导大模型(LLM、多模态等)的结构创新、参数调整与性能增强
深入剖析模型训练过程中的性能瓶颈,制定高效的预训练、微调、蒸馏及增量学习方案,提升模型在特定场景下的适配性与泛化表现
2.分布式训练工程开发:
搭建高吞吐、低延迟的大规模分布式训练系统,优化数据并行、张量并行与混合并行策略,应对超大规模参数带来的显存与通信效率挑战
研究混合精度训练、梯度压缩、异步通信等技术手段,提升千亿级及以上模型的训练效率与系统稳定性
3.算法优化与前沿技术探索:
针对模型训练效率、价值对齐等核心问题,研发创新型算法。持续跟进学术界与工业界最新动态(如Agent技术、世界模型、推理加速),推动先进技术在实际业务中的快速应用
【任职要求】
1.计算机科学、人工智能、数学、统计学或相关专业硕士/博士学历,具备顶级科研机构或实验室经历者优先
2.深入理解Transformer架构及其衍生模型(如GPT、BERT、T5等)的原理与实现机制
3.熟练使用PyTorch框架,具备分布式训练(DeepSpeed/Megatron等)与高性能计算(CUDA/MPI)优化经验
4.具备扎实的数学功底(优化理论、概率统计、线性代数),能够独立复现顶会论文并进行算法改进
5.有大规模预训练模型的开发、调优或部署经验,熟悉预训练、指令微调(InstructionTuning)、对齐技术(RLHF/DPO)等完整流程
6.拥有分布式训练实战背景,掌握ZeRO、模型并行、流水线并行等关键技术,熟练运用主流分布式训练框架
7.熟悉参数高效微调方法(LoRA、Adapter、PromptTuning)及模型压缩技术(量化、剪枝、知识蒸馏)
8.能够针对训练效率、显存占用、推理延迟等关键问题提出有效且创新的解决方案
【加分项】
1.具备大模型开发经验,主导过亿级参数模型的完整训练流程,有千亿级模型优化实践经验者优先
2.在NeurIPS/ICML/ACL等顶级会议发表过大模型相关研究成果,或主导过知名开源项目(如HuggingFace、LangChain等生态贡献)
3.具备多模态大模型、AIAgent系统或超大规模RLHF的实际项目经验
1.模型架构设计与调优:
主导大模型(LLM、多模态等)的结构创新、参数调整与性能增强
深入剖析模型训练过程中的性能瓶颈,制定高效的预训练、微调、蒸馏及增量学习方案,提升模型在特定场景下的适配性与泛化表现
2.分布式训练工程开发:
搭建高吞吐、低延迟的大规模分布式训练系统,优化数据并行、张量并行与混合并行策略,应对超大规模参数带来的显存与通信效率挑战
研究混合精度训练、梯度压缩、异步通信等技术手段,提升千亿级及以上模型的训练效率与系统稳定性
3.算法优化与前沿技术探索:
针对模型训练效率、价值对齐等核心问题,研发创新型算法。持续跟进学术界与工业界最新动态(如Agent技术、世界模型、推理加速),推动先进技术在实际业务中的快速应用
【任职要求】
1.计算机科学、人工智能、数学、统计学或相关专业硕士/博士学历,具备顶级科研机构或实验室经历者优先
2.深入理解Transformer架构及其衍生模型(如GPT、BERT、T5等)的原理与实现机制
3.熟练使用PyTorch框架,具备分布式训练(DeepSpeed/Megatron等)与高性能计算(CUDA/MPI)优化经验
4.具备扎实的数学功底(优化理论、概率统计、线性代数),能够独立复现顶会论文并进行算法改进
5.有大规模预训练模型的开发、调优或部署经验,熟悉预训练、指令微调(InstructionTuning)、对齐技术(RLHF/DPO)等完整流程
6.拥有分布式训练实战背景,掌握ZeRO、模型并行、流水线并行等关键技术,熟练运用主流分布式训练框架
7.熟悉参数高效微调方法(LoRA、Adapter、PromptTuning)及模型压缩技术(量化、剪枝、知识蒸馏)
8.能够针对训练效率、显存占用、推理延迟等关键问题提出有效且创新的解决方案
【加分项】
1.具备大模型开发经验,主导过亿级参数模型的完整训练流程,有千亿级模型优化实践经验者优先
2.在NeurIPS/ICML/ACL等顶级会议发表过大模型相关研究成果,或主导过知名开源项目(如HuggingFace、LangChain等生态贡献)
3.具备多模态大模型、AIAgent系统或超大规模RLHF的实际项目经验
相似职位
很抱歉,暂无相似职位!