数据开发资深专家
2.5-4万元/月
更新 2025-12-06 14:36:23
浏览 313
职位详情
数据开发
5-10年
Java · 要求数据开发经验 · ETL开发经验 · 数据建模经验 · MySQL/SQL Server · 非外包类 · 实时数仓开发经验 · 数据平台开发经验 · 数据治理经验 · SQL · C/C++ · Shell · BI报表开发经验
1.负责基于DataWorksEMR集群构建企业级数据开发平台架构,结合实际业务场景设计分层数据模型(ODS、DW、DM层),确保数据链路的稳定性、可扩展性与高效运行,支持业务数据需求的快速实现。
2.主导大规模ETL任务的开发与性能优化,利用DataWorks调度系统配置复杂任务依赖关系,通过Hive、Spark、Flink等计算引擎处理TB至PB级数据规模,解决数据倾斜、任务延迟等性能瓶颈,提升整体数据处理效率超30%。
3.参与建设数据质量管理体系,依托DataWorks数据质量模块设定监控规则(如空值检测、一致性核验、业务逻辑校验),定期生成数据质量报告,推动问题追溯与闭环整改,保障数据准确率稳定在99.9%以上。
4.负责DataWorksEMR集群与周边系统的集成对接工作,包括从业务数据库(MySQL、Oracle等)通过DataX、Sqoop等工具完成数据同步,以及开发数据服务接口并对接API网关,确保数据流转完整且具备实时性。
5.牵头攻克数据开发中的关键技术难题,例如流批一体架构在实时场景下的落地实践、DataWorks权限精细化管理方案实施、EMR集群资源动态调度优化等,沉淀可复用的技术方案与标准化流程。
6.参与制定并推广数据开发相关规范,涵盖SQL编码标准、ETL开发流程、DataWorks项目管理机制等内容,组织技术培训和代码评审,提升团队整体开发水平与协作效率。
7.支持各业务部门的数据诉求,深入理解业务逻辑(如电商交易流程、用户行为路径、风控建模等),提供定制化数据解决方案,输出报表、接口等成果,助力业务决策与产品迭代优化。
8.承担数据开发系统的日常运维与应急响应职责,监控DataWorks任务执行状态及EMR集群资源使用情况,制定应急预案,及时处理任务失败、集群异常等问题,保障数据服务可用性达到99.99%。
1.本科及以上学历,计算机、大数据、统计学等相关专业背景,具备5年以上数据开发工作经验,其中至少3年熟练使用阿里云DataWorks+EMR集群的实际项目经验,有大型互联网、金融或零售行业数据平台建设经历者优先考虑。
2.精通DataWorks各核心模块操作,涵盖数据集成、开发、调度、质量管控与服务发布,能够独立主导复杂数据项目从架构设计到上线交付的全生命周期管理。
3.熟练掌握EMR集群常用组件(Hadoop、Hive、Spark、Flink、Hologres等)的工作原理与应用方式,能根据业务需求合理选择计算引擎,具备组件性能调优及故障排查能力。
4.精通SQL编写(含复杂查询、窗口函数、存储过程),熟练运用Python/Scala开发数据处理脚本,具有基于Flink或SparkStreaming构建实时数据流水线的经验,可应对高并发、低延迟的数据处理场景。
5.深入掌握数据仓库理论体系(如星型模型、雪花模型、缓慢变化维度处理),拥有从零开始搭建企业级数仓的实战经验,能依据业务特征设计科学的数据分层结构与模型架构,保障数据资产的易用性与可维护性。
6.具备扎实的技术方案设计与问题定位能力,能独立分析并解决数据开发过程中的复杂技术挑战(如数据一致性、大规模处理性能瓶颈),有成功突破技术难点案例者优先。
7.具备良好的沟通协调与团队协作能力,能准确理解业务需求并转化为可行的技术路径,主动推进跨团队协作(如与业务、运维等部门联动),同时具备指导初级工程师的能力。
8.对数据安全与合规要求有深刻理解,熟悉数据脱敏、权限控制、备份恢复等相关规范,在开发过程中严格落实数据安全管理措施,参与过数据安全类项目或持有相关认证(如阿里云大数据认证)者优先。
2.主导大规模ETL任务的开发与性能优化,利用DataWorks调度系统配置复杂任务依赖关系,通过Hive、Spark、Flink等计算引擎处理TB至PB级数据规模,解决数据倾斜、任务延迟等性能瓶颈,提升整体数据处理效率超30%。
3.参与建设数据质量管理体系,依托DataWorks数据质量模块设定监控规则(如空值检测、一致性核验、业务逻辑校验),定期生成数据质量报告,推动问题追溯与闭环整改,保障数据准确率稳定在99.9%以上。
4.负责DataWorksEMR集群与周边系统的集成对接工作,包括从业务数据库(MySQL、Oracle等)通过DataX、Sqoop等工具完成数据同步,以及开发数据服务接口并对接API网关,确保数据流转完整且具备实时性。
5.牵头攻克数据开发中的关键技术难题,例如流批一体架构在实时场景下的落地实践、DataWorks权限精细化管理方案实施、EMR集群资源动态调度优化等,沉淀可复用的技术方案与标准化流程。
6.参与制定并推广数据开发相关规范,涵盖SQL编码标准、ETL开发流程、DataWorks项目管理机制等内容,组织技术培训和代码评审,提升团队整体开发水平与协作效率。
7.支持各业务部门的数据诉求,深入理解业务逻辑(如电商交易流程、用户行为路径、风控建模等),提供定制化数据解决方案,输出报表、接口等成果,助力业务决策与产品迭代优化。
8.承担数据开发系统的日常运维与应急响应职责,监控DataWorks任务执行状态及EMR集群资源使用情况,制定应急预案,及时处理任务失败、集群异常等问题,保障数据服务可用性达到99.99%。
1.本科及以上学历,计算机、大数据、统计学等相关专业背景,具备5年以上数据开发工作经验,其中至少3年熟练使用阿里云DataWorks+EMR集群的实际项目经验,有大型互联网、金融或零售行业数据平台建设经历者优先考虑。
2.精通DataWorks各核心模块操作,涵盖数据集成、开发、调度、质量管控与服务发布,能够独立主导复杂数据项目从架构设计到上线交付的全生命周期管理。
3.熟练掌握EMR集群常用组件(Hadoop、Hive、Spark、Flink、Hologres等)的工作原理与应用方式,能根据业务需求合理选择计算引擎,具备组件性能调优及故障排查能力。
4.精通SQL编写(含复杂查询、窗口函数、存储过程),熟练运用Python/Scala开发数据处理脚本,具有基于Flink或SparkStreaming构建实时数据流水线的经验,可应对高并发、低延迟的数据处理场景。
5.深入掌握数据仓库理论体系(如星型模型、雪花模型、缓慢变化维度处理),拥有从零开始搭建企业级数仓的实战经验,能依据业务特征设计科学的数据分层结构与模型架构,保障数据资产的易用性与可维护性。
6.具备扎实的技术方案设计与问题定位能力,能独立分析并解决数据开发过程中的复杂技术挑战(如数据一致性、大规模处理性能瓶颈),有成功突破技术难点案例者优先。
7.具备良好的沟通协调与团队协作能力,能准确理解业务需求并转化为可行的技术路径,主动推进跨团队协作(如与业务、运维等部门联动),同时具备指导初级工程师的能力。
8.对数据安全与合规要求有深刻理解,熟悉数据脱敏、权限控制、备份恢复等相关规范,在开发过程中严格落实数据安全管理措施,参与过数据安全类项目或持有相关认证(如阿里云大数据认证)者优先。
相似职位
很抱歉,暂无相似职位!