大数据研发工程师
1.2-2万元/月【岗位职责】
数据湖与数仓体系的核心构建者,承担多源数据集成、ETL流程开发、数仓模型设计、数据清洗及实体对齐等数据准备工作,为知识图谱与AI应用提供高可靠数据支撑。
- 主导集团级数据湖/数仓架构设计与实施(涵盖ODS、DWD、DWS、ADS分层结构)
- 构建多系统数据接入通道(覆盖ERP、MES、HR、CRM等系统,支持CDC与批量模式)
- 开发离线计算任务(基于Spark + Hive),支撑数仓分层建设与图谱所需数据预处理
- 设计并实现数据清洗逻辑,推进跨系统数据标准化与实体统一(包括ID映射、异常数据识别与处理)
- 落实数据质量管控机制,建立数据血缘追踪能力,维护数据标准文档体系
- 负责数据湖存储层管理与优化(Iceberg / Hudi / Delta Lake 技术选型与运维)
任职要求
必须具备:
- 3年以上大数据开发经验
- 熟练掌握Spark技术栈(精通Spark SQL与Spark Streaming)
- 深入使用Hive进行离线数仓建设(熟悉HQL优化与执行引擎调优)
- 具备完整的数仓建模实战经验(熟悉Kimball维度建模方法,有分层建模落地案例)
- 精通SQL(能编写复杂查询、熟练运用窗口函数并具备性能调优能力)
强烈偏好:
- 掌握至少一种数据湖技术(Iceberg、Hudi或Delta Lake)
- 具备多源异构系统数据接入经验(如CDC工具:Canal、Debezium或DataX)
- 有跨系统数据对齐或主数据管理(MDM)项目经验
- 熟悉数据质量治理体系及相关实践
- 使用过数据血缘追踪相关工具
加分项:
- 具备Flink实时计算开发经验
- 有ClickHouse使用背景
- 熟悉时序数据库(如IoTDB、TDengine)
- 参与过制造业领域数仓建设项目
- 熟练使用任务调度平台(Airflow、DolphinScheduler)
5.5天工作制,包吃住
办公地址:江西省九江市修水