DATA
数据开发工程师 · Data Engineer

嘉涛

Building Data Infrastructure

专注大数据全链路开发 3 年,擅长数仓建模、离线计算与 ETL 架构设计。
用数据驱动决策,让每一条数据流转都产生价值。

50B+
日处理数据量
500+
调度任务
3YRS
开发经验
Apache Spark Apache Flink Apache Kafka ClickHouse Apache Hive Apache Hudi Apache Iceberg Airflow dbt Python Scala MySQL Apache Spark Apache Flink Apache Kafka ClickHouse Apache Hive Apache Hudi Apache Iceberg Airflow dbt Python Scala MySQL
About Me
我用 数据 解决 真实的 业务 问题, 而不只是写查询。

具备 3 年大数据开发经验,熟悉数仓分层建模(ODS/DWD/DWS/ADS)与 ETL 全链路设计,在多家互联网公司主导过亿级用户行为数据的采集、清洗与建模。

主导实时数仓升级项目,将核心指标延迟从 24h 降至 5min;引入 CDC 增量抽取方案,存储成本降低 40%;建立数据质量监控体系,故障 MTTR 缩短 60%。

数仓建模 实时计算 ETL设计 数据质量 DataOps 数据湖
Experience
快手
数据平台部
数据研发工程师
  • 用户行为数仓 ODS/DWD/DWS 分层建模,日均处理 50 亿+ 条数据
  • 主导实时数仓升级,Flink + Kafka 替代 T+1 链路,延迟 24h → 5min
  • 设计 CDC 增量抽取框架(Debezium),存储成本降低 40%
  • 推动 DataOps 规范,建立任务血缘与数据质量监控,MTTR 缩短 60%
2026.02
至今
得物
风控数据部
数据开发工程师
  • 交易、商品、营销域数据模型开发,支撑 100+ 张 BI 报表
  • 搭建 DolphinScheduler 调度系统,管理 500+ 任务,可用率 99.95%
  • 参与数据湖(Hudi on OSS)迁移,推动 HDFS 历史数据冷归档
2021.07
2023.02
Projects
PROJECT 01
用户增长实时数仓
FlinkKafka ClickHouseHudi

设计实时 Lambda/Kappa 混合架构,注册、激活、留存等核心指标分钟级可见。ClickHouse 单节点 QPS 2000+,P99 延迟 <200ms。

PROJECT 02
指标平台 & 统一口径
Pythondbt AirflowMySQL

基于 dbt 构建指标语义层,统一 200+ 业务指标口径,消除跨部门数据口径不一致问题;集成 CI/CD 自动测试与发布。

PROJECT 03
数据质量监控系统
SparkGreat Expectations Grafana

自研校验框架覆盖完整性、一致性、时效性三类规则,日均扫描 300+ 张表,异常自动告警并阻断下游,问题发现率提升 70%。

PROJECT 04
CDC 增量抽取框架
DebeziumKafka Flink CDCHudi

替代原有全量同步方案,基于 Binlog 实现毫秒级数据同步,存储开销降低 40%,同步链路稳定性从 95% 提升至 99.8%。

Tech Stack
大数据计算
Apache Spark
Apache Flink
Apache Hive
MapReduce
存储 & 消息队列
Apache Kafka
ClickHouse
Apache Hudi
Apache Iceberg
HDFS
数据库
MySQL
PostgreSQL
Apache Doris
Redis
调度 & 集成
Apache Airflow
DolphinScheduler
DataX
Debezium
语言
Python
SQL
Scala
Shell
工具 & 平台
dbt
Grafana
Docker
Git
Apache Superset
Contact
Let's work
together.