专注大数据全链路开发 3 年,擅长数仓建模、离线计算与 ETL 架构设计。
用数据驱动决策,让每一条数据流转都产生价值。
具备 3 年大数据开发经验,熟悉数仓分层建模(ODS/DWD/DWS/ADS)与 ETL 全链路设计,在多家互联网公司主导过亿级用户行为数据的采集、清洗与建模。
主导实时数仓升级项目,将核心指标延迟从 24h 降至 5min;引入 CDC 增量抽取方案,存储成本降低 40%;建立数据质量监控体系,故障 MTTR 缩短 60%。
设计实时 Lambda/Kappa 混合架构,注册、激活、留存等核心指标分钟级可见。ClickHouse 单节点 QPS 2000+,P99 延迟 <200ms。
基于 dbt 构建指标语义层,统一 200+ 业务指标口径,消除跨部门数据口径不一致问题;集成 CI/CD 自动测试与发布。
自研校验框架覆盖完整性、一致性、时效性三类规则,日均扫描 300+ 张表,异常自动告警并阻断下游,问题发现率提升 70%。
替代原有全量同步方案,基于 Binlog 实现毫秒级数据同步,存储开销降低 40%,同步链路稳定性从 95% 提升至 99.8%。