从割裂到统一,从单一到混合
实时数仓架构演进全景图解
数据湖
什么都往里扔,先存着以后再说
数据仓库
为分析而生,结构化、分层、可治理
传统架构
数据先存进湖,再 ETL 搬到仓
湖仓一体
以 Paimon 为代表,一份数据兼具湖和仓的能力
混合架构
流消息队列 + 湖仓存储,大厂复杂数仓的主流落地形态
对比总结
| 维度 | 🌊 数据湖 | 🏢 数据仓库 | 🏠 湖仓一体 | 📨+💎 Kafka+Paimon |
|---|---|---|---|---|
| 存储介质 | HDFS / S3 | 专用引擎 | HDFS / S3 | Kafka + HDFS |
| 数据格式 | 任意格式 | 仅结构化 | 结构化 + 半结构化 | 结构化 + 半结构化 |
| 实时性 | 弱 | 需额外组件 | 原生流式 | 秒级实时 |
| 事务支持 | 无 | 有 | ACID | ACID |
| 多消费分发 | 弱 | 弱 | 一般 | 强(Kafka 多组) |
| 削峰能力 | 无 | 无 | 有限 | 强(Kafka 缓冲) |
| 运维复杂度 | 低 | 中 | 低 | 高 |
| 适用规模 | 中小 | 中大 | 中小 → 大 | 大型(几十人+) |
| 代表技术 | HDFS, S3 | ClickHouse, Hive | Paimon, Hudi, Iceberg | Kafka + Paimon |
低成本存储的灵活性 + 结构化治理的规范性
一份数据解决所有问题,不再需要"先存湖、再搬到仓"
湖仓一体 = 数据湖的存储灵活性 + 数据仓库的治理能力,合在一套系统里。
当团队规模和复杂度需要时,再叠加 Kafka 做实时缓冲和多路分发。