概览
更新时间:2026-05-13
什么是数据架构
数据架构是对企业数据资产的整体规划与结构化设计,通过数据分层、标准规范、主题域划分,构建统一、规范、可复用的数据基础,支撑上层分析、应用与模型运行。
数据架构建模与本体建模的区别
- 传统架构:如果你要分析一家航空公司的运营,你会看到 flight_log_table,passenger_id_mapping,maintenance_codes 等表格。业务人员看不懂,需要数据分析师翻译。
- 本体:你直接看到的是“飞机”这个对象。它不仅包含数据库里的静态信息(型号、制造年份),还聚合了来自不同系统的动态信息(当前位置、传感器实时温度、未处理的维修工单)。它是现实实体的数字孪生 (Digital Twin)。
| 特性 | 传统数据建模 (Traditional Data Modeling) | 本体建模 (Ontology Modeling) |
|---|---|---|
| 基本单元 | 表 (Table)、行 (Row)、列 (Column) | 对象 (Object)、属性 (Property)、链接 (Link) |
| 核心逻辑 | 以技术为中心:关注范式(3NF)、主外键、存储效率、查询性能。 | 以业务为中心:关注现实世界的实体(如“飞机”、“客户”、“订单”)及其关系。 |
| 数据流向 | 单向 (Read-only):从源系统抽取 -> 转换 -> 展现 (Dashboard)。主要用于“看”数据。 | 双向 (Read-Write/Action):不仅展示数据,还允许用户直接在对象上触发行动 (Action) 并回写系统。 |
| 关联方式 | Join (连接):基于字段(如 ID)的刚性连接,跨表查询复杂。 | Link (关系图谱):基于语义的动态连接,可以轻松遍历(如:找出该客户->的所有订单->涉及的产品)。 |
| 主要产出 | 报表 (Reports)、仪表盘 (Dashboards)。 | 应用程序 (Apps)、操作视图 (Operational Views)、模拟 (Simulations)。 |
适用场景
场景一:适合使用“传统数据建模” (Data Warehouse / Lakehouse)
当你的目标是标准化报告、历史趋势分析和聚合统计时,传统建模是首选。
- 财务月结与合规报告:需要精确、不可变的快照数据,格式固定(如资产负债表)。
- 高管仪表盘 (BI):查看全公司的 KPI,如“过去五年的年复合增长率”。
- 大规模离线挖掘:例如训练一个通用的推荐算法模型,需要吞吐大量的日志数据。
- 静态记录查询:查询历史交易流水。
场景二:适合使用“本体建模” (Ontology Modeling)
当你的目标是优化一线运营、处理复杂突发事件和跨系统协同时,本体建模是必需的。
-
供应链中断管理:
- 情况:供应商工厂着火了。
- 本体优势:你能瞬间在地图上看到该工厂关联的所有“原材料”对象,这些原材料链接到的所有“生产计划”对象,以及受影响的“最终客户”对象。你可以直接在系统里模拟“如果切换供应商,成本和交付时间会变成多少”,并直接下达指令。
-
全渠道反欺诈/反洗钱 (AML):
- 情况:发现一个可疑转账。
- 本体优势:通过链接分析(Graph),瞬间展示该账户关联的设备、IP、以及仅仅是有过一次共同转账记录的其他嫌疑人。调查员可以直接在图谱上标记“冻结”,并同步给银行核心系统。
名称解释
| 名称 | 含义或作用 |
|---|---|
| 数据架构(Data Architecture) | 百度胜算中承载“主题域、数据标准、数据建模、数据指标”的应用壳层。 |
| 元数据 (Catalog) | 百度胜算的逻辑目录(等价于 EDAP“数据库”的上层映射),统一到工作空间数据源。 |
| 物化 | 将模型结果生成底层引擎的物理表(Doris 或 Iceberg)。 |
| 内部表/外部表 | 内部表由引擎管理数据文件;外部表仅注册元数据,数据文件外部维护。 |
| 数据架构产出物 | 通过数据架构应用,添加和编辑如“主题域”,“数据标准”,“数据建模”,“数据指标”生成的物理文件内容,应该包括如下 3 部分内容:![]() 产出物单独应用管理,不对用户可见。未来可支持批量导出。 |
使用流程
| 角色 | 工作内容(端到端) |
|---|---|
| 业务部门 | 提需求 → 查看指标与资产结果,验证是否满足业务场景 |
| 数据中台部门 | 构建主题域 → 建模 → 物化表 → 定义指标并发布到平台 |

评价此篇文章

