Snowflake推出数据互通架构，聚焦AI应用中的数据孤岛与语义不一致问题

在4月召开的Iceberg Summit期间，数据云服务厂商Snowflake公布了其数据平台的发展方向。该公司指出，随着企业加速引入AI应用，数据孤岛、治理分散与语义不一致正逐渐成为影响AI运行的关键因素。当企业无法在原地处理数据时，往往需要通过数据迁移来完成分析，不仅增加成本，也难以维持语义上下文，导致相关项目在初期就难以顺利推进。

Snowflake表示，过去数据湖仓（Data Lakehouse）架构虽试图提供单一且可治理的数据副本，并支持多种计算引擎访问，但实际应用中仍受限于专有技术绑定。即使开源数据表格式Apache Iceberg（由Netflix发起，现为Apache基金会项目）具备版本控制与ACID事务一致性（确保数据写入保持完整与一致）等能力，并支持多引擎共享数据，已逐步成为数据互通的基础，但仅靠格式开放，仍难以满足企业在引入AI应用时对数据、治理与语义一致性的需求。

因此，Snowflake将重点放在跨层互通架构上，目标是在不改变既有治理机制与语义上下文的前提下，让用户能够针对单一逻辑数据副本，在不同平台与计算引擎上操作，实现对数据的自主掌控。

在数据层强化Iceberg v3支持，提升跨引擎访问能力

在数据层，Snowflake持续以Apache Iceberg为核心，并规划支持Apache Iceberg v3。该版本扩展了数据互通能力，支持半结构化数据与变更数据捕获（Change Data Capture，CDC）等应用场景。

Iceberg v3新增多项功能，使数据可被更多计算引擎直接访问。例如VARIANT类型可存储半结构化数据并保持处理性能；列级数据血缘（Row-level Data Lineage）可追踪数据在不同引擎间的变更历程；删除向量（deletion vectors）则提供列级删除机制，减少因删除数据而产生的额外管理负担。此外，也支持纳秒级时间戳与地理空间数据类型，以应对高频数据处理需求。

发展pg_lake项目，将事务型数据库PostgreSQL整合至数据湖仓架构

除分析型数据外，企业关键数据仍大量存在于事务型数据库中。为此，Snowflake开发并开源了pg_lake，使PostgreSQL可直接整合至数据湖仓架构。

pg_lake可直接查询数据湖中的列式存储格式Parquet（Apache Parquet）与CSV文件。Parquet通过列式压缩与编码设计，可降低存储空间并提升查询性能，是数据湖环境中常见的格式。此外，pg_lake亦支持使用PostgreSQL原生方式管理Apache Iceberg数据表，使事务型与分析型数据能在同一架构中协同运行，降低数据迁移需求。

以Apache Polaris与OSI强化数据治理与语义一致性

在数据治理层面，Snowflake推动开源项目Apache Polaris，通过策略交换（Policy Exchange）、治理联邦（Governance Federation）与读取限制API，使数据访问控制能随数据移动并在不同引擎间执行。

Snowflake表示，此设计可让细粒度访问控制（Fine-Grained Access Control，FGAC）在不同平台保持一致，同时降低数据实体化带来的额外计算负担。

在语义层面，Snowflake提出开放语义交换标准（Open Semantic Interchange，OSI），用于描述指标、维度与数据关联，使语义信息可在不同平台间共享。

Snowflake指出，当业务逻辑存在于封闭系统中时，AI代理在处理数据时往往需要重新推断数据语义。OSI提供一套厂商中立的标准，使语义信息可在不同平台间流通，目前已在Apache 2许可证下发布，并已有包括Salesforce、Databricks与dbt Labs在内的35家以上企业参与。

AI应用 Snowflake 资料孤岛语意不一致

CB科技站

Snowflake推出数据互通架构，聚焦AI应用中的数据孤岛与语义不一致问题

在数据层强化Iceberg v3支持，提升跨引擎访问能力

发展pg_lake项目，将事务型数据库PostgreSQL整合至数据湖仓架构

以Apache Polaris与OSI强化数据治理与语义一致性

与本文相关的文章