在4月召开的Iceberg Summit期间,数据云服务厂商Snowflake公布了其数据平台的发展方向。该公司指出,随着企业加速引入AI应用,数据孤岛、治理分散与语义不一致正逐渐成为影响AI运行的关键因素。当企业无法在原地处理数据时,往往需要通过数据迁移来完成分析,不仅增加成本,也难以维持语义上下文,导致相关项目在初期就难以顺利推进。
Snowflake表示,过去数据湖仓(Data Lakehouse)架构虽试图提供单一且可治理的数据副本,并支持多种计算引擎访问,但实际应用中仍受限于专有技术绑定。即使开源数据表格式Apache Iceberg(由Netflix发起,现为Apache基金会项目)具备版本控制与ACID事务一致性(确保数据写入保持完整与一致)等能力,并支持多引擎共享数据,已逐步成为数据互通的基础,但仅靠格式开放,仍难以满足企业在引入AI应用时对数据、治理与语义一致性的需求。
因此,Snowflake将重点放在跨层互通架构上,目标是在不改变既有治理机制与语义上下文的前提下,让用户能够针对单一逻辑数据副本,在不同平台与计算引擎上操作,实现对数据的自主掌控。
在数据层强化Iceberg v3支持,提升跨引擎访问能力

在数据层,Snowflake持续以Apache Iceberg为核心,并规划支持Apache Iceberg v3。该版本扩展了数据互通能力,支持半结构化数据与变更数据捕获(Change Data Capture,CDC)等应用场景。
Iceberg v3新增多项功能,使数据可被更多计算引擎直接访问。例如VARIANT类型可存储半结构化数据并保持处理性能;列级数据血缘(Row-level Data Lineage)可追踪数据在不同引擎间的变更历程;删除向量(deletion vectors)则提供列级删除机制,减少因删除数据而产生的额外管理负担。此外,也支持纳秒级时间戳与地理空间数据类型,以应对高频数据处理需求。
发展pg_lake项目,将事务型数据库PostgreSQL整合至数据湖仓架构
除分析型数据外,企业关键数据仍大量存在于事务型数据库中。为此,Snowflake开发并开源了pg_lake,使PostgreSQL可直接整合至数据湖仓架构。

pg_lake可直接查询数据湖中的列式存储格式Parquet(Apache Parquet)与CSV文件。Parquet通过列式压缩与编码设计,可降低存储空间并提升查询性能,是数据湖环境中常见的格式。此外,pg_lake亦支持使用PostgreSQL原生方式管理Apache Iceberg数据表,使事务型与分析型数据能在同一架构中协同运行,降低数据迁移需求。
以Apache Polaris与OSI强化数据治理与语义一致性
在数据治理层面,Snowflake推动开源项目Apache Polaris,通过策略交换(Policy Exchange)、治理联邦(Governance Federation)与读取限制API,使数据访问控制能随数据移动并在不同引擎间执行。
Snowflake表示,此设计可让细粒度访问控制(Fine-Grained Access Control,FGAC)在不同平台保持一致,同时降低数据实体化带来的额外计算负担。
在语义层面,Snowflake提出开放语义交换标准(Open Semantic Interchange,OSI),用于描述指标、维度与数据关联,使语义信息可在不同平台间共享。

Snowflake指出,当业务逻辑存在于封闭系统中时,AI代理在处理数据时往往需要重新推断数据语义。OSI提供一套厂商中立的标准,使语义信息可在不同平台间流通,目前已在Apache 2许可证下发布,并已有包括Salesforce、Databricks与dbt Labs在内的35家以上企业参与。