Snowflake以Iceberg V3支持及治理可移植性扩展开放数据战略

张开发
2026/4/10 2:38:11 15 分钟阅读

分享文章

Snowflake以Iceberg V3支持及治理可移植性扩展开放数据战略
Snowflake正通过一系列互操作性增强举措持续深化其开放数据架构战略旨在减少数据移动、简化治理流程并优化AI系统访问企业数据的方式。本次发布的核心是Snowflake所定义的数据自主权理念即组织能够跨多个平台访问、治理和分析数据而不受专有系统的束缚。该公司指出现有架构迫使企业在平台之间频繁迁移数据由此引发操作复杂性提升、安全风险加剧、成本增加等问题同时也制约了AI工作负载的效果。当团队无法在数据所在位置直接对其进行处理时就不得不移动数据。Snowflake在今日发布的一篇博客文章中表示碎片化的数据管道和治理模型会因数据缺乏一致性和规范管理进而削弱AI计划的成效。随着AI的加速落地企业统一数据环境的压力不断增大Snowflake对互操作性的重视正是这一趋势的体现。该公司认为重复的数据管道、不一致的治理机制和孤立的语义体系会对数据架构和AI投入形成双重税负。真正的数据自主权不仅仅是一种表格格式更意味着无论数据存储在何处都能够使用任意引擎对其进行读取、写入和治理。该博客文章写道。Iceberg V3支持本次发布的核心内容是对Apache Iceberg版本3开放表格式的扩展支持相关功能即将推出。Iceberg已逐渐成为跨多引擎管理大规模分析数据集的行业标准Snowflake将自身的实现方案定位为比竞争产品更具生产就绪性。Iceberg V3引入了多项新特性通过Variant数据类型支持半结构化数据支持地理空间数据类型针对变更数据捕获提供行级血缘追踪通过删除向量改进删除操作以及纳秒级别的时间戳精度。Snowflake表示这些增强功能将同时适用于Snowflake托管表和外部Iceberg目录从而实现跨环境的可移植数据体验。Snowflake产品管理总监James Rowland-Jones表示此次更新标志着从基础互操作性向生产级能力的跨越。此次的新进展是将互操作性从基础层面延伸至数据、治理和语义层面更为完整的生产就绪能力这意味着客户可以开始在开放的互操作数据之上运行更复杂的真实工作负载而不仅仅是进行实验性探索。Rowland-Jones在书面评论中表示。更灵活的治理机制Snowflake还将互操作性的边界从数据格式延伸至治理和业务逻辑层面——而这两个领域历来与各平台紧密耦合。该公司正积极推广Apache Polaris这是一个两年前由Snowflake开发并开源的数据目录旨在实现治理策略跨系统的可移植性。Snowflake认为尽管Iceberg规范化了数据的存储方式但并未解决访问控制、数据血缘和语义上下文的管理问题。Polaris正是为了填补这一空白而生——通过让策略随数据一同流转而非固定绑定在特定引擎上。为实现这一可移植性Snowflake表示正在推进多项机制包括策略交换标准、治理联邦以及读取限制应用程序编程接口。这些改进旨在允许一个系统共享预先评估的访问规则并由另一系统执行无需复制或重新处理数据。Rowland-Jones表示这一方案解决了长期以来受治理数据共享过程中的效率痛点。目前将受细粒度访问控制保护的数据安全共享给外部引擎的唯一可靠方式是通过API对中间结果进行实体化处理。这个过程不仅操作效率低下、成本高昂而且往往难以预测。Apache Polaris正在打破这一困境。他说道。本次发布的另一个组成部分是pg_lake这是去年11月发布的一个开源PostgreSQL扩展旨在桥接事务型与分析型系统。它使PostgreSQL数据库能够直接查询Parquet和CSV等数据湖格式并将数据写入Iceberg表无需经过提取、转换和加载流程。Snowflake表示消除事务型与分析型系统之间的ETL管道可以降低延迟和运营开销同时简化整体架构。企业无需为不同工作负载维护独立系统而是可以在共享数据层上统一运营。pg_lake的目标是通过去除复杂管道的依赖来简化整体架构。Rowland-Jones说道。统一的语义标准Snowflake还在积极布局新兴标准以改善AI系统对数据的理解与解释能力。相关举措包括用于跨系统追踪数据流转的OpenLineage以及旨在标准化指标、维度等业务定义的Open Semantic Interchange规范。Snowflake指出语义不一致会迫使AI模型反复从原始数据中推断含义进而推高计算成本并降低准确性。通过实现语义上下文的可移植性企业可以提升模型性能并减少冗余处理。Rowland-Jones坦承Open Semantic Interchange目前仍处于早期阶段但行业参与的积极态势表明市场需求旺盛。该规范的首个版本现已在Apache 2许可下发布并获得超过35家行业合作伙伴联盟的背书支持。当模型能够获取一致的定义时其输出结果将更加准确所需的返工也会大幅减少。他表示。Snowflake正逐步突破其专有技术的边界将上述努力定位为向开放、社区驱动型数据架构更大转型的组成部分。该公司表示其工程师在过去两年间已向开源项目贡献了超过9000次提交并积极参与推动Iceberg未来版本的能力规划包括计划中的第4版增强功能。预计新版本将涵盖元数据性能改进、列级更新支持以及扩展的索引选项全面提升流式处理、机器学习和搜索工作负载的性能表现。Snowflake的战略将开放标准定位为差异化竞争优势同时持续在这些标准之上提供托管服务。该公司表示其专有的Horizon目录集成了Polaris可在保持与外部系统兼容性的同时提供集中统一的治理能力。QAQ1Snowflake的数据自主权具体是什么意思ASnowflake将数据自主权定义为企业能够跨多个平台自由访问、治理和分析数据且不受任何专有系统的束缚。其核心理念是无论数据存储在何处企业都应能够使用任意引擎对其进行读取、写入和治理操作同时避免因强制数据迁移带来的安全风险、运营复杂性和高昂成本。Q2Apache Iceberg V3相比之前的版本有哪些新特性AIceberg V3引入了多项重要新特性通过Variant数据类型支持半结构化数据新增地理空间数据类型支持提供面向变更数据捕获的行级血缘追踪通过删除向量优化删除操作的执行效率以及支持纳秒级时间戳精度。这些功能均可在Snowflake托管表和外部Iceberg目录中使用适用于更复杂的生产环境工作负载。Q3Apache Polaris解决了什么问题AApache Polaris是一个由Snowflake开发并开源的数据目录主要解决数据治理策略跨平台可移植性的问题。Iceberg虽然规范了数据存储方式但未能处理访问控制、数据血缘和语义上下文的跨系统管理。Polaris通过策略交换标准、治理联邦等机制让治理规则能够随数据一同流转无需复制或重新处理数据从而解决受控数据共享中长期存在的效率瓶颈。

更多文章