AWS推出Amazon Redshift RG实例,这是Redshift新的实例家族,采用AWS Graviton处理器,并整合数据湖查询引擎。AWS表示,RG实例在执行数据仓库工作负载时,速度最高可达既有RA3实例的2.2倍,每vCPU价格低30%,适用于数据仓库、数据湖与高频查询工作负载的成本控制需求。
Amazon Redshift是AWS的云端数据仓库服务,企业常以Redshift处理结构化且频繁访问的数据,并以数据湖保存更多样、成本较低的海量数据。AWS强调,随着BI仪表板、ETL流程与AI代理程序带来更频繁的查询需求,分析平台需要在延迟、性能与成本之间取得更好的平衡。
RG实例的主要变化,是Redshift可使用同一套查询引擎访问数据仓库与数据湖。AWS指出,内置数据湖查询引擎默认开启,用户可从单一引擎执行SQL分析,查询Redshift数据表与Amazon S3数据湖数据。在查询数据湖格式数据时,AWS表示,RG实例查询Apache Iceberg的性能最高可达RA3的2.4倍,查询Apache Parquet则最高可达RA3的1.5倍。
该架构调整也改变了Redshift查询数据湖的成本构成,AWS说明,Redshift现在会在集群节点上执行数据湖查询,即使用处理数据仓库工作负载的同一组计算资源。因此Amazon Redshift Spectrum不再是必要组件,数据湖查询可保留在用户的VPC边界内,沿用既有IAM角色,也不再产生过去Spectrum每TB扫描5美元的费用。
企业可通过AWS管理控制台、AWS CLI或AWS API创建新的RG集群,也可将既有Redshift集群迁移至RG实例。AWS提供两种使用方式,一是弹性调整大小,适用于兼容配置,AWS提到,停机时间约10至15分钟。另一种是快照还原(Snapshot and Restore),可从RA3快照创建RG集群,适合在迁移时一并调整配置。
AWS表示,既有外部数据表、Schema与查询语句,包括原有的Spectrum查询,都不需要重建或修改应用程序代码。Redshift RG实例目前已在多个AWS区域开放,包括美国、加拿大、欧洲、南美,以及亚太区的香港、首尔、新加坡、东京、大阪、台湾和悉尼等地域。