
Apache Flink 2.1支援以SQL语法注册并设定连接OpenAI云端服务的人工智慧模型,开发者可直接在串流资料管线中呼叫ML_PREDICT函式,实现即时资料推论
开源串流处理框架Apache Flink官方正式发表2.1版,此次更新强化人工智慧与资料流整合能力,并进一步提升串流处理平台的技术深度与弹性。新版本由全球116名贡献者协力完成,共实作16项FLIP,修正超过220个议题,这反映出Flink社群的稳定发展与活跃。
Flink 2.1最重要的技术升级,是于资料流平台中直接纳入人工智慧模型管理机制。新版允许开发者透过Flink SQL及Table API定义与维护人工智慧模型,支援以程序码或SQL指令方式注册、设定并呼叫模型,减少跨平台整合的技术障碍,例如企业可将OpenAI等主流模型服务注册于Flink执行环境,将即时资料串流导入人工智慧推论,即时整合资料取得与推论。
在即时推论功能上,Flink 2.1进一步扩充ML_PREDICT表格数值函式,让开发者能于SQL查询阶段,直接呼叫人工智慧模型对串流资料进行推论。此设计降低了将资料流接入外部推论服务的複杂度,并可根据不同资料来源与应用场景进行弹性设定,提升串流处理架构下,人工智慧应用的即时性与可维运性。
此次更新针对半结构化资料处理需求,加入VARIANT型别,允许系统以更灵活方式储存及查询JSON等多层结构资料,并透过PARSE_JSON函式实现字串至VARIANT的转换。对于需支援湖仓架构如Apache Paimon的开发者而言,该设计有助于降低异质资料整合的技术门槛。
此外,Flink 2.1开放于CREATE TABLE DDL阶段宣告自订结构型别,简化资料表与业务物件间的型别映射过程。Process Table Function(PTF)也于本次正式纳入,开发者可依据业务逻辑设计自订函式,利用Flink内建状态管理、事件时间与计时器等机制,增强SQL在串流处理领域的应用範围。
针对大规模串流处理实务场景,Flink 2.1在JOIN机制进行多项最佳化。DeltaJoin设计有效减少状态数量,有助于改善检查点延迟与系统资源消耗。StreamingMultiJoinOperator则可将多个连续JOIN合併执行,降低中介状态储存需求,进一步提升整体处理效能。
非同步Lookup Join最佳化后,可于允许无序输出模式下提升资料流吞吐量。对于採用部分更新写入的资料湖场景,新版规画Sink Reuse自动合併相同栏位目标的INSERT INTO操作,简化维运工作。