Apache Flink 2.1加入AI模型管理与即时推论功能，升级资料串流处理能力

Apache Flink 2.1支援以SQL语法注册并设定连接OpenAI云端服务的人工智慧模型，开发者可直接在串流资料管线中呼叫ML_PREDICT函式，实现即时资料推论

开源串流处理框架Apache Flink官方正式发表2.1版，此次更新强化人工智慧与资料流整合能力，并进一步提升串流处理平台的技术深度与弹性。新版本由全球116名贡献者协力完成，共实作16项FLIP，修正超过220个议题，这反映出Flink社群的稳定发展与活跃。

Flink 2.1最重要的技术升级，是于资料流平台中直接纳入人工智慧模型管理机制。新版允许开发者透过Flink SQL及Table API定义与维护人工智慧模型，支援以程序码或SQL指令方式注册、设定并呼叫模型，减少跨平台整合的技术障碍，例如企业可将OpenAI等主流模型服务注册于Flink执行环境，将即时资料串流导入人工智慧推论，即时整合资料取得与推论。

在即时推论功能上，Flink 2.1进一步扩充ML_PREDICT表格数值函式，让开发者能于SQL查询阶段，直接呼叫人工智慧模型对串流资料进行推论。此设计降低了将资料流接入外部推论服务的複杂度，并可根据不同资料来源与应用场景进行弹性设定，提升串流处理架构下，人工智慧应用的即时性与可维运性。

此次更新针对半结构化资料处理需求，加入VARIANT型别，允许系统以更灵活方式储存及查询JSON等多层结构资料，并透过PARSE_JSON函式实现字串至VARIANT的转换。对于需支援湖仓架构如Apache Paimon的开发者而言，该设计有助于降低异质资料整合的技术门槛。

此外，Flink 2.1开放于CREATE TABLE DDL阶段宣告自订结构型别，简化资料表与业务物件间的型别映射过程。Process Table Function（PTF）也于本次正式纳入，开发者可依据业务逻辑设计自订函式，利用Flink内建状态管理、事件时间与计时器等机制，增强SQL在串流处理领域的应用範围。

针对大规模串流处理实务场景，Flink 2.1在JOIN机制进行多项最佳化。DeltaJoin设计有效减少状态数量，有助于改善检查点延迟与系统资源消耗。StreamingMultiJoinOperator则可将多个连续JOIN合併执行，降低中介状态储存需求，进一步提升整体处理效能。

非同步Lookup Join最佳化后，可于允许无序输出模式下提升资料流吞吐量。对于採用部分更新写入的资料湖场景，新版规画Sink Reuse自动合併相同栏位目标的INSERT INTO操作，简化维运工作。

CB科技站

Apache Flink 2.1加入AI模型管理与即时推论功能，升级资料串流处理能力

与本文相关的文章