最新消息:关注人工智能 AI赋能新媒体运营

小红书开源AI训练引擎Relax,强势入局AI赛道

科技资讯 admin 浏览

小红书悄悄开源了Relax,一个专为多模态AI设计的训练引擎

4月15日,小红书在没有大张旗鼓宣传的情况下,把内部用了一年多的AI训练引擎Relax正式开源了。这不是一个普通的工具包,而是一个专门为处理图文、视频、音频混合数据打造的系统——换句话说,它能同时“看图”“听声”“读文”,并让AI根据这些信息做出连贯反应。

现在市面上很多AI模型还在单打独斗:有的擅长文字,有的擅长图像,但真正能无缝融合多种输入的系统少之又少。Relax就是冲着这个痛点来的。它不光能处理多模态输入,还特别针对“智能体”(Agent)场景做了优化——比如让AI能根据用户上传的一组照片、一段语音和一段文字描述,自主规划下一步动作,像真人一样“理解上下文”。

为什么工程师们开始关注它?

Relax有两个实打实的工程亮点:

  • 模态感知并行:视频帧和语音波形的计算需求完全不同,传统系统往往“一刀切”分配算力,导致GPU空转。Relax能自动识别哪种模态更吃资源,动态调整调度,让每一块显卡都用在刀刃上。
  • 端到端异步流水线:数据从输入到训练,中间要经过预处理、对齐、编码等多个环节。Relax把这些步骤拆成独立管道,不等前面完成,后面就能开始处理,训练速度比常规流程快了20%-30%(据内部测试数据)。

这些改动听起来技术味很重,但对团队来说意味着:同样的服务器,能训练更大、更复杂的模型;同样的时间,能跑更多实验。这对于资源紧张的中小团队,甚至是高校实验室,都是能直接省下钱和时间的。

小红书为什么突然开源?

小红书不是OpenAI,也不是Meta,它是一家以生活方式内容起家的平台。过去几年,它默默在AI上投了不少资源——比如用AI帮用户做穿搭推荐、自动生成笔记标题、识别图片中的商品和场景。这些功能背后,都需要强大的多模态训练能力。

现在把Relax放出来,不是“技术炫耀”,而是一次战略调整。一方面,他们发现很多开发者在做类似项目时,都在重复造轮子;另一方面,开源能吸引外部开发者贡献代码、反馈问题,反过来加速引擎迭代。这和Hugging Face、Meta的Llama系列路径类似——用开源换生态,用生态换影响力。

有意思的是,开源当天,GitHub上就收到了来自阿里、字节、中科院等团队的Star和Issue。有人在评论区问:“能不能支持国产芯片?”“有没有现成的微调教程?”——这些反馈,正是小红书想要的。

普通人能用它做什么?

你可能不会直接去跑Relax的代码,但它会间接影响你每天刷到的内容:

  • 未来你上传一张“周末露营+咖啡+书”的照片,AI可能不只是给你打标签,而是主动推荐附近的野餐地点、搭配的咖啡豆品牌,甚至生成一段带情绪的笔记文案。
  • 短视频创作者上传一段口播视频,AI能自动识别语义、情绪和画面关键帧,帮你一键生成带字幕、配乐、转场的成片。

这些功能,背后都依赖像Relax这样能“看懂多模态信息”的底层系统。小红书没说它要“颠覆行业”,但它的动作,确实让那些还在用老旧工具做多模态训练的团队,开始重新思考自己的技术选型。

这不像是军备竞赛,更像是一个平台在悄悄把积攒的技术,变成公共基础设施。而这一次,它选对了方向。