最新消息:关注人工智能 AI赋能新媒体运营

Hugging Face挑战OpenAI Deep Research,24小时打造开源智慧代理系统

科技智能 admin 浏览 评论

Hugging Face发起一项挑战,尝试在24小时内重现OpenAI最新发表的Deep Research系统,并开源其关键技术。OpenAI在2月初推出Deep Research,结合大型语言模型与代理框架,能够透过网页浏览、资讯整理与多步推理来回答複杂问题。Hugging Face的开源挑战不仅试图验证这套技术的可行性,也希望提供开源替代方案,让开发者能自行部署类似系统。

OpenAI的Deep Research之所以备受瞩目,在于它在GAIA(General AI Assistants)基準测试的表现大幅超越单纯仰赖语言模型的人工智慧系统。根据OpenAI发表的资料,Deep Research在GAIA测试中的单次提示作答準确率达到67%,而即便是最具挑战性的第三级多步推理与工具使用问题,仍可维持47.6%的正确率。不过,OpenAI并未公开其代理框架的细节,这让Hugging Face决定尝试重现相关技术,并释出开源版本,让更广泛的开发者社群能够参与改进。

Hugging Face在24小时内完成第一个版本,以自家开发的smolagents框架为基础,搭配大型语言模型来执行搜寻、资讯整理与多步推理。这个系统能够自主规画解题流程,决定何时查询额外资讯,并以程序码的方式表达执行步骤。相较于OpenAI未公开的技术,这项开源专案强调模组化设计,允许开发者选择不同的语言模型,并且结合使用其他开源工具。

特别的是,Hugging Face的团队选择使用CodeAgent技术来提升代理系统的效率。相较于常用的JSON格式,透过程序码来表达执行步骤,能使推理过程更精简,并减少API呼叫次数,根据研究团队测试结果,改用CodeAgent之后,代理系统在GAIA测试中的表现从46%提升至55.15%。此外,与JSON格式相比,使用Python来描述行动流程也能更直觉地表达逻辑关係,让代理系统能够有效处理多步推理问题。

这项开源计画仍处于早期阶段,儘管在部分测试中已有所进展,但要完整实作OpenAI Deep Research的功能,仍存在许多挑战。特别是在浏览器操作方面,OpenAI採用了名为Operator的进阶网页浏览器,使Deep Research不仅能够深入解析网页内容,还能进行互动式操作。相比之下,Hugging Face的初版开源系统目前仅支援基础的文字网页浏览,尚未具备视觉辨识或更精细的网页互动能力。此外,OpenAI的系统可能还包括内部最佳化的提示词工程与资料检索技术,这些重点细节在开源社群中仍需透过试验逐步改进。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论