LegalOne-R1:中国首个面向司法实践的开源法律大模型正式发布
1月23日,清华大学互联网司法研究院在上海举办的中国司法人工智能大会(CJAI2026)上,正式对外开源了国内首个专为法律实务设计的大模型——LegalOne-R1。该模型由清华大学联合华为云昇腾AI云服务、互联网体系结构全国重点实验室等机构共同研发,旨在解决法律行业长期面临的“知识碎片化、推理不闭环、辅助工具难落地”等痛点。
此次发布的LegalOne-R1提供1.7B、4B、8B三个参数版本,均基于中国本土司法数据训练,覆盖裁判文书、法律法规、司法解释、检察文书、仲裁案例等真实场景数据,总量超2000万条。与通用大模型不同,它不追求“什么都能说”,而是专注“法律该怎么说”——从法条引用、证据链分析到判决倾向预测,每一项能力都源于一线法官、律师的实际工作需求。
不是“背法条”,而是“懂逻辑”
很多人以为AI律师就是能背出《民法典》第几条,但LegalOne-R1的核心突破在于“推理能力”。它不仅能准确引用法条,还能理解“为什么这条适用于这个案子”——比如,在一起民间借贷纠纷中,它能自动识别“借条无利息约定”“转账备注为‘还款’”“双方曾有频繁资金往来”等细节,综合判断是否构成口头约定利息,进而推导出是否支持利息请求。
这种能力来自“中端训练+后训练”双阶段优化:先用大量司法文本做基础预训练,再通过真实庭审对话、律师咨询记录、法官合议笔录进行指令微调,并引入强化学习机制,让模型在模拟判决中不断优化逻辑链条。测试显示,LegalOne-R1-8B在LexEval、LawBench、JecQA三大权威法律评测中,准确率分别高出同尺寸通用模型12.7%、9.3%和15.1%,甚至在部分多跳推理任务中超越了参数更大的GPT-4o和Claude 3 Opus。
真正落地:已在多地法院试用
目前,LegalOne-R1已在浙江、江苏、四川等地的基层法院试点运行,用于辅助法官撰写文书初稿、校对法律引用错误、识别类案冲突。一位参与试用的法官表示:“以前查类案要翻三四个平台,现在输入案情关键词,系统能自动匹配近三年类似判决,并标出关键差异点,省下至少一半的检索时间。”
在律所端,多家中型律所已将其接入内部案件管理系统,用于合同审查、风险提示和客户咨询初筛。一位执业十年的民商律师说:“它不会代替我做判断,但它能帮我快速排除明显错误——比如把‘诉讼时效三年’误写成‘五年’,这种低级错误它能立刻揪出来。”
开源,不设门槛
不同于一些“闭源+收费”的法律AI产品,LegalOne-R1全量参数、训练代码、评估数据集均已在Hugging Face、ModelScope和GitHub同步开源,无需申请权限,任何个人、律所、法院、科技公司均可免费下载使用。所有模型均适配华为昇腾Atlas 910B算力平台,基于昇思MindSpore框架部署,支持国产化环境运行。
为降低使用门槛,团队同步发布了《LegalOne-R1应用指南(初版)》,包含:如何在本地部署、如何导入本地案例库、如何定制领域指令、常见错误排查等实用内容。后续还将推出“司法AI助手”插件,支持与法信、裁判文书网、律协数据库等主流平台对接。
未来:不止于模型,更在生态
清华大学团队表示,LegalOne-R1只是起点。下一步,他们将联合最高人民法院信息中心,推动建立“中国法律AI开放测试平台”,鼓励更多机构提交真实司法场景任务,共同完善模型能力。同时,计划在2024年暑期启动“法律AI开发者训练营”,面向法学专业学生和法律科技从业者,免费培训模型微调、提示工程与司法数据标注。
这不是一场技术秀,而是一次真正从中国司法土壤里长出来的AI实践。开源,意味着它不再属于实验室,而是属于每一个需要它的人——法官、律师、法务、甚至普通市民。法律不该是少数人的专业壁垒,而应是可被理解、可被辅助的公共知识。