Unsloth Studio 正式发布:在自家电脑上微调 70B 大模型
你不用再为配 CUDA 环境熬通宵,也不用租云服务器花几千块跑一次微调了。Unsloth AI 推出的 Unsloth Studio,是一个完全开源、零代码、本地运行的可视化工具,让你用一块 RTX 4090 就能微调 Llama3.1、DeepSeek-R1 这类 70B 参数的大模型。

速度翻倍,显存省七成,消费级显卡也能扛
传统微调框架动不动就吃掉 80GB 以上的显存,跑个 8B 模型都得用 A100。Unsloth Studio 底层用 Triton 重写了反向传播核心,实测在相同硬件下:
- 训练速度比 Hugging Face Transformers 快 2 倍以上
- 显存占用减少 70%,同样 24GB 显存的 4090,现在能塞下 70B 模型
- 不需要梯度检查点、FP8、LoRA 混合等复杂配置,开箱即用
我们测试了在 4090 上微调 Llama3-8B,全程显存占用稳定在 20GB 左右,训练 1 万条数据不到 3 小时。而用 Hugging Face 的标准流程,同样的数据要跑 6 小时以上,还经常爆显存。
拖拽就能做数据,PDF、Word、网页一键转指令
数据准备不再是门槛。Unsloth Studio 内置可视化数据流编辑器,你只需要:
- 把 PDF、DOCX、JSONL、网页截图拖进界面
- 系统自动识别文本结构,提取问题-答案对
- 用鼠标拖节点,过滤重复、去噪、加标签
它集成了 NVIDIA DataDesigner 的部分能力,能自动从企业内部的说明书、客服记录、技术文档里生成高质量指令数据。你不再需要写 Python 脚本清洗数据,也不用请标注团队。
不用批判模型,也能让 AI 学会多步推理
以前想让模型学会“分步骤思考”,得训练一个额外的“打分模型”(critic model),成本高、调起来复杂。Unsloth Studio 原生支持 GRPO(Grouped Relative Policy Optimization)——这是 DeepSeek-R1 背后用的技术。
你只需要提供带推理过程的样本(比如:“先分析需求,再拆解步骤,最后输出结果”),模型就能自动学习这种结构,不需要额外模型辅助打分。实测在数学题和代码生成任务上,推理正确率提升 18%–25%。
训练完,一键导出,直接跑在本地
训练完成,别再手动转换格式了。Unsloth Studio 一键生成:
- GGUF —— 直接用 Ollama 或 LM Studio 在 Mac 或 Windows 上跑
- vLLM 格式 —— 部署成 API,支持高并发推理
- Hugging Face 格式 —— 兼容所有主流工具链
我们有用户把微调后的模型导出成 GGUF,放到自家 MacBook Pro 上,用 Ollama 启动,本地问答响应速度稳定在 1.2 秒/轮,完全满足内部知识库需求。
谁在用?真实场景已落地
目前已有团队在用 Unsloth Studio 做:
- 法律公司:用合同文本微调模型,自动提取条款风险点
- 制造业:把设备手册转成问答库,让维修人员用手机问问题
- 教育机构:基于教材生成个性化习题和解析
他们共同的特点是:不想把数据传到云端,不想每月花上万块租算力,也不想雇专门的 AI 工程师。
支持模型列表(持续更新)
目前已完整支持:
- Llama 3.1 / Llama 3.2 / Llama 3.3(Meta 官方)
- DeepSeek-R1 / DeepSeek-V3
- Qwen2 / Qwen3(通义千问)
- Mistral-Nemo / Phi-3
- 自定义 LoRA / Adapter 模型
未来几周将支持 Llama 4、Gemma 3 和国内主流开源模型。所有模型都支持中文优化微调,无需额外语言适配。
免费开源,本地运行,不联网也能用
Unsloth Studio 是 100% 开源(MIT 协议),所有代码在 GitHub 可查。安装仅需一条命令:
pip install unsloth-studio
unsloth-studio
完全离线运行,不上传你的数据,不连接任何远程服务器。你训练的模型,永远只属于你。
官网文档:https://unsloth.ai/docs/new/studio