微软WizardLM-2模型忘了做测试，上线不到2天就撤下

图片来源:

微软

微软本周公布并开源最新一代大型语言模型WizardLM-2，最大版本效能超越GPT-4及Mistral，不过上线后很快就被移除，原因是发布前忘了做测试。

一年前，微软以之前的大型语言模型为基础开发出Wizard，周一微软发布WizardLM-2，在複杂对话、多语言、推论和代理程式（agent）的效能都较前代提升。微软并透过GitHub及Hugging Face公开，但周二微软忽然无预警，也在未说明情况下删除了所有专案文件及程式码档案，令一些已经或準备开始测试的开发人员感到错愕。现在点入GitHub和Hugging Face都会显示404错误讯息页面。

微软周三终于解释原因，表示由于不太熟悉新的模型发布流程，在上线后发现他们忘了为WazardLM-2模型进行毒性测试（toxicity testing）。开发团队目前正加紧完成测试，等完成后会儘速重新发布。

周一微软公布WizardLM-2 LLM 7B、70B以及8x22B MoE三个版本。根据微软稍早推文，微软说明，相较Claude 3 Opus&Sonnet、GPT-4等LLM，WizardLM-2 8x22B是最先进的模型，根据内部以複杂任务的标竿测试，也是最佳开源LLM。WizardLM-2 70B具备最顶级推论能力，也是同等级模型（Mistral Medium&Large、Claude 2.1）中第一选择。WizardLM-2 7B的效能也堪比规模大其10倍的开源模型。

AI模型竞赛白热化，Meta预告将在5月公布Llama 3首个版本，而OpenAI也预计今年夏天发表GPT-5。

CB科技站

微软WizardLM-2模型忘了做测试，上线不到2天就撤下

与本文相关的文章