稀宇科技回应MiniMax大模型叫错人名：特定词元训练不足所致

“马嘉祺”为什么总被念成“佳琪”？稀宇科技揭开大模型的隐藏伤疤

最近，AI公司稀宇科技（MiniMax）发布了一份内部技术复盘，坦诚解释了自家模型为何在提及中国艺人“马嘉祺”时，总是输出“佳琪”“琪琪”这类音近但错误的名字。这看起来像是个“小失误”，但背后藏着一个被行业长期忽视的系统性问题——大模型的“记忆”正在被训练数据悄悄抹除。

问题出在“分词器”上。中文名字“马嘉祺”在模型内部被拆成两个部分：“马”和“嘉祺”。前者是高频字，训练充分；后者“嘉祺”却几乎没在微调数据里出现过。为什么？因为用来教模型“聊天”的对话数据，大多是客服、助手、通用问答，没人会反复说“马嘉祺”三个字。而与此同时，代码符号、API调用指令、网页标签这些高频词，却在不断被强化。模型的参数空间就这么大，一边疯狂挤占，另一边自然被“压扁”了。

结果就是，“嘉祺”这个词元的向量被推离了原本该在的位置，模型再也“记不住”它的真实含义。当它想输出“马嘉祺”时，只能从发音接近的词里瞎猜——“佳琪”“琪琪”成了最省力的选项。这不是AI“记性差”，而是它根本没机会学。

不只是人名：日语里突然蹦出俄语，真相更惊人

团队没止步于人名问题。他们对模型20万个词元做了全面扫描，发现近5%的词元都出现了“功能退化”——不是完全不会用，而是用得不对、用得乱。

最夸张的是日语词元：近三成（29.7%）在生成日文时会莫名其妙混入俄语、韩语字符。比如用户问“おはよう”，模型可能回“おはようПривет”——前半句日语，后半句俄语“你好”。这不是翻译错误，是词元“认错家门”了。

为什么？因为微调数据里，日语内容极少，而俄语、韩语在某些网页爬取的数据中却意外高频。模型在“学习”时，把那些边缘词的向量拉到了一起，导致语种边界模糊。类似的情况也出现在LaTeX公式符号、维基百科的原始标记、甚至一些搜索引擎垃圾关键词上——这些本该被忽略的“噪音”，反而因为数据分布不均，成了模型的“强记忆”。

换句话说，模型不是“不懂中文”，而是“被教偏了”。它学的不是“人类怎么说话”，而是“互联网上什么词最常出现”。当你用它写一封给日本客户的邮件，它可能在不经意间给你塞进一串西里尔字母——这已经不是冷笑话，是真实的风险。

他们怎么修好的？给每个词发“低保”

修复方案简单到有点“笨”：他们自己造了一套“全词表复读数据”——把20万个词元挨个列出来，配上最基础的语境，强迫模型一遍遍重复输出。比如：“请写出：嘉祺”、“请写出：おはよう”、“请写出：sum_{i=1}^n”……

这不是“增强学习”，是“基础补课”。相当于给每个词都配了个“保底训练包”，哪怕它在真实对话里一辈子没人提，模型也得记住它长什么样、怎么用。

效果立竿见影：日语混杂其他语言的比例，从47%直接降到1%以下；人名输出准确率从不足30%提升到92%。这不是魔法，是回归常识——如果你要教一个孩子认字，不能只让他看报纸头条，还得让他翻字典。

行业警钟：我们正在用“互联网噪音”训练AI

这起事件不是稀宇科技的独家丑闻，而是整个行业正在经历的“隐性危机”。

主流大模型的分词器，大多基于Common Crawl、Wikipedia、GitHub这类“通用语料”。它们覆盖广，但极不均衡。明星名字、小语种、专业术语、甚至法律条文中的专有名词，往往只占百万分之一。可当我们把模型用在娱乐、教育、医疗、法律场景时，恰恰最需要这些“低频词”。

更讽刺的是，很多公司为了“提升指标”，在微调阶段只用“干净、流畅、安全”的对话数据，刻意过滤掉生僻词、方言、专业术语——结果就是，模型越来越“标准”，也越来越“空洞”。

稀宇团队现在正在尝试更深层的改进：比如在微调时混入一部分原始预训练数据，让模型别“忘本”；或者直接清理词表里那些从没被用过的“僵尸词元”，减负增效。

但真正的答案，可能不在技术，而在数据伦理：我们有没有权利，让AI只记住“主流”的东西？当一个女孩的名字在互联网上被忽略，AI是否也该为她保留一个位置？

这不是AI该不该懂“马嘉祺”的问题。而是，当AI决定我们该记住什么、忽略什么时，谁来为那些被遗忘的词，发声？

MiniMax M2系列模型词元偏移后训练数据不平衡

CB科技站

稀宇科技回应MiniMax大模型叫错人名：特定词元训练不足所致

“马嘉祺”为什么总被念成“佳琪”？稀宇科技揭开大模型的隐藏伤疤

不只是人名：日语里突然蹦出俄语，真相更惊人

他们怎么修好的？给每个词发“低保”

行业警钟：我们正在用“互联网噪音”训练AI

与本文相关的文章