小模型可用更长运算时间换取更高精準度，Hugging Face发表测试阶段运算扩展的研究

由于目前大型语言模型的效能，主要仰赖大量的训练运算资源，而正是这种昂贵的成本模式，驱使开发公司寻求替代方案。而Hugging Face的研究显示，透过测试阶段运算扩展（Test-Time Compute Scaling），小型模型在推理过程中给予足够的运算时间，能针对複杂问题进行多次尝试或修正，效能不仅提升，甚至可在数学推理等特定任务中超越大型模型。这项成果挑战了过去以模型规模作为效能提升主要依据的认知，展现了小型模型在资源有效利用下的潜力。

测试阶段运算扩展已成为许多研究机构关注的技术，其中DeepMind的研究显示，藉由动态分配测试阶段运算资源，可以让模型在解决複杂问题时更具效率。DeepMind研究人员提出了使用验证搜寻解答空间的策略，验证器能对模型的中间推理解答给出评分，并引导搜寻过程朝正确方向推进。DeepMind的实验证实，测试阶段运算策略能让小型模型在部分複杂任务中超越其基础效能。

而Hugging Face的研究更聚焦于开放模型与资源的应用，并提出多样性验证树搜寻（Diverse Verifier Tree Search，DVTS）这种改进验证器搜寻方法的技术。DVTS有效解决了搜寻过程中的多样性不足问题，特别是在高运算资源配置下，其生成的解答在準确性和多样性上表现更佳。透过这些测试阶段运算扩展技术，Hugging Face展示小型模型在数学推理等特定任务中，足以挑战甚至超越大型模型，颠覆过去仰赖模型规模决定效能的传统观点。

简单来说，DeepMind的研究主要说明，透过动态分配测试阶段的运算资源，小型模型可以在多一点运算时间下，提升效能并表现得更好。Hugging Face的研究则进一步延伸，提出在某些特定任务中，给小型模型足够的运算时间，不仅能提升效能，甚至可以超越参数量更大的模型。

Hugging Face的DVTS针对搜寻策略中的多样性问题进行最佳化，藉由分离多个搜寻树，提升生成答案的多样性并避免单一路径过度主导搜寻过程的现象。在数学基準测试中，小型模型如参数量仅为10亿的Llama模型，在应用DVTS策略后，解题表现不仅超越了自身基础能力，甚至在某些情境中超越了参数量高达70亿的大型模型。

不过目前这些技术的发展仍受限制，因为验证器的能力目前局限于数学和程序码等可验证领域，要将这些技术应用于需要主观判断，或是难以量化的任务，仍需要更多后续研究。不过从实务角度来看，测试阶段运算扩展的成功，对模型效能提升提供了更具成本效益的方法，让企业能以更少的资源部署更高效的语言模型，特别是在运算能力受限的环境下，如边缘运算或嵌入式系统等。

CB科技站

小模型可用更长运算时间换取更高精準度，Hugging Face发表测试阶段运算扩展的研究

与本文相关的文章