Claude新版宪章公开，Anthropic以完整脉络文件引导模型行为

AI公司Anthropic发布新版Claude宪章，作为其AI模型Claude的行为准则与价值框架，并同步公开全文。官方表示，该文件不仅是对外说明立场，更将在模型训练中发挥关键作用，直接影响Claude在面对复杂情境时如何权衡与回应。该文件以CC0授权发布，允许任何人自由使用。

相较于过去以多条原则并列的写法，Anthropic此次将宪章改写为一篇结构完整、逻辑连贯的文本，用更多篇幅解释希望Claude以特定方式行动的原因，以及这些要求背后的深层考量。Anthropic的核心主张是：要让模型在新情境中做出更稳健的判断，不能仅要求它机械地遵守规则，而应使其理解原则的意图与边界，从而在价值冲突时减少僵化套用。

Anthropic强调，这份宪章主要是写给Claude看的。文件会说明Claude所处的环境与可能面临的两难处境，并提供应对建议，例如在诚实与共情之间如何平衡，或在提供帮助时如何保护敏感信息。

Claude宪章将被应用于多个训练阶段，除了作为目标规范，Claude还会依据宪章生成合成训练数据，这些数据可用于训练未来版本的Claude，使其行为更贴近宪章所描述的理想状态。

新版宪章明确提出了行为优先级：Anthropic希望现阶段的Claude首先确保整体安全，不削弱人类对AI的监督与修正能力；其次是维护广义伦理，包括诚实与避免造成不当伤害；再次是遵循Anthropic的具体指引；最后才是为用户提供实质帮助。Anthropic指出，这种排序并非宣称安全必然高于伦理，而是考虑到当前模型仍可能因误判或缺乏情境理解而产生危险行为。

Anthropic在宪章中仍保留了少数高风险领域的严格限制，强调在某些情境下Claude不应提供可能显著增加危害的协助。同时，Anthropic表示，宪章不打算成为僵化的法律文本，硬性限制仅用于特别高风险、不可逾越的行为边界，其余情境仍希望Claude能通过理解与判断处理例外与灰色地带。

关于Claude自身的本质，Anthropic承认目前对AI是否可能具备某种意识或道德地位尚无定论，仅表达希望Claude在面对相关问题时保持谨慎、稳定与一致的自我认知，以降低风险并维持判断质量。Anthropic在结语中称这份宪章为持续更新的活文件，承认训练出完全符合宪章的模型仍是技术挑战，现实行为也可能与预期存在差距，并表示将在系统卡等文档中公开此类偏差。

Anthropic Claude 新版宪章模型行为引导

CB科技站

Claude新版宪章公开，Anthropic以完整脉络文件引导模型行为

与本文相关的文章