最新消息:关注人工智能 AI赋能新媒体运营

Claude新版宪章公开,Anthropic以完整脉络文件引导模型行为

科技资讯 admin 浏览

AI公司Anthropic发布新版Claude宪章,作为其AI模型Claude的行为准则与价值框架,并同步公开全文。官方表示,该文件不仅是对外说明立场,更将在模型训练中发挥关键作用,直接影响Claude在面对复杂情境时如何权衡与回应。该文件以CC0授权发布,允许任何人自由使用。

相较于过去以多条原则并列的写法,Anthropic此次将宪章改写为一篇结构完整、逻辑连贯的文本,用更多篇幅解释希望Claude以特定方式行动的原因,以及这些要求背后的深层考量。Anthropic的核心主张是:要让模型在新情境中做出更稳健的判断,不能仅要求它机械地遵守规则,而应使其理解原则的意图与边界,从而在价值冲突时减少僵化套用。

Anthropic强调,这份宪章主要是写给Claude看的。文件会说明Claude所处的环境与可能面临的两难处境,并提供应对建议,例如在诚实与共情之间如何平衡,或在提供帮助时如何保护敏感信息。

Claude宪章将被应用于多个训练阶段,除了作为目标规范,Claude还会依据宪章生成合成训练数据,这些数据可用于训练未来版本的Claude,使其行为更贴近宪章所描述的理想状态。

新版宪章明确提出了行为优先级:Anthropic希望现阶段的Claude首先确保整体安全,不削弱人类对AI的监督与修正能力;其次是维护广义伦理,包括诚实与避免造成不当伤害;再次是遵循Anthropic的具体指引;最后才是为用户提供实质帮助。Anthropic指出,这种排序并非宣称安全必然高于伦理,而是考虑到当前模型仍可能因误判或缺乏情境理解而产生危险行为。

Anthropic在宪章中仍保留了少数高风险领域的严格限制,强调在某些情境下Claude不应提供可能显著增加危害的协助。同时,Anthropic表示,宪章不打算成为僵化的法律文本,硬性限制仅用于特别高风险、不可逾越的行为边界,其余情境仍希望Claude能通过理解与判断处理例外与灰色地带。

关于Claude自身的本质,Anthropic承认目前对AI是否可能具备某种意识或道德地位尚无定论,仅表达希望Claude在面对相关问题时保持谨慎、稳定与一致的自我认知,以降低风险并维持判断质量。Anthropic在结语中称这份宪章为持续更新的活文件,承认训练出完全符合宪章的模型仍是技术挑战,现实行为也可能与预期存在差距,并表示将在系统卡等文档中公开此类偏差。