最新消息:关注人工智能 AI赋能新媒体运营

Nvidia开源Nemotron-4 340B家族,以供开发者建置大型语言模型

微信运营 admin 浏览 评论
图片来源:

Hugging Face

Nvidia上周开源了Nemotron-4 340B模型家族,它包含了基础模型、指令模型及奖励模型,可用来生成合成资料,藉以训练大型语言模型(LLM),现已可自Hugging Face下载,之后也能透过Nvidia网站以API及NIM微服务来存取模型。

Nvidia表示,高品质的训练资料对一个客製化LLM的性能及準确度都很重要,但强大的资料集既难存取又昂贵,现在开发者可藉由开放模型授权来免费存取Nemotron-4 340B,以生成合成资料,并建置强大的LLM。该模型家族支援医疗照护、金融、製造、零售与其它领域的商业应用。

其中,Nemotron-4 340B的基础模型在9兆个Token上进行训练,可利用NeMo框架进行客製化,以支援特定领域;而指令模型则是用来创建模仿真实世界资料特徵的各种合成资料,以提高不同领域的资料品质;再利用奖励模型进行过滤,进而获得更高品质的回应。总之,Nemotron-4 340B的3种模型建立了一个管道,以生成及优化用来训练LLM的合成资料。

此外,上述模型已针对NeMo框架及TensorRT-LLM函式库进行最佳化,前者可用来支援端对端的模型训练,后者则是用来加速推论。

发表我的评论
取消评论

表情

您的回复是我们的动力!

  • 昵称 (必填)
  • 验证码 点击我更换图片

网友最新评论