首页 > 业界 > 关键词  > NVIDIA最新资讯  > 正文

NVIDIA发布SteerLM:个性化定制大型语言模型响应的新AI方法

2023-10-16 17:32 · 稿源:站长之家

划重点:

NVIDIA发布了一项名为SteerLM的新技术,旨在解决大型语言模型的问题,使用户能够自定义模型的响应。

SteerLM通过四个步骤的监督微调过程,允许用户定义关键属性,如帮助性、幽默和创造力,来引导模型的行为。

这项技术的一个亮点是其实时可调性,用户可以在推断过程中微调属性,从而为各种应用提供个性化的能力。 NVIDIA将SteerLM作为开源软件发布,为开发者提供了机会。性能上表现出色,还具有实时可调整性,可应用于多个领域,从游戏到教育再到无障碍领域。

站长之家(ChinaZ.com) 10月16日 消息:在人工智能领域,开发人员和用户一直面临一个挑战,那就是需要更加定制和细致的大型语言模型响应。虽然这些模型,比如Llama2,可以生成类似人类的文本,但它们通常需要提供真正针对个体用户独特需求的答案。然而,现有的方法,如监督微调(SFT)和从人类反馈中强化学习(RLHF),存在一些局限,导致生成的响应可能显得机械和复杂。

机器人写作AI写作AI记者

图源备注:图片由AI生成,图片授权服务商Midjourney

NVIDIA研究部门推出了SteerLM,这是一项突破性技术,旨在解决这些挑战。SteerLM提供了一种新颖的以用户为中心的方法,用于定制大型语言模型的响应,允许用户定义引导模型行为的关键属性。SteerLM通过一个四步骤的监督微调过程来运作,简化了大型语言模型的定制过程。

首先,它使用人工标注的数据集训练属性预测模型,以评估诸如帮助性、幽默和创造性等特性。接下来,它利用这个模型来标注各种不同的数据集,丰富了语言模型可访问的数据的多样性。然后,SteerLM采用属性条件的监督微调,训练模型生成基于指定属性的响应,如感知质量。最后,它通过引导训练来精炼模型,生成各种不同的响应,以实现最佳的微调。

SteerLM的一个显著特点是其实时可调整性,允许用户在推断过程中微调属性,以满足他们的具体需求。这种灵活性为各种潜在应用敞开了大门,从游戏和教育到无障碍领域。有了SteerLM,公司可以为多个团队提供个性化能力,而无需为每个不同的应用重新构建模型。

SteerLM的简单和用户友好性在其指标和性能中表现出色。在实验中,SteerLM43B在Vicuna基准上表现优于现有的RLHF模型,如ChatGPT-3.5和Llama30B RLHF。通过提供一个简单的微调过程,几乎不需要对基础架构和代码进行大幅度更改,SteerLM可以以更少的麻烦交付出色的结果,使其成为AI定制领域的一项重大进展。

NVIDIA正在通过在其NVIDIA NeMo框架中发布SteerLM的开源软件来推动先进的定制。开发人员现在有机会访问代码,并使用Hugging Face等平台上提供的自定义的13B Llama2模型来尝试这一技术。

官方博客说明:https://blogs.nvidia.com/blog/2023/10/11/customize-ai-models-steerlm/?ref=maginative.com

举报

  • 相关推荐
  • 大家在看
  • NVIDIA明年上马3nm!私人定制 但不是游戏卡

    NVIDIA将在明年推出采用台积电3nm级工艺的下一代高性能计算GPUBlackwellGB100,以及下一代加速卡B100。NVIDIA现有的GH100GPU使用的是台积电4nm工艺是定制版。Intel、AMD、高通等也都会纷纷升级台积电的3nm工艺。

  • NVIDIA下一代GPU架构巨变!首次上马多芯片 学习AMD/Intel

    NVIDIARTX40系列、AMDRX7000系列这一代显卡都已经布局完毕下一代还要等差不多两年,至少NVIDIABlackwell在路线图上看要到2025年才会推出明年来一波Super系列?2021年就第一个曝出Blackwell这个代号的曝料高手kopite7kimi给出的最新说法称,Blackwell不会明显增加GPC、TPC等计算单元的数量,CUDA核心数自然也不会大幅提升,但是会在基础架构上做出巨大的革新。GB20x系列游戏卡核心,应该还是单芯片,这倒是和AMDNavi31/32不一样。

  • A轮获NVIDIA领投1亿美元融资,大模型先驱和斯坦福教授用AI颠覆制药业

    AI生物医药领域,DeepMind的AlphaFold是最出名的研究,它几乎完整解析了所有蛋白质结构。AlphaFold的AI系统基于Transformer架构Transformer论文主要的作者JakobUszkoreit也已投身AI医药领域。数据安全的逻辑下,很可能诞生一批中国本土的AI药物研发和AI医疗健康创业公司,十分值得期待。

  • 美国最受欢迎CEO榜单出炉:NVIDIA黄仁勋夺魁 库克仅第四

    据美国科技公司职场社区Blind调查,NVIDIACEO黄仁勋成为美国最受员工欢迎的CEO,支持率高达96%。今年8月,Blind面向硅谷科技员工展开了全美CEO支持率调查,共有13171名美国员工进行了匿名投票。AMDCEO苏姿丰支持率为79%,排在第八。

  • Nvidia第二季度交付900吨AI芯片 Meta可能是最大单客户

    根据Omdia研究公司称,芯片巨头Nvidia在第二季度交付了900吨其旗舰型号H100GPU的AI芯片,这一庞大的交付量主要是由于对其AI芯片需求的急剧增加。Omdia报告指出,大量的GPU正涌入超大规模数据中心,这对服务器的出货量造成了不利影响。这是因为领域特定的AI模型具有“显著较少”的参数、数据集大小、标记和时代,这是根据研究公司的观察得出的结论。

  • NVIDIA官方自曝下下代GPU:2025年这么着急?

    NVIDIA最近在一份面向投资者的演示文件中,意外披露了下下代GPU架构的路线图。NVIDIA目前有两种截然不同的GPU架构,一是面向消费级游戏和图形的AdaLovelace,二是面向高性能计算和人工智能的Hopper。Blackwell架构在此前路线图上要到2024年才会登场再下代2025年就推出,时间过于紧凑,所以这个X架构的定位可能会有所不同。

  • Getty Images与Nvidia合作开发生成式AI图片工具

    图片库巨头GettyImages与芯片制造商Nvidia宣布合作,共同开发生成式AI图片工具。这一消息引发了有关图片创作者应该获得图片创作权的争议。这一合作引发的争议将继续推动我们思考和探讨AI技术如何塑造我们的文化和创意产业,以及如何平衡技术的创新和创作者的权益。

  • DistilBERT:更小、更快、更便宜的大型语言模型压缩方法

    大型语言模型的发展迅猛,BERT成为其中最受欢迎和高效的模型,但其复杂性和可扩展性成为问题。为了解决这些问题,市面上目前由三种常见的模型压缩技术:知识蒸馏、量化和剪枝。DistilBERT通过知识蒸馏技术在保持性能的同时显著压缩了大型语言模型,为在资源受限设备上的部署提供了可能性。

  • 用PIT框架提升大型语言模型的质量

    传统方法中,提高LLMs性能需要通过人工注释来收集更多多样化和高质量的训练数据,但这是一项资源密集型的任务,尤其是对于专业领域言。为了解决这个问题,来自伊利诺伊大学厄巴纳-香槟分校和Google的研究人员提出了“ImplicitSelf-Improvementframework”。通过从人类偏好数据中学习改进目标,PIT解决了传统提示方法的限制,并展示了在各种数据集和条件下提高LLMs响应质量的有效性。

  • 思看科技3D扫描仪助力大型房车个性化定制改装!

    汽车产业正在迈入个性化定制新时代,传统的大规模生产已经不能满足人们对汽车的多样化需求,汽车制造商和经销商可以借助思看科技三维扫描技术,为消费者提供高效、精准、灵活、全方位的定制选择和体验。01客户需求与痛点房车作为一种独特的出行方式,具有自由、灵活、舒适和独特的特点,给人们带来非常特殊的旅行和居住体验。思看科技的产品与解决方案还可用于汽车开发设计、冲压件检验、汽车车身检测、其它零部件检测、维护检修与其他车型的定制化环节,为全球客户提供专业的三维数据获取方法,降低检测人工及时间成本,以数字化技术驱动汽车制造产业转型升级。

今日大家都在搜的词:

热文

  • 3 天
  • 7天