首页 > 传媒 > 关键词  > AI微调最新资讯  > 正文

如何在 NVIDIA GPU 上使用 Unsloth 微调大语言模型(LLM)

2025-12-18 18:41 · 稿源: 站长之家用户

使用 NVIDIA RTX AI PC 和 DGX Spark,在 Unsloth 中更快地微调主流 AI 模型,打造用于学习、工作、创意项目等场景的个性化助手。现可试验全新的 Nemotron Nano3开放模型系列。

现代工作流展示了生成式 AI 和 代理式 AI 在 PC 上的无限可能性。

这些应用场景包括让聊天机器人处理产品支持问题,或作为管理日程的个人助理。但如何让小语言模型(SLM)在执行专用的代理式任务时持续以高准确率进行响应,仍然是一个挑战。

这正是微调发挥作用的地方。

Unsloth 是全球应用最广泛的开源大语言模型(LLM)微调框架之一,为模型定制提供了一个易于上手的途径。它针对 NVIDIA GPU 进行了高效、低显存占用的训练优化,覆盖 GeForce RTX 台式机和笔记本电脑、RTX PRO 工作站,以及全球最小的 AI 超级计算机 DGX Spark。

另一个强大的微调起点是刚刚发布的 NVIDIA Nemotron3系列开放模型、数据和代码库。Nemotron3引入了目前最高效的开放模型系列,适合用于代理式 AI 的微调。

教会 AI 新招式

微调就像是为 AI 模型进行一次有针对性的训练。通过与特定主题或工作流程相关的示例,模型可以学习新的模式并适应当前任务,从而提升准确性。

为模型选择哪种微调方法,取决于开发者希望对原始模型进行多大程度的调整。根据不同目标,开发者可以采用三种主要的微调方法之一:

参数高效微调(如 LoRA 或 QLoRA):

● 工作原理:仅更新模型的一小部分,以更快、更低成本完成训练。这是一种在不大幅改变模型的情况下提升能力的高效方式。

● 适用场景:几乎适用于所有传统需要完整微调的场景,包括引入领域知识、提升代码准确性、使模型适配法律或科学任务、改进推理能力,或对语气和行为进行对齐。

● 要求:小到中等规模的数据集(100–1,000组示例提示词对)。

完整微调:

● 工作原理:更新模型的所有参数,适用于训练模型遵循特定格式或风格。

● 适用场景:高级应用场景,例如构建 AI 智能体和聊天机器人,这些系统需要围绕特定主题提供帮助、遵循既定的约束规则,并以特定方式进行响应。

● 要求:大规模数据集(1,000+ 组示例提示词对)。

强化学习:

● 工作原理:通过反馈或偏好信号来调整模型行为。模型通过与环境交互进行学习,并利用反馈不断改进自身。这是一种复杂的高级技术,将训练与推理交织在一起,并且可以与 参数高效微调 和 完整微调 技术结合使用。详情请参考 Unsloth 的强化学习指南。

● 适用场景:提升模型在特定领域(如法律或医学)中的准确性,或构建能够为用户设计并执行动作的自主智能体。

● 要求:一个包含行为模型、奖励模型和可供模型学习的环境的流程。

另一个需要考虑的因素是各种方法的显存需求。下表提供了在 Unsloth 上运行每种微调方法的需求概览。

Unsloth:在 NVIDIA GPU 上实现快速微调的高效路径

LLM 微调是一种对内存和计算要求极高的工作负载,在每个训练步骤中都需要进行以十亿次记的矩阵乘法来更新模型权重。这类重型并行计算需要依托 NVIDIA GPU 的强大算力,才能高效、快速地完成。

Unsloth 在这类负载中表现出色,可将复杂的数学运算转化为高效的定制 GPU kernel,从而加速 AI 训练。

Unsloth 可在 NVIDIA GPU 上将 Hugging Face transformers 库的性能提升至2.5倍。这些针对 GPU 的优化与 Unsloth 的易用性相结合,使微调对更广泛的 AI 爱好者和开发者更加易于上手。

框架专为 NVIDIA 硬件构建并优化,覆盖从 GeForce RTX 笔记本电脑,到 RTX PRO 工作站以及 DGX Spark,在降低显存占用的同时提供巅峰性能。

Unsloth 提供了一系列实用的指南,帮助用户快速上手并管理不同的 LLM 配置、超参数和选项,以及示例 notebook 和分步骤工作流程。

访问以下链接查看 Unsloth 指南:

● Fine-Tuning LLMs With NVIDIA RTX50Series GPUs and Unsloth

● Fine-Tuning LLMs With NVIDIA DGX Spark and Unsloth

查看链接了解如何在 NVIDIA DGX Spark 上安装 Unsloth。阅读 NVIDIA 技术博客,深入了解在 NVIDIA Blackwell 平台上进行微调和强化学习的相关内容。

现已发布:NVIDIA Nemotron 3 开放模型系列

全新的 Nemotron3开放模型系列 —— 包含 Nano、Super 和 Ultra 三种规模 —— 基于全新的异构潜在混合专家 (Mixture-of-Experts, MoE) 架构打造,带来了兼具领先准确率与高效率的开放模型系列,非常适合用于构建代理式 AI 应用。

目前已发布的 Nemotron3Nano30B-A3B 是该系列中计算效率最高的模型,针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化,具备较低的推理成本。其异构 MoE 设计带来以下优势:

● 推理 token 数量最多减少60%,显著降低推理成本。

● 支持100万 token 的上下文处理能力,使模型在长时间、多步骤任务中能够保留更多信息。

Nemotron3Super 是一款面向多智能体应用的高精度推理模型,而 Nemotron3Ultra 则适用于复杂的 AI 应用。这两款模型预计将在2026年上半年推出。

NVIDIA 于12月15日还发布了一套开放的训练数据集合集以及先进的强化学习库。Nemotron3Nano 的微调现已在 Unsloth 上提供。

Nemotron3Nano 现可在 Hugging Face 获取,或通过 Llama.cpp 和 LM Studio 进行体验。

DGX Spark:紧凑而强大的 AI 算力引擎

DGX Spark 支持本地微调,将强大的 AI 性能集成在紧凑的桌面级超级计算机形态中,让开发者获得比普通 PC 更多的内存资源。

DGX Spark 基于 NVIDIA Grace Blackwell 架构打造,最高可提供1PFLOP 的 FP4AI 性能,并配备128GB 的 CPU-GPU 统一内存,使开发者能够在本地运行更大规模的模型、更长的上下文窗口以及更高负载的训练工作。

在微调方面,DGX Spark 可实现:

● 支持更大规模的模型。参数规模超过30B 的模型往往会超出消费级 GPU 的 VRAM 容量,但可以轻松运行在 DGX Spark 的统一内存中。

● 支持更高级的训练技术。完整微调和基于强化学习的工作流对内存和吞吐量要求更高,在 DGX Spark 上运行速度显著更快。

● 本地控制,无需云端排队。开发者可以在本地运行高计算负载任务,无需等待云端实例或管理多个环境。

DGX Spark 的优势不仅限于在 LLM 上。高分辨率扩散模型通常需要超过普通桌面系统所能提供的内存。借助 FP4支持和大容量统一内存,DGX Spark 可在短短几秒内生成1000张图像,并为创意或多模态工作流提供更高的持续吞吐量。

下表展示了在 DGX Spark 上对 Llama 系列模型进行微调的性能表现。

随着微调工作流的不断发展,全新的 Nemotron3开放模型系列为 RTX 系统和 DGX Spark 提供了可扩展的推理能力与长上下文性能优化。

请访问链接了解 DGX Spark 如何支持高强度 AI 任务。

#别错过 — NVIDIA RTX AI PC 的最新进展

FLUX.2 图像生成模型现已发布,并针对 NVIDIA RTX GPU 进行优化

Black Forest Labs 推出的新模型支持 FP8量化,可降低显存占用并将性能提升40%。

Nexa.ai 通过 Hyperlink 为 RTX PC 扩展本地 AI,实现代理式搜索

这款全新的本地搜索智能体可将检索增强生成(RAG)索引速度提升3倍,将 LLM 推理速度提升2倍,使一个高密度1GB 文件夹的索引时间从约15分钟缩短至仅4到5分钟。DeepSeek OCR 现已通过 NexaSDK 以 GGUF 形式在本地运行,可在 RTX GPU 上即插即用地解析图表、公式以及多语言 PDF。

Mistral AI 发布全新模型家族,并针对 NVIDIA GPU 进行优化

全新的 Mistral3模型从云端到边缘端均经过优化,可通过 Ollama 和 Llama.cpp 进行快速的本地实验。

Blender5.0 正式发布,带来 HDR 色彩与性能提升

本次版本新增 ACES2.0广色域/HDR 色彩支持,加入 NVIDIA DLSS,可将毛发与皮毛渲染速度提升最高达5倍,并改进了对大规模几何体的处理能力,同时为 Grease Pencil 增加了动态模糊效果。

NVIDIA RTX AI PC的相关信息请关注微博、抖音及哔哩哔哩官方账号。

软件产品信息请查看声明。

关于 NVIDIA

NVIDIA (NASDAQ: NVDA) 是加速计算领域的全球领导者。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI

    本文介绍了AI驱动的内容生成技术如何深度融入Adobe、Canva等工具,以及创作者如何利用NVIDIA RTX PC本地运行AI工作流。重点包括:通过ComfyUI简化高级创意流程搭建,支持FLUX.2和LTX-2等强大模型;详细说明了在RTX PC上使用ComfyUI进行图像和视频生成的方法与技巧;强调了本地运行在控制素材、节省成本及优化结果方面的优势。文章还指出,随着模型规模增大,需根据GPU显存选择合适模型,并介绍了NVIDIA的优化技术。

  • 三星2026款OLED电视及显示器获NVIDIA® G-SYNC™兼容认证 实现顶尖游戏性能

    三星2026款OLED电视及电竞显示器支持NVIDIA G-SYNC技术,结合新一代刷新率与前沿显示技术,带来流畅沉浸的游戏体验。OLED电视S95H、S90H最高支持165Hz刷新率,S85H支持120Hz,并兼容G-SYNC与AMD FreeSync Premium Pro,确保PC与主机平台游戏画面稳定无撕裂。新款玄龙骑士电竞显示器G6系列中,G60H为全球首款双模(1)0-1040Hz刷新率显示器,支持HD分辨率下1040Hz与QHD下600Hz自由切换;G61SH配备QD-OLED

  • 小米发布机器人基座模型Xiaomi-Robotics-0

    小米机器人团队开源发布全新具身智能VLA模型Xiaomi-Robotics-0,参数规模达47亿,具备视觉语言理解与高性能实时执行能力。该模型在三大主流仿真测试中横扫行业标杆,拿下全项SOTA成绩,并在真实机器人上实现流畅动作。其创新点在于能在消费级显卡上实现实时推理,打破高端模型依赖昂贵专业显卡的局限,降低技术落地门槛。小米自研的Mixture-of-Transformers架构为机器人装上“�

  • 情人节送女朋友的Vlog相机:佳能PowerShot V1,美肤直出,开机即拍

    随着情人节与春节的临近,挑选一份既有心意又有新意的礼物成为许多人思考的主题。在众多选择中,一台能帮助记录美好生活、创作精彩影像的Vlog相机,正成为赠送给对象、女朋友、孩子或广大年轻人的热门礼品。今天,我们为大家推荐的,正是近期在年轻人中比较火、堪称人生第一台相机理想之选的——佳能PowerShot V1。它完美契合了新手对操作简单、自拍好看、功能全面�

  • 网卡不行 AMD被指出一AI关键缺陷:还得看NV等公司

    在AI市场上,NVIDIA目前几乎垄断了先进AI算力芯片,大约能占90%市场,AMD长期被视为第二供应商,差距非常大。AI方面AMD这两年追赶的也很快,去年的MI350X系列就被认为追赶Blackwell,今年的MI450X系列算力、带宽甚至能超越NVIDIA产品。不过AMD在AI市场并不是说就没机会了,未来的发展前景肯定还是不错的今年下半年的MI450系列会是极好的观察机会,OpenAI已经承诺采购部署,其表现会是AMD能否真正追赶对手的关键测试。

  • 声画无界,年味同心:菁彩Vivid三度携手央视频,让前沿视听技术闪耀全球舞台

    2026年央视春晚将于2月16日晚8点播出,央视视频客户端将携手菁彩Vivid技术,为全球观众带来沉浸式视听体验。本次直播依托HDR Vivid和Audio Vivid技术,采用多机位8K超高清实时制作,结合智能算法动态优化画面亮度与色彩,呈现更真实的舞台细节和色彩层次。音频方面通过双链路方案,适配不同终端播放需求,实现环绕声和天空音效,带来身临其境的听觉感受。这不仅是一场视听盛宴,更是科技与艺术的融合,传递中华文化的温暖与力量。

  • AI日报:可灵3.0发布;阿里大模型品牌正式更名为千问;Mistral AI 发布 Voxtral Transcribe 2 语音模型

    本期AI日报聚焦多领域进展:可灵AI 3.0发布,开启15秒视频AI导演时代;阿里AI品牌统一为“千问”,战略升级;Mistral AI推出低延迟语音转文字模型;上海AI实验室发布全球最大开源科学多模态模型“书生Intern-S1-Pro”;谷歌Gemini月活用户突破7.5亿,并推出低价订阅方案;华为Mate 80系列新增AI消除屏幕摩尔纹功能;米兰冬奥会将启用阿里“千问”大模型;我国生成式AI用户规模破6亿,普及率超四成,算力水平全球领先。

  • 6000元档vlog相机首选!佳能PowerShot V1拍春节全场景超省心

    佳能PowerShot V1是一款专为新手设计的Vlog相机,约6000元预算。它小巧便携(重426克),搭载一体化超广角变焦镜头,覆盖常用焦段。相机内置29种创意滤镜,支持一键调出年味氛围,无需后期。第二代全像素双核CMOS AF对焦快准稳,抓拍烟花、动态瞬间清晰不糊片。5.7K超采样支持多种视频格式,五级光学防抖确保手持拍摄稳定。内置三麦克风与降噪功能,嘈杂环境也能清晰收音。操作简单,模式切换便捷,支持多方式连接手机快速分享,是春节记录聚会、庙会、旅行等场景的理想选择。

  • 全天候AI智能体Moltbot在国产操作系统上部署

    Moltbot是一款创新的开源AI助手平台,凭借7×24小时主动工作、无限记忆等核心能力,在AI智能体领域脱颖而出。它支持全天候自动股票交易、智能物品采购等自动化任务,实现了从“问答”到“做事”的跨越。国产银河麒麟桌面操作系统已支持Moltbot本地部署,为用户带来更灵活、更自主的AI体验。其突出特点主要体现在以下三个方面:第一,具备主动工作的能力,彻底打破了传统AI的被动式响应,能够主动为用户提供所需服务,如日程提醒、新闻推送等;第二,可以直接操作设备,使主动服务形成完整闭环,能够通过各类应用程序直接为用户解决问题;第三,拥有长期记忆能力,可以记录用户的偏好与习惯,在长期互动中逐渐成为真正懂用户的个人助手,提供高度个性化的服务。

  • 2026销售商机管理AI工具推荐:优选综合型AI工具 DingTalkA1

    根据国际数据公司(IDC)2025年发布的《未来销售白皮书》显示,到2026年,全球将有75% 的销售组织面临 "数据富集而洞察贫乏" 的困境 —— 海量商机相关互动数据无法有效转化为可落地的销售策略。哈佛商业评论分析服务部也指出,跨渠道、跨形态的商机沟通(线下会议、线上通话、即时消息等)易形成 "信息孤岛",造成客户画像碎片化、销售动作与商机真实需求脱节。传统工具

今日大家都在搜的词: