首页 > AI头条  > 正文

Sakana AI发布Transformer²:突破语言模型适应性的新技术

2025-01-21 10:40 · 来源: AIbase基地

日本人工智能公司Sakana AI近日推出了Transformer²,这是一种创新的方法,旨在帮助语言模型更高效地适应多种任务。与现有的人工智能系统不同,Transformer²能够通过两阶段学习过程解决语言模型在面对新任务时常遇到的局限性,标志着该领域在持续学习技术上的进步。

当前的人工智能系统通常需要在一次训练中处理多个任务,然而它们在面对新任务时容易遭遇意外挑战,导致模型的适应性受到限制。Transformer²的设计理念正是针对这一问题,采用了专家向量和奇异值微调(SVF)技术,使得模型能够在无需重新训练整个网络的情况下,灵活应对新任务。

Transformer²采用了与传统方法不同的训练方式。传统的训练方法需要调整整个神经网络的权重,而这种做法不仅成本高昂,还可能导致模型“遗忘”之前学到的知识。相比之下,SVF技术通过学习控制每个网络连接重要性的专家向量来避免这些问题。专家向量通过调整网络连接的权重矩阵,帮助模型专注于特定任务,比如数学运算、编程和逻辑推理。

这一方法显著减少了模型适应新任务所需的参数量。比如,LoRA方法需要682万个参数,而SVF只需要16万个参数。这不仅减少了内存和处理能力的消耗,还防止了模型在专注某一任务时遗忘其他知识。最重要的是,这些专家向量能够有效地协同工作,提升模型对多样任务的适应能力。

QQ20250121-103952.png

为了进一步提高适应性,Transformer²引入了强化学习。在训练过程中,模型通过提出任务解决方案并获得反馈,不断优化专家向量,从而提高在新任务上的表现。该团队开发了三种策略来运用这些专家知识:适应提示、任务分类器和少样本自适应。特别是少样本自适应策略,通过分析新任务的示例并调整专家向量,进一步提升了模型的灵活性和准确性。

在多个基准测试中,Transformer²的表现超过了传统方法LoRA。在数学任务上,它的表现提升了16%,且所需参数大幅减少。在面对全新任务时,Transformer²的准确率比原始模型高出4%,而LoRA则未能取得预期的效果。

Transformer²不仅能够解决复杂的数学问题,还能结合编程和逻辑推理能力,从而实现跨领域知识的共享。例如,团队发现较小的模型也可以通过转移专家向量,借助较大模型的知识进行性能提升,这为模型间的知识共享提供了新的可能性。

尽管Transformer²在任务适应性上取得了显著进展,但它仍面临一些限制。目前,使用SVF训练的专家向量只能依赖于预训练模型中已有的能力,无法添加全新的技能。真正的持续学习,意味着模型能够自主学习新技能,这一目标仍需要时间来实现。如何在超过700亿参数的大型模型中扩展这一技术,依然是一个悬而未决的问题。

  • 相关推荐
  • AI日报:可灵AI发布数字人新功能;腾讯混元新技术给大模型 “去油”;抖音上线AI求真功能

    AI日报今日聚焦多项技术突破:可灵AI推出图片转视频功能,腾讯混元SRPO技术提升图像真实感,IBM开源文档处理模型Granite-Docling-258M。Meta发布带屏AI眼镜Ray-Ban,DeepSeek论文登《Nature》封面。OpenAI新增GPT-5思考时长调节功能,抖音上线“AI求真”辟谣工具,通用DeepResearch开源模型性能超越国际知名模型。

  • 从心出发,新品与新技术双重进化,技嘉2025线下产品发布会强势来袭

    技嘉科技将于2025年9月17日在上海举办年度产品发布会,主题为“从心出发,我们的主张”。本次发布会聚焦解决消费者刚需问题,推出新一代X870E X3D系列主板,搭载X3D Turbo Mode 2.0智能释放CPU性能,并展示全新D5黑科技2.0一键提升内存带宽。现场还将有世界超频冠军HiCookie进行液氮极限超频演示,以及快易拆设计、纯白美学设计和AI TOP系列产品线展示,全方位呈现技嘉在硬件性能与用户体验上的创新突破。

  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • Meta新品发布,技术路线与影目INMO“撞车”,中国智造先行优势凸显

    三星Galaxy S25系列专为学生群体打造,融合AI生产力、影像创作与性能释放。通过Galaxy AI实现智能笔记、实时翻译等功能提升学习效率;搭载多摄系统与AI影像引擎,支持复杂场景拍摄;配备骁龙8芯片和优化散热系统,兼顾游戏娱乐与续航表现。轻薄设计搭配多款配色,满足个性化需求,现可通过教育优惠活动实惠入手。

  • AI日报:国产版Nano Banana?即梦图片4.0发布;阿里巴巴发布 Qwen3-Max-Preview;上海重磅发布AI广告扶持政策

    AI日报栏目聚焦人工智能领域最新动态。主要内容包括:即梦图集4.0发布,新增文生图、图像编辑等功能;阿里巴巴推出超万亿参数语言模型Qwen3-Max-Preview;小米AI眼镜上线支付宝“看一看”支付功能;微软开源14B参数模型rStar2-Agent在数学推理领域表现突出;MiniMax启动股权激励计划覆盖核心员工;谷歌明确Gemini使用限制,免费用户每日最多5次提示;上海发布AI广告扶持政策,最高补贴500万元。这些进展展示了AI技术在图像处理、语言模型、智能支付等领域的创新应用。

  • AI眼镜的痛,Meta也治不了

    对于全球科技从业者而言,Meta Connect大会是一年一度的重要时刻。 不少人早早守在电脑前,想知道扎克伯格此次会带来哪些前沿技术产品,更对会上即将亮相的新款AI眼镜充满关注。 事实上,AI眼镜这类消费电子产品,在过去一年里已快速从“小众科技产品”走进大众视野,但看似火热的市场背后,AI眼镜当下的发展却陷入了明显瓶颈。 此前,国内AI眼镜市场曾掀起“百镜大

  • Nano Banana更像是AI图像领域的DeepSeek

    这是《窄播Weekly》的第66期,本期我们关注的商业动态是:Google最新的AI图像生成模型Nano Banana,可能会给AI图像领域带来一场应用大爆炸。 去年这个时候,我想把照片中人物手里拿的玩具火车换成玩具飞机,还需要给玩具火车做出精细标记,找到干净的玩具飞机图片,告诉AI将其替换成另一张图里的飞机。我花费一个小时,多番尝试下来,飞机会变形,人物的手会消失,最后的�

  • AI日报:拍我AI接入Nano Banana;腾讯智影暂停服务;京东自研京点点AI文案上线

    AI日报栏目每日提供人工智能领域热点内容,聚焦开发者,帮助洞悉技术趋势与创新应用。本期要点包括:拍我AI接入谷歌Nano Banana,推出免费创作活动;京东上线“京点点AI文案”工具,支持商家快速生成高质量文案;腾讯旗下“智影”平台暂停服务;钉钉与OpenDataLab合作推出文档解析工具DLU;ChatGPT向免费用户开放新功能;Anthropic禁止中资企业使用Claude;华纳兄弟起诉Midjourney�

  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

今日大家都在搜的词: