首页 > AI头条  > 正文

华为诺亚方舟实验室携手港大发布最强开源扩散语言模型 Dream 7B,打破文本生成格局

2025-04-11 10:07 · 来源: AIbase基地

人工智能领域再添一颗耀眼新星!近日,华为诺亚方舟实验室与香港大学自然语言处理组(HKU NLP Group) 联合发布了名为 Dream7B 的全新语言模型。这款模型被誉为“迄今为止最强大的开源扩散大型语言模型”。

Dream7B 的问世,不仅在性能上超越了现有的扩散语言模型,更在通用能力、数学、代码以及规划能力上,比肩甚至超越了同等规模的顶尖自回归(AR)语言模型。这一突破性的进展,预示着文本生成领域或将迎来新的技术范式。

QQ_1744337169007.png

颠覆传统:扩散模型赋能更强语言理解与生成

长期以来,以 GPT-4、DeepSeek、Claude 为代表的主流大型语言模型都依赖于自回归(AR)架构,即按照从左到右的顺序逐个生成文本。尽管这类模型取得了巨大成功,但在复杂推理、长期规划以及维持长文本连贯性方面仍面临挑战。

QQ_1744337189799.png

Dream7B 的核心在于采用了离散扩散模型(Discrete Diffusion Models, DMs) 的创新架构。与 AR 模型不同,扩散模型从完全噪声的状态出发,通过逐步精炼的方式并行生成完整的文本序列。这种根本性的架构差异带来了诸多显著优势:

  • 双向语境建模,实现更强的全局一致性:扩散模型能够同时考虑文本序列中双向的信息,从而更全面地理解语境,生成连贯性更强的文本。
  • 灵活可控的生成能力:通过迭代式的优化过程,Dream7B 能够实现更灵活、更可控的文本生成。
  • 潜在的采样加速能力:新的架构和训练目标有望实现从噪声到数据的更高效直接映射,从而加速模型推理过程。

近年来,扩散模型在语言任务中的潜力日益凸显,例如 DiffuLLaMA 和 LLaDA 等模型已经将扩散语言模型扩展到70亿参数。此次发布的 Dream7B 正是在这一趋势下的又一里程碑式成果。

性能卓越:多项任务比肩顶尖自回归模型

Dream7B 在多个关键能力上展现出惊人的实力:

  • 大幅超越现有扩散语言模型
  • 在通用、数学和代码能力上,与同等规模的顶级自回归模型不相上下,甚至有所超越
  • 规划能力方面表现突出,通过在 Countdown 和 Sudoku 等任务上的评估,Dream7B 显著优于同等规模的其他模型,有时甚至能匹敌参数量远超自身的最新 DeepSeek V3。这表明扩散模型在解决需要多重约束或达成特定目标的问题时更具优势。

独具匠心:创新技术提升模型效能

Dream7B 的成功并非偶然,其背后蕴含着研发团队的诸多创新:

  • 借鉴自回归模型进行权重初始化:研究团队发现,利用现有的自回归模型(如 Qwen2.57B 和 LLaMA3)的权重作为扩散模型的初始参数,能够显著提升训练效率,尤其是在训练初期。
  • 上下文自适应的 Token 级噪声重调度机制:Dream7B 能够根据每个 Token 的上下文信息量动态调整其噪声水平,从而实现更精细化的学习。

灵活推理:打破生成顺序限制

与自回归模型固定的从左到右生成方式不同,Dream7B 的扩散模型架构赋予了其更灵活的推理能力:

  • 任意顺序生成:Dream7B 不受生成顺序的限制,可以按照任意顺序合成输出,从而更好地适应不同的用户查询。例如,它可以灵活地进行文本补全和中间内容填充。
  • 质量-速度可调:通过调整扩散步骤的数量,用户可以在生成速度和质量之间进行灵活的权衡。较少的步骤可以实现更快的生成,但质量稍低;而更多的步骤则能 menghasilkan 更高质量的输出,但计算成本更高。

目前,Dream7B 已经开源了其基础模型和指令微调模型的权重,代码也已在 GitHub 上公开。这无疑将极大地促进扩散模型在自然语言处理领域的进一步研究和应用。华为诺亚方舟实验室和香港大学自然语言处理组也表示,未来将继续探索扩散语言模型更先进的后训练方法。

产品入口:https://top.aibase.com/tool/dream-7b

  • 相关推荐
  • 时空壶接入大语言模型,跨语言沟通已成翻译的艺术

    在当今全球化浪潮中,跨语言沟通的需求如潮水般汹涌。从商务领域的跨国谈判,到文化交流中的思想碰撞,高效、精准的语言翻译成为关键桥梁。随着技术的不断发展与迭代,时空壶有望持续引领行业变革,推动全球交流合作迈向新的高度,真正实现跨越语言障碍,让世界沟通无阻。

  • 奥特曼:ChatGPT不是AGI!OpenAI最强开源模型直击DeepSeek

    【新智元导读】代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。持续的创新、丰富的资源和智能AI将会无缝融入日常生活,未来一代人将会觉得当前人们又辛苦又落后。

  • 打破实验室滤镜!科龙省电静音空调Max:中家院真实场景实测8h花1.4元

    科龙空调联合中国家电研究院对静省电Max新品进行真实环境测试,APF值达5.5、噪音低至15分贝,实现"真省电、真静音、真速冷"三大优势。测试显示其8小时耗电仅2.579度(约1.4元/天),采用双排冷凝器+稀土永磁压缩机技术,换热效率提升30%。15秒速冷、30秒速热,防直吹功能通过三导板精准控风,冷风平行送出避免直吹。京东补贴后售价1999元,提供0元安装和10年整机保修服务。该产品突破行业实验室数据虚高问题,以真实性能重新定义省电静音空调标准,并布局磁悬浮电机等核心技术,推动行业向高效节能升级。

  • 实验室到市场,中科稀珍专注攻克科研转化的“需求关”

    “科研人员要想衔接好‘从0到1’的原始创新与‘从1到100’的科研转化,就不能只沉醉于技术本身的突破,也要关注市场需求和应用场景。”3月23日,在人民日报健康客户端2025两会健康策“科技成果转化,助力生物医药产业发展”直播中,中科稀珍首席科学家、中国科学院生物物理研究所博士后闫硕表示。”闫硕表示,通过产品分级策略,可以在保证技术核心优势的同时,满足不同市场和消费者的需求,实现技术与产业的有机结合。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

    今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集Multi-SWE-bench,可用于评估和提升大模型自动修Bug”能力。在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向全栈工程”的评测基准。相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程”方向上的实际能力边界。

  • 时空壶接入DeepSeek、豆包等大语言模型,翻译准确度再次跃升

    在全球跨语言沟通需求持续攀升的当下,时空壶再次以创新之举震撼行业。时空壶正式宣布接入DeepSeek、豆包等大语言模型,为其同传耳机产品带来了前所未有的体验升级,彻底改写了同传翻译的游戏规则,也让传统机翻模式成为历史。这一创新举措不仅满足了当下各行业对高质量跨语言沟通的迫切需求,更为未来跨语言交流的发展指明了方向,有望推动整个行业向更加智能、精准、自然的方向迈进,助力全球交流合作开启全新篇章。

  • 手机也能跑的模型来了!阿里宣布开源Qwen2.5-Omni-7B

    今天,阿里云宣布通义千问Qwen2.5-Omni-7B正式开源。这是通义系列模型中首个端到端全模态大模型,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。2023年起,通义团队陆续开发覆盖0.5B、1.5B、3B、7B、14B、32B、72B、110B等参数的200多款全尺寸大模型,囊括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态。

  • 苦等一年 Meta终于放大招 正式发布开源大模型Llama 4

    美国科技巨擘Meta重磅推出其迄今最为强大的开源AI模型Llama4,恰逢Llama3上市一周年之际。Llama4系列采用了先进的混合专家架构,这一架构在模型训练及用户查询回答过程中展现出更高效率,通过将模型划分为多个专注于特定任务的专家”子模型,实现精准高效的处理。Meta首席执行官扎克伯格表示:他们的目标是建立世界领先的人工智能,将其开源,并使其普遍可用,以便世界上每个人都能受益。

  • 格创东智与香港大学共建工业AI联合实验室,推动香港成为全球工业AI创新枢纽

    4 月 16 日,格创东智与香港大学(以下简称为港大)签订合作协议,共同成立“香港大学-格创东智工业AI联合实验室”,并聘任香港大学副校长(研究)申作军教授为荣誉首席科学家。实验室将深度融合香港大学的人工智能科研优势与格创东智服务先进制造的工业AI落地用例,开展“工业AI技术的创新与实际应用”方向的研究工作。此举是格创东智在年初迭代章鱼Agentic AI平台后

今日大家都在搜的词: