首页 > 传媒 > 关键词  > 多模态大模型最新资讯  > 正文

突破大模型对齐瓶颈,北大团队携手昇腾打通产业应用通路

2025-11-13 15:31 · 稿源: 站长之家用户

在生成式人工智能迅猛发展的背景下,多模态大模型已成为推动产业智能化升级的核心技术。然而,模型训练与推理的高成本、多模态数据对齐的复杂性,仍是制约其深入应用的瓶颈。北京大学人工智能研究院助理教授杨耀东团队研发出一套覆盖全模态、兼顾高效率、赋能强推理的大模型对齐框架——Align-Anything,并依托鲲鹏昇腾科教创新卓越中心(以下简称“卓越中心”)的算力支持成功迁移至昇腾平台,目前,已在智慧医疗、网络安全等多个关键领域实现规模化落地,展现了广阔的应用前景,并在人才培养方面取得显著成效。

Align-Anything以“语言反馈”(RLHF)为核心,构建了一套覆盖文本、图像、音频、视频乃至动作的全模态对齐算法,解决了传统二元反馈信息量有限和一致性的问题。基于成熟的技术架构,团队在Align-Anything中集成专用评估工具Eval-Anything,可追踪并评估各类大参数模型在复杂任务中的真实能力,目前已实现开源;团队还拓展出基于DeepSeek-671B的多模态强推理模型Align-DS-V,以模态穿透赋能智能边界拓展。

在产学研协同方面,北大团队与昇腾的合作从技术研发延伸至行业落地与人才培养的全链条。

在行业的安全治理方面,Align-Anything 深度融入智源大模型安全中心的整体安全治理框架,作为统一的安全对齐与风险干预基础模块。依托智源在安全评测、红队攻防与合规审查上的体系化能力,Align-Anything 将安全偏好建模、风险内容识别与无害化改写串联为闭环流程,被部署在大模型从训练前审核、训练中约束到推理后校验的多级安全环节中。通过与通用模型、安全评测平台及在线监控系统的模块化集成,该对齐器能够自动对潜在风险回复进行识别、拦截与规范化重写,在显著提升整体安全水位、降低有害内容输出的同时,有效保持模型的通用能力与业务可用性,为智源牵头的大模型安全治理体系持续贡献底层技术力量。

在行业应用侧,基于昇腾平台的Align-Anything深度赋能智慧医疗场景。Align-Anything充分发挥了昇腾软硬件平台的技术实力,构筑了全模态医学知识体系。在基础设施层面,多家医院完成了昇腾服务器的机房部署,其强大的异构计算能力与高内存带宽,可支撑大规模参数模型的高效并行训练,同步自研大模型推理一体机,支持科室本地化部署,快速调取算力;在算法层面Align-Anything支持图文、文表、图结构等多模态交互,赋能涵盖临床指征、心电图、超声心动图等全模态数据的高效训练。

在人才培养层面,团队联合昇腾在北大推出《大语言模型基础与对齐技术》课程,并开展基于昇腾 + Torch NPU的实操体验,同时开发兼容昇腾系列计算设备的课程作业代码,在课程作业中让学生在自主创新的GPU架构上进行模型的训练和微调。

基于昇腾平台的Align-Anything框架的发布和广泛落地应用,标志着北大团队与卓越中心协同攻关取得重要阶段性成果。自合作以来,卓越中心在算力和技术等方面为团队提供了全方位支持,是项目成功的重要保障。该成果不仅为学术界提供了可复用的基础工具,也通过昇腾算力实现了高性能与高效率的统一。未来,双方将继续深化全模态对齐探索,携手推进大模型技术体系建设。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 为AI Agent时代筑基,火山引擎多模态数据湖方案重塑数据处理范式

    人工智能时代全球数据量激增,预计2028年将达393ZB,其中80%为非结构化数据。火山引擎推出多模态数据湖方案,以Lance存储+Daft计算为核心,解决数据处理痛点:存储层实现高压缩比与灵活Schema,计算层通过延迟计算提升70%效率。该方案在智能驾驶等场景显著优化性能,端到端处理时间缩短70%,资源利用率提升至95%以上。平台还推出"算子广场"降低开发门槛,并推出Data Agent实现自然语言交互的数据分析,推动企业构建以数据消费为导向的治理体系。

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 火山引擎多模态数据湖,破解智能驾驶数据处理瓶颈

    在2025年第八届智能辅助驾驶大会上,火山引擎数据产品解决方案专家分享了基于多模态数据湖构建的数据基座,旨在解决智能网联汽车行业面临的海量多模态数据处理难题。该方案通过优化存储与计算架构,助力企业将百PB级异构数据转化为驱动算法迭代与业务增长的核心资产。方案采用开放架构,聚焦开箱即用、开源兼容、轻量运维等六大维度,引入Lance数据湖格式提升存储效率,整合Spark/Flink与Ray等框架优化计算性能。实践案例显示,在辅助驾驶项目中,训练卡利用率从40%提升至85%以上,云端存储成本降低20%,整体技术降本达20%。未来,方案将持续强化多模态数据基座性能,推动智能驾驶技术向更高阶演进。

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日,Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版,依托自研生存式大模型与AI Agent技术,打破创意领域垂直局限,构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果,实现从平面图到施工图的全流程高效生成。同时,Billus AI同步打造“创意设计超级员工+产业链智能体”体系,探索生成式创意与供应链智能推荐的新商业路径,助力行业从“经验驱动”向“数据智能”跃迁。

  • 小度AI眼镜Pro获评WISE2025年度焦点产品奖,多模态交互定义硬件新形态

    在36氪WISE2025大会上,小度科技CEO李莹以“智能深潜,硬件开始觉醒”为主题,系统阐述了大模型时代智能硬件的演进方向。她强调,场景、AI与硬件的深度融合是破局关键,并以小度AI眼镜Pro为例,展示了“第一视角智能”的创新突破,具备智能构图、防抖、降噪等功能,实现无缝交互体验。同时,小度智能摄像机开创“上帝视角智能”,支持AI随心看护和智能寻物。这些产品背后是全新“超能小度”AI助手,通过多模态交互实现从“能听会说”到“能看会想”的质变。小度宣布为已售设备免费升级,彰显AI普惠决心。小度AI眼镜Pro获“WISE2025年度焦点产品奖”,印证行业对其创新高度认可。

  • 华为HMS for Car智行论坛落幕,赋能车企智能化转型与出海新征程

    11月28日,华为在深圳举办HMS for Car智行论坛,聚焦汽车智能化转型。论坛围绕构建差异化智能座舱体验展开讨论,华为HMS for Car依托“1+8+N”全场景战略,整合地图、语音、生态和网联四大核心能力,助力车企出海。目前,该方案已服务多家车企,通过AI Box、Service Box、Net Box和Map Box持续升级,提升语音交互精准度、本地化应用适配、网络稳定性及导航体验,实现更懂用户的本土化智慧出行服务。

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • 荣膺国家级荣誉!众惠相互斩获全国智慧医保大赛一等奖

    近日,2025全国智慧医保大赛决赛结果揭晓。众惠相互联合多家机构申报的“数据+‘三除外’+‘三同步’:医保商保清分结算中心v2.0”项目,历经多轮角逐,从全国超1600支参赛团队中脱颖而出,荣获大赛一等奖。该项目首创“双平台一通道”核心架构,提出创新技术路径,依托国家医保大数据,搭建安全框架,实现医保、商保数据高效协同与结算流程自动化,极大提升了信息协同效率,为商保接入创新药支付环节打开通道。其设计源于创新实践,旨在回归民生保障,通过系统性优化,从人群覆盖、服务效率、保障维度三大层面发力,为普惠型商业健康险发展注入新活力,让保障更公平、便捷、全面。此次获奖是保险业主动融入国家发展大局、落实中央金融工作会议精神、着力做好普惠金融的标杆性实践。

  • AI日报:北京发布人工智能产业白皮书;字节发布视频编辑模型Vidi2;快手将发布Kling Omni

    本期AI日报聚焦多项AI领域进展:北京发布人工智能产业白皮书,预计2025年核心产值超4500亿元;字节跳动推出120亿参数视频模型Vidi2,实现视频编辑自动化;西藏首个千亿参数藏语大模型“阳光清言”问世,助力高原AI发展;快手Kling Omni即将发布,支持导演级精准控制,可生成2分钟带原生音频长视频;Meta推出Matrix框架,革新多智能体合成数据生成;国产家庭机器人F1亮相,具备多项家务能力,计划明年上市;豆包App升级语音功能,支持四种方言对话,提升老年人使用体验;豆包手机助手技术预览版发布,旨在提供更高效交互。

今日大家都在搜的词: