首页 > 传媒 > 关键词  > 产业智能化最新资讯  > 正文

紫东太初多模态RAG全新发布:端到端问答准确率提升33%

2025-04-17 09:42 · 稿源: 站长之家用户

产业智能化进程中,如何有效融合企业专有知识资产,构建领域专属认知引擎,是企业迈向智能决策与有效运营的关键。然而,传统检索增强生成(RAG)技术受限于语言单模态处理能力,仅能实现文本知识库与文本查询之间的浅层理解,难以满足复杂业务场景的需求,在实际应用中暴露出两大缺陷:

信息表征缺失:忽略知识库中多模态富文档的视觉语义信息,如版面结构、图表关系、公式特征等;

模态交互受限:无法支持图文混合查询、跨模态关联检索等多样化需求。

针对以上痛点,我们发布了紫东太初多模态检索增强生成框架—Taichu-mRAG。该框架基于统一多模态细粒度检索引擎和紫东太初多模态大模型,旨在提升内容理解与生成质量,实现对多模态信息的协同感知、准确检索与深度推理问答。

Taichu-mRAG 在多模态富文档理解、多模态细粒度实体属性问答两大保障基准上取得突破性进展:

在 M3DocVQA 数据集上端到端问答准确率比开源SOTA M3DocRAG相对提升33%,多模态检索召回率相对提升12%;

在 E-VQA 数据集上端到端问答准确率比开源SOTA EchoSight相对提升9%,多模态检索召回率相对提升9%。

3.1 Taichu-mRAG整体架构

面向新一代智能问答场景,Taichu-mRAG 整体架构包含四大核心模块:Query理解模块、多模态混合索引召回模块、多模态精排模块、多模态增强答案生成模块。

Query理解模块

该模块根据用户Query 及对话上下文深度挖掘用户需求,判断是否需要触发全文理解,并结合对话历史对用户 Query 进行智能扩展、改写,使得改写后的 Query 可以更准确地检索到相关知识。

多模态混合索引与召回模块

该模块包含特征抽取、索引建库及多路召回。在知识库构建过程中,我们先对富文档进行多维度理解、分块,抽取出子级检索单元块;包括基于版面识别的区域级分块、基于纯视觉信息的页面级分块、基于文本语义的滑窗分块;之后,通过多模态Embedding模型抽取这些检索分块的语义特征,在统一语义空间内进行 ANN 索引建库。当收到改写的 Query 后,我们采用多路召回,并行执行四路检索:跨模态索引、关键Term倒排索引、基础语义索引、知识扩展语义索引,有效召回和用户需求最相关的 TopN 知识片段。

多模态精排模块

多模态精排模块负责对召回的 TopN 知识片段进行精细化排序,更加关注细粒度语义信息,有利于处理高难度场景,从而进一步提升多模态大模型的问答准确度。该模块采用单塔结构,深度融合Query、文本、图像、布局特征等信息,确保排序结果更加准确稳定。

多模态答案生成模块

答案生成模块根据前序模块给出的相关参考知识和用户原始Query,联合生成最终的答案,并给出答案的参考片段,便于用户进行答案溯源。当候选片段无法覆盖答案时,多模态大模型会根据用户自定义配置选择拒答或者依赖多模态大模型自身知识进行开放式回答。这一模块不仅生成准确的答案,还提供了答案的来源和依据,增强了答案的可信度和可解释性。

3.2 Taichu-mRAG多模态检索

Taichu-mRAG 的多模态检索引擎采用了双层级父子关联索引机制和多路异构特征联合检索技术:

双层级父子关联索引机制

基于多模态结构感知的层级式分块技术可有效解决多模态数据检索中的粒度适配与上下文整合难题。双层级父子索引技术核心是父级语义单元、子级检索单元的智能分块和关联策略。

子级检索单元为基础单元,核心价值在于根据用户 Query准确召回语义最相关的细粒度语义片段,确保召回的准确性;子级检索单元可包含多种单元形式,如基于滑动窗口的文本片段单元、 图像单元、表格单元、图文混合单元等。父级语义单元为跨模态知识容器,核心价值是为关联的子级检索单元提供完整的上下文信息输入给大模型,提升大模型的回答精度和完整度。

父、子语义单元的切分及关联映射核心在于对以下多种策略的灵活组合: (1)语义理解分块:基于句子、段落、图像、图表多模态 Embedding 计算相似度,当连续内容相似度低于特定阈值时则进行切割。(2)结构化分块:基于布局分析技术,对PDF、PPT、Markdown 等文档按章节、标题或页面、语义块边界进行切割。(3)滑动窗口分块 :设置字符重叠范围及滑动窗口大小,通过滑动窗口对文档内容进行切割。

多路异构特征联合检索

Taichu-mRAG 检索引擎采用多路异构特征联合索引的召回机制,在多模态、复杂富文档理解场景下形成互补增强的检索矩阵,保证了检索系统的准确性和产业落地可行性,多路异构特征索引概况如下:

其中,多模态Embedding模型充分利用多模态大模型的语义理解能力,经过多粒度多阶段学习,实现多种模态在统一空间的语义表征,支持文本、图像、图表、公式等多种混合形式。模型有效缓解了模态偏差问题,同时也具备出色的单模态语义表征能力。

3.3 紫东太初多模态大模型

紫东太初多模态大模型(Taichu-MLLM)具备强大的视觉理解能力和若干特性,支持动态分辨率、图文及多语言输入、图文混排模式等。同时为了更好促进Taichu-mRAG的产业落地应用,针对落地应用过程中的重点需求,我们对Taichu-MLLM 特定能力进行了重点优化:

扩展上下文长度到128k,支持超长文本和多张高清图片输入;

优化拒答指令遵循能力,提升拒答精度,具备准确、稳定的拒答能力;

优化溯源能力,模型同时生成答案和引用来源,便于用户溯源查证,提高答案可解释性。

关键词:

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 多模态和Agent成为大厂AI的新赛 点

    这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多

  • 多模态和Agent成为大厂AI的新赛点

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�

  • 业界唯一!百度网盘上线多模态AI笔记 效率提升10倍

    快科技5月2日消息,过往,用户在通过视频学习并记录笔记时,总免不了要不停切换平台软件,暂停、截屏、记录、插图、批注、切换返回视频过程繁琐而低效。为了应对这种情况,百度网盘和百度文库联合研发上线了AI笔记”,支持全自动学习、半自动学习、辅助学习三种模式。如今只要在网盘里面任意打开一个学习视频,在右侧就能看到AI笔记”功能,用户可以自主输入内容,也可以让其直接生成图文并茂、结构清晰的笔记。而且每个重要知识点旁会有时间戳,点击时间戳即可跳转到视频中对应位置,实现视频和笔记内容的顺滑关联。此外AI笔记”还可以帮

  • UniToken:多模态AI的“能选手”,一次编码搞定图文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 孩子健康不能赌!血糖仪准确率排名领先的三诺是真靠谱

    一位母亲分享孩子确诊1型糖尿病后的经历:起初购买无创血糖仪发现不准,差点耽误病情。后来选用三诺优佳血糖仪,其精准度通过CE和ISO认证,临床测试达标率99.2%。专利采血笔9档可调,孩子不再抗拒检测。三色指示灯直观显示血糖状态,便于及时调整饮食。与医院静脉血检测对比误差仅0.2mmol/L,医生认可其准确性。现在孩子能主动配合检测,血糖管理更科学。618期间该产品有优惠活动,建议糖友家庭趁活动入手这款可靠的健康管理工具。

  • 字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

    5月13日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了5款模型和产品,包括豆包・视频生成模型 Seedance1.0lite、升级后的豆包1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

  • OpenAI发布AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • 魅族Flyme AIOS 2宣布接入阿里云端到端大模型Qwen Omni

    Flyme AIOS2系统引入全新设计的智能助手Aicy,其界面设计更具呼吸感与动态效果,同时搭载升级后的思考引擎,可实现更精准的语义理解和场景响应。值得关注的是,该系统成为业内首家接入阿里云自主研发的Qwen Omni云端到端大模型的操作系统,支持超低延迟的自然语音交互,并覆盖多地

  • AI日报:国内首个多模态AI程序员上岗;字节启动Top Seed计划招募AI人才;DeepSeek R1T Chimera上线OpenRouter

    【AI日报】今日AI领域重要动态:1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu",提升开发效率;2.字节跳动启动"Top Seed"计划,招募30名AI博士人才;3.DeepSeek开源R1T Chimera模型上线OpenRouter平台;4.阿里AI工程师余亮获"全国劳动模范"称号;5.开源图像编辑工具Step1X-Edit登陆Hugging Face,性能媲美GPT-4o;6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

  • 33届深圳国际礼品展:罗马仕场景充电赋能礼赠新生态

    2025年4月25-28日,第33届深圳国际礼品展将在深圳国际会展中心举行。中国充电行业领军品牌罗马仕(ROMOSS)将以"全场景充电解决方案"为主题参展,展示多款创新产品:磁吸系列产品支持多设备同时充电;COOL电系列采用氮化镓技术,支持30W快充;液态硅胶数据线支持100W快充。罗马仕通过"一线三充"等专利技术,重新定义礼品实用价值与科技体验。展会期间,罗马仕期待与全球合作伙伴探讨如何通过高复购率、高感知度的充电科技产品,在礼品场景中创造持久情感连接与品牌价值。