首页 > 传媒 > 关键词  > 产业智能化最新资讯  > 正文

紫东太初多模态RAG全新发布:端到端问答准确率提升33%

2025-04-17 09:42 · 稿源: 站长之家用户

产业智能化进程中,如何有效融合企业专有知识资产,构建领域专属认知引擎,是企业迈向智能决策与有效运营的关键。然而,传统检索增强生成(RAG)技术受限于语言单模态处理能力,仅能实现文本知识库与文本查询之间的浅层理解,难以满足复杂业务场景的需求,在实际应用中暴露出两大缺陷:

信息表征缺失:忽略知识库中多模态富文档的视觉语义信息,如版面结构、图表关系、公式特征等;

模态交互受限:无法支持图文混合查询、跨模态关联检索等多样化需求。

针对以上痛点,我们发布了紫东太初多模态检索增强生成框架—Taichu-mRAG。该框架基于统一多模态细粒度检索引擎和紫东太初多模态大模型,旨在提升内容理解与生成质量,实现对多模态信息的协同感知、准确检索与深度推理问答。

Taichu-mRAG 在多模态富文档理解、多模态细粒度实体属性问答两大保障基准上取得突破性进展:

在 M3DocVQA 数据集上端到端问答准确率比开源SOTA M3DocRAG相对提升33%,多模态检索召回率相对提升12%;

在 E-VQA 数据集上端到端问答准确率比开源SOTA EchoSight相对提升9%,多模态检索召回率相对提升9%。

3.1 Taichu-mRAG整体架构

面向新一代智能问答场景,Taichu-mRAG 整体架构包含四大核心模块:Query理解模块、多模态混合索引召回模块、多模态精排模块、多模态增强答案生成模块。

Query理解模块

该模块根据用户Query 及对话上下文深度挖掘用户需求,判断是否需要触发全文理解,并结合对话历史对用户 Query 进行智能扩展、改写,使得改写后的 Query 可以更准确地检索到相关知识。

多模态混合索引与召回模块

该模块包含特征抽取、索引建库及多路召回。在知识库构建过程中,我们先对富文档进行多维度理解、分块,抽取出子级检索单元块;包括基于版面识别的区域级分块、基于纯视觉信息的页面级分块、基于文本语义的滑窗分块;之后,通过多模态Embedding模型抽取这些检索分块的语义特征,在统一语义空间内进行 ANN 索引建库。当收到改写的 Query 后,我们采用多路召回,并行执行四路检索:跨模态索引、关键Term倒排索引、基础语义索引、知识扩展语义索引,有效召回和用户需求最相关的 TopN 知识片段。

多模态精排模块

多模态精排模块负责对召回的 TopN 知识片段进行精细化排序,更加关注细粒度语义信息,有利于处理高难度场景,从而进一步提升多模态大模型的问答准确度。该模块采用单塔结构,深度融合Query、文本、图像、布局特征等信息,确保排序结果更加准确稳定。

多模态答案生成模块

答案生成模块根据前序模块给出的相关参考知识和用户原始Query,联合生成最终的答案,并给出答案的参考片段,便于用户进行答案溯源。当候选片段无法覆盖答案时,多模态大模型会根据用户自定义配置选择拒答或者依赖多模态大模型自身知识进行开放式回答。这一模块不仅生成准确的答案,还提供了答案的来源和依据,增强了答案的可信度和可解释性。

3.2 Taichu-mRAG多模态检索

Taichu-mRAG 的多模态检索引擎采用了双层级父子关联索引机制和多路异构特征联合检索技术:

双层级父子关联索引机制

基于多模态结构感知的层级式分块技术可有效解决多模态数据检索中的粒度适配与上下文整合难题。双层级父子索引技术核心是父级语义单元、子级检索单元的智能分块和关联策略。

子级检索单元为基础单元,核心价值在于根据用户 Query准确召回语义最相关的细粒度语义片段,确保召回的准确性;子级检索单元可包含多种单元形式,如基于滑动窗口的文本片段单元、 图像单元、表格单元、图文混合单元等。父级语义单元为跨模态知识容器,核心价值是为关联的子级检索单元提供完整的上下文信息输入给大模型,提升大模型的回答精度和完整度。

父、子语义单元的切分及关联映射核心在于对以下多种策略的灵活组合: (1)语义理解分块:基于句子、段落、图像、图表多模态 Embedding 计算相似度,当连续内容相似度低于特定阈值时则进行切割。(2)结构化分块:基于布局分析技术,对PDF、PPT、Markdown 等文档按章节、标题或页面、语义块边界进行切割。(3)滑动窗口分块 :设置字符重叠范围及滑动窗口大小,通过滑动窗口对文档内容进行切割。

多路异构特征联合检索

Taichu-mRAG 检索引擎采用多路异构特征联合索引的召回机制,在多模态、复杂富文档理解场景下形成互补增强的检索矩阵,保证了检索系统的准确性和产业落地可行性,多路异构特征索引概况如下:

其中,多模态Embedding模型充分利用多模态大模型的语义理解能力,经过多粒度多阶段学习,实现多种模态在统一空间的语义表征,支持文本、图像、图表、公式等多种混合形式。模型有效缓解了模态偏差问题,同时也具备出色的单模态语义表征能力。

3.3 紫东太初多模态大模型

紫东太初多模态大模型(Taichu-MLLM)具备强大的视觉理解能力和若干特性,支持动态分辨率、图文及多语言输入、图文混排模式等。同时为了更好促进Taichu-mRAG的产业落地应用,针对落地应用过程中的重点需求,我们对Taichu-MLLM 特定能力进行了重点优化:

扩展上下文长度到128k,支持超长文本和多张高清图片输入;

优化拒答指令遵循能力,提升拒答精度,具备准确、稳定的拒答能力;

优化溯源能力,模型同时生成答案和引用来源,便于用户溯源查证,提高答案可解释性。

关键词:

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 构建消费租赁可信可控新生态,联想云锁服务方案发布,助推租赁行业智能化革命

    联想与人人租达成长期合作,推出“云锁服务方案”,旨在解决设备租赁行业的管理粗放、逾期丢失、回收效率低等痛点。该方案通过设备锁定、远程控制与租赁管理三大核心能力,覆盖设备从投放到回收的全生命周期,实现智能化、数字化管理。合作将围绕设备供给、质量控制、回收翻新、服务保障四大维度展开,共建行业标准,推动租赁服务从“设备管理”向“智能服务”升级,助力行业迈向高质量发展新时代。

  • 百利好:从知识到实践,如何构建自己的投资体系?

    信息爆炸时代,投资者常陷入“无所不知”的假象。文章指出,投资成功的关键在于将碎片化知识转化为清晰可执行的投资体系。这需要先明确自我定位:评估风险承受能力、投资目标与时间精力,再构建包含资产选择、买卖时机、资金分配的具体框架。有效的策略往往简单一致,如定投指数基金配合个股投资。建立体系后,需借助专业平台在实战中优化策略,将知识沉淀为应对市场的能力。投资核心不是捕捉每次机会,而是建立能持续生存并稳步前进的系统。

  • 考拉悠然开源悠然无界大模型BLM-1.0,以空间智能引擎驱动产业变革

    9月28日,在成都举行的“2025天府人工智能产业生态大会”上,考拉悠然宣布其自主研发的“悠然无界大模型BLM-1.0”完成迭代升级并全面开源,同时发布基于该模型的UU Holo Glass O1 AR工业眼镜。此举标志着公司以“技术开源+场景落地”双轮驱动策略,推动空间智能产业生态共建。BLM-1.0突破传统模型局限,具备跨空间、跨任务、跨本体的“三跨”统一能力,在空间理解、推理与执行三大核心能力上刷新行业纪录。配套AR眼镜深度融合空间感知与多模态交互,实现工业运维、安装巡检等场景的全程自动化与智能辅助,显著提升效率并降低成本。

  • 腾讯云安全发布人工智能风险评估框架,助企业构建可信智能体

    9月17日,腾讯云在2025全球数字生态大会上发布人工智能风险控制框架及多款安全产品。该框架涵盖六大风险模块、七层级、130余项措施,系统性应对AI应用全生命周期的安全挑战,包括数据泄露、供应链隐患及权限滥用等核心问题。同时推出LLM-WAF防火墙、AI-SPM态势管理等产品,构建覆盖研发、部署、运维的全链路防护体系,助力企业建立可信、稳定的AI服务生态。

  • 东风汽车与腾讯达成战略合作 加速智能化和国际化落地

    9月28日,东风汽车与腾讯签署战略合作协议,双方将整合各自优势,共同打造高质量智能驾驶数据闭环平台,加速东风汽车智能化进程。合作聚焦AI大模型应用、智能座舱创新及全球化战略,旨在提升研发效率与用户体验,增强全球市场竞争力。此前双方已在数字化营销等领域取得进展,此次合作标志着行业开放协作的新标杆。

  • 攀智资本与西北资管达成战略合作 共推亚洲智能化资产管理新局面

    西北投资管理(香港)有限公司与攀智资本(香港)有限公司达成深度战略合作。双方将整合各自在亚洲市场的丰富经验和AI量化投资技术,共同开拓亚洲金融市场,为投资者提供创新高效的资产管理解决方案。此次合作标志着亚洲资管行业进入智能化、定制化新阶段,将推动市场向更高效、智能的方向发展。

  • 既能读懂情绪,还能多模态交互!INDEMIND用空间智能重新定义陪伴机器人

    TCL与INDEMIND合作推出的陪伴机器人“Ai Me”通过空间智能技术实现突破,从传统2D感知升级为3D语义感知,赋予机器人动态语义建图、实时环境适应及多模态交互能力。该平台借助立体视觉与多传感器融合,让机器人精准构建三维地图,识别家居属性,实现主动避障与个性化服务。同时,结合低算力混合模型与情感交互功能,机器人可感知用户情绪、提供安全防护,并支持宠物看护等场景拓展,从“工具”升级为有温度的“家庭伙伴”,真正满足复杂家庭需求。

  • 腾讯云马文霜:Cloud Mate:助力企业高效管云、用云,让云上业务坚如磐石

    9月17日,腾讯云在2025全球数字生态大会上宣布智算全面升级,推出面向Agent的AI基础设施解决方案。腾讯云副总裁李力强调“同源同构”为核心原则,通过统一技术架构支撑自研业务与外部客户,实现产品标准化与全球化服务一致性。升级方案包括Agent Runtime云沙箱、Cloud Mate智能运维体及全链路安全能力,旨在提升模型推理效率、工具集成灵活性和系统稳定性,助力企业降低AI应用门槛。李力指出,未来两年AI+Agent部署将大幅增长,腾讯云已服务国内90%的大模型厂商,并为多行业提供高效智算支持。

  • 软件测试的“自动驾驶革命”:从工具自动化到思维智能化

    AI正推动软件测试领域变革,测试团队脚本维护时间减少60%,工作重心转向策略设计与异常监控。行业报告显示,AI驱动的测试效率提升显著,尤其在探索性测试中可发现人工难以预见的边缘场景缺陷。实践案例表明,金融、汽车等行业引入AI测试后,迭代周期缩短,用例自动生成率大幅提升。未来测试工程师将更专注于质量体系设计和风险分析,而非脚本编写,实现从“人工密集型”向“智能驱动型”的转变。

  • “人工智能+”时代,企业做对什么才能抢占先机?

    国务院8月26日发布《关于深入实施“人工智能+”行动的意见》,提出加快AI技术与实体经济深度融合,推动产业智能化升级。到2035年,我国将全面步入智能经济和社会新阶段。金蝶集团作为企业数字化服务商,以“AI优先”为战略,将AI技术深度融入SaaS产品与服务,推出金蝶云·星空EMA平台及多款智能产品,覆盖财务、供应链、差旅等场景,助力企业构建“AI+业务”新能力,实现高效管理与创新发展。

今日大家都在搜的词: