摩根大通宣布推出用于多模态文档理解的DocLLM

2024-01-03 14:11 · 稿源：站长之家

站长之家（ChinaZ.com）1月3日消息:近日，摩根大通推出了DocLLM，这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展，用于分析企业文档，涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。

与现有的多模态LLM不同，DocLLM策略性地避免了昂贵的图像编码器，专注于边界框信息，以融入空间布局结构。该模型引入了一个分离的空间注意机制，通过将经典变压器中的注意机制分解为一组分离的矩阵。

DocLLM通过采用一个以学习填充文本片段为重点的预训练目标，来处理视觉文档中的不规则布局和异构内容。

QQ截图20240103141906.jpg

该模型具有一个分离的空间注意机制，促进文本和布局模态之间的交叉对齐，以及一个擅长有效处理不规则布局的填充预训练目标。

在预训练DocLLM时，数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件，而后者包括50万份具有独特布局的文件。

对各种文档智能任务进行广泛评估显示，DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。

可见，未来摩根大通将以轻量级方式将视觉融入DocLLM，并进一步增强其能力的承诺。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

（举报）

相关推荐

关键词：

荐多模态和Agent成为大厂AI的新赛点

这是《窄播Weekly》的第52期，本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景，多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心，就是让大模型的能力越来越接近人。沿着这个主旋律，可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现，需要给到大模型多

AI竞争策略多模态能力大模型应用
荐多模态和Agent成为大厂AI的新赛点

本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势，重点分析了多模态能力和代理执行两大发展方向。文章指出，大模型落地的核心在于让人机交互更自然，具体表现为：1）通过多模态技术降低用户使用门槛，如阿里夸克新推出的"拍照问夸克"功能；2）通过代理执行提升复杂任务处理能力，如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显：国�

AI应用场景多模态能力代理执行
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码
开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一，国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期，上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列，相比上一代InternVL2. 5 模型，该模型展现出卓越的多模态感知和推理能力，同时进一步扩展了其工具使用、GUI代理、工业图像分析等

多模态理解 AI大模型 InternVL3
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
荐刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

Llama4重磅发布了!Meta官宣开源首个原生多模态Llama4，首次采用的MoE架构，支持12种语言，首批发布一共两款:Llama4Scout:共有1090亿参数，17B活跃参数，16个专家，1000万上下Llama4Maverick:共有4000亿参数，17B活跃参数，128个专家，100万上下文另外，2万亿参数Llama4Behemoth将在未来几个月面世，288B活跃参数，16个专家。Llama4的横空出世，成为迄今为止开源最强，多模态能力最好的模型之一。L

Llama4 多模态AI Meta开源
紫东太初多模态RAG全新发布：端到端问答准确率提升33%

在产业智能化进程中，如何高效融合企业专有知识资产，构建领域专属认知引擎，是企业迈向智能决策与高效运营的关键。然而，传统检索增强生成(RAG)技术受限于语言单模态处理能力，仅能实现文本知识库与文本查询之间的浅层理解，难以满足复杂业务场景的需求，在实际应用中暴露出两大缺陷:信息表征缺失:忽略知识库中多模态富文档的视觉语义信息，如版面结构、图表关�

产业智能化企业知识资产多模态检索
荐1000万上下文！新开源多模态大模型，单个GPU就能运行

今年2月初，谷歌发布的Gemini2.0Pro支持200万上下文，震惊了整个大模型领域。仅过了2个月，Meta最新开源的Llama4Scout就将上下文扩展至1000万，整整提升了5倍开启千万级时代。根据实验数据显示，Llama4Behemoth在MMLUPro、GPQA、MATH-500等测试的数据比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。

Gemini2.0Pro Llama4Scout 上下文扩展
荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

现在的国产AI应用，一口气看好几分钟的视频，都可以直接做推理和解析了!瞧~只需“喂”上一段柯南片段，AI就摇身一变成“名侦探”做剖析:它会对整个视频的内容先做一个总结，再按照秒级，对视频片段做内容上的推演。商汤科技联合创始人杨帆认为:银河通用合伙人、大模型负责人张直政表示:除此之外，上海交通大学副教授闫维新对这个问题的看法是:总言之，商汤作为国�

国产AI 视频解析智能剪辑
荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

【AI日报】今日AI领域重要动态：1.百度发布文心快码3.5及多模态AI程序员"文心快码Comate Zulu"，提升开发效率；2.字节跳动启动"Top Seed"计划，招募30名AI博士人才；3.DeepSeek开源R1T Chimera模型上线OpenRouter平台；4.阿里AI工程师余亮获"全国劳动模范"称号；5.开源图像编辑工具Step1X-Edit登陆Hugging Face，性能媲美GPT-4o；6.谷歌被曝每月向三星支付巨额资金预装Gemini应用

人工智能 AI编程工具多模态交互

热文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

摩根大通宣布推出用于多模态文档理解的DocLLM

荐多模态和Agent成为大厂AI的新赛点

荐多模态和Agent成为大厂AI的新赛点

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

开源即支持！基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

可灵AI发布全新2.0模型：上线多模态视频编辑功能

荐刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

紫东太初多模态RAG全新发布：端到端问答准确率提升33%

荐1000万上下文！新开源多模态大模型，单个GPU就能运行

荐刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

荐AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

热文

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

印度将中国电子投资压股至 10%，且要求“技术转让”

“AI教父”杰弗里·辛顿再次发出警告：AI可能正在“失控”！

“你可能患了血癌……” 医生诊断错误，而 ChatGPT 是对的！

郭明錤：iPhone17有望全系配12GB内存！但，有个前提……

累了倦了就找 ChatGPT……AI正在沦为“情绪垃圾桶”！

Adobe 发布 Firefly 系列产品，涵盖图片、视频、矢量等

美国网购市场动荡，希音、Temu 率先在美开启“涨价潮”！

站长商机