首页 > 业界 > 关键词  > 正文

摩根大通宣布推出用于多模态文档理解的DocLLM

2024-01-03 14:11 · 稿源:站长之家

站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。

与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。

DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。

QQ截图20240103141906.jpg

该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。

在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。

对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。

可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

举报

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 从清晰到真实:理解4K与杜比视界如何协同工作

    本文探讨显示技术演进,聚焦4K分辨率与杜比视界的技术差异。4K提供829万像素的精细画布,解决“形似”问题;杜比视界通过动态HDR技术还原光影层次,实现“神似”效果。海信E8Q Pro电视通过自研芯片、MiniLED背光系统等技术整合二者,为影音和游戏用户提供卓越画质体验,展现顶级电视的系统工程实力。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

  • 在理解用户这件事上,腾讯音乐做对了什么?

    8月12日,腾讯音乐娱乐集团公布了2025年第二季度财报。 财报显示,2025年第二季度,腾讯音乐总收入达84.4亿元,同比增长17.9%;调整后净利润为26.4亿元,同比增长33.0%,延续了稳健上行的趋势。 在网络娱乐方式多种多样、用户注意力日益分散的大背景下,腾讯音乐能交出一份超预期的答卷,并非易事。不过,数据终究只是表象,比起增长本身,更值得追问的,是其背后的底层�

  • 50+案例见证!格创东智SPC让工序发声,用数据决策,筑牢半导体品质根基

    格创东智SPC系统通过实时数据采集与统计分析,实现半导体制造全流程质量监控。该系统覆盖数据接入、异常预警、闭环处理及持续优化,已助力50余家企业提升良率、降低成本。核心优势包括全链路数据覆盖、智能预警机制、多维分析工具及高效可视化操作,推动企业从经验决策转向数据驱动,迈向零缺陷制造目标。

  • 从中国工厂到中东豪宅!海信RGB-Mini LED电视引千万粉丝博主探厂打call

    中国高端电视在中东市场表现强劲,海信电视凭借RGB-Mini LED等创新技术成为当地热门科技产品。中东博主实地探访海信研发中心,深入了解ULED、AI画质芯片等核心技术。海信UX系列电视采用三原色独立背光,突破传统显示限制,实现精准色彩控制,色域覆盖率达97% BT.2020。该产品搭载自研芯片,支持高精度色彩管理,推动全球电视行业进入RGB多基色显示新时代。海信计划在2025年德国IFA展发布重磅消息,加速RGB-Mini LED技术市场化进程。

  • 再次定义行业创新范式 跃然创新推出全球首款端到端 AI 玩具 CocoMate

    8月26日,跃然创新推出全球首款搭载端到端语音模型的AI玩具CocoMate系列。该产品采用可拆卸设计,配备3000mAh电池,支持4G和WiFi网络。依托端到端技术,具备丰富交互表现和拟人化情感能力,支持多重唤醒、主题游戏及聊天室等功能。新品将于8月27日开售,首发包含奥特曼及原创IP“泡泡”等角色,后续还将上线财神爷、塔罗猫等系列,目标人群从儿童延伸至成年人。

  • 高铁上小孩吵闹女子劝阻遭家长反怼:你没孩子 你不理解

    ​8月16日,在黑龙江哈尔滨的一趟高铁列车上,发生了一起因孩童吵闹引发的纠纷事件。据现场情况反映,一名小孩在高铁上不停吵闹,严重影响了车厢内的安静环境。 同乘的高女士见状,上前找小孩家长理论,希望家长能管束一下孩子。然而,家长却情绪激动地反怼高女士:“你没有孩子,就应该理解一下!我也很想管,但我现在管不住。你可以去静音车厢啊,你怎么知道我�

今日大家都在搜的词: