首页 > 业界 > 关键词  > 正文

摩根大通宣布推出用于多模态文档理解的DocLLM

2024-01-03 14:11 · 稿源:站长之家

站长之家(ChinaZ.com)1月3日 消息:近日,摩根大通推出了DocLLM,这是一种为多模态文档理解而设计的生成式语言模型。DocLLM作为LLM的轻量级扩展,用于分析企业文档,涵盖了形式、发票、报告、合同等在文本和空间模态交汇处具有复杂语义的文档。

与现有的多模态LLM不同,DocLLM策略性地避免了昂贵的图像编码器,专注于边界框信息,以融入空间布局结构。该模型引入了一个分离的空间注意机制,通过将经典变压器中的注意机制分解为一组分离的矩阵。

DocLLM通过采用一个以学习填充文本片段为重点的预训练目标,来处理视觉文档中的不规则布局和异构内容。

QQ截图20240103141906.jpg

该模型具有一个分离的空间注意机制,促进文本和布局模态之间的交叉对齐,以及一个擅长有效处理不规则布局的填充预训练目标。

在预训练DocLLM时,数据来自两个主要来源:IIT-CDIP测试集1.0和DocBank。前者包括与上世纪90年代烟草行业的法律诉讼相关的500多万份文件,而后者包括50万份具有独特布局的文件。

对各种文档智能任务进行广泛评估显示,DocLLM在16个已知数据集中有14个的性能优越于最先进的LLM。该模型在4个设置中对先前未见数据集的强大泛化能力表现出色。

可见,未来摩根大通将以轻量级方式将视觉融入DocLLM,并进一步增强其能力的承诺。

论文地址:https://arxiv.org/pdf/2401.00908.pdf

举报

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • HKIT携手WALLX推出创新区块链奖励模型,引领心理治疗与AI技术融合新趋势

    香港智能有限公司(HKIT)与WALLX公司合作,将AI技术与心理治疗相结合,开发出基于区块链的奖励和参与模式。该创新系统能精准评估用户心理状态并提供个性化治疗方案,同时利用区块链确保数据安全。双方还推出奖励机制,用户参与心理课程或贡献数据可获得,用于兑换咨询服务或健康产品。这一模式获得市场广泛关注,多家机构表达合作意向,被视为心理健康服�

  • 深度理解,服务在地|Moka 用本地化实践深化全球布局

    Moka持续深耕海外市场,通过产品迭代和生态合作拓展全球化布局。2024年5月和6月,Moka先后亮相亚洲HR Tech展会和香港HR峰会,展示其AI驱动的智能招聘系统在多语言支持、跨时区面试安排等场景的解决方案。公司已在香港和新加坡设立办公室,并与当地服务商建立合作网络,强化区域落地能力。Moka Recruiting已服务东南亚、中东和欧洲客户,覆盖零售、金融科技等行业,通过持续打磨产品合规性和本地化功能,助力企业构建全球化人才连接能力。未来Moka将继续以技术驱动提升全球招聘效率,支持企业人力资源管理的全球化进程。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 北京出门像被牛舔了一口 网友:理解回南天的痛了

    7月2日17时50分,中国气象局数据显示北京实时湿度攀升至76%,一举超过同期深圳66%的湿度值。这场罕见的湿度倒挂引发市民热议,网友纷纷吐槽“头发黏在脖子上像被牛舔了一口”“终于理解南方回南天的痛苦”,相关话题迅速登上社交平台热搜榜。

  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • 男子闯米兰机场被滑行飞机吸入引擎:根本救不回来

    这大概是最悲惨的死法之一了! 当地时间7月8日上午,意大利米兰贝加莫机场发生了一起事故:一名男子闯入米兰一机场跑道,被正在滑行的一架飞机吸入发动机身亡。 该国媒体报道称,死亡男子名为安德烈亚罗索,是意大利贝加莫省的建筑商,惨剧发生后,机场停止运营数小时,19个航班被取消。

  • 颜值拉满!“千元顶流”大眼橙C2 Ultra投影仪推出全新荔枝白配色

    大眼橙推出夏日限定款C2 Ultra清爽版投影仪,采用荔枝白配色,外观清新时尚。配置方面拥有950CVIA流明亮度、1080P分辨率,搭载Amlogic T982芯片和4+32G内存,支持MEMC运动补偿。内置10W音响和600CC大音腔,音质出色。配备全金属云台支架,支持360°调节。首销价1799元,性价比突出,目前已在线上开启预约。作为千元投影旗舰,该产品在外观、画质和性能方面均有出色表现,是暑期观影娱乐的理想选择。