首页 > 业界 > 关键词  > DocPedia最新资讯  > 正文

字节跳动与中科大联手提出多模态文档大模型DocPedia

2023-12-04 14:22 · 稿源:站长之家

要点:

  • 字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。

  • DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。

  • 训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。

站长之家(ChinaZ.com)12月4日 消息:字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。

在此研究中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率明显提高,达到2560×2560,而其他模型的上限仅为336×336,无法解析高分辨率文档图像。

image.png

论文地址:https://arxiv.org/pdf/2311.11810.pdf

DocPedia的性能得到了显著提升,尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示,DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容,并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息,甚至对手写文字的准确判断。

结合图像中的文本信息,DocPedia还可以利用其大模型推理能力,根据上下文分析问题,并回答图像中没有展示的扩展内容。

在DocPedia的训练过程中,研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段,大语言模型的视觉编码器部分被优化,以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练,包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化,并采用感知-理解联合训练策略,进一步提高了DocPedia的性能。

特别值得注意的是,DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下进行空间分辨率下采样,通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前,大大减少了token数量,提高了效率。

总体而言,DocPedia在多模态文档大模型领域取得了显著的突破,其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。

举报

  • 相关推荐
  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • 35岁陪爬泰山男演员转行景区NPC:称职业并无高低之分

    ​2025年,曾因主演《东北插班生》而小有名气的35岁演员史元庭,遭遇了演艺生涯的低谷。近年来,他面临“无戏可拍、无综艺合作”的困境,上半年仅获得了4天的拍戏机会,生存压力骤增。 为了维持生计,史元庭开始尝试多种灵活创收方式。他成为了一名泰山陪爬员,白天场收费699元,夜场则高达799元,还包含观日出服务。在陪爬过程中,他不仅提供全程陪护,还为游客�

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • 火爆国庆的东方「迪士尼」、明星NPC和背后的操盘手

    这个国庆和中秋假期,体验型文旅消费继续火热。 敦煌月牙泉挤满了星空演唱会的听众,不少人在古镇和自然风光里捡秋度假,清明上河园、宋城千古情等堪称「中国版迪士尼」的主题景区内,人流量更汹涌。 10月2日,开封万岁山因游客量较大,暂停了线上售票。据河南文旅官方数据,今年国庆中秋假期,尽管河南地区受连续降雨天气影响,但开封万岁山接待游客数量依然�

  • 国际权威认可!绿舟成为CP亚太地区首批合作伙伴!

    绿舟成为ClimatePartner亚太地区首批战略合作伙伴,标志着其气候友好认证服务再获国际顶尖环保机构认可。双方合作将助力亚太地区卖家高效完成亚马逊气候友好绿标认证,通过定制化方案、成本优化及流程提速(最快4周),帮助卖家获得10%流量提升和12.5%销量增长。此次合作打破跨境卖家面临的认证壁垒,为中小卖家提供低门槛的权威合规路径。

  • 想释放多网卡带宽?银河麒麟V11的MPTCP方案来了

    本文介绍银河麒麟操作系统V11的MPTCP解决方案,通过多路径TCP协议聚合多网卡带宽,实现数据传输速度倍增和链路故障无缝切换。方案提供内核级原生支持,部署简单,兼容主流应用,显著提升网络性能与可靠性,有效解决单网卡带宽瓶颈和多网卡资源闲置问题,为高吞吐业务场景打造高效网络传输新引擎。

  • 铭凡MS-S1 MAX正式发布:126TOPS总算力的AI工作站,提供 USB4 v2、PCle 4插槽

    印凡MS-S1MAX迷你AI工作站体积仅3.3升,集成126TOPS算力,搭载AMD锐龙AI Max处理器与Radeon 8060核显,支持本地运行1280亿参数大模型。配备128GB LPDDR5X内存、双M.2插槽及高速USB4接口,采用先进散热设计实现130W稳定输出。紧凑机身支持灵活部署,为企业本地AI与边缘计算提供高效解决方案。

  • 创新驱动 芯耀未来——CPCA Show Plus 2025助力产业共享AI时代发展机遇

    2025年电子半导体产业创新发展大会暨国际电子电路(大湾区)展览会(CPCA Show Plus)将于10月28-30日在深圳举办。展会以“创新驱动,芯耀未来”为主题,汇聚超300家展商,覆盖PCB制造全产业链,聚焦AI时代产业升级。活动将展示智能制造、绿色环保方案,举办多场技术论坛,推动产业链高效对接与协同发展,助力行业把握智能化、低碳化新机遇。

  • 荣耀Magic8/Magic8 Pro发布:售价4499元起

    荣耀Magic8系列正式发布,包含Magic8和Magic8 Pro两款机型。全系搭载第五代骁龙8至尊版处理器,Pro版安兔兔跑分达428万创历史新高。屏幕方面,Magic8配备6.58英寸1.5K直屏,Pro版升级为6.71英寸等深四微曲屏,峰值亮度达6000nit。影像系统全面升级,Pro版搭载2亿像素潜望长焦,支持100倍数码变焦。续航上,Magic8内置7000mAh电池,Pro版提升至7200mAh,分别支持90W/120W有线快充。首发MagicOS 10系统,内置YOYO智能体,具备复杂意图理解能力。售价4499元起,10月15日开启预售,10月23日正式首销。

  • 打破应用孤岛——个推AI SDK全面接入MCP全场景能力

    大模型技术正推动产业从移动互联网向智能互联网跃迁,用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK,集成自然语言交互、上下文理解、行业知识库等能力,帮助APP一键集成AI功能,降低开发成本。通过智能搜索、跨应用服务协同(MCP)等,实现从"字面匹配"到"意图识别"的升级,为用户提供精准服务。该方案已接入AI协同应用创新平台,支持多行业快速构建专业可信的智能应用生态。

今日大家都在搜的词: