字节跳动与中科大联手提出多模态文档大模型DocPedia

2023-12-04 14:22 · 稿源：站长之家

要点:
字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限，达到2560×2560，相较于现有先进模型有显著提升。
DocPedia不仅能准确识别图像信息，还能结合用户需求调用知识库回答问题，展现了高分辨率多模态文档理解的强大能力。
训练DocPedia的关键在于采用感知-理解联合训练策略，通过频域处理解决分辨率问题，以及在微调阶段进行整体优化，显著提高了性能。

站长之家（ChinaZ.com）12月4日消息:字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限，达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法，解决了现有模型在解析高分辨文档图像方面的不足。

在此研究中，提出了DocPedia，一个高分辨率多模态文档大模型，与业内先进模型相比，其分辨率明显提高，达到2560×2560，而其他模型的上限仅为336×336，无法解析高分辨率文档图像。

论文地址:https://arxiv.org/pdf/2311.11810.pdf

DocPedia的性能得到了显著提升，尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示，DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容，并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息，甚至对手写文字的准确判断。

结合图像中的文本信息，DocPedia还可以利用其大模型推理能力，根据上下文分析问题，并回答图像中没有展示的扩展内容。

在DocPedia的训练过程中，研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段，大语言模型的视觉编码器部分被优化，以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练，包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化，并采用感知-理解联合训练策略，进一步提高了DocPedia的性能。

特别值得注意的是，DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵，并在不损失图文信息的前提下进行空间分辨率下采样，通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前，大大减少了token数量，提高了效率。

总体而言，DocPedia在多模态文档大模型领域取得了显著的突破，其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。

（举报）

相关推荐

关键词：

DocPedia

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
35岁陪爬泰山男演员转行景区NPC：称职业并无高低之分

2025年，曾因主演《东北插班生》而小有名气的35岁演员史元庭，遭遇了演艺生涯的低谷。近年来，他面临“无戏可拍、无综艺合作”的困境，上半年仅获得了4天的拍戏机会，生存压力骤增。为了维持生计，史元庭开始尝试多种灵活创收方式。他成为了一名泰山陪爬员，白天场收费699元，夜场则高达799元，还包含观日出服务。在陪爬过程中，他不仅提供全程陪护，还为游客�

史元庭东北插班生泰山陪爬员
华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

华为FreeClip 2耳夹耳机10月20日开售，售价1299元。预售1小时销量破8万台，市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器，算力提升10倍；配备超澎湃双引擎单元，响度与低频动力均翻倍。支持L2HC高清音频编码，音质清晰。新增鸿蒙AI耳边助手，支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构，单耳重5.1克，佩戴舒适且具备IP57防护。续航方面单次使用9小时，配合充电仓总续航达38小时，充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

华为FreeClip2 耳夹耳机 L2HC音频编码
荐火爆国庆的东方「迪士尼」、明星NPC和背后的操盘手

这个国庆和中秋假期，体验型文旅消费继续火热。敦煌月牙泉挤满了星空演唱会的听众，不少人在古镇和自然风光里捡秋度假，清明上河园、宋城千古情等堪称「中国版迪士尼」的主题景区内，人流量更汹涌。 10月2日，开封万岁山因游客量较大，暂停了线上售票。据河南文旅官方数据，今年国庆中秋假期，尽管河南地区受连续降雨天气影响，但开封万岁山接待游客数量依然�

文旅消费主题景区游客量
国际权威认可！绿舟成为CP亚太地区首批合作伙伴！

绿舟成为ClimatePartner亚太地区首批战略合作伙伴，标志着其气候友好认证服务再获国际顶尖环保机构认可。双方合作将助力亚太地区卖家高效完成亚马逊气候友好绿标认证，通过定制化方案、成本优化及流程提速（最快4周），帮助卖家获得10%流量提升和12.5%销量增长。此次合作打破跨境卖家面临的认证壁垒，为中小卖家提供低门槛的权威合规路径。

绿舟 ClimatePartner 气候友好认证
想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

本文介绍银河麒麟操作系统V11的MPTCP解决方案，通过多路径TCP协议聚合多网卡带宽，实现数据传输速度倍增和链路故障无缝切换。方案提供内核级原生支持，部署简单，兼容主流应用，显著提升网络性能与可靠性，有效解决单网卡带宽瓶颈和多网卡资源闲置问题，为高吞吐业务场景打造高效网络传输新引擎。

多路径TCP 带宽优化网络传输
铭凡MS-S1 MAX正式发布：126TOPS总算力的AI工作站，提供 USB4 v2、PCle 4插槽

印凡MS-S1MAX迷你AI工作站体积仅3.3升，集成126TOPS算力，搭载AMD锐龙AI Max处理器与Radeon 8060核显，支持本地运行1280亿参数大模型。配备128GB LPDDR5X内存、双M.2插槽及高速USB4接口，采用先进散热设计实现130W稳定输出。紧凑机身支持灵活部署，为企业本地AI与边缘计算提供高效解决方案。

铭凡MS-S1MAX AI工作站 126TOPS算力
创新驱动芯耀未来——CPCA Show Plus 2025助力产业共享AI时代发展机遇

2025年电子半导体产业创新发展大会暨国际电子电路（大湾区）展览会（CPCA Show Plus）将于10月28-30日在深圳举办。展会以“创新驱动，芯耀未来”为主题，汇聚超300家展商，覆盖PCB制造全产业链，聚焦AI时代产业升级。活动将展示智能制造、绿色环保方案，举办多场技术论坛，推动产业链高效对接与协同发展，助力行业把握智能化、低碳化新机遇。

电子半导体创新发展国际展览会
荣耀Magic8/Magic8 Pro发布：售价4499元起

荣耀Magic8系列正式发布，包含Magic8和Magic8 Pro两款机型。全系搭载第五代骁龙8至尊版处理器，Pro版安兔兔跑分达428万创历史新高。屏幕方面，Magic8配备6.58英寸1.5K直屏，Pro版升级为6.71英寸等深四微曲屏，峰值亮度达6000nit。影像系统全面升级，Pro版搭载2亿像素潜望长焦，支持100倍数码变焦。续航上，Magic8内置7000mAh电池，Pro版提升至7200mAh，分别支持90W/120W有线快充。首发MagicOS 10系统，内置YOYO智能体，具备复杂意图理解能力。售价4499元起，10月15日开启预售，10月23日正式首销。

荣耀Magic8 荣耀Magic8Pro 手机发布
打破应用孤岛——个推AI SDK全面接入MCP全场景能力

大模型技术正推动产业从移动互联网向智能互联网跃迁，用户需求转向场景化、主动化、闭环化的智能体验。个推推出行业首个AI+SDK，集成自然语言交互、上下文理解、行业知识库等能力，帮助APP一键集成AI功能，降低开发成本。通过智能搜索、跨应用服务协同（MCP）等，实现从"字面匹配"到"意图识别"的升级，为用户提供精准服务。该方案已接入AI协同应用创新平台，支持多行业快速构建专业可信的智能应用生态。

AI技术产业革命智能互联网

今日大家都在搜的词：

热文

3 天
7天

字节跳动与中科大联手提出多模态文档大模型DocPedia

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

35岁陪爬泰山男演员转行景区NPC：称职业并无高低之分

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

荐火爆国庆的东方「迪士尼」、明星NPC和背后的操盘手

国际权威认可！绿舟成为CP亚太地区首批合作伙伴！

想释放多网卡带宽？银河麒麟V11的MPTCP方案来了

铭凡MS-S1 MAX正式发布：126TOPS总算力的AI工作站，提供 USB4 v2、PCle 4插槽

创新驱动芯耀未来——CPCA Show Plus 2025助力产业共享AI时代发展机遇

荣耀Magic8/Magic8 Pro发布：售价4499元起

打破应用孤岛——个推AI SDK全面接入MCP全场景能力

今日大家都在搜的词：

热文

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

天猫双11今晚8点开卖品类券每人可领万元

火车免费坐？12306今起又上新功能：积分可兑换车票

苹果天猫双11今晚开卖 iPhone17pro天猫官旗首次降价

真我GT8官宣搭载Pro同款理光GR影像系统

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

REDMI K90 Pro Max搭载6.9英寸超级像素屏幕

REDMI K90 Pro Max搭载第五代骁龙8至尊版+独显芯片D2

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

小米推出短剧App围观短剧：主打无广告免费看

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

王腾首次回应下一步计划：称在考虑些创业项目

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

站长商机