首页 > 业界 > 关键词  > DocPedia最新资讯  > 正文

字节跳动与中科大联手提出多模态文档大模型DocPedia

2023-12-04 14:22 · 稿源:站长之家

要点:

  • 字节跳动与中国科学技术大学联合研究的多模态文档大模型DocPedia成功突破分辨率极限,达到2560×2560,相较于现有先进模型有显著提升。

  • DocPedia不仅能准确识别图像信息,还能结合用户需求调用知识库回答问题,展现了高分辨率多模态文档理解的强大能力。

  • 训练DocPedia的关键在于采用感知-理解联合训练策略,通过频域处理解决分辨率问题,以及在微调阶段进行整体优化,显著提高了性能。

站长之家(ChinaZ.com)12月4日 消息:字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限,达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法,解决了现有模型在解析高分辨文档图像方面的不足。

在此研究中,提出了DocPedia,一个高分辨率多模态文档大模型,与业内先进模型相比,其分辨率明显提高,达到2560×2560,而其他模型的上限仅为336×336,无法解析高分辨率文档图像。

image.png

论文地址:https://arxiv.org/pdf/2311.11810.pdf

DocPedia的性能得到了显著提升,尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示,DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容,并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息,甚至对手写文字的准确判断。

结合图像中的文本信息,DocPedia还可以利用其大模型推理能力,根据上下文分析问题,并回答图像中没有展示的扩展内容。

在DocPedia的训练过程中,研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段,大语言模型的视觉编码器部分被优化,以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练,包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化,并采用感知-理解联合训练策略,进一步提高了DocPedia的性能。

特别值得注意的是,DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵,并在不损失图文信息的前提下进行空间分辨率下采样,通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前,大大减少了token数量,提高了效率。

总体而言,DocPedia在多模态文档大模型领域取得了显著的突破,其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。

举报

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • 字节跳动公布核心人才观 称用人看潜力不看资历

    昨日,字节跳动公布六大人才观。字节跳动表示,自创业之初便坚信人才是公司成功的关键要素,秉持“和优秀的人,做有挑战的事”的理念吸引众多人才加入。 公司认为,随着业务复杂度提升,保持优秀人才密度大于业务复杂度是组织有效运行的关键,更倾向于通过优秀人才的创新意愿和能力来应对挑战,而非单纯依赖增加规则和管理措施。 字节跳动鼓励人才在工作中大�

  • AI日报:腾讯混元3D 2.1大模型开源;字节跳动AI Lab负责人李航卸任;OpenAI Codex 全新升级

    本文介绍了AI领域最新动态:1)腾讯开源混元3D2.1大模型,提升3D生成质量;2)OpenAI Codex升级,优化代码生成功能;3)字节跳动AI Lab负责人李航卸任;4)微软发布700个AI应用案例;5)微软推出Code Researcher工具,解决58%系统崩溃问题;6)Observer AI实现屏幕操作自动化;7)Genspark发布AI浏览器;8)麻省理工用AI技术3.5小时修复15世纪名画;9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni;10)MagicTryOn视频换衣框架;11)字节跳动发布实时互动AI视频生成模型Seaweed APT2;12)ChatGPT搜索功能升级;13)字节跳动与老凤祥合作开发AI智能眼镜。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 为何都愿去大厂!字节跳动福利让网友羡慕:100元餐标的免费三餐等

    为什么这多人想去互联网大厂呢,说到底还是福利待遇更好。 近日,有网友晒出了字节跳动的员工福利,其中就包含了100元餐标免费三餐”这一项。从内容看,早餐大概是20元左右标准,提供的种类非常的丰富,比如豆浆油条、广式虾饺烧麦、西式三明治等,搭配水果、坚果及奶制品。 至于午/晚餐(主餐标)内容更为丰富,涵盖酸菜鱼、辣子鸡、糖醋排骨等荤菜,日式寿司�

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 1年存10万太容易!35岁女生晒在字节跳动一天花销上热搜:福利好到让网友羡慕

    国内互联网大厂的福利有多好,近日35岁女生晒在字节跳动一天花销被挤上了热搜。 从这位女生分享的视频可以看到,除了自己早上去公司乘坐的地铁(4元)和买的2瓶饮料(2.7元)外,一天基本没有花钱的地方。 这位女生期间早、中、晚三顿的餐食都是公司提供,不但种类繁多,而且不收取任何费用,看得让人羡慕不已。

  • 高二男生高考数学满分 被中科大录取:数学课都坐第一排

    ​6月25日,湖北高考成绩公布,一位高二学生的亮眼成绩引发关注。湖北省武昌实验中学高二学生亢春泰在高考中数学取得了150分的满分成绩,总分达到608分。值得一提的是,他不仅高考数学满分,中考数学同样斩获满分。 亢春泰在数学学习上展现出了极高的天赋和努力。他曾在全国数学奥赛中荣获银牌,凭借出色的竞赛成绩和学业表现,目前已被中国科学技术大学录取。