首页 > 业界 > 关键词  > OneChart最新资讯  > 正文

OneChart:仅2亿参数,专门用于图表信息结构化提取

2024-04-22 10:06 · 稿源:站长之家

划重点:

🔍 提出了一种新的工具 OneChart,旨在解决图表结构提取中的挑战。

📊 引入了一种辅助标记,通过它提升了数值部分的文本输出。

🏆 OneChart 在图表结构提取任务中取得了最先进的性能表现。

站长之家(ChinaZ.com)4月22日 消息:在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉 - 语言模型(LVLMs)也难以令人满意地处理此类任务。

为了解决这一问题,研究团队提出了一种可靠的工具 OneChart,专门用于图表的结构提取。它捕获了图表标题、来源和对齐的数值数据等重要组成部分,并将它们输出为 Python 字典格式,可以有效地促进下游图表推理任务。

image.png

为了增强文本输出中的数值部分,研究团队引入了一个辅助标记以及一个额外的解码器。这个辅助标记允许后续的文本标记通过因果关注来捕获增强的数值特征。此外,借助一个辅助标记,他们设计了一个可靠的检查机制,在推断过程中通过提供生成内容的自一致性距离来确保输出的可信度。

此外,研究团队还提出了一个大规模的图表转换为字典的基准测试。这些图表涵盖了广泛的主题和类型,并包括英语和中文内容。实验证明,尽管只有2亿 参数,OneChart 在结构提取方面实现了最先进的性能。在缺乏数值标注的图表中,与次优方法相比,其平均精度(AP)提高了19.1% ~29.4%。作为图表解析代理,它还为下游的 ChartQA 基准测试带来了11.2% 的准确率增益,对于 LLaVA-1.6和 LLaVA-1.5分别提高了32.6% 和11.2%。

在传统的图表问答基准测试中,通常局限于从图表中查询小的、孤立的信息片段,例如单个数值,这可能无法有效地衡量模型提取和理解图表中呈现的全部数据的能力。相比之下,OneChart 旨在建立一个以结构提取(SE)任务为中心的基准测试,直接评估模型将图表图像转换为结构化 Python 字典表示的准确性。它包括五个数据集部分,其中一个是 ChartY-zh(2,048个样本),其他是 ChartQA-SE(1,509个样本)、PlotQA-SE(33,657个样本)、ChartX-SE(2,360个样本)、ChartY-en(4,000个样本)。

image.png

研究团队提出的 OneChart 在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。

产品入口:https://top.aibase.com/tool/onechart

举报

  • 相关推荐
  • 大家在看
  • 腾讯把12亿用户,都变成了免费的“标注民工”。

    你有没有想过,当你在网上进行简单的验证码操作时,其实你已经无意间成为了一名“标注民工”?昨天晚上,我在登录QQ邮箱和LOL官网的时候。发现腾讯的验证码变了。10年前,就已经是了。

  • 小米15 Ultra影像爆料:2亿超长焦

    小米将会推出一款搭载4.X倍2亿长焦镜头的手机,从目前的各种信息推断,这款手机极有可能就是小米15Ultra。除了这颗令人瞩目的4.X倍2亿长焦镜头,小米15Ultra还将配备四摄镜头系统,并且额外拥有一颗小长焦镜头,真正实现了影像方面的全方位覆盖,让用户在各种拍摄场景下都能不留遗憾。让我们共同期待这款新一代影像旗舰的正式发布,它或许会给我们带来更多意想不到的创新和突破。

  • ChatGPT有多全能,女生用ChatGPT测网恋对象是否谎报身高,误差只有2厘米

    【新智元导读】担心相亲对象谎报身高怎么办?交给ChatGPT!最近小编学到了一组男性身高公式:过5减4,低5取0。一位男性在相亲信息中报身高174,则他的实际身高是170;如果一位男性在相亲信息中报身高179——这个世界上没有179的男生,179一定会报180,他的真实身高应该是175左右。很多投资分析手段技术门槛和专业知识要求非常高,有个AI工具之后,散户们可以通过工具更好地检验

  • 闪耀亮相!itc保伦股份超长异形LED屏等众多高端系统成功应用于侨龙应急数字展厅

    简洁明亮的设计风格超长尺寸的异形LED显示屏沉浸式的智能交互体验……去年7月,由itc保伦股份携手福建侨龙应急装备股份有限公司打造的数字化展厅、智慧会议室集群已全面启用啦~超炫!超酷!超带感!01侨龙应急:数字赋能智慧升级新篇章侨龙应急一家致力于先进应急装备和高效能应急服务的高新技术企业,其自主研发的“龙吸水”系列产品广泛适用于抗洪排涝、消防救火、市政管网维护等场景,成为了政府及企事业应急单位、国家综合性消防救援队伍的重要装备。随着企业版图的持续拓展与业务规模的显著增长,侨龙应急的产品展览展示需求日益多元化,同时对高效会议开展的重要性也愈发凸显。从会前的精心筹备到会中的无缝协作,再到会后的高效管理,itc智慧会议室解决方案贯穿会议全流程管理,打造出智能、高效、安全、环保的现代化办公新纪元,极大提升了企业多会议室集群的资源利用率与会议全流程协作效率,让每一位参会者都能沉浸于全方位、高品质、绿色安全的会议体验中。

  • 淘宝直播“卖空行动”包下源头好物,中秋专场GMV突破2亿

    8月21日,淘宝直播在推出“卖空七夕礼盒”“卖空空调产线”活动后,再次与源头产地、工厂合作,为用户包下月饼工厂、大 牌好酒,包下阳澄湖等8大湖区,让用户享有一件也是直供低价。数据显示,“卖空月饼工厂” 核心品类(月饼、蟹卡、茶叶、酒水)活动周期累计GMV突破2亿,诞生美心月饼等2个千万级爆品,金九五仁月饼等118个百万级爆品,成为今年中秋各品牌商家实

  • B站用户商业价值远超微博!日活1.02亿创造61亿营收

    快科技8月25日消息,根据财报数据,6月微博日活用户数2.56亿,而二季度B站日活用户为1.02亿,还不到微博的一半。但是在业绩上,B站在二季度的营收高达61亿,远超微博的32亿,可谓是两极反转。B站的用户群体以年轻人为主,这一群体不仅在数量上呈现增长趋势,而且用户使用时长也在增加。二季度,B站用户每天平均使用时长为99分钟,比去年同期增加了5分钟,这种增长不仅

  • 三维天地助力疾控机构信息化、数字管理

    2024年4月25日,国卫办职健发〔2024〕12号关于进一步做好医疗机构医用辐射场所辐射监测有关事项的通知,要求定期开展放射诊疗场所放射性危害因素检测和医用辐射场所辐射监测。北京三维天地科技股份有限公司长期专注于实验室数智化建设,在疾控行业深耕多年,拥有众多成功案例。该系统涵盖了从外出采样任务的安排、下载、监测、现场检测定位、数据采集、确认、审核到最终数据上传的完整流程管理。

  • 小米15 Ultra影像首曝:2亿像素潜望 狂暴级堆料

    博主数码闲聊站曝光了小米15Ultra的影像细节,该机测试了两种方案,一种是四摄带2亿像素潜望长焦,长焦型号是三星HP9,物理焦段拉得更长,支持超级望远,整体造型是居中大圆设计。三星ISOCELLHP9是业内首款用于智能手机的2亿像素长焦传感器,采用1/1.4英寸的光学规格,内置了2亿个0.56微米大小的像素。核心配置上,小米15预计采用2K屏幕,搭载高通骁龙8Gen4平台,支持超声波屏幕指纹。

  • 网店挂错价格:被疯抢2亿厨电后关店 老板无力承担损失

    一厨电网店员工发帖称,因为优惠条件设置失误,一夜之间被消费者以低价下单四千多单。涉事网店老板表示,粗略统计实际货物价值约两个亿,由于无法发货,部分消费者要求退款30%或退一赔三,无奈之下只能关店。电商平台要补上技术漏洞,定价审核、交易监督、用户信用纪录等方面值得投入更多精力,为消费者和商家营造更加公平的交易环境。

  • ChinaVis 2024 | 每日互动刘宇谈数据可视和数据价值挖掘

    7月22日-24日,由中国图象图形学学会主办,CSIG可视化与可视分析专委会、香港科技大学承办的第十一届CSIG中国可视化与可视分析大会在香港举行。大会邀请了众多国内外知名专家就相关研究与应用的最新进展进行深度分享和交流。每日互动在面向垂直行业打造的数智产品中也充分融入了可视分析的能力,比如面向品牌营销行业推出的“营销数盘”,不仅能够通过可视化词云图解析和呈现消费者特征提供线下客流分析热力图,帮助品牌客户更加科学地进行门店选址,精细化地进行门店经营;再比如联合生态企业面向交通行业推出的“数智绿波”产品,通过绿波的可视化展现,帮助交通管理部门及时监测道路车流情况,并通过“拖拉拽”的方式快速进行红绿灯管理。

  • Nabubit:数据库设计助手,简化数据库设计、管理和演化。

    Nabubit是一个旨在帮助用户优化数据库设计、管理和演化的在线工具。它提供了上传数据库架构图、可视化数据库结构、以及使用自然语言提问的功能。用户可以从头开始设计数据库,无需担心命名或记住语法。完成设计后,可以将其导出到自己喜爱的数据库或框架中。

  • Otter Script:文档生成平台,快速创建复杂文档。

    Otter Script是一个文档生成平台,它通过自动化技术帮助用户节省时间,将原本需要几天完成的复杂文档工作缩短到几分钟。它简化了工作流程,让用户可以更高效地完成更多任务。

  • BNA:多功能AI超级应用,涵盖社交、电商、娱乐和教育。

    BNA AI Super App是一款集成了多种智能服务的超级应用,它不仅提供社交功能,如分享帖子、写博客、聊天和视频通话,还涵盖了AI电商和娱乐服务。此外,该应用还提供40种语言的AI教学服务,帮助用户学习不同的语言。BNA AI Super App以其强大的AI功能和多语言支持,满足了不同用户群体的需求。

  • Elisi:高效能自主层级式计划助手

    Elisi 是一款旨在帮助用户实现个人成长的终极组织者和指南。它通过直观的设计和用户友好的说明,帮助用户将梦想转化为清晰的结果,分解成可实现的里程碑,并通过AI技术理解并适应用户的个人需求,确保每一天都更有条理和高效。Elisi 致力于提供便捷服务,主要功能套件完全免费。

  • Omi AI:个性化AI助手,记录每一刻,与AI对话获取反馈。

    OMI APP是一个任务驱动的个性化AI助手,旨在通过语音和音频转录功能帮助用户提高记忆力和沟通效率。它是一个开源的AI记事本,提供提醒、建议等功能,同时注重用户隐私。

  • MeowMail:高送达率的AI电子邮件营销工具

    MeowMail是一款集成在Shopify后台的电子邮件营销应用,利用AI技术自动选择最佳发送时间,提高邮件的送达率至98%以上。它支持拖放编辑、从Klaviyo导入邮件列表、使用Beefree编辑器创建新邮件,并通过设定支出限制来管理邮件营销活动。MeowMail还提供企业级支持和自动翻译文本功能,帮助商家以低成本实现高效的邮件营销。

  • Maia 100:微软定制AI加速器,专为大规模AI工作负载设计。

    Maia 100是微软为Azure设计的首款定制AI加速器,专为大规模AI工作负载而打造,通过软硬件的协同优化,实现了性能、可扩展性和灵活性的最大化。它采用了TSMC N5工艺和COWOS-S互连技术,具备高达1.8TB/s的带宽和64GB的容量,支持高达700W的热设计功耗(TDP),但以500W运行,确保了高效的能效比。Maia 100集成了高速张量单元、向量处理器、DMA引擎和硬件信号量,支持多种数据类型和张量切分方案,并通过以太网互连支持大规模AI模型。此外,Maia SDK提供了丰富的组件,支持快速部署PyTorch和Triton模型,并通过双编程模型确保高效的数据处理和同步。

  • LTM:超长上下文模型,革新软件开发

    Magic团队开发的超长上下文模型(LTM)能够处理高达100M tokens的上下文信息,这在AI领域是一个重大突破。该技术主要针对软件开发领域,通过在推理过程中提供大量代码、文档和库的上下文,极大地提升了代码合成的质量和效率。与传统的循环神经网络和状态空间模型相比,LTM模型在存储和检索大量信息方面具有明显优势,能够构建更复杂的逻辑电路。此外,Magic团队还与Google Cloud合作,利用NVIDIA GB200 NVL72构建下一代AI超级计算机,进一步推动模型的推理和训练效率。

  • EZ-work AI文档翻译:智能AI翻译,高效文档语言转换助手。

    EZ-work AI文档翻译是一款专注于文档翻译的在线服务,支持多种语言的翻译,包括中文、英语、日语、俄语、阿拉伯语和西班牙语等。它使用先进的AI技术,如gpt-4o-mini和deepseek-chat模型,为用户提供快速、准确的翻译服务。该产品适用于需要文档翻译的个人和企业,尤其在国际交流和学术研究领域尤为重要。

  • Watson AI:会议助手,自动记录并总结会议要点。

    Watson AI是一款会议助手应用程序,它通过录制系统音频和麦克风来转录和总结会议内容,自动提取行动项和会议摘要,帮助用户更高效地进行会议记录和回顾。

  • PicTech AI: 免费在线AI图片翻译 助力跨境电商

    PicTech AI是由学以致用科技旗下的智能图像工具品牌,专注于为跨境电商提供AI驱动的图片翻译服务。该产品利用人工智能技术,实现高准确率和高清晰度的图片翻译,支持中文、英语到日语、韩语等多国语言的翻译。PicTech AI的智能抠图功能,能够准确检测图片主体边缘,一键去除背景,无需专业编辑。产品背景信息显示,其团队由来自百度、网易、阿里巴巴等行业巨头的顶尖高科技人才组成,具备强大的技术实力和产品能力。该产品定位于帮助跨境电商从业者简化工作流程,提高效率,无需懂外语或图像处理技能即可使用。

  • AnythingLLM:一站式AI应用,支持多种文档和模型。

    AnythingLLM是一个多功能的桌面客户端,支持多种语言模型(LLM)和文档类型,提供完全私密的使用体验。用户可以根据自己的需求选择企业级模型、自定义模型或开源模型,如GPT-4、Llama、Mistral等。产品支持一键安装,本地运行,无需互联网连接,保护用户隐私。

  • 林哥的大模型野榜:更适合中国宝宝体质的大模型产品排行榜

    林哥的大模型野榜是一个专注于中国用户需求的大模型产品排行榜,提供了多维度的评估和排名,帮助用户更好地了解和选择适合的大模型产品。

  • Fluximg.com:AI文本到图像生成器,支持多尺寸和自动翻译。

    Fluximg.com是一个基于Flux模型的AI图像生成网站,提供从文本到图像的转换服务。它支持多种语言,包括中文和英文,并且具有用户友好的界面。网站提供免费和专业版本,使用户能够根据自己的需求选择不同的服务级别。

  • 现代文转古文:将现代汉语转化为古汉语,提升文采。

    现代文转古文是一款能够将现代汉语自动转换为古汉语的模型,它通过先进的自然语言处理技术,使得用户可以轻松地将现代文本转换成具有古典韵味的古文。这种转换不仅能够增加文本的文学价值,还能在教育、文学创作、文化传承等方面发挥重要作用。

  • Zamba2-mini:先进的小型语言模型,专为设备端应用设计。

    Zamba2-mini是由Zyphra Technologies Inc.发布的小型语言模型,专为设备端应用设计。它在保持极小的内存占用(<700MB)的同时,实现了与更大模型相媲美的评估分数和性能。该模型采用了4bit量化技术,具有7倍参数下降的同时保持相同性能的特点。Zamba2-mini在推理效率上表现出色,与Phi3-3.8B等更大模型相比,具有更快的首令牌生成时间、更低的内存开销和更低的生成延迟。此外,该模型的权重已开源发布(Apache 2.0),允许研究人员、开发者和公司利用其能力,推动高效基础模型的边界。

  • InterTrack:无需对象模板的人体与物体交互跟踪技术

    InterTrack 是一种先进的跟踪技术,能够在单目RGB视频中跟踪人体与物体的交互,即使在遮挡和动态运动下也能保持跟踪的连贯性。该技术无需使用任何对象模板,仅通过合成数据训练即可在真实世界视频中实现良好的泛化。InterTrack 通过分解4D跟踪问题为每帧的姿态跟踪和规范形状优化,显著提高了跟踪的准确性和效率。

  • GenWarp:生成新视角的图像,保持语义信息。

    GenWarp是一个用于从单张图像生成新视角图像的模型,它通过语义保持的生成变形框架,使文本到图像的生成模型能够学习在哪里变形和在哪里生成。该模型通过增强交叉视角注意力与自注意力来解决现有方法的局限性,通过条件化生成模型在源视图图像上,并纳入几何变形信号,提高了在不同领域场景下的性能。

  • Qwen2-VL:新一代视觉语言模型,更清晰地看世界。

    Qwen2-VL是一款基于Qwen2打造的最新一代视觉语言模型,具备多语言支持和强大的视觉理解能力,能够处理不同分辨率和长宽比的图片,理解长视频,并可集成到手机、机器人等设备中进行自动操作。它在多个视觉理解基准测试中取得全球领先的表现,尤其在文档理解方面有明显优势。

  • Dressplay:个性化服装生成器,轻松变换你的装扮。

    Dressplay是一个创新的在线服装生成器,允许用户通过简单的步骤生成个性化的服装。它利用先进的图像处理技术,让用户能够选择服装区域、目标人物以及想要穿戴的服装,从而创造出逼真的服装效果。Dressplay背后的技术不仅提高了服装设计的效率,也为用户提供了一种全新的个性化体验。目前,Dressplay提供免费试用,用户可以通过网页访问并体验其功能。

今日大家都在搜的词: