首页 > 业界 > 关键词  > PPTC最新资讯  > 正文

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

2023-11-07 17:41 · 稿源:站长之家

要点:

1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC,以评估大型语言模型在复杂多模态环境中的性能。

2. 评估表明,GPT-4是在创建新PPT文档任务中表现最强的模型,但仍然存在挑战,如错误累积、处理长PPT模板的能力差,以及多模态指令的复杂性。

3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能,但思维树等方法并没有显著改进性能。

站长之家(ChinaZ.com)11月7日 消息:北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC,旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集,挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示,GPT-4在创建新PPT文档任务中表现良好,达到了75%的轮次层面正确率,但仍然面临三个主要挑战。

image.png

项目地址:https://github.com/gydpku/PPTC

首先,错误累积导致大模型在单元层面的表现不佳。其次,大模型处理长PPT模板的能力有限,导致编辑任务的错误。最后,多模态指令增加了任务的复杂性,特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法,如计划算法和API选择算法,以提高性能,但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解,同时也提出了未来的挑战和改进方向。

举报

  • 相关推荐
  • 云原生API安全获认可,绿盟科技入选 Gartner®《Hype Cycle™ for APIs, 2025》

    近日,Gartner发布《Hype Cycle™ for APIs,2025》报告,绿盟科技凭借云原生API安全方案入选API威胁防护领域代表厂商。该方案针对云原生环境下的API全流量防护,适配容器化、微服务架构等特性,解决东西向流量防护难题,已在金融行业试点应用,帮助用户构建稳定可靠的云原生API安全防护体系,保障核心业务数据机密性、完整性与可用性。

  • 苹果上架翻新版Apple Pencil Pro售价849元

    今日,苹果在其官方Apple Store线上商店低调上架了翻新版Apple Pencil Pro,定价849元,较新品999元的官方售价优惠150元。值得注意的是,这是自2024年5月该产品首次发布以来,首次登陆苹果官方翻新渠道,且过去一个月已在多个国家陆续上架销售。 苹果官方强调,翻新版Apple Pencil Pro虽为二手商品,但均经过严格的功能测试与检验流程,确保性能与新品无异。用户购买后可享受与新

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • Matrixport 旗下 Cactus Custody 与 OnChain 合作,完成招银国际美元货币市场基金化上链

    新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作,将招商国际美元货币市场基金以化形式上链运营,成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点,通过链上净值计算、白名单管理等机制,为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作,推动RWA标准化发展。

  • OpenAI发布语音模型GPT-realtim:具备情感感知能力 多语言无缝切换

    OpenAI正式发布语音模型GPT-realtime。 据介绍,GPT-realtime是一款专注于语音AI Agent的多模态模型,能够生成高度自然流畅的语音,精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解,并可结合语音或文本对话使用,非常适合应用于客服、教育、金融、医疗等领域,用于构建高质量的语音智能体。 官方表示,新模型在复杂指令遵循、工具精确调用以及生成更自然、�

  • 百度APP发布AI星河计划,构建AIGC创作者全方位扶持体系

    8月29日,百度AIGC未来创作联赛颁奖典礼在京举行,活动汇聚众多高质量AIGC作品与优秀创作者。百度发布“AI星河计划”,投入亿级流量和千万现金补贴,通过流量扶持、涨粉加速、分成翻倍、多元变现等手段,构建全方位创作者专属成长扶持体系。该计划根据作者AI技术与内容创作能力区分4档创作者,提供定制化支持套餐,最高可享亿级流量池和3倍分成补贴。百度APP依托月活7.35亿流量池与技术优势,已成为AIGC内容平台市场头部玩家,期待与更多优秀创作者共建未来内容生态。

  • Matrixport 受邀出席 Bitcoin Asia 2025,共议机构投资新趋势

    Bitcoin Asia 2025峰会将于8月28-29日在香港举行,由BTC Media主办。预计吸引超1.5万名与会者,涵盖主题演讲、圆桌讨论及展览等活动,突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会,并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台,将持续推动资产数字化及Web3基础设施落地,助力行业创新与发展。

  • OpenAI CEO:GPT-6将具备个性化记忆 记住用户偏好习惯

    OpenAI的首席执行官萨姆奥尔特曼(Sam Altman)在近日的一次专访中,透露了下一代大模GPT-6的最新进展。他表示,GPT-6 的开发正在积极推进中,其发布节奏将比从GPT-4到GPT-5的周期更快。 奥尔特曼特别强调,GPT-6将不再局限于单纯回答问题,而是朝着与用户深度适配”的方向演进。他举例描述

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 酷睿 Ultra 赋能 AIPC 轻薄本:不止性能飞跃,更懂用户需求的智能新体验

    AI技术正从实验室走向日常生活,AIPC(人工智能个人计算机)成为满足用户多元化需求的关键载体。英特尔酷睿Ultra处理器凭借先进技术布局,突破传统轻薄本性能瓶颈,实现高效多任务处理与强大AI算力融合。华硕灵耀14Air等产品以性能与体验双优特质脱颖而出,不仅提升办公创作效率,更重新定义轻薄本的使用价值。随着技术迭代与生态完善,AIPC正从“小众尝鲜”走向“大众普及”,智能体验将成为未来轻薄本的标准配置。

今日大家都在搜的词: