北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

2023-11-07 17:41 · 稿源：站长之家

要点:
1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC，以评估大型语言模型在复杂多模态环境中的性能。
2. 评估表明，GPT-4是在创建新PPT文档任务中表现最强的模型，但仍然存在挑战，如错误累积、处理长PPT模板的能力差，以及多模态指令的复杂性。
3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能，但思维树等方法并没有显著改进性能。

站长之家（ChinaZ.com）11月7日消息:北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表现良好，达到了75%的轮次层面正确率，但仍然面临三个主要挑战。

项目地址:https://github.com/gydpku/PPTC

首先，错误累积导致大模型在单元层面的表现不佳。其次，大模型处理长PPT模板的能力有限，导致编辑任务的错误。最后，多模态指令增加了任务的复杂性，特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法，如计划算法和API选择算法，以提高性能，但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。

（举报）

相关推荐

关键词：

PPTC

云原生API安全获认可，绿盟科技入选 Gartner®《Hype Cycle™ for APIs, 2025》

近日，Gartner发布《Hype Cycle™ for APIs，2025》报告，绿盟科技凭借云原生API安全方案入选API威胁防护领域代表厂商。该方案针对云原生环境下的API全流量防护，适配容器化、微服务架构等特性，解决东西向流量防护难题，已在金融行业试点应用，帮助用户构建稳定可靠的云原生API安全防护体系，保障核心业务数据机密性、完整性与可用性。

API安全云原生绿盟科技
苹果上架翻新版Apple Pencil Pro售价849元

今日，苹果在其官方Apple Store线上商店低调上架了翻新版Apple Pencil Pro，定价849元，较新品999元的官方售价优惠150元。值得注意的是，这是自2024年5月该产品首次发布以来，首次登陆苹果官方翻新渠道，且过去一个月已在多个国家陆续上架销售。苹果官方强调，翻新版Apple Pencil Pro虽为二手商品，但均经过严格的功能测试与检验流程，确保性能与新品无异。用户购买后可享受与新

Apple Pencil Pro
荐中国UP主成为不了MrBeast

影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”，无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间，全平台总观看量超过两亿，弹幕数以百万计，甚至带动了直播带货的即时转化。从数据到热搜，此次直播堪称完美演绎了“爆款”的逻辑。质疑声同样随之而来:这场直播与其说是“荒岛生存”，不如说是“带电度假”;也评论认为，它

影视飓风荒岛直播 B站直播
Matrixport 旗下 Cactus Custody 与 OnChain 合作，完成招银国际美元货币市场基金化上链

新加坡Matrixport旗下合规数字资产托管商Cactus Custody与OnChain合作，将招商国际美元货币市场基金以化形式上链运营，成为全球首只港新互认基金上链案例。该合作解决市场缺乏可审计、可托管的现金类资产等痛点，通过链上净值计算、白名单管理等机制，为机构与合格投资者提供透明、合规的链上投资选项。未来双方将持续深化合作，推动RWA标准化发展。

数字资产托管 RWA上链港新互认基金
OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

OpenAI正式发布语音模型GPT-realtime。据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、�

语音模型 GPT-realtime 多模态模型
百度APP发布AI星河计划，构建AIGC创作者全方位扶持体系

8月29日，百度AIGC未来创作联赛颁奖典礼在京举行，活动汇聚众多高质量AIGC作品与优秀创作者。百度发布“AI星河计划”，投入亿级流量和千万现金补贴，通过流量扶持、涨粉加速、分成翻倍、多元变现等手段，构建全方位创作者专属成长扶持体系。该计划根据作者AI技术与内容创作能力区分4档创作者，提供定制化支持套餐，最高可享亿级流量池和3倍分成补贴。百度APP依托月活7.35亿流量池与技术优势，已成为AIGC内容平台市场头部玩家，期待与更多优秀创作者共建未来内容生态。

AIGC 百度APP AI星河计划
Matrixport 受邀出席 Bitcoin Asia 2025，共议机构投资新趋势

Bitcoin Asia 2025峰会将于8月28-29日在香港举行，由BTC Media主办。预计吸引超1.5万名与会者，涵盖主题演讲、圆桌讨论及展览等活动，突显香港在全球数字资产领域的战略地位。会议将探讨亚太市场潜力、机构化进程及多元化投资机会，并邀请200余位全球重量级嘉宾参与。Matrixport作为亚洲领先加密金融服务平台，将持续推动资产数字化及Web3基础设施落地，助力行业创新与发展。

Bitcoin Asia2025 数字资产
OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

OpenAI的首席执行官萨姆奥尔特曼（Sam Altman）在近日的一次专访中，透露了下一代大模GPT-6的最新进展。他表示，GPT-6 的开发正在积极推进中，其发布节奏将比从GPT-4到GPT-5的周期更快。奥尔特曼特别强调，GPT-6将不再局限于单纯回答问题，而是朝着与用户深度适配”的方向演进。他举例描述

GPT-6 OpenAI 萨姆奥尔特曼
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
酷睿 Ultra 赋能 AIPC 轻薄本：不止性能飞跃，更懂用户需求的智能新体验

AI技术正从实验室走向日常生活，AIPC（人工智能个人计算机）成为满足用户多元化需求的关键载体。英特尔酷睿Ultra处理器凭借先进技术布局，突破传统轻薄本性能瓶颈，实现高效多任务处理与强大AI算力融合。华硕灵耀14Air等产品以性能与体验双优特质脱颖而出，不仅提升办公创作效率，更重新定义轻薄本的使用价值。随着技术迭代与生态完善，AIPC正从“小众尝鲜”走向“大众普及”，智能体验将成为未来轻薄本的标准配置。

AIPC 人工智能酷睿Ultra

今日大家都在搜的词：

热文

3 天
7天

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

云原生API安全获认可，绿盟科技入选 Gartner®《Hype Cycle™ for APIs, 2025》

苹果上架翻新版Apple Pencil Pro售价849元

荐中国UP主成为不了MrBeast

Matrixport 旗下 Cactus Custody 与 OnChain 合作，完成招银国际美元货币市场基金化上链

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

百度APP发布AI星河计划，构建AIGC创作者全方位扶持体系

Matrixport 受邀出席 Bitcoin Asia 2025，共议机构投资新趋势

OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

酷睿 Ultra 赋能 AIPC 轻薄本：不止性能飞跃，更懂用户需求的智能新体验

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

小米汽车8月交付量超3万台全年交付量有望冲击42万

抖音升级AI内容标识功能上线两项核心功能

零跑汽车8月交付57066台增长超88%

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果上架翻新版Apple Pencil Pro售价849元

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

realme真我15000mAh电池容量手机亮相

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为三折叠屏手机Mate XTs非凡大师上架开启预约

站长商机