中国研究人员推ControlLLM框架：提升大语言模型处理多模态任务能力

2023-11-08 09:58 · 稿源：站长之家

🔍划重点:
研究人员提出了ControlLLM，旨在增强LLMs的效果
LLMs通过外部工具获取信息，减少幻觉，并实现多模态交互
努力培养具有固有多模态能力的LLMs，扩大其适用范围

站长之家（ChinaZ.com）11月8日消息:中国的研究人员近期提出了一项名为ControlLLM的创新框架，旨在增强大型语言模型（LLMs）在处理复杂的现实任务时的表现。尽管LLMs在处理自主代理的规划、推理和决策方面已经取得了显著进展，但在某些情况下，由于用户提示不清晰、工具选择错误以及参数设置和调度不足，它们可能需要辅助工具。

这项研究还探讨了通过外部工具增强LLMs的方法，以获取当前信息、减少幻觉并实现多模态交互。工具增强型LLMs借助LLMs的零-shot或少-shot上下文学习，可以处理任务分解、工具选择和参数完成，而无需显式微调。然而，幻觉和有效分解等挑战仍然存在，因此研究人员正在致力于培养具有固有多模态能力的LLMs，以扩大其适用范围，以适应更复杂的现实场景。

LLMs已经在自然语言理解方面展示出了卓越的能力，现在它们正在将这些能力扩展到包括图像、视频、音频等多模态交互中。通过整合工具，LLMs可以处理更复杂的任务，但需要解决任务分解、工具选择、参数分配以及高效执行调度等挑战。以往的方法，如“Chain-of-Thought”、 “Tree-of-Thought” 和“self-consistency”，通过将复杂任务分解成较小的子任务来解决这些挑战。

ControlLLM框架由三个关键组成部分构成:任务分解器、Thoughts-on-Graph方法和多功能执行引擎。任务分解器将复杂的用户提示分解成具有明确定义的子任务，具有不同的输入和输出。Thoughts-on-Graph方法在预定义的工具图上探索最佳解决方案路径，指定工具之间的参数和依赖关系。执行引擎解释这条路径，并在各种计算设备上高效执行操作。

与现有方法相比，ControlLLM框架在准确性、效率和多功能性方面表现出色，尤其在涵盖图像、音频和视频处理等各种任务中表现出色。它在解决具有挑战性的任务时拥有惊人的98%的成功率，超过了最佳基准性能的59%。ControlLLM还显著提高了工具的使用，灵活地推断和分配工具参数。无论是在简单还是复杂的情景中，ControlLLM都能够无缝整合各种信息类型，生成基于执行结果的全面而有意义的回应。

ControlLLM框架赋予LLMs能力，使它们能够利用多模态工具处理复杂的现实任务，提供更高的准确性、效率和适应性。

其组成部分，包括任务分解器、Thoughts-on-Graph方法和多功能执行引擎，共同为工具的利用做出了实质性的改进。ControlLLM通过精湛的工具参数推断和分配以及在解决方案评估中取得高成功率来持续展示其能力。

通过广泛的案例研究，它证实了其任务规划能力，提供了丰富的解决方案，以增强用户体验。ControlLLM整合了各种信息源，以生成基于执行结果的全面而有意义的回应。

项目网址:https://github.com/OpenGVLab/ControlLLM

（举报）

相关推荐

关键词：

苹果自研AI模型难产：改用第三方大语言模型

苹果可能会跟OpenAI或Anthropic合作，双方正在谈判讨论一项潜在交易，苹果希望调用OpenAI或Anthropic的第三方大语言模型来为Siri提供技术支持。据悉，OpenAI或Anthropic正在训练适配苹果私有云计算服务器的模型，苹果也在进行测试，目前苹果发现Anthropic的AI模型最适合Siri，且与Anthropic初步讨论了一些财务条款，消息称Anthropic要求苹果每年支付数十亿美元的费用，且该费用会随时间�

苹果 Siri OpenAI
OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

OpenAI推出突破性的o3推理模型，首次实现图像直接融入推理过程，在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级，上下文窗口从12K扩展至23K，幻觉率降低45%-50%。行业呈现开源趋势，DeepSeek开源策略促使多家企业跟进，OpenAI也考虑开源。微美全息加速布局多模态大模型，计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进，开源技术显著降低训练门槛，提升泛化能力，为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇，在大模型驱动的新时代找准定位。

OpenAI o3模型多模态推理
算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

6月21日，东信云与华为云在HDC2025大会上签署合作协议，双方将基于昇腾AI云服务深化合作，重点布局多模态大模型应用与数字人技术。合作内容包括：1）构建智能营销系统，整合文本、图像、视频等多元数据，提升市场分析和消费者行为预测能力；2）通过大模型实现营销内容自动化生成，包括新闻稿、社交媒体帖子和广告文案；3）优化大模型架构，提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人，显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统，推动营销行业智能化升级。

华为云东信云科技 AI与大数据
AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

6月6日，浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品，它搭载行业首创AI多模态万物原生跟拍技术，支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统，折叠后体积小巧便携。配备22英寸触控彩屏，支持5米手势控制和隔空补光功能。售价999元起，同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年，产�

hohem 浩瀚V3 Ultra
Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

Meta正与AI初创企业Scale AI洽谈数十亿美元投资，估值或超100亿美元，有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务，是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资，标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心，2024年将投入650亿美元推进相关项目，重点打造Llama模型成为行业标准。同时，谷歌推出Gemini助手"计划操作"新功能，支持任务自动化管理。科技巨头纷纷重金布局AI，微软向OpenAI注资逾130亿美元，亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命，微美全息等企业正通过技术创新赋能产业转型，共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

Meta投资 Scale AI
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人，以及学术界的人大和MIT（麻省�

多模态大模型智源大会2025 人工智能技术
ColorOS陈希评iOS 26：缺席的AI是最大短板

ColorOS设计总监陈希发文指出，iOS 26的最大短板依然是缺席的AI，但UI设计更新较大。此前在去年的WWDC开发者大会上，苹果大肆宣传Apple Intelligence，不过从后续iOS 18的一系列更新来看，苹果在AI方面的表现并不成功，尤其是国行版，进度缓慢。因此，在今年的WWDC大会上，关于AI的升级内容并不算很多，苹果软件工程高级副总Craig Federighi承认，Siri的AI功能短期内不会推出，因为�

iOS 26 AI短板
华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

6月20日，华为发布盘古大模型5.5，五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构，能跨行业处理表格数据、时间序列数据和图片数据，显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用：海螺水泥实现熟料强度预测，宝武钢铁高炉出铁温度合格率超90%，云南铝业年省电2600万度，天津供热能耗降低10%。模型聚焦工业领域，通过工艺优化和系统寻优，助力企业降本增效，推动行业智能化转型。

华为盘古大模型云计算
苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

AI 的“推理能力”或许远没有我们想象中的那么强……

苹果AI AI模型 AI推理能力

热文

3 天
7天

中国研究人员推ControlLLM框架：提升大语言模型处理多模态任务能力

苹果自研AI模型难产：改用第三方大语言模型

OpenAI 提升o3多模态模型推理实力，微美全息（WIMI.US）加速引领产业新变革征程

算力赋能营销革新，东信云与华为云签约共建多模态大模型应用标杆

AI触控云台浩瀚V3 Ultra发布，首发AI多模态追踪模块，定义手机云台轻旗舰标准！

Meta拟百亿美元投资Scale AI，微美全息（WIMI.US）端侧多模态AI加速开启科技新局

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

荐多模态2025：技术路线“神仙打架”，视频生成冲上云霄

ColorOS陈希评iOS 26：缺席的AI是最大短板

华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

苹果研究发现：AI 模型在遇到复杂难题时会“崩溃放弃”

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米股票上热搜：盘中股价突破60港元创历史新高

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

小鹏G7官宣7月3日发布全球首款L3级算力车型

荣耀正式启动A股IPO 获上市辅导备案

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

站长商机