新视角！研究发现：大语言模型通过阅读文档学会使用工具

2023-08-07 11:09 · 稿源：站长之家

本文概要:

1. 研究发现，语言模型通过阅读文档成功学会使用工具，甚至能够发明新的方法。

2. 使用文档训练的模型在零样本性能上与仅使用演示训练的模型相当甚至更好。

3. 通过阅读文档，语言模型可以学习复杂的图像处理和视频跟踪功能。

站长之家（ChinaZ.com）8月7日消息:根据一篇新的研究论文，语言模型可以通过阅读工具和API文档来学习使用工具，并在某些情况下甚至发明新的方法。与传统的通过演示训练的方法相比，仅使用文档的模型在零样本性能上表现相当或更好。

该团队使用文档和演示对六种不同任务的多个模型进行了训练，并比较了它们的性能。仅使用文档，零样本性能等于或优于仅从演示中学习的模型。然后，在扩展到包含200个工具的数据集后，第一个模型的性能显着优于第二个模型。

在图像处理领域，该模型能够通过学习新的、最先进的图像处理模块的文档来执行复杂的图像处理和视频跟踪功能，而无需进一步演示。该团队特别强调，该模型能够重现最近发布的图像处理技术，例如 Grounded-SAM 和 Track Anything 的视频跟踪，展示了该方法在自动知识发现方面的潜力。

论文指出:“总的来说，我们通过关注LLM的内部规划和文档推理能力，而不是通过演示明确指导他们的行为，揭示了LLM使用工具的新视角。”

这项研究揭示了阅读文档对于语言模型学习工具使用的重要性，以及文档对于扩展和自动知识发现的潜力。

（举报）

相关推荐

关键词：

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
荐张艺兴×全红婵集体打call！最嗨音乐班凭啥让明星排队合拍?

最近，抖音上一个“音乐班”的视频突然爆火，原因无他——张艺兴和全红婵竟然同框打call了! 一个是国民级偶像，一个是奥运跳水冠军，看似毫无交集的两人，却在和同一个短视频合拍，为这段节奏感炸裂的音乐班表演疯狂喊麦。

抖音张艺兴全红婵
Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

2025年11月11日，舒尔全新会议音频解决方案IntelliMix™ Room套件在微软北京创新中心完成安装并投入使用。该方案专为现代会议室设计，提供一站式高品质音频服务，集成卓越音质、简易设置及强大云管理能力。通过微软Teams认证，无缝接入MTR生态系统，支持端到端加密通信，确保会议安全。用户可远程管理系统，降低运维成本。舒尔与微软合作，共同提升企业协作效率，首批体验用户反馈语音清晰流畅，显著优化沟通质量。

Shure IntelliMix Room
活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

葡萄城自主研发的活字格低代码开发平台近日通过中国信息通信研究院“智能体平台”能力专项测试，成为首批完成测试的企业。该平台凭借All-in-One智能体开发架构，覆盖数据管理、模型接入、插件开发等八大能力域，具备强集成、高安全、易扩展特性。测试结果显示其AI开发能力达行业认可水平，可为企业提供低门槛智能体落地解决方案，已在制造、政务、医疗等领域深度应用，助力企业数字化转型。

智能体平台低代码开发企业数字化
小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
从巴别鱼到技术突围：W4Pro以体验领先定义跨语言沟通新标杆

时空壶W4Pro开放式AI同传耳机通过技术创新，将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破：响应延迟仅0.2秒，较行业平均提速75%；翻译延迟控制在3秒内，实测平均2.8秒，较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案，在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译，覆盖全球98%主流区域，新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流，打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用，综合续航达18小时，开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点，推动行业向"无感沟通"迈进。

跨语言沟通 AI同传耳机技术创新
百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

2025年11月13日，百度发布“百度猎户座”AI引擎，全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力，基于多智能体架构统一连接信息、工具、服务与模型，融合搜索技术优势与全网MCP生态资源。即日起对外开放，支持企业快速接入打造专属AI应用。同时，文心助手上线个性化记忆功能，视频生成推出“参考生成”玩法，AI短剧创作平台免费提供超30万部IP资源及全流程工具。

百度猎户座 AI引擎搜索技术
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

本期AI日报聚焦多项技术突破：World Labs推出Marble 3D模型，实现多模态生成可交互虚拟世界；OpenAI在韩新试点ChatGPT群聊功能，支持多人协作互动；苹果更新隐私政策，要求第三方AI调用需明示授权；百度发布多模态助手“超能小度”，支持空间感知与设备免费升级；LinkedIn推出AI人脉搜索，通过自然语言精准匹配专业人士；Cursor完成23亿美元融资，估值达293亿；Character AI与耶鲁合作实现音画同步技术Ovi；Google NotebookLM上线深度研究工具，支持多格式文件分析与知识库构建。

AI 3D虚拟世界多模态输入
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核

今日大家都在搜的词：

热文

3 天
7天

新视角！研究发现：大语言模型通过阅读文档学会使用工具

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

荐张艺兴×全红婵集体打call！最嗨音乐班凭啥让明星排队合拍?

Shure IntelliMix™ Room 会议套装正式入驻微软中国创新中心 Shure与微软开启声智体验之旅

活字格通过信通院智能体专项测试，以All-in-One能力加速企业AI落地

小米超级小爱AI大模型推出随心修图功能

从巴别鱼到技术突围：W4Pro以体验领先定义跨语言沟通新标杆

百度搜索推出“百度猎户座”AI引擎，涵盖基座模型、搜索AI API、 MCP、垂类优势能力

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

荐AI日报：李飞飞Marble 3D世界模型公测；OpenAI首次推出ChatGPT群聊功能；百度发布多模态 AI助手超能小度

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

今日大家都在搜的词：

热文

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

小米超级小爱AI大模型推出随心修图功能

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

影视飓风CEO在相亲角被大妈吐槽网友：大妈不识货

腾讯发布2025第三季度财报：营收1928.69亿元同比增长 15%

雷军回应小米双11战绩：谢谢大家支持

小米澎湃OS 3第三批正式版推送：支持小米14、K70系列等

卢伟冰：小米手机双11连续三年国产销量第一

95岁巴菲特每周还上5天班此前计划年底退休

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

荣耀500系列官宣：超级标准版+超级Pro版

AI日报：百度发布文心5.0；可灵2.5Turbo模型上线“首尾帧”功能

站长商机

新视角！ 研究发现：大语言模型通过阅读文档学会使用工具

今日大家都在搜的词：

热文

站长商机

新视角！研究发现：大语言模型通过阅读文档学会使用工具