首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

UCLA推出Chameleon框架 大模型表格数学推理准确率达98.78%

2023-12-12 14:32 · 稿源:站长之家

要点:

  • UCLA推出Chameleon框架,通过多工具融合,包括LLMs、视觉模型、搜索引擎等,解决大型语言模型在实时信息获取和精确数学推理上的不足,在表格数学推理任务上达到98.78%准确率。

  • Chameleon框架核心在于LLM规划器生成自然语言程序,通过灵活组合多工具,如科学问答任务中以86.54%准确率超越现有模型,在表格数学推理任务中更是达到惊人的98.78%准确率。

  • Chameleon模型的灵感来源于变色龙,象征着大型语言模型在执行外部工具组合推理任务时的多功能性和适应性,引起广泛关注并获得学术认可。

站长之家(ChinaZ.com)12月12日 消息:在NeurIPS2023上,UCLA等机构发布的Chameleon框架吸引了广泛关注。该框架通过融合多种工具,包括LLMs、视觉模型、搜索引擎、Python功能及基于规则的模块,解决了大型语言模型在实时信息获取和数学推理方面的不足。

Chameleon的核心在于通过LLM规划器生成自然语言程序,找到最佳工具组合,以达到精确推理的目的。该框架在科学问答任务和表格数学推理任务上表现卓越,特别是在表格数学推理任务上,准确率达到了惊人的98.78%。

image.png

项目地址:https://chameleon-llm.github.io/

Chameleon的灵感来源于变色龙,象征着大型语言模型在执行外部工具组合推理任务时的多功能性和适应性。与其他工作相比,Chameleon在工具多样性和调用灵活性方面具有显著优势。

其工具箱支持LLM模型、视觉模型、网络搜索引擎、Python函数以及基于规则的模块,实现了多种工具之间的自然语言通信。相较于现有工作,Chameleon模型允许以类似自然语言的方式生成不同工具的调用组合,无需复杂的程序设计,增加了用户友好性。

Chameleon模型由工具箱和LLM规划器构成,工具箱包含各种技能的工具,如图像理解、知识理解、数学推理、表格推理和问答。LLM规划器基于大型语言模型,通过提示学习和语境学习能力,生成自然语言形式的程序,从而实现对工具箱中的工具进行组合和调用。Chameleon模型的评测表现在多模态推理任务上进行,如科学问答和表格数学推理,取得了令人瞩目的成绩。

Chameleon框架在多工具融合、自然语言程序生成和多模态推理任务上展现出卓越的性能,为大型语言模型在复杂任务中的应用提供了新的思路和解决方案。其灵活性、适应性和用户友好性使其在学术界和开发者社区中受到瞩目。

举报

  • 相关推荐
  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • 百川开源最新医疗大模型,中国力量领跑医疗AI赛道

    专注医疗后,百川智能交出第一份答卷! 8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

  • AI应用太烧钱?我们用一款精准的AI大模型费用计算器做出了清晰预算

    初创团队“智询未来”在开发AI问答应用时面临核心模型选择困境:GPT-4-turbo能力强但价高,Claude-3长文本处理优,Llama-3成本低但性能稍弱。通过AIbase成本计算器精准测算,发现Claude-3-Sonnet性价比最优,每月可省近4000元,还能通过优化提示词进一步降本15%。数据驱动的决策让团队将节省预算投入数据安全和提示词优化,凸显成本测算对初创企业技术选型的重要性。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • 如何快速精准计算AI大模型费用?试试这个三步完成的免费工具!

    文章讲述AI项目预算失控的普遍现象:李工团队因手动计算GPT-4等大模型调用成本复杂,最终预算比实际支出少25%。行业调查显示73%团队曾因模型成本失控被迫调整项目。AIbase推出三步极速成本计算器解决痛点:1)集成50+主流大模型参数库;2)用自然语言描述需求即可生成预算;3)10秒输出详细成本对比报告。该工具已帮助电商企业节省40%预算,其优势在于实时追踪官方定价、智能匹配场景规则、自动生成多模型对比报告,让晦涩的token计价变得直观透明。目前已有超12万开发者使用该工具优化AI项目成本。

  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • 独家消息:天玑9500 AI算力翻倍,大模型响应速度更快了

    联发科天玑9500完成NPU架构升级,首次引入全新IP硬件。采用“存算一体”高效设计,AI策略从拼性能转向追求均衡能效比。终端AI落地能力增强,旗舰芯片算力提升让手机可运行更聪明的大模型,响应更迅速。日常AI功能如图像处理、视频生成、文本创作等响应更快效果更好。“存算一体”技术通过就地计算降低功耗,减少数据传输更节能。手机AI技术正从“实验室性能”向“用户体验”过渡,算力提升带来更广泛AI应用场景,能效优化保障日常使用稳定性,整体提升手机AI实用价值。

  • 聚焦制造业智能化转型 中国科学技术大学依托昇腾突破知识增强大模型关键技术

    中国科学技术大学宋骞团队基于昇腾平台开发了工业知识图谱构建框架和大模型增强推理技术。该研究通过融合领域小模型与大语言模型,构建了"初始识别-知识抽取-知识引导反思"三阶段框架,显著提升了知识抽取准确性。在智能运维系统应用中,团队采用ETL架构处理多模态数据,结合RDF语义网技术构建知识图谱,并研发故障智能预测诊断模块。同时创新性地提出知识增强与过滤框架,利用PLM嵌入空间降低计算负担,有效提升知识增强的灵活性。研究成果显著提升了工业设备智能运维水平,实现了核心技术的自主创新适配,为构建安全高效的现代工业体系提供关键技术支撑。

  • 武大、蚂蚁集团发布新一代遥感大模型:12边型战士

    近日,武汉大学与蚂蚁集团联合发布了新一代语义增强遥感大模型SkySense,堪称12边型战士。 其相关研究成果在国际知名学术期刊《自然机器智能》上在线发表。 当前,遥感基础大模型在复杂动态地球观测场景应用中面临挑战,如多模态遥感影像数据融合性能欠佳、下游任务微调依赖大量数据、对遥感语义信息挖掘不足等。 为攻克这些难题,研究团队基于前期多模态遥感大�

今日大家都在搜的词: