首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

谷歌推出ASPIRE框架 让大模型具备自我判断意识

2024-02-07 09:26 · 稿源:站长之家

站长之家(ChinaZ.com)2月7日 消息:谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。

image.png

论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf?ref=maginative.com

具体来说,任务定向微调能够通过使用目标任务的训练数据对模型进行微调,提高其在特定任务上的性能。答案采样则可以生成多个候选答案,并评估其概率分布,以帮助模型判断答案的可靠性。自我评估学习则通过学习自我评估能力,让模型能够更好地区分正确和错误答案,从而提高选择性预测性能。

实验数据显示,ASPIRE在不同数据集上均表现出了良好的性能。例如,在CoQA数据集上,ASPIRE框架将答案的准确性提升了,并且能够减少错误答案的生成;在TriviaQA数据集上,通过设置选择性分数阈值,ASPIRE能够更准确地判断出哪些问题的答案不可靠,从而避免生成错误答案;在Natural Questions数据集上,ASPIRE成功降低了错误答案的比例,提高了答案的质量。这些实验证明了ASPIRE框架的高效性和可行性,为大型语言模型的应用提供了重要的支持和保障。

ASPIRE框架的推出填补了大型语言模型在置信度校准方面的空白,为其在实际应用中的稳定性和准确性提供了有力保障。随着这一框架的不断完善和应用,相信大型语言模型在各个领域的表现将会更加出色,为人们带来更好的体验和服务。

举报

  • 相关推荐
  • 合合信息发布“大模型加速器 2.0”,助力大模型跨越“幻觉”障碍

    近日,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,凭借其多维度升级,为降低大模型“幻觉”风险、推动大模型精准应用提供了强大助力。训练数据是影响大模型“认知能力”的关键,合合信息“大模型加速器 2.0”基于领先的智能文档处理技术,从数据源头入手,对复杂文档的版式、布局和元素进行精准解析及结构化处理,

  • 易鑫宣布年内推出汽车金融行业首个Agentic大模型

    4 月15日,易鑫(02858.HK)在香港举行的“2 025 世界互联网大会亚太峰会”上宣布,将于年内推出汽车金融行业首个Agentic大模型。该模型通过自主决策智能体深度结合汽车金融场景需求,有望从根本上解决行业中长期存在的效率瓶颈和痛点。易鑫首席AI科学家、高级副总裁张磊现场演讲易鑫首席AI科学家、高级副总裁张磊在大会“人工智能大模型论坛”做主题演讲时,发布了这�

  • 奔驰新款CLA接入豆包大模型

    4月22日,奔驰与火山引擎合作的首款国产纯电车型CLA全球首发亮相。该车搭载奔驰自研MB.OS架构,接入火山引擎大模型,支持个性化智能交互体验。智能系统可识别4种情绪并给予反馈,交互效率提升50%,唤醒仅需0.2秒。虚拟助手能解答百科问题并协助车辆功能设置。这是双方继2024年8月达成AI战略合作后落地的首款量产车型,结合生成式AI和大数据技术,为中国用户打造更智能的用车体验。

  • 迅雷一键即可完成大模型下载

    近日,迅雷为提升用户使用体验,让用户能够更快更好地批量下载大模型所有文件,已针对大模型下载场景进行了优化,并上线了新版本插件,下载迅雷客户端且在浏览器安装迅雷插件即可使用。值得一提的是,在使用迅雷该插件功能创建任务时,将同时创建相对应的文件夹,下载完成后,所有文件都将在一个文件夹中,相比传统浏览器——需要用户逐个手动点击下载图标并�

  • 九为健康联合华为云发布神农中医大模型智能体,解码如何用大模型重构“望闻问切”

    2025 年 4 月 11 日,在华为云生态大会上,浙江九为健康科技股份有限公司(以下简称"九为健康")正式发布基于华为云盘古大模型的"九为神农中医大模型智能体"。该解决方案依托AI技术,系统性攻克中医药研发周期长、作用机制解析困难、个性化方案制定复杂等产业难题,通过智能化手段推动中医药现代化进程,为医药全产业链提供覆盖研发、诊疗及健康管理的全流程智能服�

  • 微信,OpenAI和Kimi想一起去了:大模型的尽头依然还是社交平台

    AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。近期的传闻和动作颇具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,据称正内部测试类X的社交功能,其CEO Sam Altman甚至在私下征求反馈;而在国内,凭借长文本能力

  • 大模型时代的智能营销,从“玩具”到“工具箱”

    百度在Create大会上强调AI应用创造真正价值,发布智能营销一体化应用"客悦·ONE"。李彦宏指出,没有应用场景的芯片和模型毫无价值。百度智能云升级后整合文心、DeepSeek等大模型能力,实现从数据洞察到智慧触达的闭环营销体系。该产品在金融等行业已落地见效,自助解决率达93%以上,支持多模态交互和全渠道管理。百度通过全栈自研AI架构降低开发成本,推动行业智能化转型。

  • 大模型到AI基础设施,商汤的反向求解

    大模型落地如火如荼,从上一代AI浪潮中杀出来的商汤,嗅到了这里面新的机会。在最火的具身智能赛道,这两年诞生了许多明星创业公司。这些创业公司的创始人往往拥有技术明星的光环,不少都是在学术界中某个技术领域中响当当的领头人。这些初创公司虽然在某一个单点技术上遥遥领先(大脑、小脑或者本体),但在机器人落地过程中,要突破从单一技术到整体复杂产品

  • 何小鹏:我们要成为物理世界大模型第一名

    快科技4月14日消息,今晚小鹏汽车创始人何小鹏发文称,我们的目标是成为物理世界大模型的第一名,推动汽车,机器人,飞行汽车领域的巨大变化。”今天,小鹏在香港举办AI技术分享会,首次披露正在研发720亿参数的超大规模自动驾驶大模型,也即小鹏世界基座模型”。未来,小鹏将通过云端蒸馏小模型的方式将基模部署到车端,给AI汽车”配备全新的大脑。小鹏世界基座�

  • 大模型时代的新燃料|标贝科技推出大规模拟真多风格语音合成数据集

    本文探讨了人工智能语音交互领域的发展现状与挑战。文章指出,大模型技术驱动下语音交互应用场景持续拓展,但面临数据质量、隐私合规等挑战。当前语音大模型训练需要TB至PB级数据,而传统数据供给模式难以满足需求。合成数据作为真实数据的重要补充,能通过参数化生成机制规避隐私风险,突破传统数据在多样性和场景覆盖上的局限性。国内外科技企业已开始广泛应用合成数据训练AI模型,如Meta的LLaMA3和微软的Phi-4模型。标贝科技推出超大规模拟真多风格语音合成数据集,包含上万小时数据,覆盖中英混合场景,支持情感合成、风格迁移等前沿任务,为虚拟偶像、数字人等元宇宙场景提供实时语音生成方案。该数据集基于32kHz高保真采样率技术,在自然度、流畅度等方面达到行业领先水平。