首页 > AI头条  > 正文

告别幻觉!谷歌推新模型DataGemma,统计数据准确率暴涨58%

2024-09-13 09:42 · 来源: AIbase基地

近日,谷歌宣布推出新的开源 AI 模型 DataGemma,旨在解决大语言模型(LLM)在处理统计数据时常出现的 “幻觉” 问题

这种幻觉现象让模型在回答有关数字和统计的问题时,可能会提供不准确的答案。DataGemma 模型的推出,标志着谷歌在 AI 领域的一次重要进展。

问卷调查,数据报告

图源备注:图片由AI生成,图片授权服务商Midjourney

减少统计查询时的幻觉

DataGemma 由两种不同的方法构成,旨在提升回答用户问题时的准确性。这些模型基于谷歌的数据共享平台 Data Commons 的海量真实世界数据,后者拥有超过2400亿个数据点,涵盖经济、科学、健康等多个领域的信息。这为模型提供了扎实的事实基础。

这两个新模型都可以在 Hugging Face 上用于学术和研究用途,它们都建立在现有的 Gemma 系列开放模型之上,并使用来自 Google 创建的 Data Commons 平台的大量真实数据来为他们的答案奠定基础。该公共平台提供了一个开放的知识图谱,其中包含超过2400亿个数据点,这些数据点来自经济、科学、卫生和其他领域的可信组织。

模型入口:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

谷歌的研究人员表示,他们针对模型幻觉现象进行了多方面的探索,试图找出造成这一问题的原因。传统的模型有时在处理逻辑和算术问题时效果不佳,且公共统计数据往往格式多样,背景信息复杂,因此理解起来比较困难。

为了解决这些问题,谷歌的研究人员结合了两种新方法。第一种叫做 “检索交叉生成”(RIG),它通过对比模型生成的答案和 Data Commons 中的相关统计信息来提高准确性。为此,微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后,多模型后处理管道会将其转换为结构化数据查询,并运行它以从 Data Commons 中检索相关的统计答案,并返回或更正 LLM 生成,并带有相关引文。

第二种叫做 “检索增强生成”(RAG),它允许模型根据原始统计问题提取相关变量,并构建自然语言查询,再通过 Data Commons 获取相关数据。在这种情况下,微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后,对数据库运行查询以获取相关的统计信息/表。提取值后,它们与原始用户查询一起用于提示长上下文 LLM(在本例中为 Gemini1.5Pro)以高准确度生成最终答案。

显著提高准确率

初步测试中,使用 RIG 方法的 DataGemma 模型,能够将基线模型的事实准确性从5-17% 提高到约58%。而 RAG 方法的效果虽然略逊一筹,但仍然优于基线模型。

数据表明,DataGemma 能准确回答24-29% 的统计问题,且在数字准确性方面高达99%,但在推导出正确结论时仍存在6到20% 的错误率。

谷歌希望通过 DataGemma 的发布,进一步推动相关研究,并为未来的 Gemma 和 Gemini 模型打下更坚实的基础。谷歌的研究将持续进行,期待在经过严格测试后,将这些改进功能整合到更多的模型中。

划重点:

🌟 谷歌推出 DataGemma 模型,旨在减少 AI 在统计查询中的错误。

📊 DataGemma 利用谷歌的数据共享平台,增强模型回答的准确性。

🔍 初步测试表明,DataGemma 在统计查询的准确性上有显著提升。

  • 相关推荐
  • 准确率92%!苹果新模型可通过行为模式预测怀孕

    据媒体报道,苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院,在健康预测领域取得重大突破,推出基于行为数据的可穿戴模型WBM(Wearable Behavior Model)。 这项研究标志着健康监测从传统生物指标(如心率、血氧)向行为数据分析的拓展,为疾病预测提供了全新视角。 研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型,使其能够从步数、活动能力等高层次行为

  • 每日互动AI一体机GAI Station:安全融合大模型与大数据 高效驱动企业业务增长

    文章介绍了GAI+Station智能工作站如何解决大模型产业应用中的安全与效率难题。该产品采用"本地小模型+云端大模型"混合部署模式,确保敏感数据不出域的同时调用大模型能力,支持27+文档格式解析和8大模型能力,可快速构建企业知识库。其特色包括:1)数据安全可控,原始数据本地处理;2)深度整合业务流与数据库,提升决策效率;3)预置16大权威知识库,支持行业定�

  • AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

    本文介绍了AI领域多项重要进展:1)谷歌发布Gemini 2.5 Flash-Lite稳定版,平衡速度与成本;2)腾讯混元ASR语音大模型接入ima平台;3)阿里开源Qwen3-Coder编程大模型;4)360将推智能眼镜和AI录音笔;5)夸克健康大模型通过医师评测;6)零一万物发布企业级大模型平台;7)Hedra推出低成本AI视频代理;8)Gemini2.5革新图像理解能力;9)Meta推出创新文本处理模型AU-Nets;10)苹果AI团队或寻求第三方合

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • A日报:Stability AI发布实时重建模型SPAR3D;火山引擎“奇美拉”数字人平台启动封测;京东重磅开源JoyAgent-JDGenie

    AI日报栏目精选了人工智能领域最新动态:1)Stability AI推出0.7秒单图3D重建模型SPAR3D;2)GitHub热门开源AI协作框架CrewAI获3.4万星;3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议;4)ComfyUI-C opilot工具简化AI工作流创建;5)CNNIC报告显示我国346款生成式AI完成备案;6)提示词管理工具AI Gist上线;7)开源语言学习工具WordPecker支持多语言学习;8)斯坦福推出多工具协作AI Agent OctoTools;9)Ope

  • 告别模型搜寻困境:AIbase模型广场让你高效找到最佳AI模型

    文章探讨了在AI技术快速发展背景下,如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估(性能指标、用户反馈、易用性等)、强化场景连接(按业务问题分类)和部署辅助信息,构建了完整的模型发现与应用生态。该平台能显著提升效率,帮助开发者快速锁�

  • 瓴羊Dataphin 智能升级:编码难题一扫光,开发运维更高效!

    Dataphin V5.1.2智能版本推出三大核心功能:1)智能编码助手:通过自然语言交互自动生成SQL代码,支持代码补全和结构化输出,提升开发效率;2)智能运维助手:提供任务状态可视化监控、异常诊断和一键重跑功能,实现全链路运维管理;3)智能分析助手:基于分析专辑构建自然语言查询系统,支持多轮追问和SQL自由编辑,让非技术人员也能快速获取数据洞察。新版本通过AI技术重构数据开发体验,实现"会写、能懂、秒查"的智能化目标,满足从开发到分析的全场景需求。

  • 荣耀MagicGUI大模型发布并开源!Magic V5首发搭载:跨应用/设备自动化

    该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓,是荣耀的全新人工智能战略计划,将从智能手机制造商向全球AI终端生态公司全面转型。 李健宣布,未来5年荣耀将投入100亿美元,与全球合作伙手共建AI设备生态。 分为三个实施阶段: 第一阶段是智慧手机,荣耀将与合作伙伴携手突破技术边界,共同创造代理型人工智能时代的新范式; 第二阶段是智慧生态系统,荣耀将打�

  • A日报:Trae 2.0 正式升级 SOLO 模式;通义发布Qwen3新模型;智谱AI重磅推出Zread

    本期AI日报聚焦多项AI领域突破:1)Trae 2.0推出SOLO模式,实现AI全流程自主开发;2)阿里通义发布Qwen3-235B大模型,支持256K文本处理;3)智谱AI推出Zread工具,一键转换GitHub项目为使用手册;4)零一万物发布万智企业大模型平台2.0及定制Agent方案;5)字节跳动推出通用机器人模型GR-3,具备高精度操作能力;6)Pika推出AI视频特效APP,降低创作门槛;7)Dia浏览器将上线AI驱动的"分身鼠标&

  • 谷歌24亿收购Windsurf击败OpenAI,Meta/微美全息竞相扩充AI战略布局

    谷歌以24亿美元收购AI编程初创公司Windsurf,原计划由OpenAI斥资30亿美元收购的交易突然取消。Windsurf年收入已达1亿美元,其核心团队将加入谷歌DeepMind。同时,Meta收购AI语音公司PlayAI,加强自然语音生成能力。微美全息等企业也在积极布局"AI+"赛道,推动多场景应用。全球科技巨头正通过收购和人才争夺加速AI领域布局,AI技术已成为推动行业变革的核心引擎,未来竞争将围绕技术创新和商业化应用展开。

今日大家都在搜的词: