告别幻觉！谷歌推新模型DataGemma，统计数据准确率暴涨58%

2024-09-13 09:42 · 来源： AIbase基地

近日，谷歌宣布推出新的开源 AI 模型 DataGemma，旨在解决大语言模型（LLM）在处理统计数据时常出现的 “幻觉” 问题。

这种幻觉现象让模型在回答有关数字和统计的问题时，可能会提供不准确的答案。DataGemma 模型的推出，标志着谷歌在 AI 领域的一次重要进展。

问卷调查，数据报告

图源备注：图片由AI生成，图片授权服务商Midjourney

减少统计查询时的幻觉

DataGemma 由两种不同的方法构成，旨在提升回答用户问题时的准确性。这些模型基于谷歌的数据共享平台 Data Commons 的海量真实世界数据，后者拥有超过2400亿个数据点，涵盖经济、科学、健康等多个领域的信息。这为模型提供了扎实的事实基础。

这两个新模型都可以在 Hugging Face 上用于学术和研究用途，它们都建立在现有的 Gemma 系列开放模型之上，并使用来自 Google 创建的 Data Commons 平台的大量真实数据来为他们的答案奠定基础。该公共平台提供了一个开放的知识图谱，其中包含超过2400亿个数据点，这些数据点来自经济、科学、卫生和其他领域的可信组织。

模型入口：https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

谷歌的研究人员表示，他们针对模型幻觉现象进行了多方面的探索，试图找出造成这一问题的原因。传统的模型有时在处理逻辑和算术问题时效果不佳，且公共统计数据往往格式多样，背景信息复杂，因此理解起来比较困难。

为了解决这些问题，谷歌的研究人员结合了两种新方法。第一种叫做 “检索交叉生成”（RIG），它通过对比模型生成的答案和 Data Commons 中的相关统计信息来提高准确性。为此，微调的 LLM 会生成描述最初生成的 LLM 值的自然语言查询。查询准备就绪后，多模型后处理管道会将其转换为结构化数据查询，并运行它以从 Data Commons 中检索相关的统计答案，并返回或更正 LLM 生成，并带有相关引文。

第二种叫做 “检索增强生成”（RAG），它允许模型根据原始统计问题提取相关变量，并构建自然语言查询，再通过 Data Commons 获取相关数据。在这种情况下，微调的 Gemma 模型使用原始统计问题来提取相关变量并为 Data Commons 生成自然语言查询。然后，对数据库运行查询以获取相关的统计信息/表。提取值后，它们与原始用户查询一起用于提示长上下文 LLM(在本例中为 Gemini1.5Pro)以高准确度生成最终答案。

显著提高准确率

在初步测试中，使用 RIG 方法的 DataGemma 模型，能够将基线模型的事实准确性从5-17% 提高到约58%。而 RAG 方法的效果虽然略逊一筹，但仍然优于基线模型。

数据表明，DataGemma 能准确回答24-29% 的统计问题，且在数字准确性方面高达99%，但在推导出正确结论时仍存在6到20% 的错误率。

谷歌希望通过 DataGemma 的发布，进一步推动相关研究，并为未来的 Gemma 和 Gemini 模型打下更坚实的基础。谷歌的研究将持续进行，期待在经过严格测试后，将这些改进功能整合到更多的模型中。

划重点:
🌟 谷歌推出 DataGemma 模型，旨在减少 AI 在统计查询中的错误。
📊 DataGemma 利用谷歌的数据共享平台，增强模型回答的准确性。
🔍 初步测试表明，DataGemma 在统计查询的准确性上有显著提升。

相关推荐

准确率92%！苹果新模型可通过行为模式预测怀孕

据媒体报道，苹果公司联合美国心脏协会和哈佛医学院布莱根妇女医院，在健康预测领域取得重大突破，推出基于行为数据的可穿戴模型WBM（Wearable Behavior Model）。这项研究标志着健康监测从传统生物指标（如心率、血氧）向行为数据分析的拓展，为疾病预测提供了全新视角。研究团队利用超过25亿小时的可穿戴设备数据训练WBM模型，使其能够从步数、活动能力等高层次行为
每日互动AI一体机GAI Station：安全融合大模型与大数据高效驱动企业业务增长

文章介绍了GAI+Station智能工作站如何解决大模型产业应用中的安全与效率难题。该产品采用"本地小模型+云端大模型"混合部署模式，确保敏感数据不出域的同时调用大模型能力，支持27+文档格式解析和8大模型能力，可快速构建企业知识库。其特色包括：1)数据安全可控，原始数据本地处理；2)深度整合业务流与数据库，提升决策效率；3)预置16大权威知识库，支持行业定�

大模型数据安全智能生产力
荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

本文介绍了AI领域多项重要进展：1)谷歌发布Gemini 2.5 Flash-Lite稳定版，平衡速度与成本；2)腾讯混元ASR语音大模型接入ima平台；3)阿里开源Qwen3-Coder编程大模型；4)360将推智能眼镜和AI录音笔；5)夸克健康大模型通过医师评测；6)零一万物发布企业级大模型平台；7)Hedra推出低成本AI视频代理；8)Gemini2.5革新图像理解能力；9)Meta推出创新文本处理模型AU-Nets；10)苹果AI团队或寻求第三方合

谷歌 Gemini 2.5
荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直
荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
告别模型搜寻困境：AIbase模型广场让你高效找到最佳AI模型

文章探讨了在AI技术快速发展背景下，如何高效发现和评估适合需求的AI模型这一核心挑战。传统方式存在模型分散、评估门槛高、应用场景模糊等问题。AIbase模型广场通过聚合主流平台模型、提供多维度评估（性能指标、用户反馈、易用性等）、强化场景连接（按业务问题分类）和部署辅助信息，构建了完整的模型发现与应用生态。该平台能显著提升效率，帮助开发者快速锁�
瓴羊Dataphin 智能升级：编码难题一扫光，开发运维更高效！

Dataphin V5.1.2智能版本推出三大核心功能：1）智能编码助手：通过自然语言交互自动生成SQL代码，支持代码补全和结构化输出，提升开发效率；2）智能运维助手：提供任务状态可视化监控、异常诊断和一键重跑功能，实现全链路运维管理；3）智能分析助手：基于分析专辑构建自然语言查询系统，支持多轮追问和SQL自由编辑，让非技术人员也能快速获取数据洞察。新版本通过AI技术重构数据开发体验，实现"会写、能懂、秒查"的智能化目标，满足从开发到分析的全场景需求。
荣耀MagicGUI大模型发布并开源！Magic V5首发搭载：跨应用/设备自动化

该战略是荣耀新任CEO李健在3月的MWC 2025首次揭晓，是荣耀的全新人工智能战略计划，将从智能手机制造商向全球AI终端生态公司全面转型。李健宣布，未来5年荣耀将投入100亿美元，与全球合作伙手共建AI设备生态。分为三个实施阶段：第一阶段是智慧手机，荣耀将与合作伙伴携手突破技术边界，共同创造代理型人工智能时代的新范式；第二阶段是智慧生态系统，荣耀将打�

荣耀MagicGUI 多模态感知 YOYO智能体
荐A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智谱AI重磅推出Zread

本期AI日报聚焦多项AI领域突破：1)Trae 2.0推出SOLO模式，实现AI全流程自主开发；2)阿里通义发布Qwen3-235B大模型，支持256K文本处理；3)智谱AI推出Zread工具，一键转换GitHub项目为使用手册；4)零一万物发布万智企业大模型平台2.0及定制Agent方案；5)字节跳动推出通用机器人模型GR-3，具备高精度操作能力；6)Pika推出AI视频特效APP，降低创作门槛；7)Dia浏览器将上线AI驱动的"分身鼠标&

人工智能 AI产品开发者
谷歌24亿收购Windsurf击败OpenAI，Meta/微美全息竞相扩充AI战略布局

谷歌以24亿美元收购AI编程初创公司Windsurf，原计划由OpenAI斥资30亿美元收购的交易突然取消。Windsurf年收入已达1亿美元，其核心团队将加入谷歌DeepMind。同时，Meta收购AI语音公司PlayAI，加强自然语音生成能力。微美全息等企业也在积极布局"AI+"赛道，推动多场景应用。全球科技巨头正通过收购和人才争夺加速AI领域布局，AI技术已成为推动行业变革的核心引擎，未来竞争将围绕技术创新和商业化应用展开。

今日大家都在搜的词：

热文

3 天
7天

告别幻觉！谷歌推新模型DataGemma，统计数据准确率暴涨58%

准确率92%！苹果新模型可通过行为模式预测怀孕

每日互动AI一体机GAI Station：安全融合大模型与大数据高效驱动企业业务增长

荐AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜和AI录音笔；谷歌发布Gemini 2.5 Flash-Lite 稳定版

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

告别模型搜寻困境：AIbase模型广场让你高效找到最佳AI模型

瓴羊Dataphin 智能升级：编码难题一扫光，开发运维更高效！

荣耀MagicGUI大模型发布并开源！Magic V5首发搭载：跨应用/设备自动化

荐A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智谱AI重磅推出Zread

谷歌24亿收购Windsurf击败OpenAI，Meta/微美全息竞相扩充AI战略布局

今日大家都在搜的词：

热文

苹果发布首个iOS 26公测版液态玻璃设计引发热议

AI日报：扣子空间网页设计功能上线；阿里Wan 2.2即将上线；O

REDMI Pad 2将于8月1日开售：2.5K屏+9000mAh电池

陶琳称特斯拉不关注排名：回应懂车帝辅助驾驶测试第一

华为Pura 80数字版维修备件价格出炉：换屏849元

华为鸿蒙HarmonyOS 5.1官宣7月31日开启升级：覆盖30多款设备

马斯克正式进军餐饮业特斯拉首家超级充电站餐厅开业

微信能自动发消息了！微信新增自动发送消息功能

苹果发布首个iOS 26公测版液态玻璃设计引发热议

特斯拉餐厅6小时狂赚4.7万美元马斯克正式进军餐饮业

A日报：Trae 2.0 正式升级 SOLO 模式；通义发布Qwen3新模型；智

AI日报：通义开源AI编程大模型Qwen3-Coder；360将推智能眼镜

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

全球第一网红野兽先生计划中国行比甲亢哥更火

AI日报：字节发布同声传译模型Seed LiveInterpret 2.0；秘塔搜

站长商机