首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

谷歌DeepMind推出“超人类”AI系统SAFE,擅长事实核查,节约成本并提高准确性

2024-03-29 09:23 · 稿源:站长之家

划重点:

🔍 研究人员开发了名为SAFE的AI系统,使用大型语言模型来评估信息的准确性。

💰 SAFE的使用成本约为人工事实检查的20倍,可大大降低成本。

💡 研究引发了“超人类”表现的争议,需要更多透明度和人类基准来评估其真实效果。

站长之家(ChinaZ.com)3月29日 消息:谷歌DeepMind的研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的准确性。研究发现,SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

image.png

与人工标注员的对比显示,SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是,在100个SAFE与人工评级者之间存在分歧的样本中,SAFE的判断在76%的情况下被证明是正确的。然而,研究中“超人类”表现的说法引发了争议,一些专家质疑这里的“超人类”到底是什么意思。他们认为,需要更多透明度和人类基准来评估SAFE的真实效果,而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍,这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性,并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误,但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源,但研究人员指出,仍需要更多关于研究中使用的人类基准的透明度。正因如此,技术巨头们竞相开发越来越强大的语言模型,自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而,关键是这类重要技术的发展必须在开放的环境中进行,并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样,我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

举报

  • 相关推荐
  • DeepSeek专家模式无法上传文件 官方提示:目前资源紧张

    多位网友今日反馈,DeepSeek的专家模式”已无法上传文件,官方提示资源紧张,不支持文件上传”。 经测试,DeepSeek的网页端和App均已下线了专家模式”的上传文件功能。 目前,DeepSeek的快速模式”依然可以上传文件、图片等,不过还是仅识别图片中的文字。

  • DeepSeek回应聊天记录搜索:正在灰度测试 并非全量推送

    近日,不少网友在社交平台上发帖称,DeepSeek能查聊天记录了。 今日实测发现,DeepSeek网页版和APP页面均可通过关键词搜索,查询用户和DeepSeek之间的历史聊天内容。 将DeepSeek APP检查更新至2.1.0(213)版本后,其侧边栏顶部会新出现搜索聊天内容”搜索框。 框内输入关键词后页面会显示多条包含这个词的历史聊天记录,点击某条聊天记录即可定位至具体聊天位置。

  • 网易新闻、网易小蜜蜂已接入DeepSeek-V4 智能内容与社区体验全面升级

    近日,网易传媒旗下网易新闻和网易小蜜蜂正式接入DeepSeek-V4大模型,全面升级新闻资讯分发、智能内容创作、社区互动及个性化推荐等核心场景。此举旨在提升内容精准度与效率,优化随看随问、跟帖问答、AI搜索等模块,实现全链路智能化。同时,网易小蜜蜂推出“校园龙虾养成计划”,将AI融入年轻用户社交场景,打造趣味养成与社区互动新体验。未来,网易将持续探索AI在内容生态与智能社区领域的创新应用。

  • 告别“路痴”!INDEMIND以消费级具身大脑重构家用机器人空间认知

    家用机器人面临的核心困境并非不够智能,而是无法真正“认识”家庭环境。传统方案存在算力依赖高、跨层级语义整合弱等局限,导致空间感知模糊、地图畸变。INDEMIND推出的ROBOMIND,基于10TOPS算力的纯视觉方案,实现全屋三维地图实时构建与动态更新,解决低纹理位姿发散、动静语义解耦等瓶颈。它从“看见”到“理解”,构建空间语义图谱,支持自主避障、动态路径规划与任务调度,并融合语音、手势等多模态交互。通过数据飞轮形成家庭“心智模型”,让机器人从自动化工具进化为能感知、理解、决策的智能伙伴,真正融入家庭生活。

  • DeepSeek首次有了视觉能力,技术论文却被它连夜删掉了

    DeepSeek做了件罕见的事情:在终于开始灰测多模态能力后,它放出了一篇解释背后技术的论文,但这篇论文却在发布没多久就又被悄悄撤掉。 4月29日,DeepSeek研究员陈小康在X发布一条推文——现在,我们可以看见你了。配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出了眼睛。 过去,DeepSeek 最被外界熟知的是它在文本、代码和推理任务上的能力。但真实世界里的问题,并不总�

  • 时隔一个月又崩了!DeepSeek网页及API服务出现异常 官方称正在修复

    今日,多名用户在社交平台反馈DeepSeek服务异常,平台对话页面提示服务器繁忙,请稍后重试”。官方服务状态网站显示DeepSeek网页及API服务不可用。今日下午,官方状态页面更新信息,确认问题已定位,正在实施修复。

  • AI日报:DeepSeek识图模式灰测;小红书成立AI一级部门;阿里发布程序员“数字分身”QoderWake

    本期AI日报涵盖8大热点:1. DeepSeek开启多模态识图灰度测试,视觉理解能力落地;2. 文心一言5.1预览版上线LMSYS,全球排名第13;3. 小红书成立AI一级部门“Dots”及海外团队;4. Chrome发布Prompt API,浏览器原生AI时代来临;5. 阿里发布QoderWake,实现代码修复全流程无人值守;6. 蚂蚁集团开源万亿级大模型Ling-2.6-1T;7. 巨日禄与火山引擎合作,AI短剧进入工业化时代;8. Gemini迎史诗级更新,一键生成Office文档。

  • 免费好用的AI招聘系统“神装”有哪些

    AI得贤招聘官宣布自2026年5月8日起,旗下全系列产品全面免费开放,涵盖AI面试、ATS招聘管理系统、人才寻访智能体、胜任力建模、在线编程考试、代码审查、AI协作编程、认知能力测试、职业性格测试、大五人格心理测试、心理健康测试及在线笔试等核心功能。此举旨在打破行业收费壁垒,帮助企业零门槛启用AI招聘,快速升级管理能力,抢占AI招聘时代红利。所有基础权益完全免费,无需支付软件授权费,活动仅面向有真实招聘需求的企业用户。

  • 填补空白!DeepSeek灰度上线识图模式

    DeepSeek正灰度测试识图模式,用户可在网页端和App端上传图片进行内容理解、描述与分析,填补了多模态能力的空白。该模式与快速、专家模式并列,作为独立一级入口存在,表明视觉理解被定位为核心能力。部分用户已可使用,但另一些用户虽看到入口却收到暂不可用的提示。实测显示,当前开放的主要是图片理解能力,涵盖视觉问答、截图分析等场景,尚未支持图像生成、视频理解或跨模态生成,更接近视觉语言模型范畴。

  • 20年品牌10年冠军:卡萨帝软风空调AI双系统分控让温差<0.5℃

    卡萨帝空调发布创意视频,展示其AI双系统分控科技实现全屋温差小于0.5℃的极致舒适。通过双塔设计实现左右不同风温,制冷塔避人吹、常温塔吹设定温度,并利用“AI之眼2.0”声纹识别用户位置与方言,自动切换送风模式,实现风随人动或风避人吹。这一创新解决了传统空调冷热不均、直吹不适的痛点,推动行业对“好空气”的认知边界。市场数据显示,卡萨帝在1.5W+高端空调市场占比达44.7%,稳居第一,背后是海尔智家以技术创新驱动高端场景落地与用户价值提升的长期坚持。

今日大家都在搜的词: