首页 > 业界 > 关键词  > DeepMind最新资讯  > 正文

谷歌DeepMind推出“超人类”AI系统SAFE,擅长事实核查,节约成本并提高准确性

2024-03-29 09:23 · 稿源:站长之家

划重点:

🔍 研究人员开发了名为SAFE的AI系统,使用大型语言模型来评估信息的准确性。

💰 SAFE的使用成本约为人工事实检查的20倍,可大大降低成本。

💡 研究引发了“超人类”表现的争议,需要更多透明度和人类基准来评估其真实效果。

站长之家(ChinaZ.com)3月29日 消息:谷歌DeepMind的研究团队发布了一项新研究,介绍了一种名为“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实,并利用谷歌搜索结果来确定每个声明的准确性。研究发现,SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

image.png

与人工标注员的对比显示,SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是,在100个SAFE与人工评级者之间存在分歧的样本中,SAFE的判断在76%的情况下被证明是正确的。然而,研究中“超人类”表现的说法引发了争议,一些专家质疑这里的“超人类”到底是什么意思。他们认为,需要更多透明度和人类基准来评估SAFE的真实效果,而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍,这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性,并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误,但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源,但研究人员指出,仍需要更多关于研究中使用的人类基准的透明度。正因如此,技术巨头们竞相开发越来越强大的语言模型,自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而,关键是这类重要技术的发展必须在开放的环境中进行,并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样,我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

举报

  • 相关推荐
  • 用DeepSeek徒手造一个能对话的AI简历,助你当场拿下Offer。

    ​故事是这样的。 我最近一直在招人,想招点人帮我分担一些压力,全职的实习的啥的都可以。 我这再怎么说,也是一个跟AI有关的地方,所以很多人在投简历的时候,都会写很多跟AI相关的经历,我甚至收到过很多AI生成的简历。 很多写的很玄乎,什么掌握全链路工作流,独立搭建xx系统,深度参与xx项目,掌握xx行业资源等等,但是一面,问用过最惊艳的AI产品是啥,10个�

  • 如何用 DeepSeek 生成备课教案

    本教程介绍如何利用AI工具DeepSeek快速生成七年级中国古代史教案。操作流程包括:1.登录DeepSeek官网;2.进入文本生成界面;3.输入详细指令,包含教学目标、重难点、教学过程等要素;4.等待AI生成教案;5.检查并调整内容。该工具能帮助教师高效完成系统化的教案设计,但生成后仍需根据实际教学需求进行适当修改和完善,最后保存为所需格式使用。

  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • 如何用 DeepSeek 生成星球日更内容

    本文介绍如何利用DeepSeek工具高效生成星球日更内容。主要内容包括:1.注册登录DeepSeek官网进入对话界面;2.输入精准指令获取内容,如"生成7篇藏马鸡主题的星球日更";3.对生成内容进行相关性、实用性评估;4.通过补充指令优化不满意内容。该工具能快速提供多样化素材,解决持续创作压力,经过多次调整可获得符合定位的优质内容。操作流程简单,适合自媒体运营和社群内容创作。

  • 如何用 DeepSeek 进行论文降重

    本文介绍了如何利用DeepSeek AI工具降低学术论文重复率。该工具能对重复率超标的段落进行学术化改写,在保证专业术语准确性的同时降低查重率。使用方法是:1)在DeepSeek网站输入降重指令和段落;2)可指定改写风格(如某期刊格式)或具体方向(如主动改被动句);3)审查改写结果,确保语义准确、术语恰当、逻辑连贯。若发现问题可再次优化。该工具适用于毕业论文、期刊�

  • 如何用 DeepSeek 进行合同审核

    本文介绍如何利用DeepSeek AI工具高效审核合同法律风险。合同是商业活动的重要保障,但隐藏的法律风险可能带来巨大损失。DeepSeek能快速识别合同条款中的合法性存疑、违约责任模糊、交付条款不清等问题,并提供专业修改建议。操作流程包括:1.登录DeepSeek平台;2.上传合同文件;3.输入审核指令;4.查看详细审核结果。该工具适用于企业法务、律师及商务人员,能有效规避合同风险,提高审核效率。

  • 利用DeepSeek和豆包生成工作总结

    本文介绍如何利用AI工具快速撰写高质量工作总结。通过DeepSeek生成内容框架,再使用豆包填充具体内容,可大幅提升写作效率。操作步骤:1)在DeepSeek输入需求获取大纲;2)将大纲粘贴至豆包生成详细内容;3)根据需要进行调整优化。该方法适用于教师学期总结、员工季度报告、项目总结等多种场景,能有效节省时间精力,提升工作效率。

  • 如何用 DeepSeek 生成爆款标题

    本文介绍如何利用DeepSeek工具快速生成15个爆款标题,提升内容吸引力。操作步骤:1.访问DeepSeek官网;2.输入指令,如"为夏日低卡甜品生成15个小红书标题",要求包含emoji、数字或关键词;3.根据不同平台特性调整风格:小红书需活泼多用emoji,知乎要理性干货,抖音则简短有力突出冲突。该工具能帮助创作者在海量信息中脱颖而出,解决标题创作难题。

  • 如何用 DeepSeek 制定项目管理计划

    本文介绍了如何利用DeepSeek AI工具快速完成电商双十二促销网页开发项目。关键点包括:1.通过DeepSeek平台输入详细需求指令,系统会生成项目管理计划和甘特图代码;2.将代码复制到Mermaid等在线渲染工具中可视化查看项目进度安排;3.根据可视化结果优化调整计划,确保任务时间节点和依赖关系合理。该方法能帮助团队在一个月内高效完成女鞋促销页面的开发上线,特别适合电商节日促销等时效性强的项目。

  • 如何用 DeepSeek 完成小说情节续写

    文章介绍了AI工具DeepSeek如何帮助小说创作者突破创作瓶颈。主要方法包括:1.梳理已有情节脉络和续写需求;2.登录DeepSeek交互界面;3.输入包含关键信息的详细续写指令;4.评估生成内容的合理性、连贯性和创意性;5.对不满意部分进行优化调整。该工具能根据已有故事生成富有创意的情节续写,为创作者提供新思路,提升小说创作效率和流畅度。