谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

2024-03-29 09:23 · 稿源：站长之家

划重点:
🔍 研究人员开发了名为SAFE的AI系统，使用大型语言模型来评估信息的准确性。
💰 SAFE的使用成本约为人工事实检查的20倍，可大大降低成本。
💡 研究引发了“超人类”表现的争议，需要更多透明度和人类基准来评估其真实效果。

站长之家（ChinaZ.com）3月29日消息:谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-Augmented Factuality Evaluator （SAFE）”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。研究发现，SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

与人工标注员的对比显示，SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是，在100个SAFE与人工评级者之间存在分歧的样本中，SAFE的判断在76%的情况下被证明是正确的。然而，研究中“超人类”表现的说法引发了争议，一些专家质疑这里的“超人类”到底是什么意思。他们认为，需要更多透明度和人类基准来评估SAFE的真实效果，而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍，这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性，并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误，但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源，但研究人员指出，仍需要更多关于研究中使用的人类基准的透明度。正因如此，技术巨头们竞相开发越来越强大的语言模型，自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而，关键是这类重要技术的发展必须在开放的环境中进行，并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样，我们才能评估自动事实检查对打击错误信息的实际影响。

论文地址：https://arxiv.org/pdf/2403.18802.pdf

（举报）

谷歌DeepMind推出“超人类”AI系统SAFE，擅长事实核查，节约成本并提高准确性

荐用DeepSeek徒手造一个能对话的AI简历，助你当场拿下Offer。

如何用 DeepSeek 生成备课教案

DeepSeek更新R1推理AI模型，已发布Hugging Face

如何用 DeepSeek 生成星球日更内容

如何用 DeepSeek 进行论文降重

如何用 DeepSeek 进行合同审核

利用DeepSeek和豆包生成工作总结

如何用 DeepSeek 生成爆款标题

如何用 DeepSeek 制定项目管理计划

如何用 DeepSeek 完成小说情节续写

热文

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

京东618战报公布：订单破22亿单下单用户同比增加超100%

孟羽童回应一手好牌打得稀烂：不纠结过去

刘强东点外卖给骑手1000元小费：此前达达已完成私有化

小米618全渠道累计支付金额破355亿元：刷新历年大促纪录

字节小米位列中国全球化品牌前二中国全球化品牌50强出炉

SpaceX回应星舰爆炸：无人员伤亡及周边危害

理想i8已到最后筹备阶段将于7月下旬发布

站长商机