首页 > 业界 > 关键词  > GenAudit最新资讯  > 正文

GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

2024-03-18 14:41 · 稿源:站长之家

划重点:

💡 最近,研究人员提出了GENAUDIT,一种专门用于帮助核查基于文档基础的LLM回复的工具。

💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用,并从参考文档中突出显示不符合要求的陈述,并建议对响应进行更改或删除。

💡 为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型,这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。

站长之家(ChinaZ.com) 3月18日 消息:近年来,随着人工智能(AI)和主要是生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。

image.png

为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。

团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。

image.png

为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。

团队总结了他们的主要贡献如下:

1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。

2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。

3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。

产品入口:https://top.aibase.com/tool/genaudit

举报

  • 相关推荐
  • 墨刀AI Agent:更懂产品经理的超级智能体上线

    2025年AI将进入"智能体时代",从被动工具升级为能理解意图、辅助决策的伙伴。墨刀AI+Agent专为产品经理打造,具备三层核心能力:懂逻辑(理解需求生成原型)、懂场景(熟悉全流程工作)、懂协作(跨角色沟通优化)。它能贯穿调研、原型、文档、评审等环节,解放重复劳动,让产品经理专注高价值决策,实现从效率提升到决策升级的人机协作新模式。

  • AI日报:阿里夸克“C计划”曝光;Veo3.1将增加视频“精确编辑”功能;Anthropic推出Claude Code网页版

    今日AI领域动态:阿里夸克启动"C计划"布局对话式AI应用,剑指字节"豆包";Anthropic推出Claude Code网页版,支持浏览器直接编码;谷歌Veo新增视频"精确编辑"功能,提升创作效率;Fish Audio升级S1语音克隆模型,10秒即可复刻真人声音;AWS美东故障影响ChatGPT等多项服务;DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈;Adobe推出AI Foundry服务,支持企业定制品牌AI模型;Anthropic发布Claude for Life Sciences,加速生命科学研究。

  • 一加全球首发骁龙8 Gen5:年底登场

    一加将首发高通骁龙8 Gen5平台,该机隶属于Ace系列,新品会在年底登场。 该博主还爆料,一加骁龙8 Gen5新机将配备1.5K 165Hz高刷屏,电池容量突破了8000mAh,这是一加史上电池最大的机型。

  • GEO是什么意思?GEO如何优化在AI搜索中的排名?

    GEO(生成式引擎优化)是适应AI搜索环境的内容优化策略,旨在系统性提升品牌在AI生成答案中的可见度、引用率和可信度。其核心原则包括:语义理解优先、内容结构化、权威信源建设、对话式内容设计。AI搜索用户年增长43%,超68%用户表示AI答案直接影响品牌信任度。实施GEO需通过研究分析、内容优化、技术标记和持续监测迭代。AIBase工具可量化品牌在主流AI平台的表现,帮助建立基准、发现差距并指导优化方向。

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 绘王发布Kamvas Pro 24(Gen3)数位屏,色彩表现力大升级

    10月22日,绘王发布旗舰级数位屏新品Kamvas Pro 24(Gen3)。该产品配备23.8英寸4K屏幕,采用第三代防眩光玻璃,支持五种专业色彩模式,色准Delta E<1且提供出厂校色报告。标配双支压感笔,支持1.6万级压感与十点触控,兼容Windows/macOS系统,满足专业创作需求。

  • OpenAI也来了,巨头为何决战AI浏览器?

    AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas,这是OpenAI推出的首款人工智能驱动的网页浏览器。 这也被外界认为OpenAI要向谷歌宣战,挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天,谷歌母公司Alphabet股价应声下挫,盘中最大跌幅接近5%,足见市场对这一新品的敏感度。 近一年来,AI浏览器的战略价值成为行业共识,从业者更是将其与智能代理(Agent)、搜索引�

  • 品牌如何在 GEO 时代被 AI 引用?品牌GEO优化技巧全解析

    在生成式AI/GEO时代,品牌被AI引用/提及/整合进答案至关重要。AI引擎倾向于引用拥有丰富第三方引用和信任网络的内容,而非单纯品牌自有内容。品牌优化需从品牌、内容、技术、外部引用四维度入手:统一品牌命名与定位,创建品牌专题页;在内容中嵌入品牌关联段落与案例,使用结构化数据;争取媒体和行业平台引用,形成引用网络;通过AI可见性工具监控品牌被引用情况,持续优化策略。

  • Zen7 Labs 开源全球首个去中心化支付智能体(DePA),打造下一代AI Agent 金融基础设施

    随着AI Agent经济崛起,支付成为制约智能体自主交易的关键瓶颈。Zen7Labs提出去中心化支付智能体DePA概念,并开源核心产品Zen7 Payment Agent。该方案具备原生多链兼容、免密授权、零托管安全等六大优势,通过四类Agent角色协同实现全流程自动化支付,有效融合传统跨境支付与加密支付优势。团队计划12个月内推出DePA Chain网络,构建低延迟、高安全的支付基础设施,为万亿美元级A

今日大家都在搜的词: