首页 > 业界 > 关键词  > GenAudit最新资讯  > 正文

GenAudit:帮用户根据输入证据对LLM生成内容进行事实检查

2024-03-18 14:41 · 稿源:站长之家

划重点:

💡 最近,研究人员提出了GENAUDIT,一种专门用于帮助核查基于文档基础的LLM回复的工具。

💡 GENAUDIT通过建议对语言模型生成的响应进行更改来发挥作用,并从参考文档中突出显示不符合要求的陈述,并建议对响应进行更改或删除。

💡 为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型,这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。

站长之家(ChinaZ.com) 3月18日 消息:近年来,随着人工智能(AI)和主要是生成式AI领域的进展,已经展示了大型语言模型(LLMs)生成文本以响应输入或提示的能力。这些模型能够像人类一样生成文本,回答问题,总结长篇文本段落等。然而,即使在访问参考资料之后,它们也不完美,可能会产生错误。这样的错误可能会在银行业或医疗保健等重要应用中产生严重后果。

为了解决这个问题,一组研究人员最近提出了GENAUDIT,这是一种专门用于帮助核查基于文档基础的LLM回复的工具。GENAUDIT的功能是通过建议对语言模型生成的响应进行更改来发挥作用。它突出显示参考文档中不符合要求的陈述,并建议对响应进行更改或删除。它还提供了来自参考文本的证据,以支持LLM的事实陈述。

image.png

为了构建GENAUDIT,已经训练了专门设计用于执行这些任务的模型。这些模型已经被教导从参考文档中提取证据以支持事实陈述,识别不支持的主张,并推荐合适的修改。GENAUDIT具有交互式界面,可帮助进行决策和用户交互。借助此界面,用户可以检查和批准推荐的调整和支持文件。

团队表示,已经通过人工评估对GENAUDIT进行了深入评估,评估人员通过检查它在多个类别中的表现来评估其性能,查看它在总结文件时如何准确识别LLM输出中的缺陷。评估结果表明,GENAUDIT能够准确地识别出来自八种不同LLM的输出中的缺陷,涵盖了多个领域。

image.png

为了优化GENAUDIT的错误检测性能,团队建议了一种技术,该技术在减少精度损失的同时最大化错误召回率。该策略确保系统在保持准确性水平基本不变的同时,能够检测到大部分的故障。

团队总结了他们的主要贡献如下:

1.引入了GENAUDIT,这是一种支持基于文档的任务中的事实核查语言模型输出的工具。该工具突出显示了LLM生成的内容中陈述的支持数据,找出了缺陷,并提供了解决方案。

2.评估并提供了用于事实核查的后端模型的优化LLMs。这些版本在少量数据条件下性能相当,尤其是与最先进的专有LLMs相比。

3.对GENAUDIT在检查来自三个不同领域的文件的八种不同LLM生成的摘要中存在的错误的有效性进行了评估。

4.介绍并评估了一种在解码时间使用的技术,旨在通过牺牲精度的微小降低来提高错误检测召回率。这种方法在保持整体准确性的同时增强了错误检测的能力。

GENAUDIT是一款优秀的工具,有助于改善具有强大文档基础的任务中的事实核查程序,并提高LLM生成的信息在重要应用中的可靠性。

产品入口:https://top.aibase.com/tool/genaudit

举报

  • 相关推荐
  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • Soul以AI重构社交体验,打造有温度的“Gen AI 社交游乐园”

    Soul 作为新型社交平台,自成立以来便积极探索AI技术在社交领域的应用落地,持续优化AI社交体验,致力于重塑数字时代的连接方式,为社交产品注入新的可能性,打造一个突破传统社交边界的“Gen AI社交游乐园”。前不久,在第二十二届ChinaJoy(中国国际数码互动娱乐展览会)上,Soul App以“Soul树洞情绪疗愈酒吧”为展台主题亮相,重磅推出原创IP“莫比乌斯·第三弹”ChinaJoy

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • 瓴羊发布企业级分析Agent,让人人都可拥有超级数据分析师

    阿里巴巴旗下瓴羊发布首个数据分析Agent“智能小Q”,升级为“超级数据分析师”,由问数、解读和报告三大核心Agent组成。该工具能快速获取数据、解读数据并输出洞察报告,将原本需数小时的数据处理时间缩短至最快10秒,专业报告生成仅需20分钟。通过三重技术体系提升企业级数据分析可靠性,覆盖近20个细分行业,支持用户自定义需求。目前已有瑞幸咖啡、牧原食品等百余家企业客户使用,9月9日起全面开放给所有企业用户。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • AI日报:字节OmniHuman-1.5发布;PixVerse V5模型上线;​腾讯开源智能体框架Youtu-agent

    本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。

  • 不叫骁龙8 Elite 2!曝高通新一代Soc命名为骁龙8 Elite Gen5

    高通下一代旗舰Soc不叫骁龙8 Elite 2,暂定命名为骁龙8 Elite Gen5,型号为SM8850。 如果命名属实的话,这颗Soc的中文名字可能会叫第五代骁龙8至尊版”,高通这次从第一代直接跳到了第五代。

今日大家都在搜的词: