首页 > 业界 > 关键词  > CoVe最新资讯  > 正文

Meta提出CoVe提示工程方法 减少ChatGPT等聊天机器人幻觉问题

2023-10-13 10:28 · 稿源:站长之家

划重点:

💡 Meta提出了链式验证(Chain-of-Verification,简写CoVe)方法,让聊天机器人根据初步回复自我生成验证问题,从而减少错误信息。

📊 CoVe可将列表式问题的准确度提高一倍以上,即使长文本的事实准确性也可提高28%。

🔮 未来可结合外部知识提升CoVe效果,如让聊天机器人访问外部数据库回答验证问题。

站长之家(ChinaZ.com)10月13日 消息:近日,Meta AI研究人员提出了一种新的基于提示的方法,称为链式验证(Chain-of-Verification,简写CoVe),可显著减少ChatGPT等语言模型产生的错误信息。

image.png

研究显示,ChatGPT和其他语言模型会重复复制不正确的信息,即使它们已经学到了正确的信息。Meta AI的研究人员发现,让聊天机器人根据其最初的回复自行生成验证问题,然后独立执行这些问题而不受最初输入的影响,可以减少语言模型的“幻想”。

具体来说,在CoVe方法中,聊天机器人首先响应诸如“Name some politicians who were born in New York”之类的提示,根据这个常包含错误的初始输出,语言模型随后生成诸如“Where was Donald Trump born?”之类的问题来验证其语句。这些“验证问题”然后作为一个新的提示执行,独立于第一个输入,以防止从第一个输出中获取不正确信息。然后,语言模型会根据分别收集的事实来验证第一个输入。所有测试都是在Llama65B模型上进行的。

在他们的测试中,Meta 团队还可以证明指令调整和思维链提示不会减少幻觉,因此带有 CoVe 的 Llama65B 击败了更新的指令调整模型 Llama2。在较长的内容中,使用 CoVe 的模型也优于 ChatGPT 和PerplexityAI,后者甚至可以为其世代收集外部事实。Cove 完全利用模型中存储的知识来工作。

研究团队展示了,利用CoVe方法,单个问题的答案包含的错误显著减少,从而可以显著改进最终的提示输出。对于政治家示例中的列表式问题,CoVe可将准确度提高一倍以上,大大降低错误率。对于更复杂的问答场景,该方法仍可带来23%的改进。即使对于长文本,CoVe也可将事实准确性提高28%。但是对于更长的内容,团队也需要检查验证答案的不一致之处。

未来,这种方法可以通过整合外部知识来改进,例如允许语言模型通过访问外部数据库来回答验证问题。总Meta的研究为减少类似ChatGPT等对话系统中的错误信息提供了新的思路。

举报

  • 相关推荐
  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

  • 霍涛推动开放战略落地,白山云接入快手KAT-Coder赋能开发者

    白山云科技与快手StreamLake合作,在其“白山智算”平台上线闭源编程大模型KAT-Coder。该模型在SWE-Bench测试中解决率达73.4%,性能媲美全球顶尖模型,支持端到端代码生成。白山云通过“顶尖模型能力+全球边缘算力”整合,为开发者提供低于300ms超低延时代码生成服务,仅需一行代码即可调用,大幅降低AI开发门槛。此次合作是白山云完善AI工具链布局的关键一步,未来将持续深化开放协作,优化模型与边缘算力服务模式。

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • 第 一!世纪华通旗下Century Games登顶全球Top50手游商

    知名游戏媒体PocketGamer发布《2025年全球TOP50移动游戏商》榜单,世纪华通旗下Century Games从去年第7位跃居榜首,创下该榜单晋升速度新纪录。其成功源于持续创新与精准市场洞察:既实现《Whiteout Survival》等长线产品稳定运营,又凭借《Kingshot》等新作打造跨品类爆款,形成“双强驱动”格局。公司通过“微创新”策略结合AI技术提升研发效率,构建覆盖SLG、休闲、卡牌三大核心�

  • 重新定义开放式耳机通讯体验:开石OpenRock推出全球首款可拆卸磁吸咪杆开放式耳机,于Kickstarter震撼上线

    OpenRock推出全球首款可拆卸磁吸开放式耳机Link20,搭载独家MagShield™ FusionTech磁吸连接技术,解决传统开放式耳机通话质量差的痛点。产品采用人体工学近场音孔设计,配合5麦克风阵列与AI降噪系统,实现高清通话与Hi-Fi级音质。单耳仅重9克,支持IPX7防水与13小时续航,现已在Kickstarter开启首发预售,早鸟价105美元。

  • elexcon官宣定档|深圳国际电子展 2026年8月25-27日福田启幕

    第23届Elexcon深圳国际电子展暨嵌入式展将于2026年8月25-27日在深圳举办。展会以"链接全球电子与嵌入式生态圈"为主题,聚焦电子元器件、嵌入式系统、AI硬件及存储等创新技术。在电子产业面临供应链波动与重构的背景下,展会将汇聚500余家优质供应商及3万余名工程师,通过五大同期活动推动产业对接。往届展会满意度超85%,平台将持续助力企业把握AI、汽车电子、工�

  • 硬核创新比肩华为,Momenta首度荣膺WNEVC 2025全球新能源创新技术

    9月27日,2025世界新能源汽车大会在海口开幕。会上,Momenta凭借其全场景量产辅助驾驶方案Mpilot,荣获“全球新能源汽车创新技术”奖项。该方案基于全国首个量产“端到端大模型”,实现全场景智能驾驶,覆盖复杂道路环境,极大减轻驾驶员负担。目前,Momenta合作车型超160款,覆盖奔驰、宝马、丰田等全球主流车企。未来,公司将持续推动无人驾驶技术规模化落地,助力智能出行产业发展。

  • OPPO ColorOS 16发布:Find X9等机型将全球首发

    10月15日,OPPO正式发布ColorOS 16系统,由Find X9系列、一加15、一加Ace6及OPPO Pad5等机型首发。系统在流畅度、AI功能和生态互联实现重大突破:三大引擎提升流畅度,系统重载流畅度提升37%,功耗降低13%;新增一键闪记、智能场景识别等便捷功能;小布助手升级,提供个性化推荐;AI实景对话支持声纹识别;生态互联打通与Apple Watch壁垒,实现跨设备信息显示与操作迁移,全面提升用户体验。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 开会必须面对面?TCL会议电视说NO!

    在分秒必争的商业环境中,传统面对面会议因效率低、成本高、协同难等问题阻碍发展。TCL会议电视通过创新技术打破局限:支持秒级无线投屏,简化设备连接;内置主流会议软件,实现一键入会;专业拾音与AI降噪确保远程沟通清晰;防眩光技术和广视角设计保障观看体验;灵活移动适配多样办公场景。其价值不仅提升会议效率,更助力企业降低差旅成本、加快决策、增强协同,在数字化浪潮中以高效抢占发展先机。

今日大家都在搜的词: