首页 > 业界 > 关键词  > WikiChat最新资讯  > 正文

AI聊天机器人WikiChat:通过检索维基数据终结LLM幻觉 对话准确率比GPT-4高55%

2024-01-09 11:17 · 稿源:站长之家

**划重点:**

1. 🚀 WikiChat通过维基百科检索数据,有效阻止大型语言模型的幻觉

2. 🌐 项目使用ColBERT进行信息检索,并通过七阶段流程确保响应准确。

3. 🌐WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率,比 GPT- 4 高55%

站长之家(ChinaZ.com)1月9日 消息:WikiChat是一项通过从维基百科检索数据来阻止大型语言模型的幻觉的AI聊天机器人。在当今大语言模型如ChatGPT和GPT-4经常在处理最新信息或者有关较不流行话题的信息时时出现错误的情况下,WikiChat采用维基百科和七阶段流程,确保其响应是基于事实的。

WikiChat几乎从不产生幻觉,并且具有高对话性和低延迟。WikiChat以英语维基百科为基础,英语维基百科是最大的精选自由文本语料库。

WikiChat 仅LLM保留有根据的事实,并将它们与从语料库中检索到的其他信息相结合,以形成事实和引人入胜的响应。我们将基于 GPT-4的 WikiChat 提炼成7B 参数的 LLaMA 模型,质量损失最小,以显着改善其延迟、成本和隐私,并促进研究和部署。

image.png

研究人员使用一种新颖的混合人类和LLM评估方法,使得该系统系统在模拟对话中实现了97.3% 的事实准确率。与 GPT-4相比,它明显优于所有基于检索和基于检索的基线,在头部、尾部和LLM最新知识方面分别高出3.9%、38.6% 和51.0%。与以前最先进的基于检索的聊天机器人相比,WikiChat的信息量和吸引力也明显更高,就像一个LLM。

image.png

在测试中,WikiChat 在与人类用户就最新话题进行对话时达到了97.9% 的事实准确率,比 GPT-4高55.0%,同时获得了更高的用户评分和更有利的评论。

image.png

通过WikiChat,我们有望有效应对大型语言模型的幻觉问题,使得这些模型在提供信息时更加可靠和准确。

项目网址:https://top.aibase.com/tool/wikichat

论文网址:https://arxiv.org/abs/2305.14292v2

举报

  • 相关推荐
  • 谁能成为中国的ChatGPT?夸克抢先交卷

    在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周,微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器,夸克则在国内推出了新的「对话助手」功能。 这一系列消息背后,新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化,入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式,自然语言就是未来的编程语言。 在海外市场,OpenA

  • 如何让你的内容被 ChatGPT 优先引用?——GEO 优化实战指南

    传统SEO追求"谷歌首页排名",生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法,更像黑箱,使内容创作者困惑。GEO优化的核心是让内容具备"可引用性":权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率",分析引用语境、竞争差距,调整内容结构以提升AI引用倾向。SEO优化机器如何找到你,GEO则优化AI如何引用你。

  • 如何提升品牌在AI回答中的提及率?GEO优化3招,让ChatGPT主动提及你的品牌

    本文探讨AI搜索时代品牌面临的"隐身危机",指出AI搜索用户年增538.7%,但品牌在AI回答中提及率不足20%。提出三大核心策略:1)构建权威背书矩阵,通过知乎等高权重平台获取自然提及;2)优化AI友好内容,采用对话式标题和结构化数据;3)建立数据监测闭环,通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现,避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

  • 华为WATCH Ultimate 2非凡探索版明日开启预售

    华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能,具备海豚声呐通信技术,可在水下30米实现手表间信息传输,60米内一键SOS求救。同时搭载北斗卫星语音消息功能,无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕,峰值亮度达3500nit,支持20ATM防水与IP68/9防尘。省电模式下续航达11天,常规使用达4.5天。该手表海外售价799英镑(约7443元人民币),国内价格尚未公布。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • GEO如何改变ChatGPT搜索和Perplexity的游戏规则

    本文对比ChatGPT与Perplexity两大AI搜索平台:ChatGPT作为全能型助手,整合搜索与多任务处理,但存在信息时效性不足;Perplexity专注垂直搜索,强调引用透明与权威来源。针对AI搜索优化(GEO),提出差异化策略:面向ChatGPT需构建结构化知识库、强化品牌实体识别;面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具,通过曝光率等指标量化内容在AI生态中的可见度,并给出可落地的优化行动方案。

  • vivo WATCH GT 2已支持开通移动/联通eSIM服务

    vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务,提供一号双终端和独立终端两种模式,售价699元。配备2.07英寸大屏、2400nits峰值亮度,续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式,搭载自研蓝河操作系统3.0与智能助手,可跨设备连接vivo和iPhone,实现双机通知同步。

  • OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

    OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas,以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动,实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS,未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用,其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史,旨在通过自然对话提升网络使用效率。

  • 健康生活从饮食开始 三星Galaxy Watch抗氧化指数体验解析

    三星Galaxy Watch8推出革命性抗氧化指数功能,通过手腕实时测量类胡萝卜素水平。该技术将实验室级传感器微型化,用户仅需5秒扫描即可获得精准数据,将日常饮食转化为可量化指标。类胡萝卜素作为关键抗氧化物质,能有效反映果蔬摄入量,帮助用户追踪长期营养状况。结合睡眠、压力等综合数据,该功能为健康老龄化提供全面洞察,重新定义可穿戴设备在预防性医疗中的角色。

  • 双十一智能手表怎么选?这几款三星Galaxy Watch千万别错过

    双十一选购智能手表时,三星Galaxy Watch系列提供多样选择:Galaxy Watch8设计轻盈简约,适合日常佩戴;Watch8 Classic采用经典旋转表圈,风格优雅百搭;Watch Ultra则主打坚固耐用,专为户外运动设计。三款均搭载全面健康监测功能,包括睡眠分析、跑步教练指导及身体成分测量,帮助用户提升生活质量。根据个人审美与需求,可轻松挑选心仪款式。

今日大家都在搜的词: