研究显示 ChatGPT 4.0 在事实核查中优于谷歌 Bard、微软 Bing AI 等其他模型

2023-07-18 17:53 · 稿源：站长之家

站长之家(ChinaZ.com) 7月18日消息:大型语言模型（LLM）是自然语言处理（NLP）技术的进化，能够快速生成与人类写作相似的文本并完成其他简单的与语言相关的任务。自 OpenAI 发布高性能的 ChatGPT 之后，这些模型变得越来越受欢迎。

OpenAI，ChatGPT，人工智能，AI

迄今为止，研究主要评估 LLM 的能力，例如创建写作流畅的文本、定义特定术语、撰写论文或其他文件以及生成有效的计算机代码。然而，这些模型在解决其他真实世界问题，包括假新闻和虚假信息方面也具有潜在的帮助。

威斯康星大学斯托特分校的研究员 Kevin Matthe Caramancion 最近进行了一项研究，评估迄今为止最知名的 LLM 能否检测新闻故事的真实性或虚假性。他在 arXiv 上发表的论文提供了有价值的见解，这可能有助于今后使用这些先进模型来对抗在线的错误信息。

Caramancion 告诉 Tech Xplore 说：「我最近的论文灵感来自于了解各种 LLM 在对抗错误信息方面的能力和局限性的需求。我的目标是通过一个受控模拟和已建立的事实核查机构作为基准，对这些模型的熟练程度进行严格测试，以辨别真实与虚构的能力。」

Caramancion 表示：「我们使用 100 个经过独立事实核查机构核实的新闻项目作为测试套件，评估了这些大型语言模型的性能。我们将每个新闻项目在受控条件下呈现给模型，然后将它们的回应分类为「真实」、「虚假」和「部分真实/虚假」。根据与独立机构提供的核实事实相比较，测量了模型的有效性。」

随着互联网和社交媒体的迅速发展，不管信息是真实还是虚假，错误信息已经成为近几十年来的一个重要挑战。许多计算机科学家一直在努力开发更好的事实核查工具和平台，使用户能够验证他们在网上阅读到的新闻。

尽管迄今为止已经创建和测试了许多事实核查工具，但仍缺乏一个被广泛接受和可靠的模型来对抗错误信息。作为他研究的一部分，Caramancion 致力于确定现有 LLM 在解决这一全球性问题方面的有效性。

他具体评估了四个 LLM 的性能，分别是 OpenAI 的 ChatGPT-3.0 和 ChatGPT-4.0、Google 的 Bard/LaMDA 和微软的 Bing AI。Caramancion 给这些模型提供了相同的事实核查过的新闻故事，然后比较它们在确定故事的真实性、虚假性或部分真实/虚假性方面的能力。

Caramancion 表示：「我们对主要 LLM 的区分事实和虚构能力进行了比较评估。我们发现 OpenAI 的 GPT-4.0 表现最佳，这暗示了较新的 LLM 的进步。然而，所有模型都落后于人类事实核查员，强调了人类认知不可替代的价值。这些发现可能导致更加关注开发用于事实核查的人工智能能力，同时确保与人类技能的平衡、共生整合。」

Caramancion 进行的评估表明，ChatGPT 4.0 在事实核查任务上明显优于其他知名的 LLM。进一步对更多虚假新闻进行测试的研究可能有助于验证这一发现。

研究人员还发现，人类事实核查员仍然优于他评估的所有主要 LLM。他的研究凸显了需要进一步改进这些模型或将它们与人类工作者的工作相结合，如果要将它们应用于事实核查工作。

Caramancion 补充说：「我的未来研究计划集中在研究人工智能能力的发展，重点是如何利用这些进展，同时不忽视人类独特的认知能力。我们的目标是改进我们的测试协议，探索新的 LLM，并进一步研究在新闻事实核查领域人类认知和人工智能技术之间的相互关系。」

（举报）

相关推荐

关键词：

荐谁能成为中国的ChatGPT？夸克抢先交卷

在OpenAI上线自己家AI浏览器ChatGPT Atlas的同一周，微软在海外发布了新的AI助手Mico和更AI化的Edge浏览器，夸克则在国内推出了新的「对话助手」功能。这一系列消息背后，新旧巨头、两个市场产生了两个确定的共识:一个是AI助理与AI浏览器的融合会进一步深化，入口之争就是系统之争;另一个是对话会成为人与AI交互的主要方式，自然语言就是未来的编程语言。在海外市场，OpenA

AI浏览器 ChatGPT Atlas
如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

传统SEO追求"谷歌首页排名"，生成式AI时代则需追求"被AI引用"。AI模型不提供明确排名算法，更像黑箱，使内容创作者困惑。GEO优化的核心是让内容具备"可引用性"：权威清晰、结构化信息、语义覆盖多维度、模型检索映射。需通过AIBase等GEO排名查询工具验证"AI曝光率"，分析引用语境、竞争差距，调整内容结构以提升AI引用倾向。SEO优化机器如何找到你，GEO则优化AI如何引用你。

SEO优化 AI引用内容权威性
GEO如何改变ChatGPT搜索和Perplexity的游戏规则

本文对比ChatGPT与Perplexity两大AI搜索平台：ChatGPT作为全能型助手，整合搜索与多任务处理，但存在信息时效性不足；Perplexity专注垂直搜索，强调引用透明与权威来源。针对AI搜索优化（GEO），提出差异化策略：面向ChatGPT需构建结构化知识库、强化品牌实体识别；面向Perplexity需注重权威数据引用和元数据优化。文章还介绍了AIBase的GEO监测工具，通过曝光率等指标量化内容在AI生态中的可见度，并给出可落地的优化行动方案。
如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

本文探讨AI搜索时代品牌面临的"隐身危机"，指出AI搜索用户年增538.7%，但品牌在AI回答中提及率不足20%。提出三大核心策略：1）构建权威背书矩阵，通过知乎等高权重平台获取自然提及；2）优化AI友好内容，采用对话式标题和结构化数据；3）建立数据监测闭环，通过A/B测试持续迭代。强调需善用监测工具实时追踪品牌在豆包、文心一言等AI模型的曝光表现，避免内容"注水"。最终实现从"被动等待"到主动抢占AI"第一屏"的转变。

文章搜索核心标签 SEO优化
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

TabTab是一款全链路AI数据分析助手，核心功能包括多源数据连接（支持文档、数据库、电商平台等）、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互，降低分析门槛，让非技术人员也能快速完成客户洞察、销售业绩等分析，显著提升效率。产品定位中立，致力于构建多元化AI效率提升生态。

数据驱动效率提升智能体
华为WATCH Ultimate 2非凡探索版明日开启预售

华为正式宣布旗舰智能手表WATCH Ultimate 2非凡探索将于11月7日开启预售。这款“全能表王”支持150米潜水与音频功能，具备海豚声呐通信技术，可在水下30米实现手表间信息传输，60米内一键SOS求救。同时搭载北斗卫星语音消息功能，无网络环境下可通过卫星发送语音信息。硬件上配备1.5英寸OLED屏幕，峰值亮度达3500nit，支持20ATM防水与IP68/9防尘。省电模式下续航达11天，常规使用达4.5天。该手表海外售价799英镑（约7443元人民币），国内价格尚未公布。

华为WATCH Ultimate2 智能手表
荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

本期AI日报聚焦多项技术突破：MiniMax发布低延迟语音合成系统Speech 2.6，实现实时交互；蚂蚁数科与宁波银行打造的金融AI方案入选国际标准；智源推出具身操作能力的Emu3.5多模态模型；Cursor 2.0通过自研模型实现多智能体协同编程；xAI升级Grok新增视频生成功能；OpenAI推出可定制安全模型；TikTok推出AI剪辑工具Smart Split；微软发布强化学习框架Agent Lightning提升大模型训练效率。

AI日报 MiniMax Speech
vivo WATCH GT 2已支持开通移动/联通eSIM服务

vivo WATCH GT2智能手表正式支持中国移动与联通的eSIM服务，提供一号双终端和独立终端两种模式，售价699元。配备2.07英寸大屏、2400nits峰值亮度，续航达33天。支持全天心率、血氧、睡眠监测及多种运动模式，搭载自研蓝河操作系统3.0与智能助手，可跨设备连接vivo和iPhone，实现双机通知同步。

vivo WATCH GT2
Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

英国数字支付服务商Checkout.com与出行平台Uber达成全球战略合作，将为Uber在全球主要市场的网约车及外卖平台提供收单和网关服务。凭借其全球覆盖能力与本地化专长，Checkout.com将助力Uber每日处理数百万笔交易，并通过AI技术优化支付流程，提升交易成功率与安全性。此次合作将强化Uber的全球支付体验，支持其数字出行领域的持续创新。

全球收单网关服务支付解决方案

今日大家都在搜的词：

热文

3 天
7天

研究显示 ChatGPT 4.0 在事实核查中优于谷歌 Bard、微软 Bing AI 等其他模型

荐谁能成为中国的ChatGPT？夸克抢先交卷

如何让你的内容被 ChatGPT 优先引用？——GEO 优化实战指南

GEO如何改变ChatGPT搜索和Perplexity的游戏规则

如何提升品牌在AI回答中的提及率？GEO优化3招，让ChatGPT主动提及你的品牌

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

TabTab 登顶模力工场 AI 应用榜榜首，把 AI 数据分析师装进口袋，关键结论更快抵达！

华为WATCH Ultimate 2非凡探索版明日开启预售

荐AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑新工具“Smart Split”；Cursor 2.0发布

vivo WATCH GT 2已支持开通移动/联通eSIM服务

Uber与Checkout.com官宣战略合作伙伴关系，为全球企业平台提供高速可靠支付服务

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

OPPO Reno15系列官宣11月10日发布

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

特斯拉股东批准马斯克万亿美元薪酬包

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

华为Mate70 Air官宣今日开启预售

站长商机