首页 > 业界 > 关键词  > ChatGPT最新资讯  > 正文

研究显示 ChatGPT 4.0 在事实核查中优于谷歌 Bard、微软 Bing AI 等其他模型

2023-07-18 17:53 · 稿源:站长之家

站长之家(ChinaZ.com) 7月18日消息:大型语言模型(LLM)是自然语言处理(NLP)技术的进化,能够快速生成与人类写作相似的文本并完成其他简单的与语言相关的任务。自 OpenAI 发布高性能的 ChatGPT 之后,这些模型变得越来越受欢迎。

OpenAI,ChatGPT,人工智能,AI

迄今为止,研究主要评估 LLM 的能力,例如创建写作流畅的文本、定义特定术语、撰写论文或其他文件以及生成有效的计算机代码。然而,这些模型在解决其他真实世界问题,包括假新闻和虚假信息方面也具有潜在的帮助。

威斯康星大学斯托特分校的研究员 Kevin Matthe Caramancion 最近进行了一项研究,评估迄今为止最知名的 LLM 能否检测新闻故事的真实性或虚假性。他在 arXiv 上发表的论文提供了有价值的见解,这可能有助于今后使用这些先进模型来对抗在线的错误信息

Caramancion 告诉 Tech Xplore 说:「我最近的论文灵感来自于了解各种 LLM 在对抗错误信息方面的能力和局限性的需求。我的目标是通过一个受控模拟和已建立的事实核查机构作为基准,对这些模型的熟练程度进行严格测试,以辨别真实与虚构的能力。」

Caramancion 表示:「我们使用 100 个经过独立事实核查机构核实的新闻项目作为测试套件,评估了这些大型语言模型的性能。我们将每个新闻项目在受控条件下呈现给模型,然后将它们的回应分类为「真实」、「虚假」和「部分真实/虚假」。根据与独立机构提供的核实事实相比较,测量了模型的有效性。」

随着互联网和社交媒体的迅速发展,不管信息是真实还是虚假,错误信息已经成为近几十年来的一个重要挑战。许多计算机科学家一直在努力开发更好的事实核查工具和平台,使用户能够验证他们在网上阅读到的新闻。

尽管迄今为止已经创建和测试了许多事实核查工具,但仍缺乏一个被广泛接受和可靠的模型来对抗错误信息。作为他研究的一部分,Caramancion 致力于确定现有 LLM 在解决这一全球性问题方面的有效性。

他具体评估了四个 LLM 的性能,分别是 OpenAI 的 ChatGPT-3.0 和 ChatGPT-4.0、Google 的 Bard/LaMDA 和微软的 Bing AI。Caramancion 给这些模型提供了相同的事实核查过的新闻故事,然后比较它们在确定故事的真实性、虚假性或部分真实/虚假性方面的能力。

Caramancion 表示:「我们对主要 LLM 的区分事实和虚构能力进行了比较评估。我们发现 OpenAI 的 GPT-4.0 表现最佳,这暗示了较新的 LLM 的进步。然而,所有模型都落后于人类事实核查员,强调了人类认知不可替代的价值。这些发现可能导致更加关注开发用于事实核查的人工智能能力,同时确保与人类技能的平衡、共生整合。」

Caramancion 进行的评估表明,ChatGPT 4.0 在事实核查任务上明显优于其他知名的 LLM。进一步对更多虚假新闻进行测试的研究可能有助于验证这一发现。

研究人员还发现,人类事实核查员仍然优于他评估的所有主要 LLM。他的研究凸显了需要进一步改进这些模型或将它们与人类工作者的工作相结合,如果要将它们应用于事实核查工作。

Caramancion 补充说:「我的未来研究计划集中在研究人工智能能力的发展,重点是如何利用这些进展,同时不忽视人类独特的认知能力。我们的目标是改进我们的测试协议,探索新的 LLM,并进一步研究在新闻事实核查领域人类认知和人工智能技术之间的相互关系。」

举报

  • 相关推荐
  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • AI日报:苹果明年推出SiriAI搜索;OpenAI放开ChatGPT Projects功能;Kimi K2-0905 上线 Discord

    本文汇总了AI领域最新动态:苹果与谷歌合作,计划在Siri中引入Gemini AI技术;OpenAI向免费用户开放Projects功能,提升任务管理效率;谷歌推出免费Gemini CLI工具,集成GitHub提升开发效率;OpenAI估值飙升至5000亿美元,二级股票售出103亿美元;苹果自研AI搜索引擎“世界知识问答”计划2026年上线;月之暗面发布Kimi K2-0905模型,提升编程与创意写作能力;Raycast推出Cursor Agent插件优化代码编辑;谷歌发布nano banana官方Prompt模板,助力创意设计。

  • 永恒之声,现代演绎 Technics 推出全新直驱式唱盘机SL40C/40CBT

    Technics推出全新SL-40C/40CBT直驱唱盘系统,融合高端机械技术与现代设计。该产品延续品牌经典特性,如无芯直驱电机和高精度S形铝合金唱臂,同时升级外观与易用性。配备预装唱头、内置唱头放大器,支持蓝牙连接(仅40CBT型号),提供三种现代配色。旨在满足HiFi用户和现代家庭音频爱好者的需求,兼顾音质与便捷体验。

  • 旧款Apple Watch也将支持高血压警报:涉及这三款

    苹果在发布Apple Watch Series11与Ultra3两款新品之际,同步宣布了一项惠及旧款用户的重大更新——通过即将到来的watchOS26系统升级,Apple Watch Series9、Series10以及Ultra2三款旧机型也将新增高血压警报功能。这一举措意味着,部分持有旧款设备的用户无需更换新表,即可享受到这一前沿的健康监测服务。 watchOS26正式版定于9月15日正式向全球用户推送。新增的高血压警报功能依托于Appl

  • 中国UP主成为不了MrBeast

    影视飓风创始人Tim刚刚结束的“100小时荒岛直播挑战”,无疑是一次B站在这个夏天难得的现象级事件——B站累计超过四千万观众进入直播间,全平台总观看量超过两亿,弹幕数以百万计,甚至带动了直播带货的即时转化。 从数据到热搜,此次直播堪称完美演绎了“爆款”的逻辑。 质疑声同样随之而来:这场直播与其说是“荒岛生存”,不如说是“带电度假”;也评论认为,它

  • 苹果Apple Watch Series 11发布:新增高血压检测提醒

    今日凌晨,苹果公司正式推出全新一代智能手表Apple Watch Series11。这款新品以“最薄、最舒适”为设计核心,同时显著提升了耐用性,起售价定为399美元。 Apple Watch Series11在材质上实现突破,采用全新玻璃材质并覆盖苹果特制陶瓷涂层,抗刮性能较前代提升两倍,为用户提供更可靠的日常使用体验。网络支持方面,该系列首次引入5G功能,中国电信、中国移动、中国联通三大运

  • 三星Galaxy Tab S10 Lite:为你开启多彩校园「星」生活!

    三星Galaxy Tab S10 Lite平板电脑是新学期学习的理想助手。它配备10.9英寸大屏,支持S Pen触控笔,提供流畅书写体验。多任务处理功能可同时运行多个应用,提高学习效率。轻巧便携设计适合校园使用,Vision Booster技术确保户外清晰显示。内置AI功能可快速搜索解题,是课堂笔记、资料查阅的得力工具。

  • 128GB成历史!iPhone 17系列全系256GB存储起步 顶配首次增加2TB

    今日,iPhone 17系列正式发布,带来iPhone 17、iPhone 17 Pro、iPhone 17 Pro Max,以及全新机型iPhone Air。 存储方面,iPhone17系列终于砍掉128GB版本,全系256GB起步,机皇iPhone 17 Pro Max更是首次增加2TB版本,具体规格如下: iPhone 17256GB、512GB; iPhone 17 Pro256GB、512GB、1TB;

  • 真我Neo7 Turbo AI版发布 首款动感地带AI手机

    日前,真我Neo7TurboAI版发布,这是真我联合中国移动打造的首款动感地带AI手机。 与真我Neo7Turbo标准版相比,新机后盖多了中国移动Logo。 官方表示,真我Neo7TurboAI版将带来极速性能、偶像陪伴、运动竞技、云端空间、社交潮流五大专属体验。 真我Neo7TurboAI版负一屏植入芒果卡俱乐部,集成芒果TV、咪咕视频等App,自带咪咕体育、咪咕快游会员,支持中国移动云盘等服务。 据�

  • 当“极速打样”遇上“超高多层”:嘉立创如何定义PCB研发新基建?

    艾媒咨询报告显示,AI服务器和汽车电子正重塑PCB技术门槛。AI服务器要求20-30层高多层板,需应对信号完整性、热管理和超低损耗材料挑战;汽车电子则强调高可靠性,需在极端环境下稳定工作。面对复杂设计需求,传统开发流程已难应对,一站式的快速打样与高端工艺支持成为破局关键。工程师需借助能够兼顾速度与深度的制造平台,将创新设计高效转化为现实产品。

今日大家都在搜的词: