首页 > 业界 > 关键词  > GPT-4最新资讯  > 正文

GPT-4在图灵测试中成功率超过41%,人类保持在63%

2023-11-27 11:29 · 稿源:站长之家

**划重点:**

1. 🧪 图灵测试研究中,GPT-4成功率达到41%,人类有63%。

2. 🤯 对比GPT-3.5和GPT-4,显示付费版本在测试中表现更出色。

3. 🧠 图灵预测的计算能力要求未实现,人工智能仍有进步空间。

站长之家(ChinaZ.com) 11月27日 消息:近期,Jones和Bergen进行了一项关于GPT-4在图灵测试中的研究,结果显示其成功率超过41%。

这一数字相比于传统的人工智能模型,如ELIZA的27%和GPT-3.5的14%,表现出明显的优势。研究设计了25个不同的语言模型,涵盖了各种GPT的版本,其中包括GPT-4。这些模型使用类似于手机消息应用的界面,并在拼写错误、大小写、延迟等方面引入了小的随机变化。

图灵测试是通过与人类进行对话,然后判断对方是人类还是人工智能的测试。与原始的图灵测试不同,这项研究的测试设计更简化,要求参与者在最多5分钟的时间内进行对话,每条消息不超过300字符。共有652名人类参与者完成了1810次测试。

1950年,艾伦·图灵曾预测,到了他认为的未来50年,计算机将具备足够的存储能力,以70%的概率“欺骗”人类。然而,研究表明,即使到了现在,GPT-4等模型也未达到这一水平,最高成功率仅为41%。

AI机器人写论文

图源备注:图片由AI生成,图片授权服务商Midjourney

有趣的是,研究指出GPT-4是付费版本,而GPT-3.5则是免费版本。这表明,付费版本在测试中表现更好,凸显了技术进步对结果质量的影响。

人工智能在图灵测试中取得的进展令人印象深刻,但与人类63%的成功率相比,仍有改进的空间。这一研究进一步探讨了人工智能的发展趋势,揭示了技术的潜在局限性。

举报

  • 相关推荐
  • 从“修图师”到“艺术总监”,图灵精修:AI赋能摄影创作新纪元

    文章介绍AI修图工具"图灵精修"如何革新商业摄影后期流程。该工具融合达芬奇电影级调色引擎和16位色彩管理技术,能智能处理皮肤瑕疵、衣物褶皱等常见问题,将传统25分钟的修图时间缩短至30秒内。通过与影楼管理系统无缝对接,实现从拍摄到交付的全流程效率提升30%,降低成本60%。CEO表示该工具旨在解放修图师的重复劳动,让其转型为视觉创意专家。数据显示,使用后影楼创意时间增加3小时,客单价提升25%。图灵精修以亲民价格提供顶级修图质量,正推动行业从"修图"向"创意"转型。

  • 王腾:REDMI Turbo 4 Pro非常成功 很多友商都在关注

    REDMI总经理王腾发文表示,REDMI上半年发布的Turbo 4 Pro非常成功,受到了广大用户的喜爱,也收到了很多友商的关注。 据悉,REDMI Turbo 4 Pro于4月份发布,首发起售价是1999元,该机上市不到一个月累计销量突破100万台,成为行业内最火的Turbo手机。 随着REDMI Turbo系列的热销,各大品牌纷纷推出Turbo系列手机,主打高性能,对此王腾表示,领先的一种体现就是被模仿,说明REDMI这几�

  • 小鹏G7 Ultra算力全球第一!搭载三颗图灵AI芯片 2250Tops

    今晚小鹏G7正式发布,推出Ultra和Max两个版本: 小鹏G7 Max版:搭载2颗Orin-X芯片; 小鹏G7 Ultra版:搭载3颗图灵AI芯片,有效算力2250Tops,全球第一! 据介绍,小鹏G7全系标配图灵AI智能辅助驾驶,号称行业最强!

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • SNH48香港演唱会倒计时:TOP16见面会门票遭疯抢,盛典终章即将上演

    SNH48GROUP第十二届年度青春盛典第二阶段入围名单揭晓,活动热度持续攀升。入围TOP16的成员将于7月31日赴港参加首次线下见面会。8月2日将在香港亚洲国际博览馆举行盛典终章颁奖礼暨演唱会,目前门票抢购火爆,VIP票开售十分钟即售罄,二手市场价格翻倍。本届盛典被视为成员冲击最终排名的关键环节,粉丝关注度极高。活动以"让世界洋溢青春"为主题,是SNH48最具国际野心的一届,终章落地香港更增添了这场偶像更替的戏剧性。

  • 金融测试必看!Testin云测与信通院推动软件测试智能化成熟度评估

    中国信通院联合Testin云测等企业启动《智能化软件工程技术应用要求 第3部分:智能测试能力》标准研制,旨在构建覆盖测试全生命周期的智能评估体系。该标准将融合AI技术与软件工程理论,重点评估测试分析设计、执行监控等核心能力,为金融科技等行业提供智能化转型指引。评估覆盖19个模块,支持灵活组合,既保障专业性又满足个性化需求。Testin云测的XAgent智能测试系统采用AGI技术,在某大型银行案例中实现测试效率提升50%、缺陷发现率提高30%。此次标准制定标志着我国软件测试智能化进入新阶段,将为金融科技高质量发展奠定坚实基础。

  • 国内首个!高德地图正式上线多语言地图:新增14种语言

    日前,高德地图正式上线多语言地图,在原有的中英文基础上,新增多达14种语言。 这14种语言包括西班牙语、葡萄牙语、法语、德语、泰语、日语、韩语、土耳其语、意大利语、俄语、阿拉伯语、马来语、印尼语、越南语。 此次多语言版的推出,使更多非英语国家的用户也能享受高德地图提供的优质出行服务。 高德地图多语言版实现了产品界面与地理信息的多语种适配,�

  • OpenAI 30亿收购告吹 谷歌24亿截胡Windsurf

    据媒体报道,原本预计由OpenAI斥资30亿美元收购的热门AI编程初创公司Windsurf,周五突然宣布交易取消,转而与谷歌达成合作。 据悉,谷歌DeepMind正积极招募Windsurf首席执行官Varun Mohan、联合创始人Douglas Chen及多位核心研究人员。虽然谷歌不直接持股或获得控制权,但将投入24亿美元获取Windsurf技术授权并招揽其顶尖人才。 根据协议,谷歌将获得Windsurf部分技术的非独家使用许可�

  • OPPO首款内置风扇手机!OPPO K13 Turbo跑分出炉:确认骁龙8s Gen4

    这款新机还有一个非常重要的亮点内置风扇手机,这也是OPPO首款自带风扇的手机。 该机后置主摄下方有一个风扇开孔,可以迅速散发内部热量。 风扇模组采用电镀镍工艺,放弃普通喷涂,带来更好的防水、防锈效果,并且号称风力提升120%,从而实现更强、更持久的游戏性能。 第四代骁龙8s的性能大家已经在测试中看到了,采用4nm打造,全大核方案,安兔兔跑分能突破240万�

  • 自动化测试首选服务商:Testin云测有何核心优势?

    文章探讨了AI技术如何重构自动化测试体系。传统自动化测试面临维护成本高、跨平台兼容性差等痛点,而AI通过智能用例生成、缺陷预测、自适应测试等能力实现质变:1)NLP技术将需求文档自动转化为可执行测试用例;2)机器学习分析历史数据预测高风险模块;3)计算机视觉实现跨平台UI元素识别。Testin云测构建了覆盖设备层到场景层的完整测试生态,通过云原生架构支持2000+终端实时调度,结合AI中台实现测试效率提升1.5倍,助力某金融机构降低年度质量成本超千万元。AI与自动化测试的深度融合,正推动质量保障体系向智能化、集约化演进。