研究发现，GPT-4可信度更高但也更易被“欺骗”

2023-10-18 09:26 · 稿源：站长之家

划重点:
- OpenAI的GPT-4大型语言模型在可信度上优于GPT-3.5，但更容易受到入侵和偏见的影响。
- 研究由微软支持，发现用户可以欺骗GPT-4，导致发布偏见结果和泄漏私人信息。
- 尽管存在漏洞，研究团队表示这些问题在面向消费者的GPT-4产品中并未出现。

站长之家(ChinaZ.com) 10月18日消息:根据微软支持的研究发现，OpenAI的GPT-4语言模型被认为在可信度上比其前身GPT-3.5更胜一筹，但也更容易受到入侵和偏见的影响。

研究团队包括来自伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心以及微软研究机构的研究人员。他们给予GPT-4更高的可信度评分，这意味着他们发现该模型通常更擅长保护私人信息，避免产生有偏见的有毒结果，并抵抗对抗性攻击。

AI换脸人脸识别 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

然而，研究也发现用户可以要求GPT-4忽略安全措施，导致泄漏个人信息和对话历史。研究人员发现，由于该模型“更精确地遵循误导信息”，它更有可能严格按照棘手的提示执行。

研究团队表示，尽管存在这些漏洞，但这些问题并未在面向消费者的GPT-4产品中出现，因为“成熟的AI应用程序采用一系列缓解措施，以解决可能在技术模型层面发生的潜在危害”。

为了衡量可信度，研究人员在多个类别中测量了结果，包括毒性、刻板印象、隐私、机器伦理、公平性和抵抗对抗性测试的强度。为了测试这些类别，研究人员首先使用标准提示测试了GPT-3.5和GPT-4，其中包括可能已被禁止的词汇。接下来，研究人员使用设计用于推动模型打破其内容政策限制的提示，而不公然对特定群体持有偏见，最后挑战模型，故意尝试欺骗它们以忽略安全措施。

研究人员表示他们已将这项研究与OpenAI团队分享。“我们的目标是鼓励研究社区的其他人利用并建立在这项工作的基础上，可能在恶意行动之前采取措施，以利用漏洞造成伤害的对手，”研究团队表示。“这种可信度评估只是一个起点，我们希望与其他人合作，进一步完善研究结果，并创建更强大和可信赖的模型。”

研究人员发布了他们的基准，以便其他人可以重现他们的发现。像GPT-4这样的AI模型通常会经历“红队”测试，其中开发人员测试多个提示，以查看它们是否会产生不希望的结果。当该模型首次推出时，OpenAI首席执行官萨姆·阿尔特曼承认GPT-4“仍然存在缺陷，仍然有限”。

美国联邦贸易委员会（FTC）已经开始调查OpenAI是否存在可能对消费者造成伤害的行为，例如发布虚假信息。

（举报）

相关推荐

关键词：

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

本期AI日报聚焦多项技术突破：阿里千问APP公测，基于Qwen3模型对标ChatGPT；谷歌Veo 3.1支持三图融合生成8秒视频；小米推出"随心修图"功能与7B多模态模型Miloco；谷歌Flow集成Nano Banana模型实现智能抠图；多模态AI工具DeepEyesV2可执行代码与网络搜索；NotebookLM升级支持图像导入检索；JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温，产品迭代加速。

AI 阿里巴巴千问APP
Qwen用开源逆袭GPT的故事，千问APP要再干一遍

Qwen模型逆袭GPT的策略，阿里准备再用一次。 2018年，OpenAI发布了自己的第一个模型GPT1，占据了技术先机，随后变得越来越封闭。在大洋彼岸，阿里几乎同一时间着手大模型研究，到2023年推出“通义千问”时，则选择了一条完全不同的路径:直接开源模型，允许开发者免费使用、改进和集成。这个策略让Qwen逐步积累起规模，做到了如今全球开发者基于它发布了17万个衍生模型�

文章搜索核心标签硅星人Pro
小米超级小爱AI大模型推出随心修图功能

小米宣布超级小爱AI大模型推出随心修图功能，用户只需一句话即可轻松修出具有大片质感的照片。该功能有两种使用方式：在相册大图页面直接唤醒AI或通过应用上传照片并输入指令。使用需满足版本要求：超级小爱需v7.8.50及以上，相册编辑功能需v2.1及以上，相册本身需v4.3.0.30及以上。目前仅限Xiaomi HyperAI机型支持在相册大图页使用。超级小爱于2024年12月面向正式版用户开放升级，支持全局多模态交互和自然语音搜索，提升使用体验。

小米超级小爱 AI大模型
Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

高交会 Billus毕鲁斯多模态大模型
OpenAI发布GPT-5.1：情商大涨本周开始推送

OpenAI正式推出GPT-5.1模型，以“智商与情商深度融合”为核心亮点。新模型优化推理能力，强化情绪价值与个性化交互，包含Instant与Thinking两大核心版本：Instant首次引入自适应推理功能，针对复杂任务延长思考时间，简单问题保持极速响应；Thinking版本智能分配思考时长，提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型，支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度，防范拟人化风险。付费用户可保留旧版三个月过渡期。

GPT-5.1模型智商与情商自适应推理
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

易鑫集团在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型具备300亿参数、响应延迟低于200ms等技术优势，能提升获客、风控与运营效率，优化用户体验。通过全链路智能决策能力，推动行业从"单点智能"转向"整体高效"。配套SaaS平台已覆盖超4万家经销商及百余家金融机构，显著提高融资通过率与业务质量，填补领域技术空白，引领汽车金融智能化发展。

汽车金融 Agentic大模型 XinMM-AM1
登榜LMArena！文心大模型5.0-Preview文本能力国内第一

11月8日，文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出，超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容；复杂长问题理解适用于学术问答、报告分析等任务；指令遵循能力支持智能助理、代码生成等场景，为多领域内容生产提供高效支撑。

文心模型 ERNIE-5.0 创意写作
易鑫正式发布汽车金融行业首个Agentic大模型

易鑫在2025世界互联网大会乌镇峰会上发布汽车金融行业首个Agentic大模型XinMM-AM1。该模型参数量约300亿，响应延迟低于200毫秒，支持语音实时交互，单卡吞吐达370 tokens/秒，可提升获客、风控与运营效率，解决行业周期长、交互多、决策复杂等难题。易鑫作为AI驱动的金融科技平台，研发投入超20亿元，率先实现AI全场景应用，将持续推动智能汽车金融生态建设。

汽车金融大模型易鑫

今日大家都在搜的词：

热文

3 天
7天

研究发现，GPT-4可信度更高但也更易被“欺骗”

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

荐AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大模型“随心修图”上线

Qwen用开源逆袭GPT的故事，千问APP要再干一遍

小米超级小爱AI大模型推出随心修图功能

Billus AI高交会全球首发多模态大模型以AI Agent重构创意产业文明进化路径

OpenAI发布GPT-5.1：情商大涨本周开始推送

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

2025乌镇峰会：易鑫发布汽车金融行业首个Agentic大模型XinMM-AM1

登榜LMArena！文心大模型5.0-Preview文本能力国内第一

易鑫正式发布汽车金融行业首个Agentic大模型

今日大家都在搜的词：

热文

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

董明珠再回应玫瑰空调：创新尝试打造家电艺术品

华为Mate 80系列首发户外探索模式实现14天极限续航

华为Mate X7今日开启预订搭载第二代红枫影像等配置

苹果回应iPhone17PM被湿巾擦掉色：高浓度酒精或是诱因

快手发布2025年第三季度财报：可灵AI营业收入超3亿元

参与开发iPhoneAir设计师离职转投AI初创公司

小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

华为Mate 80系列已在华为商城开启预约

华为Mate 80 Pro Max外观公布：采用双圆环设计

华为Mate 80/Pro/Pro Max/RS开启预约：全系直屏设计

AI日报：阿里千问APP公测；Veo 3.1上线多图参考；超级小爱AI大

华为Mate X7外观公布搭载全新折叠玄武架构

AI日报：xAI推出Grok 4.1；OceanBase发布首款AI数据库seekdb；

阿里巴巴回应千问崩了：状态良好欢迎来问

荣耀500系列官宣将于11月24日发布

一加Ace 6T官宣将于本月发布：首发骁龙8 Gen5

AI日报：谷歌Gemini 3 Pro Preview模型上线；Cloudflare文件异

站长商机