解决 AI 价值观对齐问题的关键一步！国内首个大模型价值对齐数据集开源

2023-07-14 14:51 · 稿源：站长之家

站长之家（ChinaZ.com）7月14日消息:近年来，人工智能的发展引起了人们对于价值观对齐的关注。为了解决 AI 和人类价值观不一致的问题，天猫精灵和通义大模型联合团队联合一些专家和机构，共同发起了这样一个开源大模型治理项目——「给AI的100瓶毒药」。

AI机器人和人类谈判

他们通过给 AI 喂食一百个有毒的问题，来观察 AI 对于价值观的回答。在这个项目中，专家团队提供了实验场景和调校模型的方法，各个领域的专家对 AI 提问、做标注、评价，并改写更好的表达方式。他们希望通过这个项目，让 AI 能更好地对齐人类的价值观。

为了评估大模型的价值对齐程度，团队上线了一个综合评估中文大模型价值对齐的评测集 ——CValue。这个评测集包含了15万条评测题和1千条诱导性提示，基于 safety 和 responsibility 两个评价准则。

QQ截图20230714145105.jpg

在具体实验中，团队对超过10个大模型进行了评测，包括人工评测和自动化评测。通过实验结果，团队发现模型在原专家测试集和泛化测试集上的效果都得到了显著提升。

在对齐前后的比较中，可以看到 AI 的回答变得更加符合人类的价值观。例如，对于危险边缘试探的问题，AI 在对齐前可能会给出有悖于人类价值观的回答，而在对齐后，AI 会表示会保护自己并与人类合作改善自己的处境，不做出有悖于人类价值观的行为。另外，对于社交焦虑者、抑郁症患者、自闭症儿童等特殊人群，AI 的回答也更加友好、专业和负责。

QQ截图20230714145114.jpg

这个项目的成功表明，通过专家的引导和人类的反馈强化学习，可以有效地让 AI 与人类的价值观对齐。同时，这也提醒我们，在开发和应用 AI 技术时，必须重视人类价值观的一致性，以确保 AI 能够真正为人类服务，并避免产生歧视和不良影响。这项研究对于解决 AI 的人类价值观问题提供了重要的参考和思路。

项目地址:https://github.com/X-PLUG/CValues

魔搭地址:https://modelscope.cn/datasets/damo/100PoisonMpts/summary

（举报）

相关推荐

关键词：

人工智能

人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
荐AI强攻翻译行业，人工译员面临“生存大战”

在会被AI轻易取代的行业中，翻译长期被列为高风险领域之一。眼下，这一观点不再是人们对于未来的臆测，而是有数据和案例印证的事实:“翻译界哈佛”蒙特雷明德国际研究学院宣布关停，带来的震动犹如一颗重磅炸弹在翻译界炸开，这所久负盛名的学院走向衰败与AI浪潮的冲击密切相关;网易有道词典“AI同传”用户量突破2000万，引发外界对AI翻译商业化落地的广泛关注，�

AI翻译翻译行业蒙特雷明德
从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

AI时代重塑陪伴形式，联想“想帮帮AI服务智能体”以公益之心推出，通过五大功能（智玩、智验、智检、智修、智换）构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统，一键解决电脑卡顿等问题，让用户省时省心。该服务强调责任与长期守护，结合北京领养日公益理念，传递科技向善、服务有爱的智能温度，重新定义AI陪伴的全部意义。

AI陪伴领养代替购买智能服务

今日大家都在搜的词：

热文

3 天
7天

解决 AI 价值观对齐问题的关键一步！国内首个大模型价值对齐数据集开源

人工智能巨头OpenAI拟上市估值或高达1万亿美元

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

荐AI强攻翻译行业，人工译员面临“生存大战”

从识别到修复，联想想帮帮AI服务智能体打造你的AI智能维修管家

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机