首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

解决 AI 价值观对齐问题的关键一步!国内首个大模型价值对齐数据集开源

2023-07-14 14:51 · 稿源:站长之家

站长之家(ChinaZ.com)7月14日 消息:近年来,人工智能的发展引起了人们对于价值观对齐的关注。为了解决 AI 和人类价值观不一致的问题,天猫精灵和通义大模型联合团队联合一些专家和机构,共同发起了这样一个开源大模型治理项目——「给AI的100瓶毒药」。

AI机器人和人类谈判

他们通过给 AI 喂食一百个有毒的问题,来观察 AI 对于价值观的回答。在这个项目中,专家团队提供了实验场景和调校模型的方法,各个领域的专家对 AI 提问、做标注、评价,并改写更好的表达方式。他们希望通过这个项目,让 AI 能更好地对齐人类的价值观。

为了评估大模型的价值对齐程度,团队上线了一个综合评估中文大模型价值对齐的评测集 ——CValue。这个评测集包含了15万条评测题和1千条诱导性提示,基于 safety 和 responsibility 两个评价准则。

QQ截图20230714145105.jpg

在具体实验中,团队对超过10个大模型进行了评测,包括人工评测和自动化评测。通过实验结果,团队发现模型在原专家测试集和泛化测试集上的效果都得到了显著提升。

在对齐前后的比较中,可以看到 AI 的回答变得更加符合人类的价值观。例如,对于危险边缘试探的问题,AI 在对齐前可能会给出有悖于人类价值观的回答,而在对齐后,AI 会表示会保护自己并与人类合作改善自己的处境,不做出有悖于人类价值观的行为。另外,对于社交焦虑者、抑郁症患者、自闭症儿童等特殊人群,AI 的回答也更加友好、专业和负责。

QQ截图20230714145114.jpg

这个项目的成功表明,通过专家的引导和人类的反馈强化学习,可以有效地让 AI 与人类的价值观对齐。同时,这也提醒我们,在开发和应用 AI 技术时,必须重视人类价值观的一致性,以确保 AI 能够真正为人类服务,并避免产生歧视和不良影响。这项研究对于解决 AI 的人类价值观问题提供了重要的参考和思路。

项目地址:https://github.com/X-PLUG/CValues

魔搭地址:https://modelscope.cn/datasets/damo/100PoisonMpts/summary

举报

  • 相关推荐
  • 每日互动:进一步开发数据要素价值 推动城市交通高质量发展

    浙江省数据局于2025年6月4日公告,浙江云通达数达科技成为省内首批省级公共数据授权运营单位,将开展"数智绿波"场景应用。该公司自2022年进入智慧交通领域,已在34个地区落地645条数智绿波带,使道路通行效率提升超20%。此次授权将推动其在规划建设、优化管理等方面持续发力,并通过数据API与科研单位等开展二次创新,赋能智能网联汽车"车路云一体化"项目建设。该授权是对公司在数据安全、技术能力等方面的认可,未来将继续深化数据融合与场景探索,助力城市交通高质量发展。(140字)

  • 大模型都能冲清北了?首个AI高考总分评测结果出炉

    7家国产大模型参加2025年辽宁高考模拟测试,结果显示:腾讯元宝在文科考试中以667.5分夺冠,接近清北录取线;豆包、讯飞星火分别以655分和652分紧随其后,均达985高校水平。理科方面,豆包以635分领先,元宝和Kimi分别获得632.5分和629分。测试发现大模型在文科表现优于理科,尤其在语文作文和数学解题能力突出,元宝数学获得149分高分。但在理科综合科目存在短板,物理化学的解题过程和知识点推导不够完整,图像符号理解不足。相比去年,今年大模型整体能力显著提升,已从"文科一本、理科二本"水平进步到冲击顶尖高校的水平,展现了国产AI的快速发展。

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 动画行业的AI应用,走到了哪一步

    AI在动画领域的应用正在受到越来越广泛的关注。 今年四月,日本电视台上线了有「首部AI动画」之名的番剧《双子姐妹》。紧随其后,讲谈社、东映动画等公司在月底宣布投资初创AI公司Preferred50亿日元,以支持动漫内容创作的技术开发。 包括迪士尼、皮克斯、育碧在内,越来越多国际头部公司都正在将AI深度融入创作流程。皮克斯联合创始人Edwin Catmull更是直言,「AI改变动

  • @开发者们:百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!

    6月30日,百度文心大模型4.5系列正式开源并在国内领先的开源平台GitCode首发上线。该系列包含10款模型,涵盖47B和3B参数的混合专家(MoE)模型及0.3B的稠密参数模型,采用创新的多模态异架构结构实现跨模态知识融合。模型基于飞桨框架开发,训练效率达47% MFU,在文本和多模态基准测试中达到SOTA水平。所有模型按Apache2.0协议开源,配套产业级开发套件支持多种芯片部署。GitCode平台已汇聚620万用户,为AI开发者提供代码托管、协同开发等全流程支持。此次开源将推动中国AI生态创新,加速大模型技术产业化应用。

  • 有道14B低成本轻量模型“子曰3”开源,数学推理性能超越大模型

    网易有道6月23日开源国内首个专注数学教育的"子诳3"大模型系列数学模型(Confucius3-Math)。该模型在单块消费级GPU上高效运行,在多项数学推理任务中性能超越更大规模的通用模型,高考数学题测试得分达98.5分。其训练成本仅2.6万美元,推理性能是DeepSeek+R1的15倍,服务成本低至每百万token0.15美元,大幅降低教育AI应用门槛。该开源模型为教育公平提供低成本、高性能的AI�

  • 用友毕思建:以AI客户成功体系重塑客户价值

    用友37年来坚持"以客户为中心"理念,在AI时代推出全新企业AI战略。基于BIP数智商业创新平台,用友构建了76个AI Agent组成的智能交付和运营体系,覆盖YonSuite全业务流程。通过智能客服机器人"友小成"和交付机器人"友小施",实现83.65%和87.3%的独立接待率。同时推出BIP运营师认证体系,培养企业数字化内生力量。该体系通过AI+业务深度融合,助力企业从传统服务向自主驾驶模式转型,降低数字化成本,构建持续领先的客户生态。用友正以AI智能交付+运营的创新模式,重塑客户价值,引领行业迈向智能化新阶段。

  • GAITC2025全球人工智能技术大会 | 每日互动方毅:开源大模型+闭源小数据是AI时代的重要路径

    文章探讨了"人工智能"更应称为"人造智能",对应"神造智能"的概念。作者指出AI模拟了神造智慧过程中的规律,人类可从AI身上重新学习"神"的智慧。通过三种棋类游戏分析AI发展:五子棋代表专注规则,深蓝代表深度思考,AlphaGo代表强化学习。数据是AI的重要命脉,需通过可信数据空间转化使用。AI已在交通安全、医疗健康、反诈宣传等领域带来改变,如高速视觉AI检测、脑卒中早筛模型等。未来最重要的是个人知识库和提问能力,人类需学会驾驭AI而非被其取代,2%的人将成为定义问题的深度思考者,98%则是幸福生活者。技术应成为托举大众的方舟而非割裂世界的鸿沟。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 宜人智科“智语大模型”备案完成,旗下宜享花开启AI+多元场景

    宜人智科自主研发的"智语大模型"成功通过国家备案,标志着公司在AI领域取得重要突破。该大模型具备文本生成、智能解析、合同审核及多语言翻译等核心功能,已应用于金融科技、智能客服等业务场景。公司将通过该技术升级核心产品"宜享花"的智能化服务,优化风控评估和智能决策支持,提升数字化服务体验。未来还将深化智能风控、自动化审批等金融场景应用,打造行业标杆级智能服务平台。公司将持续加大AI研发投入,推动"AI+金融"深度融合,加速向AI企业转型。