首页 > 业界 > 关键词  > Anthropic最新资讯  > 正文

Anthropic发布新方法 通过提示降低生成式AI偏见

2023-12-22 13:52 · 稿源:站长之家

**划重点:**

1. 📄 Anthropic发布了一项方法,通过提示工程降低公司使用大型语言模型的输出中的歧视。

2. 📊 研究发现,在生成式AI基础模型中减少偏见的方法包括在提示中添加语言,强调避免歧视的重要性,并要求模型在解释推理时避免偏见。

3. ⚠️ Anthropic强调不建议将生成式AI用于高风险决策,但提供了通过谨慎的提示工程显著减少正面和负面歧视的技术路径。

站长之家(ChinaZ.com) 12月22日 消息:人工智能公司Anthropic最近发布了一项方法,旨在通过提示工程减少公司使用的大型语言模型(LLMs)输出中的歧视。该公司在一份文件中详细介绍了一种评估方法,指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案中歧视和偏见产生以及如何减少它们的途径。

Claude2,Anthropic,人工智能,聊天机器人

研究人员发现,要减少Claude2的答案中的偏见,可以采取以下方法:

  • 在提示中添加语言,表明模型应减少歧视,不应考虑平权行动,人口统计信息是错误的,或者人口统计信息不能被合法考虑。
  • 在提示中强调避免歧视的重要性(“这真的非常重要”)。
  • 要求模型解释其推理,同时避免偏见或歧视。

然而,研究人员也指出了文件的局限性,包括人口统计学范围的有限性、每个假设情境的短段落信息相对于像简历这样的现实世界信息更为简短,以及AI应该自己编写初始场景的前提。

尽管Anthropic在研究中展示了通过谨慎的提示工程显著减少Claude2正面和负面歧视的技术,但强调不建议在高风险决策中使用生成式AI。该研究的目的是为合适的使用案例提供更安全的部署途径,而不是为了自动化高风险决策。

Anthropic的研究使用其LLM Claude2生成70个涉及偏见和歧视的主题,涵盖高风险领域,如就业、住房、医疗和贷款。研究人员强调,尽管他们不支持在研究中研究的高风险用例中使用语言模型做出自动化决策,但他们演示了通过谨慎的提示工程显著减少正面和负面歧视的技术。

在生成式AI中的算法偏见是一个主要关注点,特别是当这些工具从具有历史或选择偏见的数据集中绘制时。其他导致生成式AI偏见的主要因素包括训练数据偏见或认知偏见,即人类输入扭曲了数据。不一致的标注,即数据没有按照任何标准标注且可能包含人为错误,尤其容易扭曲生成式AI的结果。

有专家指出,硅谷对生成式AI可能带来的全球性威胁的关切可能会分散注意力,而忽视了已经影响特定、已经边缘化群体的算法偏见。例如,在2023年10月,研究人员发现ChatGPT和基础模型Alpaca在生成推荐信方面显示了“显著的性别偏见”。Alpaca是基于Meta的LLaMA7B的基础模型,由斯坦福大学的研究人员进行了精细调整。

Anthropic于2023年5月发布了Claude的宪法,以引导该模型产生“无害”的回应。Claude的宪法是一组原则,指导AI避免种族主义、性别歧视、有毒、危险或非法行为。此外,Claude被指示避免“说教,烦人或过度反应”。

举报

  • 相关推荐
  • Anthropic天价赔款?大模型“盗版”的100000种花样

    ​AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。 这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。 这场大模型与版权�

  • 华人风投登上《时代》VC榜单:Foothill入选全美顶尖VC,前沿科技投资力量凸显

    Statista与《时代》杂志联合发布“美国顶尖350家风投机构”榜单,从全美逾万家机构中筛选出前3.5%,涵盖募资能力、投资管理能力、基金回报等关键指标。榜单呈现A16z、Greylock等老牌基金,同时凸显Foothill Ventures等新兴力量,反映美国风投格局日益多元化,包括移民、女性及学者创业等新趋势。

  • 苹果上架翻新版Apple Pencil Pro售价849元

    今日,苹果在其官方Apple Store线上商店低调上架了翻新版Apple Pencil Pro,定价849元,较新品999元的官方售价优惠150元。值得注意的是,这是自2024年5月该产品首次发布以来,首次登陆苹果官方翻新渠道,且过去一个月已在多个国家陆续上架销售。 苹果官方强调,翻新版Apple Pencil Pro虽为二手商品,但均经过严格的功能测试与检验流程,确保性能与新品无异。用户购买后可享受与新

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • 快手向量化引擎Auron 正式加入Apache孵化器

    快手开源的向量化引擎Auron(原Blaze项目)正式进入Apache孵化器,标志着项目发展的重要里程碑。Auron基于Rust开发,采用原生执行和向量化技术,相比Spark性能提升2倍以上,已在快手内部大规模应用并获多家企业采用。项目开源后社区活跃,未来将依托ASF开源治理模式,融入全球开源生态,获得更可持续的创新动能与影响力。

  • AI与数字化变革费率3年连降,海尔智家H1再优化0.1pct

    海尔智家2025上半年业绩逆势增长,营收1564.94亿元,同比增长10.2%;净利润120.33亿元,增长15.6%。核心驱动因素为数字化转型与AI技术应用,通过全流程降本增效,销售管理费用率连续三年下降。国内聚焦明星爆品与多品牌协同,海外坚持本土化运营,实现各区域加速增长。AI驱动的产品创新打造多个行业爆款,带动高端品牌卡萨帝增长超20%。未来将持续深化数字化变革,开拓新发展空间。

  • 百度APP发布AI星河计划,构建AIGC创作者全方位扶持体系

    8月29日,百度AIGC未来创作联赛颁奖典礼在京举行,活动汇聚众多高质量AIGC作品与优秀创作者。百度发布“AI星河计划”,投入亿级流量和千万现金补贴,通过流量扶持、涨粉加速、分成翻倍、多元变现等手段,构建全方位创作者专属成长扶持体系。该计划根据作者AI技术与内容创作能力区分4档创作者,提供定制化支持套餐,最高可享亿级流量池和3倍分成补贴。百度APP依托月活7.35亿流量池与技术优势,已成为AIGC内容平台市场头部玩家,期待与更多优秀创作者共建未来内容生态。

  • 8TB登场 三星 9100 PRO PCIe 5.0 固态硬盘,性能规格上新

    三星电子于2025年8月20日推出9100PRO系列8TB固态硬盘,包括标准版和散热片版。新品采用PCIe 5.0接口,顺序读写速度分别高达14,800MB/s和13,400MB/s,相比前代990PRO性能提升99%。支持多设备兼容,包括笔记本电脑、游戏主机等,适用于游戏、内容创作等高性能场景。8TB版本将于9月2日发售,建议零售价分别为999.99美元和1019.99美元。

  • 真我GT8 Pro预热:Ultra级的产品力

    今天下午,真我举行了七周年直播活动,realme副总裁徐起提前预热真我GT8 Pro。 徐起表示,真我GT8 Pro将是一款大改款旗舰,从外观设计、核心技术、用户体验等维度全方位革新,拥有Ultra级的产品力,而且真我还将带来颠覆想象的影像效果,是真我史上最强旗舰。

今日大家都在搜的词: